音声合成の今昔と深層学習を用いた音声合成

音声合成の今昔
と
深層学習を用いた音声合成
2022/5/6 homieエンジニア勉強会@+SHIFT TSUKIJI
いしばし　げんき

自己紹介
● 2015年 CyberAgent入社
○ スマホ広告効果測定ツール
○ 広告配信システム (DSP)
● 2020 homie株式会社入社
● 2021 同社執行役員に就任
● 最近雀魂にハマってて雀傑に上がった

音声合成ってなんぞや

音声合成とは
● 音声合成とは、音声を機械的に作り出す技術
● 音声合成の主な手法
○ 録音再生・編集方式
○ 概念的音声合成(CTS: Concept To Speech)
○ テキスト音声合成(TTS: Text To Speech)
○ ボコーダ・波形合成(Vocoder, waveform syntesis)
○ 声質変換(VC: Voice Conversion)

テキスト音声合成の歴史
● 1939年 NY万国博覧会でVoder発表
● ~1980年代韻律やフォルマントの規則を利用した規則合成方式
● 1990年代素片選択型合成法(Unit Selection synthesis)
● 2000年代統計的パラメトリック音声合成(SPSS)
● 2010年代一貫学習に基づく音声合成(End-to-End Speech Sysnthesis)

TTS: テキスト音声合成の歴史
● 音声合成の歴史は音声と言語を正しく理解することに始まり、近年では専門知識を
如何に排除するかが重要になっている
○ 音声認識の研究者「言語学者を一人クビにすると音声認識の精度が上がる」
○ 既存の直線上ではなく、真に解決すべき問題に挑むべき

音声周りの専門知識
● 音声情報の分類
○ 言語情報・パラ言語情報・非言語情報
● 言語特徴
○ 音素, モーラ, 音節, 語, 句, 呼気段落, 文
○ アクセント, イントネーション, リズム
● 音響特徴
○ 有声音, 無声音, 基本周波数, フォルマント, ソースフィルタモデル
○ 声の高さや声質
● 音声のパラメータ表現
○ ボコーダ(チャネルボコーダ, フェーズボコーダ, 正弦波ボコーダ)
○ 有声/無声フラグ, スペクトル包絡, 位相, 音素長

深層学習を用いた音声合成

深層学習を用いた音声合成手法の紹介
● 統計的パラメトリック音声合成
● WaveNet
● Tacotoron2

統計モデルと統計的パラメトリック音声合成
● 同じテキストを読み上げてもゆらぎがあるので統計的アプローチが有効
● 統計的パラメトリック音声合成
○ テキスト→音声波形の問題をテキスト →言語特徴量→音響特徴量に分解し音響モデルの学習
○ 生成したいテキストから言語特徴量を生成し、音響特徴量を予測させ音声波形を生成
○ 音響モデルには隠れマルコフモデル (HMM), 近年では深層学習(DNN)が用いられている

統計的パラメトリック音声合成の学習に必要なデータ
● 音響モデルの学習には、テキストと音声だけあればよい？

統計的パラメトリック音声合成の学習に必要なデータ
● 音響モデルの学習には、テキストと音声だけあればよい？→ NO
● テキスト, 音声以外に言語特徴量、音響特徴量、テキストと音声対応(音素アライメ
ント)が必要
○ 音素アライメントには、音素のみを表すものフォンラベルや言語特徴量すべてを含むフルコンテキ
ストラベルがある
音素アライメントモノフォンラベルフルコンテキストラベル

統計的パラメトリック音声合成の音響モデル
● DNN音声合成では継続長モデルと音響モデルをそれぞれ学習する
○ 言語特徴量と音素継続長より継続長モデルを学習
○ フレーム単位の言語特徴量と音響特徴量より音響モデルを学習

統計的パラメトリック音声合成の音響特徴量
● WORLDボコーダを利用
● 基本周波数, 有声/無声フラグ, スペクトル包絡, 非周期性指標
基本周波数
有声/無声フラグ
メルケプストラム
非周期性指標

統計的パラメトリック音声合成の音声波形の生成
● テキストから言語特徴量の生成, 継続長や音響特徴量を予測
● 予測した音響特徴量から音声波形の生成
○ DEMO

WaveNet
● 2016年にDeepMindが提案した深層学習に基づく音声波形の生成モデル
● 既存手法を大きく上回る自然性
● 人間が解釈しやすいパラメータ表現を用いない(✗ソースフィルタモデル)
● 1次元の音声波形の自己回帰モデル(音声以外にも応用可)
自然性に関する主観評価実験の結果

WaveNetの特徴
● 離散値の系列とみなしsoftmax関数によるモデル化
○ 多峰性の分布の考慮 , one-hotベクトルの生成
● μ-lawアルゴリズムによる音声圧縮
○ 16bitの予測問題を8bitの予測問題に圧縮
● 因果的な畳込み, 1次元膨張畳み込み
○ 過去のデータにのみ基づき、効率的に過去のデータを考慮
● ゲート付き活性化関数
● 残差接続・スキップ接続
因果的畳み込み・膨張畳み込み
μ-lawアルゴリズムの適用前後の分布

WaveNetまとめ
● 音響モデルを介さず音声波形の生成が可能
● 音声合成が機械っぽい音声から抜け出した
● Demo
WaveNetの構造

Tacotron2
● 2017年に言語特徴量を介さない音声合成手法としてTacotronがGoogleより提案さ
れた
● 2018年にTacotronとWaveNetを組み合わせたTacotron2が発表された
○ 自然音声とほとんど同等の合成品質を達成
● テキストから音声波形の生成まですべて深層学習で行う
音声波形の生成モジュールの比較

Tacotron2の特徴
● Sequence-to-Sequenceモデル
○ 自動翻訳等で目覚ましい成果
● 注意機構
○ 予測時に特定の入力の値を加味できる
● エンコーダ
○ 文字列を数字列に変換 , 双方向LSTM, 畳み込み
● デコーダ
○ ハイブリッド注意機構 , Pre-Net, stop-token
● Post-Net
○ 残差接続

Tacotron2のモデル構造
● テキスト→メルスペクトログラム(Tacotron)
● メルスペクトログラム→音声波形(WaveNet)

Tacotron2まとめ
● 音声合成と人間の音声の区別がつかなくなった
● テキストから音声波形の生成まで専門知識をそれほど必要としない一貫学習が可
能になった
● Demo

まとめ
● 音声合成とは、音声を機械的に作り出す技術
● 言語・音響の仕組みを理解し発展してきた
● WaveNetやTactron2の登場により機械的な音声を脱した

参考文献
Pythonで学ぶ音声合成機械学習実践シリーズ
著者：山本龍一・高道慎之介
出版社：インプレス

音声合成の今昔と深層学習を用いた音声合成

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 音声合成の今昔と深層学習を用いた音声合成

Similar to 音声合成の今昔と深層学習を用いた音声合成 (20)

More from Genki Ishibashi

More from Genki Ishibashi (17)

音声合成の今昔と深層学習を用いた音声合成