Submit Search
Upload
音声合成の今昔と深層学習を用いた音声合成
•
0 likes
•
413 views
G
Genki Ishibashi
Follow
homieエンジニア勉強会@+SHIFT TSUKIJI発表内容
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 24
Download now
Download to read offline
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
Recommended
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Deep Learning JP
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
仕組みから理解する人力音声認識
仕組みから理解する人力音声認識
Genki Ishibashi
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
Kentaro Tachibana
More Related Content
What's hot
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
Deep Learning JP
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Deep Learning JP
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
Yuma Koizumi
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
NU_I_TODALAB
What's hot
(20)
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
Interspeech2022 参加報告
Interspeech2022 参加報告
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
深層学習を利用した音声強調
深層学習を利用した音声強調
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
全力解説!Transformer
全力解説!Transformer
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
統計的手法に基づく異常音検知の理論と応用
統計的手法に基づく異常音検知の理論と応用
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
2019年度チュートリアルBPE
2019年度チュートリアルBPE
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Transformer メタサーベイ
Transformer メタサーベイ
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
Similar to 音声合成の今昔と深層学習を用いた音声合成
仕組みから理解する人力音声認識
仕組みから理解する人力音声認識
Genki Ishibashi
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
Kentaro Tachibana
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
UnityTechnologiesJapan002
Hmcomm aws 20190614
Hmcomm aws 20190614
Hmcomm Inc,
わたしたちの未来をつくるアクセシビリティ
わたしたちの未来をつくるアクセシビリティ
itahero05
WebRTCがビデオ会議市場に与えるインパクトを探る
WebRTCがビデオ会議市場に与えるインパクトを探る
Shumpei Shiraishi
わたしたち、こうしてつくっています ~アクセシブルなサービス提供に向けた取り組み~
わたしたち、こうしてつくっています ~アクセシブルなサービス提供に向けた取り組み~
Web Accessibility Infrastructure Committee (WAIC)
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
What is tmcn for isit
What is tmcn for isit
Yukihiro Kimura
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
Shingo Mori
おしゃべりゆかり 外部ツールによるMMDAgent操作
おしゃべりゆかり 外部ツールによるMMDAgent操作
kouji azuma
[Cloud OnAir] AI の力で次世代型コンタクトセンターへ 〜 Contact Center AI ソリューションにおけるジェネシス・ジャパン...
[Cloud OnAir] AI の力で次世代型コンタクトセンターへ 〜 Contact Center AI ソリューションにおけるジェネシス・ジャパン...
Google Cloud Platform - Japan
ライブ配信支援およびスタジオ構築サービスのご紹介(ヒューマンセントリックス).pdf
ライブ配信支援およびスタジオ構築サービスのご紹介(ヒューマンセントリックス).pdf
Hiroyuki Yasukouchi
音声認識技術の最新状況とあるべき未来
音声認識技術の最新状況とあるべき未来
Akira Hatsune
Hmcomm Inc,
Hmcomm Inc,
Hmcomm Inc,
ET West 2012 P-1セッション
ET West 2012 P-1セッション
Naoya Maekawa
WordCamp Tokyo 2017 へようこそ
WordCamp Tokyo 2017 へようこそ
Mignon Style
DDD導入にどう立ち向かう? 開発現場への適用方あれこれ①
DDD導入にどう立ち向かう? 開発現場への適用方あれこれ①
Yuichi Nadawaki
Twilio flex導入までの背景と苦労した話
Twilio flex導入までの背景と苦労した話
Genki Ishibashi
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
Kentaro Tachibana
Similar to 音声合成の今昔と深層学習を用いた音声合成
(20)
仕組みから理解する人力音声認識
仕組みから理解する人力音声認識
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
【Unite Tokyo 2019】中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方
Hmcomm aws 20190614
Hmcomm aws 20190614
わたしたちの未来をつくるアクセシビリティ
わたしたちの未来をつくるアクセシビリティ
WebRTCがビデオ会議市場に与えるインパクトを探る
WebRTCがビデオ会議市場に与えるインパクトを探る
わたしたち、こうしてつくっています ~アクセシブルなサービス提供に向けた取り組み~
わたしたち、こうしてつくっています ~アクセシブルなサービス提供に向けた取り組み~
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
What is tmcn for isit
What is tmcn for isit
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
おしゃべりゆかり 外部ツールによるMMDAgent操作
おしゃべりゆかり 外部ツールによるMMDAgent操作
[Cloud OnAir] AI の力で次世代型コンタクトセンターへ 〜 Contact Center AI ソリューションにおけるジェネシス・ジャパン...
[Cloud OnAir] AI の力で次世代型コンタクトセンターへ 〜 Contact Center AI ソリューションにおけるジェネシス・ジャパン...
ライブ配信支援およびスタジオ構築サービスのご紹介(ヒューマンセントリックス).pdf
ライブ配信支援およびスタジオ構築サービスのご紹介(ヒューマンセントリックス).pdf
音声認識技術の最新状況とあるべき未来
音声認識技術の最新状況とあるべき未来
Hmcomm Inc,
Hmcomm Inc,
ET West 2012 P-1セッション
ET West 2012 P-1セッション
WordCamp Tokyo 2017 へようこそ
WordCamp Tokyo 2017 へようこそ
DDD導入にどう立ち向かう? 開発現場への適用方あれこれ①
DDD導入にどう立ち向かう? 開発現場への適用方あれこれ①
Twilio flex導入までの背景と苦労した話
Twilio flex導入までの背景と苦労した話
ICASSP2019 音声&音響読み会 テーマ発表音声生成
ICASSP2019 音声&音響読み会 テーマ発表音声生成
More from Genki Ishibashi
新卒の頃に意識したかった プロダクト開発の7つのポイント
新卒の頃に意識したかった プロダクト開発の7つのポイント
Genki Ishibashi
Fuzz testingとgo
Fuzz testingとgo
Genki Ishibashi
Redash・SQL勉強会 ~目指せクエリ女子~
Redash・SQL勉強会 ~目指せクエリ女子~
Genki Ishibashi
re:invent2019体験記
re:invent2019体験記
Genki Ishibashi
AmebaDSPの成長フェーズとアーキテクチャの話
AmebaDSPの成長フェーズとアーキテクチャの話
Genki Ishibashi
CNNで作る ダメ絶対音感
CNNで作る ダメ絶対音感
Genki Ishibashi
DDDを導入した話
DDDを導入した話
Genki Ishibashi
Paper Collection of Real-Time Bidding論文読み会~第一回~
Paper Collection of Real-Time Bidding論文読み会~第一回~
Genki Ishibashi
A/Bテストのための検定
A/Bテストのための検定
Genki Ishibashi
テックゼミ輪読会(深層学習1~2章)
テックゼミ輪読会(深層学習1~2章)
Genki Ishibashi
スマホ広告効果測定ツール入門
スマホ広告効果測定ツール入門
Genki Ishibashi
楽しいビッグデータ分析入門~Presto編~
楽しいビッグデータ分析入門~Presto編~
Genki Ishibashi
ゼロから作るダメ絶対音感
ゼロから作るダメ絶対音感
Genki Ishibashi
F.O.Xデータ抽出基盤をクラウド移行した話
F.O.Xデータ抽出基盤をクラウド移行した話
Genki Ishibashi
ゼロから始めるAngular2生活
ゼロから始めるAngular2生活
Genki Ishibashi
Dynamo dbとはとは続き
Dynamo dbとはとは続き
Genki Ishibashi
DynamoDBとはとは
DynamoDBとはとは
Genki Ishibashi
More from Genki Ishibashi
(17)
新卒の頃に意識したかった プロダクト開発の7つのポイント
新卒の頃に意識したかった プロダクト開発の7つのポイント
Fuzz testingとgo
Fuzz testingとgo
Redash・SQL勉強会 ~目指せクエリ女子~
Redash・SQL勉強会 ~目指せクエリ女子~
re:invent2019体験記
re:invent2019体験記
AmebaDSPの成長フェーズとアーキテクチャの話
AmebaDSPの成長フェーズとアーキテクチャの話
CNNで作る ダメ絶対音感
CNNで作る ダメ絶対音感
DDDを導入した話
DDDを導入した話
Paper Collection of Real-Time Bidding論文読み会~第一回~
Paper Collection of Real-Time Bidding論文読み会~第一回~
A/Bテストのための検定
A/Bテストのための検定
テックゼミ輪読会(深層学習1~2章)
テックゼミ輪読会(深層学習1~2章)
スマホ広告効果測定ツール入門
スマホ広告効果測定ツール入門
楽しいビッグデータ分析入門~Presto編~
楽しいビッグデータ分析入門~Presto編~
ゼロから作るダメ絶対音感
ゼロから作るダメ絶対音感
F.O.Xデータ抽出基盤をクラウド移行した話
F.O.Xデータ抽出基盤をクラウド移行した話
ゼロから始めるAngular2生活
ゼロから始めるAngular2生活
Dynamo dbとはとは続き
Dynamo dbとはとは続き
DynamoDBとはとは
DynamoDBとはとは
音声合成の今昔と深層学習を用いた音声合成
1.
音声合成の今昔 と 深層学習を用いた音声合成 2022/5/6 homieエンジニア勉強会@+SHIFT TSUKIJI いしばし げんき
2.
自己紹介 ● 2015年 CyberAgent入社 ○
スマホ広告効果測定ツール ○ 広告配信システム (DSP) ● 2020 homie株式会社入社 ● 2021 同社執行役員に就任 ● 最近雀魂にハマってて雀傑に上がった
3.
音声合成ってなんぞや
4.
音声合成とは ● 音声合成とは、音声を機械的に作り出す技術 ● 音声合成の主な手法 ○
録音再生・編集方式 ○ 概念的音声合成(CTS: Concept To Speech) ○ テキスト音声合成(TTS: Text To Speech) ○ ボコーダ・波形合成(Vocoder, waveform syntesis) ○ 声質変換(VC: Voice Conversion)
5.
テキスト音声合成の歴史 ● 1939年 NY万国博覧会でVoder発表 ●
~1980年代 韻律やフォルマントの規則を利用した規則合成方式 ● 1990年代 素片選択型合成法(Unit Selection synthesis) ● 2000年代 統計的パラメトリック音声合成(SPSS) ● 2010年代 一貫学習に基づく音声合成(End-to-End Speech Sysnthesis)
6.
TTS: テキスト音声合成の歴史 ● 音声合成の歴史は音声と言語を正しく理解することに始まり、近年では専門知識を 如何に排除するかが重要になっている ○
音声認識の研究者「言語学者を一人クビにすると音声認識の精度が上がる」 ○ 既存の直線上ではなく、真に解決すべき問題に挑むべき
7.
音声周りの専門知識 ● 音声情報の分類 ○ 言語情報・パラ言語情報・非言語情報 ●
言語特徴 ○ 音素, モーラ, 音節, 語, 句, 呼気段落, 文 ○ アクセント, イントネーション, リズム ● 音響特徴 ○ 有声音, 無声音, 基本周波数, フォルマント, ソースフィルタモデル ○ 声の高さや声質 ● 音声のパラメータ表現 ○ ボコーダ(チャネルボコーダ, フェーズボコーダ, 正弦波ボコーダ) ○ 有声/無声フラグ, スペクトル包絡, 位相, 音素長
8.
深層学習を用いた音声合成
9.
深層学習を用いた音声合成手法の紹介 ● 統計的パラメトリック音声合成 ● WaveNet ●
Tacotoron2
10.
統計モデルと統計的パラメトリック音声合成 ● 同じテキストを読み上げてもゆらぎがあるので統計的アプローチが有効 ● 統計的パラメトリック音声合成 ○
テキスト→音声波形の問題をテキスト →言語特徴量→音響特徴量に分解し音響モデルの学習 ○ 生成したいテキストから言語特徴量を生成し、音響特徴量を予測させ音声波形を生成 ○ 音響モデルには隠れマルコフモデル (HMM), 近年では深層学習(DNN)が用いられている
11.
統計的パラメトリック音声合成の学習に必要なデータ ● 音響モデルの学習には、テキストと音声だけあればよい?
12.
統計的パラメトリック音声合成の学習に必要なデータ ● 音響モデルの学習には、テキストと音声だけあればよい?→ NO ●
テキスト, 音声以外に言語特徴量、音響特徴量、テキストと音声対応(音素アライメ ント)が必要 ○ 音素アライメントには、音素のみを表すものフォンラベルや言語特徴量すべてを含むフルコンテキ ストラベルがある 音素アライメント モノフォンラベル フルコンテキストラベル
13.
統計的パラメトリック音声合成の音響モデル ● DNN音声合成では継続長モデルと音響モデルをそれぞれ学習する ○ 言語特徴量と音素継続長より継続長モデルを学習 ○
フレーム単位の言語特徴量と音響特徴量より音響モデルを学習
14.
統計的パラメトリック音声合成の音響特徴量 ● WORLDボコーダを利用 ● 基本周波数,
有声/無声フラグ, スペクトル包絡, 非周期性指標 基本周波数 有声/無声フラグ メルケプストラム 非周期性指標
15.
統計的パラメトリック音声合成の音声波形の生成 ● テキストから言語特徴量の生成, 継続長や音響特徴量を予測 ●
予測した音響特徴量から音声波形の生成 ○ DEMO
16.
WaveNet ● 2016年にDeepMindが提案した深層学習に基づく音声波形の生成モデル ● 既存手法を大きく上回る自然性 ●
人間が解釈しやすいパラメータ表現を用いない(✗ソースフィルタモデル) ● 1次元の音声波形の自己回帰モデル(音声以外にも応用可) 自然性に関する主観評価実験の結果
17.
WaveNetの特徴 ● 離散値の系列とみなしsoftmax関数によるモデル化 ○ 多峰性の分布の考慮
, one-hotベクトルの生成 ● μ-lawアルゴリズムによる音声圧縮 ○ 16bitの予測問題を8bitの予測問題に圧縮 ● 因果的な畳込み, 1次元膨張畳み込み ○ 過去のデータにのみ基づき、効率的に過去のデータを考慮 ● ゲート付き活性化関数 ● 残差接続・スキップ接続 因果的畳み込み・膨張畳み込み μ-lawアルゴリズムの適用前後の分布
18.
WaveNetまとめ ● 音響モデルを介さず音声波形の生成が可能 ● 音声合成が機械っぽい音声から抜け出した ●
Demo WaveNetの構造
19.
Tacotron2 ● 2017年に言語特徴量を介さない音声合成手法としてTacotronがGoogleより提案さ れた ● 2018年にTacotronとWaveNetを組み合わせたTacotron2が発表された ○
自然音声とほとんど同等の合成品質を達成 ● テキストから音声波形の生成まですべて深層学習で行う 音声波形の生成モジュールの比較
20.
Tacotron2の特徴 ● Sequence-to-Sequenceモデル ○ 自動翻訳等で目覚ましい成果 ●
注意機構 ○ 予測時に特定の入力の値を加味できる ● エンコーダ ○ 文字列を数字列に変換 , 双方向LSTM, 畳み込み ● デコーダ ○ ハイブリッド注意機構 , Pre-Net, stop-token ● Post-Net ○ 残差接続
21.
Tacotron2のモデル構造 ● テキスト→メルスペクトログラム(Tacotron) ● メルスペクトログラム→音声波形(WaveNet)
22.
Tacotron2まとめ ● 音声合成と人間の音声の区別がつかなくなった ● テキストから音声波形の生成まで専門知識をそれほど必要としない一貫学習が可 能になった ●
Demo
23.
まとめ ● 音声合成とは、音声を機械的に作り出す技術 ● 言語・音響の仕組みを理解し発展してきた ●
WaveNetやTactron2の登場により機械的な音声を脱した
24.
参考文献 Pythonで学ぶ音声合成 機械学習実践シリーズ 著者:山本龍一・高道慎之介 出版社:インプレス
Download now