SlideShare a Scribd company logo
1 of 37
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習の研究動向
株式会社ディー・エヌ・エー
AIシステム部
森紘一郎
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 森 紘一郎
 経歴
⁃ 2005年 株式会社東芝 研究開発センター
機械学習・データ(テキスト)マイニング(5年)
音声合成(7年)
⁃ 2017年 株式会社ディー・エヌ・エー
DEEP LEARNING(音声、コンピュータビジョン)
 プライベート
⁃ Twitter: aidiary(@sylvan5)
⁃ ブログ: 人工知能に関する断創録(2002〜)
⁃ 最近は生成系(音声・画像)と
マルチモーダルなDEEP LEARNINGに興味あり
2
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
 マルチモーダルDEEP LEARNINGとは?
 どんなアプリケーションがある?
 研究上のチャレンジは?
 マルチモーダルタスクとアーキテクチャ
 まとめ
 この発表は以下の資料をベースに独自の調査内容を追加
⁃ [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning:
A Survey and Taxonomy, arXiv:1705.09406.
⁃ [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal
Machine Learning, ACL 2017.
3
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルとは何か?
4
嗅覚
視覚
触覚
味覚
聴覚
動物の5つの感覚
動物はこの5感によって世界を経験する
マルチモーダル = 複数のモダリティを含む処理
注意
記憶
嗜好
言語
行動
(制御)
Computer Vision
Natural Language Processing
Speech Synthesis
Speech Recognition
Audio Processing
Reinforcement Learning
?
?
?
脳波
[Morency 2017]Brain Machine Interface
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習とは
 マルチモーダル深層学習
⁃ 複数のモダリティからの情報を統合的に処理し、それらを関連付けるモデル
を構築することを目的とする
⁃ 深層学習を使わないアプローチもあるが、本発表では深層学習に的を絞る
⁃ それぞれのモダリティに関する研究分野が独自に進展してきたが、Deep
Learningの登場により分野間の障壁が薄くなってきている
 マルチモーダルの重要性
⁃ 人は単一のモダリティに基づいて思考・記憶・判断していない
⁃ 人工知能のさらなる進展にはマルチモーダル信号を統合する技術が必要!
⁃ 実は昔から研究自体はあった(例)記号とパターンの統合
5
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習は学際的な領域
6
非常に学際的で強力なポテンシャルを秘めた分野
だと確信してるが儲かるビジネスがあまり思い浮かばないのが現状・・・
 心理学(Psychology)
 医療(Medical)
 音声(Speech)
 画像(Vision)
 言語(Language)
 マルチメディア(Multimedia)
 ロボティクス(Robotics)
 機械学習(Machine Learning)
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
3V: Verbal Vocal Visual
7
現在の研究で対象となる主なモダリティ
言語情報
書く・話す
音・音楽
パラ言語情報
画像・ビデオ
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (1) Audio-Visual Speech Recognition
 音声と画像(主に唇の動き)の両方の情報を用いて音声認識する
 Lip Reading: 唇の画像のみからテキストに変換する
 マルチモーダル処理の最初期の研究(1986年)
⁃ Deep Learningのマルチモーダル化もこのタスクから(ICML2011)
8
[Potamianos 2003]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (2) Glove-Talk
 人間の腕の動き(行動・センサー)を音声に変換する
 最近では手話を音声に変換する研究もある
9
Glove Talk II
https://www.youtube.com/watch?v=hJpGkroFP3o&t=100s
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (3) Talking Head
 テキスト情報を音声と顔画像に変換する
10
2013 Expressive Visual Text to Speech - Talking Head
https://www.youtube.com/watch?v=x8B7OxjB05k
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (4) Audio-Visual Emotion Recognition
 音声と画像の両方の情報を使って人の感情を認識する
11
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (5) Multimedia Content Analysis
 画像や映像をテキストに変換する(Image captioning)
 テキストを画像・映像に変換する(Text2Image)
 画像や映像に関する質問や対話を自然言語で行う(VQA, Visual Dialog)
12
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習の5つのチャレンジ (1)
1. Representation
⁃ マルチモーダル情報をどのように表現するか?
⁃ モーダル間の関連性をどのように定義するか?
2. Translation
⁃ あるモダリティを別のモダリティにどのように
変換するか?
⁃ 変換結果をどのように評価するか?
⁃ 超解像・声質変換・翻訳などはUnimodalなので対象外
3. Alignment
⁃ 複数のモダリティの要素をどのように関連付けるか?
⁃ 翻訳の単語の対応に似ているがそれのMultimodal版
13
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習の5つのチャレンジ (2)
4. Fusion
⁃ 複数のモダリティの情報を組み合わせて予測を行うには?
5. Co-learning
⁃ 複数のモダリティの間で知識を転移するには?
14
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
ユニモーダルのデータ表現
 画像・音声・テキストの表現方法
⁃ Hand-designedな表現からdata-drivenな表現への移行
• 画像:SIFTからCNNの隠れ層の表現へ
• 音声:MFCCからCNNやRNNやAutoencoderの隠れ層の表現へ
• テキスト:TF-IDFからWord Embeddingへ
• タスクに適した表現が自動的に獲得できる!
 DEEP LEARNINGとマルチモーダルの相性のよさ
⁃ 全てのモダリティがベクトル(テンソル)で表現できる
⁃ 訓練時に表現を学習できる
⁃ ベクトルを変換できる強力な非線型写像
15
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Representation
 Representation
⁃ マルチモーダル情報をどのように表現するか?
⁃ モーダル間の関連性をどのように定義するか?
 2つのアプローチ
⁃ Joint Representation – 各モーダルの特徴量を結合
⁃ Coordinated Representation – 類似性などの制約を導入
16
[Baltrusaitis 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例1)Multimodal Sentiment Analysis (Emotion Recognition)
 複数のモーダルの情報を用いて感情(喜び・怒り・悲しみなど)を認識する
⁃ 顔画像、音声、音声認識したテキストの全てを用いる
⁃ それぞれのモダリティからの情報は独自のニューラルネットを用いる
⁃ マルチモーダル表現空間は中間表現をconcat
⁃ その表現を用いて感情を分類
17
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例2)Visual Question Answering
 画像に対する質問をテキストですると回答してくれるシステム
 画像を処理するCNNの出力とテキストを処理するLSTMの出力を掛け合わせてマ
ルチモーダル表現空間を形成
18
[Agrawal 2015]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例3)Audio-Visual Speech Recognition
 音声と唇の画像の両方を用いて音声を認識する
⁃ 出力は音素
⁃ Audioのみ PER (Phone Error Rate) 41%
⁃ Imageを加えると PER 35.83% と改善
⁃ 特に音声のノイズが大きい環境では画像が有益
19
[Mroueh 2015]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例4)SoundNet
 音の深層表現を学習済の画像分類モデルを用いて学習する
⁃ 画像と音がペアであるビデオを使って学習
⁃ 画像ネットワークをTeacher Model、音のネットワークをStudent Model
として音の深層表現を学習する
20
Image Networkの出力分布と
Sound Networkの出力分布が
近くなるようにSoundNetの
パラメータを学習
[Aytar 2016]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例5)See, Hear, and Read: Deep Aligned Representations
 画像、音声、言語の3つのモダリティを統合する深層表現を学習
⁃ ペアとなるプールの画像、プールの音、プールに関する文章の深層表現ベク
トルが互いに近くなる
 クロスモーダル検索やモダリティ間の分類器の転移などのタスクに有効
21
Teacher Loss + Pair Lossが最小になるように学習
[Aytar 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例6)Object Picking with Spoken Language
22
ロボットのピッキング対象を自然言語で指示する
画像とテキストを入力としてロボット制御の対象となるオブジェクトと移動先を特定する
ロボットの制御自体は学習対象ではない
[Hatori 2017]
自然言語で指示した物体がSSDで
切り出した物体のどれかを当てる
タスク
自然言語で指示した物体の
移動先がどこか当てるタスク
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Translation
 Multimodal Translation
⁃ あるモダリティを別のモダリティにどのように変換するか?
⁃ 変換結果をどのように評価するか?
 現在のマルチモーダル研究の中心
⁃ 長い研究の歴史がある
⁃ DEEP LEARNINGとマルチモーダルデータセットの普及で再定義が進む
• 画像  テキスト
• 画像  音声
• 音声  テキスト
• 画像  制御
• テキスト  制御
23
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
2つのアプローチ
 Example-based ≒ ノンパラメトリックモデル
⁃ 辞書ベースの変換(と言うよりもマルチモーダル検索)
⁃ SOURCEともっとも類似するTARGETを検索して返す
⁃ SOURCEとTARGETの変換にDEEP LEARNINGを活用する研究も
 Model-driven ≒ パラメトリックモデル
⁃ SOURCEとTARGETの組みから変換モデルを学習
⁃ SOURCEをモデルに入力してTARGETに変換する
⁃ DEEP LEARNINGの登場とテキスト・画像・音声の生成モデルの
発明以降はこちらが研究の中心に
24
(例)Imaginary Soundscape
(例)Visual-to-sound
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例)Imaginary Soundscape vs. Visual-to-sound
 どちらの研究も風景画像からその風景にあった音声を再生するタスク
25
• 画像と音声を同一のマルチモーダル空間に写像
• マルチモーダル空間は、画像とそれに対応する音声間の距離が
近くなるように学習される
• 入力した画像と最も距離が近い音声を検索して再生する
Imaginary Soundscape Visual-to-sound
• Encoder-decoderモデル(seq2seq)
• ビデオを符号化するencoder
• 符号から音声を生成するdecoder(SampleRNN)
• 画像を入力すると音声波形を生成して再生する
[Zhou 2017]
[Kajihara 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Model-drivenアプローチ
 Deep Learningによる生成モデルの活用
⁃ 画像 GAN, PixelRNN
⁃ 音声 WaveNet, SampleRNN
⁃ テキスト LSTM
 変換モデルはEncoder-decoderモデルが最も一般的
⁃ ソースモダリティのデータをEncoderでベクトルに変換
⁃ Decoderでターゲットモダリティのデータを生成
⁃ Encoderはモダリティ特有のものが使われる(画像ならCNN、音声ならRNN)
⁃ DecoderはEncoderの出力ベクトルを初期の隠れ状態としたRNN
⁃ Attentionが効果的
26
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Text: Image Captioning
27
画像を入力するとその画像の内容を表す
テキストを出力する
GoogLeNet
などのCNN
入力は画像
FC層の直前の
画像特徴量を
LSTMの隠れ状態の
初期値とする
LSTMで単語系列を生成
[Vinyals 2014]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Image Synthesis
28
テキストを入力するとそのテキストにあった画像が生成される
テキストをエンコード
テキスト符号はGeneratorの入力で
あるノイズに条件として付与
Conditional GANで画像を生成
Discriminatorにもテキスト符号は
入力してテキストと画像のミスマッチ
も識別する
[Reed 2016]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Speech: Tacotron
29
テキストを入力すると音声が生成される
いわゆる音声合成
Tacotronの場合は入力は文字の系列
音響パラメータの系列を出力
=> ボコーダーで音声を合成
Conv1D + RNN
でエンコード
RNNでデコード
https://google.github.io/tacotron/publications/tacotron/index.html[Wang 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Sound: Visually Indicated Sounds
30
http://vis.csail.mit.edu/
画像はグレースケールに変換後、
前後1フレーム分をチャネルとして
3チャンネルで入力する
画像特徴量の系列はLSTMで
処理して音響特徴量系列を生成
音響特徴量から音声に変換
または生成した音響特徴量と最も
類似する音声をDBから検索して
貼り付ける
画像(ビデオ)を入力として音声を生成する
ものをドラムスティックで叩いた時の音を生成している
[Owens 2015]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Video: Video Generation From Text
31
Gist Generator
gistと呼ばれる色と物体レイアウトを
大まかに記した画像を生成するCVAE
Video Generator
gistとテキストからビデオの
4Dテンソルを生成
Video Discriminator
本物のビデオと偽物を見分ける
テキストにマッチするか見分ける
ビデオの1フレーム目の画像とテキストの
両方を条件としてGistを生成
推論時はdecoderのみ使う
テキストからビデオを生成する
ビデオのシードとなる粗い画像(Gist)をテキストを条件として生成するのがポイント
ビデオはGistとテキストを条件として生成される
[Li 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Control: DQN
32
https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/deep_q_learning.html
ゲームの過去4フレーム分の画像から行動を生成
入力は4フレーム分の画像 入力の状態における各行動の
行動価値を出力
[Mnih 2013]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Control: Language Guided RL
33
自然言語による人の指示をもとに行動を出力
サブタスクを自然言語で与えるイメージ
1. 自然言語コマンドと状態の関連付け
2. 自然言語コマンドを達成するための最適行動の学習
入力は4フレーム分の画像と
自然言語による指示
画像はCNNで符号化 MLPで行動にマッピング
画像とテキストのマルチモーダル符号化
自然言語で指示されたコマンドが
満たされたら追加報酬が与えられる
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
例えばこんなアイデアは?
 手話の動画から音声を生成する
 顔写真やアニメイラストからもっともらしい声質を生成する
 画像から音楽を生成する
 ダンスの動画からビートを生成する
 歌詞のテキストからメロディを生成する
 サイレント映画に音をつける
 料理のレシピから味を生成する
 料理の写真から匂いを生成する
 物体の写真から触覚を生成する
34
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
まとめ
 この資料ではマルチモーダル深層学習に関する研究を主にRepresentation /
Translation タスクを中心にまとめた
 動物の知能は本質的にマルチモーダルであるため人工知能のさらなる進歩には必要不可
欠な技術(例)マルチモーダル連想記憶
 深層学習は複数のモダリティを結びつける非常に強力な方法
 現在の研究はテキスト、画像、音声の3つのモダリティが中心
 嗅覚、味覚、触覚を加えることでさらに面白い可能性が広がるのでは?
 複数のモダリティにまたがるアプリケーションは(まだ)ブルーオーシャン
35
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習
36
画像
音 テキスト
制御
Talking Head
SoundNet
Imageinary Soundscape
Visual-to-Sound
Image
Captioning
Text-to-Image
Synthesis
Text-to-Speech
Speech Recognition
Visual QA
Language Guided RL
See Here and Read
DQN
Audio-visual Speech Recognition
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
参考文献
 [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406.
 [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017.
 [Potamianos 2003] Potamianos, G. et al., Recent Advances in the Automatic Recognition of Audiovisual Speech, Proc. of
IEEE, 91 (9), pp.1306-1326, 2003.
 [Agrawal 2015] Agrawal, A. et al., VQA: Visual Question Answering, arXiv:1505.00468.
 [Mroueh 2015] Mroueh, Y. et al., Deep Multimodal Learning for Audio-Visual Speech Recognition, arXiv:1501.05396.
 [Aytar 2016] Aytar, Y. et al., SoundNet: Learning Sound Representations from Unlabeled Video, arXiv:1610.09001.
 [Aytar 2017] Aytar, Y. et al., See, Hear, and Read: Deep Aligned Representations, arXiv:1706.00932.
 [Hatori 2017] Hatori, J. et al., Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,
arXiv:1710.06280.
 [Kajihara 2017] Kajihara, Y. et al., Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments,
Workshop on ML for Creativity and Design (NIPS 2017)
 [Zhou 2017] Zhou, Y. et al., Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv: 1712.01393.
 [Vinyals 2014] Vinyals, O. et al., Show and Tell: A Neural Image Caption Generator, arXiv:1411.4555.
 [Reed 2016] Reed, S. et al., Generative Adversarial Text to Image Synthesis, arXiv:1605.05396.
 [Wang 2017] Wang, Y. et al., Tacotron: Toward End-to-End Speech Synthesis, arXiv:1703.10135.
 [Owens 2015] Owens, A. et al., Visually Indicated Sounds, arXiv:1512.08512.
 [Li 2017] Li, Y. et al., Video Generation from Text, arXiv:1710.00421.
 [Mnih 2013] Mnih, V. et al., Playing Atari with Deep Reinforcement Learning, arXiv:1312.5602.
 [Kaplan 2017] Kaplan, R. et al., Beating Atari with Natural Language Guided Reinforcement Learning, arXiv:1704.05539
37

More Related Content

What's hot

[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learningharmonylab
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxBERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxKouta Nakayama
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 

What's hot (20)

[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learning
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxBERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 

Similar to マルチモーダル深層学習の研究動向

Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Kentaro Tachibana
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIOKoichiro Mori
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronKentaro Tachibana
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubJunya Kamura
 
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1Osaka University
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-Takahiro Kubo
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱Junya Kamura
 
20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さん20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さんVisso株式会社
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)Yoshitaka Ushiku
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
Teachme for business
Teachme for businessTeachme for business
Teachme for businessKeitaro Shoji
 
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!Shingo Mori
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニングSatoru Yamamoto
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 

Similar to マルチモーダル深層学習の研究動向 (20)

Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
NIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
ICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hub
 
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
 
Interop2017
Interop2017Interop2017
Interop2017
 
Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱
 
20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さん20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さん
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
Teachme for business
Teachme for businessTeachme for business
Teachme for business
 
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 

マルチモーダル深層学習の研究動向

  • 1. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習の研究動向 株式会社ディー・エヌ・エー AIシステム部 森紘一郎 Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
  • 2. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 自己紹介  森 紘一郎  経歴 ⁃ 2005年 株式会社東芝 研究開発センター 機械学習・データ(テキスト)マイニング(5年) 音声合成(7年) ⁃ 2017年 株式会社ディー・エヌ・エー DEEP LEARNING(音声、コンピュータビジョン)  プライベート ⁃ Twitter: aidiary(@sylvan5) ⁃ ブログ: 人工知能に関する断創録(2002〜) ⁃ 最近は生成系(音声・画像)と マルチモーダルなDEEP LEARNINGに興味あり 2
  • 3. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次  マルチモーダルDEEP LEARNINGとは?  どんなアプリケーションがある?  研究上のチャレンジは?  マルチモーダルタスクとアーキテクチャ  まとめ  この発表は以下の資料をベースに独自の調査内容を追加 ⁃ [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406. ⁃ [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017. 3
  • 4. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルとは何か? 4 嗅覚 視覚 触覚 味覚 聴覚 動物の5つの感覚 動物はこの5感によって世界を経験する マルチモーダル = 複数のモダリティを含む処理 注意 記憶 嗜好 言語 行動 (制御) Computer Vision Natural Language Processing Speech Synthesis Speech Recognition Audio Processing Reinforcement Learning ? ? ? 脳波 [Morency 2017]Brain Machine Interface
  • 5. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習とは  マルチモーダル深層学習 ⁃ 複数のモダリティからの情報を統合的に処理し、それらを関連付けるモデル を構築することを目的とする ⁃ 深層学習を使わないアプローチもあるが、本発表では深層学習に的を絞る ⁃ それぞれのモダリティに関する研究分野が独自に進展してきたが、Deep Learningの登場により分野間の障壁が薄くなってきている  マルチモーダルの重要性 ⁃ 人は単一のモダリティに基づいて思考・記憶・判断していない ⁃ 人工知能のさらなる進展にはマルチモーダル信号を統合する技術が必要! ⁃ 実は昔から研究自体はあった(例)記号とパターンの統合 5
  • 6. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習は学際的な領域 6 非常に学際的で強力なポテンシャルを秘めた分野 だと確信してるが儲かるビジネスがあまり思い浮かばないのが現状・・・  心理学(Psychology)  医療(Medical)  音声(Speech)  画像(Vision)  言語(Language)  マルチメディア(Multimedia)  ロボティクス(Robotics)  機械学習(Machine Learning)
  • 7. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 3V: Verbal Vocal Visual 7 現在の研究で対象となる主なモダリティ 言語情報 書く・話す 音・音楽 パラ言語情報 画像・ビデオ [Morency 2017]
  • 8. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (1) Audio-Visual Speech Recognition  音声と画像(主に唇の動き)の両方の情報を用いて音声認識する  Lip Reading: 唇の画像のみからテキストに変換する  マルチモーダル処理の最初期の研究(1986年) ⁃ Deep Learningのマルチモーダル化もこのタスクから(ICML2011) 8 [Potamianos 2003]
  • 9. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (2) Glove-Talk  人間の腕の動き(行動・センサー)を音声に変換する  最近では手話を音声に変換する研究もある 9 Glove Talk II https://www.youtube.com/watch?v=hJpGkroFP3o&t=100s
  • 10. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (3) Talking Head  テキスト情報を音声と顔画像に変換する 10 2013 Expressive Visual Text to Speech - Talking Head https://www.youtube.com/watch?v=x8B7OxjB05k
  • 11. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (4) Audio-Visual Emotion Recognition  音声と画像の両方の情報を使って人の感情を認識する 11 [Morency 2017]
  • 12. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (5) Multimedia Content Analysis  画像や映像をテキストに変換する(Image captioning)  テキストを画像・映像に変換する(Text2Image)  画像や映像に関する質問や対話を自然言語で行う(VQA, Visual Dialog) 12 [Morency 2017]
  • 13. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習の5つのチャレンジ (1) 1. Representation ⁃ マルチモーダル情報をどのように表現するか? ⁃ モーダル間の関連性をどのように定義するか? 2. Translation ⁃ あるモダリティを別のモダリティにどのように 変換するか? ⁃ 変換結果をどのように評価するか? ⁃ 超解像・声質変換・翻訳などはUnimodalなので対象外 3. Alignment ⁃ 複数のモダリティの要素をどのように関連付けるか? ⁃ 翻訳の単語の対応に似ているがそれのMultimodal版 13 [Morency 2017]
  • 14. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習の5つのチャレンジ (2) 4. Fusion ⁃ 複数のモダリティの情報を組み合わせて予測を行うには? 5. Co-learning ⁃ 複数のモダリティの間で知識を転移するには? 14 [Morency 2017]
  • 15. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. ユニモーダルのデータ表現  画像・音声・テキストの表現方法 ⁃ Hand-designedな表現からdata-drivenな表現への移行 • 画像:SIFTからCNNの隠れ層の表現へ • 音声:MFCCからCNNやRNNやAutoencoderの隠れ層の表現へ • テキスト:TF-IDFからWord Embeddingへ • タスクに適した表現が自動的に獲得できる!  DEEP LEARNINGとマルチモーダルの相性のよさ ⁃ 全てのモダリティがベクトル(テンソル)で表現できる ⁃ 訓練時に表現を学習できる ⁃ ベクトルを変換できる強力な非線型写像 15
  • 16. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Representation  Representation ⁃ マルチモーダル情報をどのように表現するか? ⁃ モーダル間の関連性をどのように定義するか?  2つのアプローチ ⁃ Joint Representation – 各モーダルの特徴量を結合 ⁃ Coordinated Representation – 類似性などの制約を導入 16 [Baltrusaitis 2017]
  • 17. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例1)Multimodal Sentiment Analysis (Emotion Recognition)  複数のモーダルの情報を用いて感情(喜び・怒り・悲しみなど)を認識する ⁃ 顔画像、音声、音声認識したテキストの全てを用いる ⁃ それぞれのモダリティからの情報は独自のニューラルネットを用いる ⁃ マルチモーダル表現空間は中間表現をconcat ⁃ その表現を用いて感情を分類 17 [Morency 2017]
  • 18. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例2)Visual Question Answering  画像に対する質問をテキストですると回答してくれるシステム  画像を処理するCNNの出力とテキストを処理するLSTMの出力を掛け合わせてマ ルチモーダル表現空間を形成 18 [Agrawal 2015]
  • 19. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例3)Audio-Visual Speech Recognition  音声と唇の画像の両方を用いて音声を認識する ⁃ 出力は音素 ⁃ Audioのみ PER (Phone Error Rate) 41% ⁃ Imageを加えると PER 35.83% と改善 ⁃ 特に音声のノイズが大きい環境では画像が有益 19 [Mroueh 2015]
  • 20. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例4)SoundNet  音の深層表現を学習済の画像分類モデルを用いて学習する ⁃ 画像と音がペアであるビデオを使って学習 ⁃ 画像ネットワークをTeacher Model、音のネットワークをStudent Model として音の深層表現を学習する 20 Image Networkの出力分布と Sound Networkの出力分布が 近くなるようにSoundNetの パラメータを学習 [Aytar 2016]
  • 21. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例5)See, Hear, and Read: Deep Aligned Representations  画像、音声、言語の3つのモダリティを統合する深層表現を学習 ⁃ ペアとなるプールの画像、プールの音、プールに関する文章の深層表現ベク トルが互いに近くなる  クロスモーダル検索やモダリティ間の分類器の転移などのタスクに有効 21 Teacher Loss + Pair Lossが最小になるように学習 [Aytar 2017]
  • 22. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例6)Object Picking with Spoken Language 22 ロボットのピッキング対象を自然言語で指示する 画像とテキストを入力としてロボット制御の対象となるオブジェクトと移動先を特定する ロボットの制御自体は学習対象ではない [Hatori 2017] 自然言語で指示した物体がSSDで 切り出した物体のどれかを当てる タスク 自然言語で指示した物体の 移動先がどこか当てるタスク
  • 23. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Translation  Multimodal Translation ⁃ あるモダリティを別のモダリティにどのように変換するか? ⁃ 変換結果をどのように評価するか?  現在のマルチモーダル研究の中心 ⁃ 長い研究の歴史がある ⁃ DEEP LEARNINGとマルチモーダルデータセットの普及で再定義が進む • 画像  テキスト • 画像  音声 • 音声  テキスト • 画像  制御 • テキスト  制御 23
  • 24. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 2つのアプローチ  Example-based ≒ ノンパラメトリックモデル ⁃ 辞書ベースの変換(と言うよりもマルチモーダル検索) ⁃ SOURCEともっとも類似するTARGETを検索して返す ⁃ SOURCEとTARGETの変換にDEEP LEARNINGを活用する研究も  Model-driven ≒ パラメトリックモデル ⁃ SOURCEとTARGETの組みから変換モデルを学習 ⁃ SOURCEをモデルに入力してTARGETに変換する ⁃ DEEP LEARNINGの登場とテキスト・画像・音声の生成モデルの 発明以降はこちらが研究の中心に 24 (例)Imaginary Soundscape (例)Visual-to-sound [Morency 2017]
  • 25. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例)Imaginary Soundscape vs. Visual-to-sound  どちらの研究も風景画像からその風景にあった音声を再生するタスク 25 • 画像と音声を同一のマルチモーダル空間に写像 • マルチモーダル空間は、画像とそれに対応する音声間の距離が 近くなるように学習される • 入力した画像と最も距離が近い音声を検索して再生する Imaginary Soundscape Visual-to-sound • Encoder-decoderモデル(seq2seq) • ビデオを符号化するencoder • 符号から音声を生成するdecoder(SampleRNN) • 画像を入力すると音声波形を生成して再生する [Zhou 2017] [Kajihara 2017]
  • 26. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Model-drivenアプローチ  Deep Learningによる生成モデルの活用 ⁃ 画像 GAN, PixelRNN ⁃ 音声 WaveNet, SampleRNN ⁃ テキスト LSTM  変換モデルはEncoder-decoderモデルが最も一般的 ⁃ ソースモダリティのデータをEncoderでベクトルに変換 ⁃ Decoderでターゲットモダリティのデータを生成 ⁃ Encoderはモダリティ特有のものが使われる(画像ならCNN、音声ならRNN) ⁃ DecoderはEncoderの出力ベクトルを初期の隠れ状態としたRNN ⁃ Attentionが効果的 26
  • 27. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Image-to-Text: Image Captioning 27 画像を入力するとその画像の内容を表す テキストを出力する GoogLeNet などのCNN 入力は画像 FC層の直前の 画像特徴量を LSTMの隠れ状態の 初期値とする LSTMで単語系列を生成 [Vinyals 2014]
  • 28. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Image Synthesis 28 テキストを入力するとそのテキストにあった画像が生成される テキストをエンコード テキスト符号はGeneratorの入力で あるノイズに条件として付与 Conditional GANで画像を生成 Discriminatorにもテキスト符号は 入力してテキストと画像のミスマッチ も識別する [Reed 2016]
  • 29. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Speech: Tacotron 29 テキストを入力すると音声が生成される いわゆる音声合成 Tacotronの場合は入力は文字の系列 音響パラメータの系列を出力 => ボコーダーで音声を合成 Conv1D + RNN でエンコード RNNでデコード https://google.github.io/tacotron/publications/tacotron/index.html[Wang 2017]
  • 30. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Image-to-Sound: Visually Indicated Sounds 30 http://vis.csail.mit.edu/ 画像はグレースケールに変換後、 前後1フレーム分をチャネルとして 3チャンネルで入力する 画像特徴量の系列はLSTMで 処理して音響特徴量系列を生成 音響特徴量から音声に変換 または生成した音響特徴量と最も 類似する音声をDBから検索して 貼り付ける 画像(ビデオ)を入力として音声を生成する ものをドラムスティックで叩いた時の音を生成している [Owens 2015]
  • 31. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Video: Video Generation From Text 31 Gist Generator gistと呼ばれる色と物体レイアウトを 大まかに記した画像を生成するCVAE Video Generator gistとテキストからビデオの 4Dテンソルを生成 Video Discriminator 本物のビデオと偽物を見分ける テキストにマッチするか見分ける ビデオの1フレーム目の画像とテキストの 両方を条件としてGistを生成 推論時はdecoderのみ使う テキストからビデオを生成する ビデオのシードとなる粗い画像(Gist)をテキストを条件として生成するのがポイント ビデオはGistとテキストを条件として生成される [Li 2017]
  • 32. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Image-to-Control: DQN 32 https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/deep_q_learning.html ゲームの過去4フレーム分の画像から行動を生成 入力は4フレーム分の画像 入力の状態における各行動の 行動価値を出力 [Mnih 2013]
  • 33. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Control: Language Guided RL 33 自然言語による人の指示をもとに行動を出力 サブタスクを自然言語で与えるイメージ 1. 自然言語コマンドと状態の関連付け 2. 自然言語コマンドを達成するための最適行動の学習 入力は4フレーム分の画像と 自然言語による指示 画像はCNNで符号化 MLPで行動にマッピング 画像とテキストのマルチモーダル符号化 自然言語で指示されたコマンドが 満たされたら追加報酬が与えられる
  • 34. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 例えばこんなアイデアは?  手話の動画から音声を生成する  顔写真やアニメイラストからもっともらしい声質を生成する  画像から音楽を生成する  ダンスの動画からビートを生成する  歌詞のテキストからメロディを生成する  サイレント映画に音をつける  料理のレシピから味を生成する  料理の写真から匂いを生成する  物体の写真から触覚を生成する 34
  • 35. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. まとめ  この資料ではマルチモーダル深層学習に関する研究を主にRepresentation / Translation タスクを中心にまとめた  動物の知能は本質的にマルチモーダルであるため人工知能のさらなる進歩には必要不可 欠な技術(例)マルチモーダル連想記憶  深層学習は複数のモダリティを結びつける非常に強力な方法  現在の研究はテキスト、画像、音声の3つのモダリティが中心  嗅覚、味覚、触覚を加えることでさらに面白い可能性が広がるのでは?  複数のモダリティにまたがるアプリケーションは(まだ)ブルーオーシャン 35
  • 36. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習 36 画像 音 テキスト 制御 Talking Head SoundNet Imageinary Soundscape Visual-to-Sound Image Captioning Text-to-Image Synthesis Text-to-Speech Speech Recognition Visual QA Language Guided RL See Here and Read DQN Audio-visual Speech Recognition
  • 37. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 参考文献  [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406.  [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017.  [Potamianos 2003] Potamianos, G. et al., Recent Advances in the Automatic Recognition of Audiovisual Speech, Proc. of IEEE, 91 (9), pp.1306-1326, 2003.  [Agrawal 2015] Agrawal, A. et al., VQA: Visual Question Answering, arXiv:1505.00468.  [Mroueh 2015] Mroueh, Y. et al., Deep Multimodal Learning for Audio-Visual Speech Recognition, arXiv:1501.05396.  [Aytar 2016] Aytar, Y. et al., SoundNet: Learning Sound Representations from Unlabeled Video, arXiv:1610.09001.  [Aytar 2017] Aytar, Y. et al., See, Hear, and Read: Deep Aligned Representations, arXiv:1706.00932.  [Hatori 2017] Hatori, J. et al., Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions, arXiv:1710.06280.  [Kajihara 2017] Kajihara, Y. et al., Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments, Workshop on ML for Creativity and Design (NIPS 2017)  [Zhou 2017] Zhou, Y. et al., Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv: 1712.01393.  [Vinyals 2014] Vinyals, O. et al., Show and Tell: A Neural Image Caption Generator, arXiv:1411.4555.  [Reed 2016] Reed, S. et al., Generative Adversarial Text to Image Synthesis, arXiv:1605.05396.  [Wang 2017] Wang, Y. et al., Tacotron: Toward End-to-End Speech Synthesis, arXiv:1703.10135.  [Owens 2015] Owens, A. et al., Visually Indicated Sounds, arXiv:1512.08512.  [Li 2017] Li, Y. et al., Video Generation from Text, arXiv:1710.00421.  [Mnih 2013] Mnih, V. et al., Playing Atari with Deep Reinforcement Learning, arXiv:1312.5602.  [Kaplan 2017] Kaplan, R. et al., Beating Atari with Natural Language Guided Reinforcement Learning, arXiv:1704.05539 37

Editor's Notes

  1. 嗅覚センサー、味覚センサー、触覚センサーが発展してもっと手軽にできるようになると面白いことができそう
  2. DQN自体はImage-to-Control
  3. 今回はマルチモーダルが中心だが同一モーダル内のアプリケーションもまとめると良いかも 口調:標準語 => キャラクター口調 翻訳:テキスト => テキスト 着色:画像 => 画像 声質変換: 音声 => 音声 Pose: ポーズ(モダリティ?) => 画像