Submit Search
Upload
ゲームのモデリング
•
4 likes
•
1,572 views
K
Keiko Mizuno
Follow
第94回Tokyo.Rの発表資料です。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 23
Recommended
Tokyo r94 beginnerssession3
Tokyo r94 beginnerssession3
kotora_0507
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
MICの解説
MICの解説
logics-of-blue
Introduction to Prioritized Experience Replay
Introduction to Prioritized Experience Replay
WEBFARMER. ltd.
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
BERT入門
BERT入門
Ken'ichi Matsui
Recommended
Tokyo r94 beginnerssession3
Tokyo r94 beginnerssession3
kotora_0507
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
MICの解説
MICの解説
logics-of-blue
Introduction to Prioritized Experience Replay
Introduction to Prioritized Experience Replay
WEBFARMER. ltd.
不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
Takahiro Kubo
BERT入門
BERT入門
Ken'ichi Matsui
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
Shoichi Taguchi
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Shoichi Taguchi
Point net
Point net
Fujimoto Keisuke
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方
Shun Nukui
TokyoR101_BeginnersSession2.pdf
TokyoR101_BeginnersSession2.pdf
kotora_0507
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
hagino 3000
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころ
itoyan110
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
Ichigaku Takigawa
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
Log Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptx
JohnnyPlasten
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
olyaivanovalion
More Related Content
What's hot
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
Shoichi Taguchi
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Shoichi Taguchi
Point net
Point net
Fujimoto Keisuke
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方
Shun Nukui
TokyoR101_BeginnersSession2.pdf
TokyoR101_BeginnersSession2.pdf
kotora_0507
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
hagino 3000
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころ
itoyan110
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
ベイズファクターとモデル選択
ベイズファクターとモデル選択
kazutantan
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
Ichigaku Takigawa
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Hidetoshi Matsui
What's hot
(20)
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Pydata_リクルートにおけるbanditアルゴリズム_実装前までのプロセス
Point net
Point net
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
「世界モデル」と関連研究について
「世界モデル」と関連研究について
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
レコメンドエンジン作成コンテストの勝ち方
レコメンドエンジン作成コンテストの勝ち方
TokyoR101_BeginnersSession2.pdf
TokyoR101_BeginnersSession2.pdf
全力解説!Transformer
全力解説!Transformer
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
Chapter7 回帰分析の悩みどころ
Chapter7 回帰分析の悩みどころ
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
ベイズファクターとモデル選択
ベイズファクターとモデル選択
Transformer メタサーベイ
Transformer メタサーベイ
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
(2020.10) 分子のグラフ表現と機械学習: Graph Neural Networks (GNNs) とは?
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
スパース推定法による統計モデリング(入門)
スパース推定法による統計モデリング(入門)
Recently uploaded
Log Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptx
JohnnyPlasten
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
olyaivanovalion
April 2024 - Crypto Market Report's Analysis
April 2024 - Crypto Market Report's Analysis
manisha194592
Industrialised data - the key to AI success.pdf
Industrialised data - the key to AI success.pdf
Lars Albertsson
Smarteg dropshipping via API with DroFx.pptx
Smarteg dropshipping via API with DroFx.pptx
olyaivanovalion
BabyOno dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptx
olyaivanovalion
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
shivangimorya083
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
shivangimorya083
Generative AI on Enterprise Cloud with NiFi and Milvus
Generative AI on Enterprise Cloud with NiFi and Milvus
Timothy Spann
Carero dropshipping via API with DroFx.pptx
Carero dropshipping via API with DroFx.pptx
olyaivanovalion
Edukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFx
olyaivanovalion
Call me @ 9892124323 Cheap Rate Call Girls in Vashi with Real Photo 100% Secure
Call me @ 9892124323 Cheap Rate Call Girls in Vashi with Real Photo 100% Secure
Pooja Nehwal
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998
YohFuh
Introduction-to-Machine-Learning (1).pptx
Introduction-to-Machine-Learning (1).pptx
firstjob4
Unveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data Analyst
Samantha Rae Coolbeth
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
ffjhghh
Invezz.com - Grow your wealth with trading signals
Invezz.com - Grow your wealth with trading signals
Invezz1
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data Storytelling
Neil Barnes
B2 Creative Industry Response Evaluation.docx
B2 Creative Industry Response Evaluation.docx
Stephen266013
Market Analysis in the 5 Largest Economic Countries in Southeast Asia.pdf
Market Analysis in the 5 Largest Economic Countries in Southeast Asia.pdf
Rachmat Ramadhan H
Recently uploaded
(20)
Log Analysis using OSSEC sasoasasasas.pptx
Log Analysis using OSSEC sasoasasasas.pptx
Ravak dropshipping via API with DroFx.pptx
Ravak dropshipping via API with DroFx.pptx
April 2024 - Crypto Market Report's Analysis
April 2024 - Crypto Market Report's Analysis
Industrialised data - the key to AI success.pdf
Industrialised data - the key to AI success.pdf
Smarteg dropshipping via API with DroFx.pptx
Smarteg dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptx
BabyOno dropshipping via API with DroFx.pptx
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
꧁❤ Greater Noida Call Girls Delhi ❤꧂ 9711199171 ☎️ Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls CP 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Generative AI on Enterprise Cloud with NiFi and Milvus
Generative AI on Enterprise Cloud with NiFi and Milvus
Carero dropshipping via API with DroFx.pptx
Carero dropshipping via API with DroFx.pptx
Edukaciniai dropshipping via API with DroFx
Edukaciniai dropshipping via API with DroFx
Call me @ 9892124323 Cheap Rate Call Girls in Vashi with Real Photo 100% Secure
Call me @ 9892124323 Cheap Rate Call Girls in Vashi with Real Photo 100% Secure
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998
Introduction-to-Machine-Learning (1).pptx
Introduction-to-Machine-Learning (1).pptx
Unveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data Analyst
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
定制英国白金汉大学毕业证(UCB毕业证书) 成绩单原版一比一
Invezz.com - Grow your wealth with trading signals
Invezz.com - Grow your wealth with trading signals
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data Storytelling
B2 Creative Industry Response Evaluation.docx
B2 Creative Industry Response Evaluation.docx
Market Analysis in the 5 Largest Economic Countries in Southeast Asia.pdf
Market Analysis in the 5 Largest Economic Countries in Southeast Asia.pdf
ゲームのモデリング
1.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
2.
自己紹介 水野 景子
(みずの けいこ) • 関西学院大学社会学研究科D1 • 日本学術振興会特別研究員 (DC1) • Twitter: @Mizuno_K5 • ウェブサイト: http://keikomizuno.com/ 研究テーマ (専門は社会心理学) • 社会的ジレンマ状況での意思決定モデルの構築&実証 • サンクション(報酬や罰)の逆効果はなぜ起こるのか • 社会的価値志向性(SVO)を階層モデルで測定 2021/09/10 アヒル本読書会 2 @Mizuno_K5
3.
お話しする内容 Stanによるモデル内のパラメータ推定 階層モデルの推定がしやすいのもベイズ推定法の長所
自由にモデルを書けるうえ、それらの比較も簡単! 2021/09/11 Tokyo.R
4.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
5.
実験ゲームの統計モデリング 水野景子 (関西学院大学社会学研究科/日本学術振興会) 2021/09/11 Tokyo.R
6.
ギャラドス vs リザードン 2021/09/11
Tokyo.R こうげき 攻撃わざが効く場合と 効かない場合がある ギャラドス(自分) リザードン(相手)
7.
ポケモンを何も知らない人 2021/09/11 Tokyo.R こうげきわざ ・たきのぼり(水) ・パワーウィップ(草)
8.
強化学習 「たきのぼり」と「パワーウィップ」はそれぞれ こうげきが効く確率が決まっている • それぞれ60%と40%とする
その他 (自分が交代、”育て方”、すばやさ関係など)は一切無視 何度も繰り返すうちにどちらを選べばよいかわかる 2021/09/11 Tokyo.R
9.
Q学習モデル (1) 𝑄(𝑡+1) 𝑡𝑎𝑘𝑖 = 𝑄𝑡 𝑡𝑎𝑘𝑖 +
𝜶(𝑅𝑡 − 𝑄𝑡 𝑡𝑎𝑘𝑖 ) 𝑄(𝑡+1) 𝑘𝑢𝑠𝑎 = 𝑄𝑡 𝑘𝑢𝑠𝑎 + 𝜶 (𝑅𝑡 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 2021/09/11 Tokyo.R 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 たきのぼりとパワーウィップの価値(𝑄)が更新される 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 𝑹𝒕:報酬 攻撃がうまくいくと+100 𝜶: 学習率 1回の経験でどれほど Q値を更新するか(0~1) (履歴の参照度合いともいえる) 仮定 初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新 報酬の大きさや学習率はどちらのわざも同じ
10.
Q学習モデル (2) 2021/09/11 Tokyo.R Q値によってわざの選択が行われる たきのぼりが選ばれる確率𝑷(𝒕𝒂𝒌𝒊)は 𝑃
𝑡𝑎𝑘𝑖 = exp 𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 exp(𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 + exp(𝜷 ∗ 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 𝑃 𝑡𝑎𝑘𝑖 = 1 1 + exp(−𝜷 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 分母と分子をexp 𝛽 ∗ 𝑄𝑡 𝑡𝑎𝑘𝑖 で割る 𝜷: 逆温度 Q値の差をどれほど 行動に反映するか (探索傾向ともいえる) たくさん選択肢がある場合 二択の場合
11.
学習率𝜶と逆温度𝜷をStanで推定してみよう 2021/09/11 Tokyo.R 学習率: 1回の経験でどれほどQ値を更新するか
(履歴の参照度合い) 逆温度: Q値の差をどれほど行動に反映するか (探索傾向) ポケモンを知らない人を 集めてくる 40回試行錯誤
12.
ベイズ推定の本領発揮!階層モデル 2021/09/11 Tokyo.R ポケモンを知らない人たち 学習率と逆温度は ひとりひとり 違うのでは? 全員で共通の値 𝜶 𝜶
𝜶 一人ずつ推定 𝜶𝟏 𝜶𝟐 𝜶𝟑 個人差を扱えない! 推定効率がよくない! 階層モデルで推定 𝜶 𝜶𝟏 𝜶𝟐 𝜶𝟑 個人差も扱えるし推定効率もよい
13.
StanでQ学習モデルを書く(Q値の更新部分) 2021/09/11 Tokyo.R 個人ごとに学習率と逆温度を推定してね! 初回の価値(Q値)は0でよろしく! 選ばれたほうのわざだけ Q値を更新してね!
14.
StanでQ学習モデルを書く(わざの選択部分) 2021/09/11 Tokyo.R Q値の差と逆温度によって選択が決まる
15.
推定結果(個人ごと) 2021/09/11 Tokyo.R 学習率: 履歴の参照度合い。大きいほど直前しか見てない(0~1) 逆温度:
探索傾向。0のとき完全にランダムに選択
16.
今回使ったモデル (Q値の更新部分) 𝑄(𝑡+1) 𝑡𝑎𝑘𝑖 = 𝑄𝑡 𝑡𝑎𝑘𝑖 +
𝜶(𝑅𝑡 − 𝑄𝑡 𝑡𝑎𝑘𝑖 ) 𝑄(𝑡+1) 𝑘𝑢𝑠𝑎 = 𝑄𝑡 𝑘𝑢𝑠𝑎 + 𝜶 (𝑅𝑡 − 𝑄𝑡 𝑘𝑢𝑠𝑎 ) 2021/09/11 Tokyo.R 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 たきのぼりとパワーウィップの価値(𝑄)が更新される 次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差 𝑹𝒕:報酬 攻撃がうまくいくと+100 𝜶: 学習率 1回の経験でどれほど Q値を更新するか (履歴の参照度合いともいえる) 仮定 初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新 報酬の大きさや学習率はどちらのわざも同じ
17.
もっと色々考えられるよね? 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100に なるのでは 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは
18.
全部Stanで書けます! 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100に なるのでは 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは
19.
モデルの改良(1) 2021/09/11 Tokyo.R 攻撃がうまくいくと+100 っていう設定だったけど、 うまくいかなかったら-100にな るのでは 失敗したら報酬が-100になるif文を書く!
20.
モデルの改良(2) 2021/09/11 Tokyo.R 初めのQ値はどちらも0 っていう設定だったけど、 流石に水が炎に有利くらいは 知ってるだろ 初期値も推定するか重みをつける!
21.
モデルの改良(3) 2021/09/11 Tokyo.R 学習率はどちらのわざも同じ っていう設定だったけど、 「たきのぼり」がうまくいった ときのほうが覚えやすいのでは 学習率を2種類用意する!
22.
モデル同士の比較も簡単にできる 2021/09/11 Tokyo.R どのモデルがデータを予測できているか? 情報量規準による比較 事後予測チェック
23.
Enjoy ! Stanによるパラメータ推定をポケモン×強化学習で説明
階層モデルの推定がしやすいのもベイズ推定法の長所 自由にモデルを書けるうえ、それらの比較も簡単! 2021/09/11 Tokyo.R