Tokyo r94 beginnerssession3

初心者セッション3
- Introduction to rstan -
Tokyo.R #94
@kotatyamtema
1

自己紹介
TwitterID : @kotatyamtema
大学での専門: 行動生態学
立案捕獲実験分析までワンオペ
今まで : 客先ぼっち分析屋→アパレル通販会社
現在 : 医療検査会社
R歴 : 10年過ぎたかも？永遠の初心者
近況 : 相変わらず令和ちゃんの季節変化が雑すぎて
つらいです…
くれぐれも体調に気をつけましょう

目的
rstanとは何か
rstanの基本的な使い方が
分かるようになる

0. 事前準備
- projectの作成、パッケージのインストール、データハンドリング
0. 今回使用するデータとモデル
1. stanとは/rstanとは
2. rとstanの関係
3. 必要なファイル
4. stanファイルの書き方
5. MCMCの設定方法
6. MCMCの結果と評価
7. 参考資料
MENU

project1
.Rmd
project2
setwd()
project3
setwd()
setwd()
.Rmd
.Rmd
事前準備 -projectの作成
Rのprojectとは：
デ
ィレクトリとの紐付け（WD）、R環境などをまとめる仕組み
→projectを設定することで解析環境の切り替えが容易に
→複数の解析を同時に実行していると非常に便利

新しいフォルダを作ってWDにする
今あるフォルダをWDにする
右上にあるProjectをクリック
→New Projectを選択

新しいフォルダを作ってWDにする
今あるフォルダをWDにする
WDにするフォルダを選択
WDの名前(project名)
WDを置くフォルダを選択
✔
✔
projectで指定したWDに
[project名.Rproj]という
ファイルができていれば
設定完了

事前準備 -パッケージのインストール
今回必要なパッケージ
palmerpengunins, dplyr, ggplot2, rstan, bayesplot, shinystan
依存パッケージごとインストールする

dplyrパッケージとは
data.frameのデータ処理を扱うためのpackage
・特徴
- 関数を%>%でつないで実行していく
- 書いた順に実行される
- 考えた通りに書けるのでストレスが減る
- 他のdata.frameを扱うpackage(tidyrとか)の関数に
シームレスに渡せる
- 集計後に横持ちに変換して欠損を0埋めしてもう
一度縦持ちに戻すなんて処理がいっぺんにできる
事前準備 -データハンドリング
今回データハンドリングに使用するパッケージはdplyrパッケージ

dplyr:基本機能
関数
select
ﬁlter
mutate
group_by
summarise
join系
arrange
動作
列の選択
条件による行の抽出
列の追加
条件による行のグループ化
行の集約
data.frame同士の結合
行の並べ替え
今回データハンドリングに使用するパッケージはdplyrパッケージ
事前準備 -データハンドリング
詳細は別途公式HPや専門書など

今回使用するデータとモデル
今回使用するデータはpolmerpenguinsパッケージに入っている
penguins データ
https://allisonhorst.github.io/palmerpenguins/

penguins データからジェンツーペンギン(Gentoo)のデータのみ
抽出して体重とフリッパーの長さの単回帰モデルを作成する

glmで作成した体重とフリッパーの長さの単回帰モデル
flipper_length_mm ∼ 0.009*body_mass_g + 171.3
# Gentooのデータのみ抽出
# 欠損値(NA)を除外する
GentooData <- penguins %>%
filter(species == "Gentoo") %>%
filter(!is.na(flipper_length_mm) & !is.na(body_mass_g))

stanとは/rstanとは
stanとは
MCMCサンプリングの実行に特化したプログラム
単体でも色々可能だが今回はMCMCサンプリングのみ使用
rstanとは
Rとstanをつなげるためのラッパーパッケージ
stanの実行条件を指定して実行
またstanの出力結果を見やすくするための関数多数

rとstanの関係
町工場の分業体制
R
データ加工、可視化
stan
MCMCサンプリング
rstan
データと設定
サンプリング結果

必要なファイル
今回必要なファイルは2種類
1. データの前処理やサンプリング設定を書いたR/Rmdファイル
2. stanが実行するモデルの設定を書いたstanファイル
- 今回は penguin_glm.stan というファイルを作成
- stanファイルはRStudioで作成可能
- 文法チェック機能あり:Check on Save（ただしちょっと重い）

stanへのデータの渡し方
stanにはリストにしたデータを渡す
- stanファイルに記載するデータ名を要素名にしてリスト化
- stanは欠測値を受け付けないので除外しておく
stanファイルではlistの要素名を使って書く
- 混乱しない、間違いにくいことが大事
GentooData_list <- list(
N = NROW(GentooData), #サンプルサイズ
ﬂipper_length = GentooData$ﬂipper_length_mm, #フリッパーの長さ
body_mass = GentooData$body_mass_g #体重
)

stanファイルの書き方
1. stanに渡す設定はブロックごとに分けて書く
ブロックの構成(7ブロック)
functions / data / transformed data / parameters /
transformed parameters / model /generated quantities
- 必須はmodelのみ
- ブロックの順番は変更不可
- 今回使うのは data / parameters / model
2. ブロックは中括弧で囲む
3. 行の最後には必ずセミコロンをつける
4. コメントアウトは//(スラッシュ2本)
5. ファイルの最終行には必ず空白を入れる

dataブロック
サンプルサイズとデータを指定
- データ型と名前を指定、一部のデータ型ではサンプルサイズを明
記する
- int N; Nは整数である（int：整数型）
- vector[N] flipper_length; flipper_lengthはN個のベクトル
- vector[N] body_mass; body_massはN個のベクトル
data {
int N; // サンプルサイズ
vector[N] flipper_length; // フリッパーの長さ
vector[N] body_mass; // 体重
}

parametersブロック
モデルで推定するパラメータの指定
今回のモデル：ﬂipper_length = beta * body_mass + Intercept
ﬂipper_length[i] Normal(mu[i], sigma)
mu[i] = beta * body_mass[i] + Intercept
推定すべきパラメータは beta, Intercept, sigma
- 今回はすべてのパラメータがreal(実数)
- 標準偏差であるsigmaのみ絶対0以上になるため<lower=0>の
条件を追加
parameters {
real Intercept; // 切片
real beta; // 係数
real<lower=0> sigma; // 標準偏差

modelブロック
観測値の分布を指定
今回のモデル：flipper_length = beta * body_mass + Intercept
flipper_length[i] Normal(mu[i], sigma)
mu[i] = beta * body_mass[i] + Intercept
flipper_length[i] Normal(beta*body_mass[i]+Intercept, sigma)
→ fliiper_lengthは平均(Intercept + beta*body_mass)と標準偏差
(sigma)の正規分布に従う
model {
for (i in 1:N) {
flipper_length[i] normal(Intercept + beta*body_mass[i], sigma);
}
}

MCMCの設定と実行
stan関数で指定するMCMCの設定
今回設定する引数
- ﬁle, data, seed, chains, iter, warmup, thinの7つ
Gentoo_stan_result <- stan(
ﬁle = penguin_glm.stan", # モデルを記載したstanファイルへのパス
data = GentooData_list, # stanに渡すデータリスト
seed = 71, # 乱数シード
chains = 4, # 乱数生成のセット数
iter = 3000, # 1セットの乱数生成の繰り返し数
warmup = 1000, # 初期生成乱数の切り捨て期間
thin = 1 # 間引き（1だと間引きなし）
# 大きくすることで自己相関を緩和する
)

MCMCの結果と評価
MCMCの結果で評価しないといけないこと
・MCMCの有効サンプルサイズが十分かどうか
- あまりにも少ない（参照100以下）場合は改良が必要

・サンプリング結果が収束しているか
- すべてのパラメータのRhatが1.1未満かどうか

- トレースプロットを作成、すべてチェーンが同じようなトレース
になっていることを確認
- bayesplot:mcmc_combo関数で事後分布とトレースプロットが
同時に確認できる
# stanの結果からMCMCサンプルを抽出
Gentoo_stan_sample1 <- rstan::extract(Gentoo_stan_result, permuted = FALSE)
# パラメータ（Intercept, beta, sigma）を指定してトレースプロットを作成
mcmc_combo(Gentoo_stan_sample1, pars = c("Intercept", "beta", "sigma"))

自己相関が十分低いか
- bayesplot:mcmc_acf_barで可視化できる
- Lagが0に集まっているほど良い

モデルの収束確認完了

目標
ﬂipper_length_mm ∼ 0.009*body_mass_g + 171.3
推定結果
ﬂipper_length[i] Normal(0.009*body_mass[i]+171.3, 4.68)

妥当なモデルの推定成功
千里の道も一歩から
複雑なモデルの作成も
簡単なモデルから

もっとビジュアライズされた結果の評価ツール
shinyrstanパッケージ
参照サイト:RStanとShinyStanによるベイズ統計モデリング入門
https://www.slideshare.net/masakitsuda940/rstanshinystan

本
StanとRでベイズ統計モデリング (Wonderful R)
松浦健太郎、石田基広
実践Data Scienceシリーズ RとStanではじめるベイズ統計モデリン
グによるデータ分析入門
馬場真哉
slideshare
RStanとShinyStanによるベイズ統計モデリング入門
Stan超初心者入門
blog
Kosugitti s BLOG アンドロイドは正規分布の夢を見るか
Logic of Blue
参考資料

Tokyo r94 beginnerssession3

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Tokyo r94 beginnerssession3

Similar to Tokyo r94 beginnerssession3 (17)

More from kotora_0507

More from kotora_0507 (8)

Recently uploaded

Recently uploaded (9)

Tokyo r94 beginnerssession3