CFR(Counterfactual regret minimization)でdudo
CFR で三目並べに続いてdudoというdiceゲームをCFRで書いてみた。
GitHubのソースコード
dudoのゲームルールはこちらを参照。
三目並べと比較すると、dudoは非完全情報ゲームなので、CFRを適用するにはちょうどいい対象である。
CFRの評価がしたかったので、ゲームの実装は実際のdudoに比べて下記のように簡略化してある。
200回ほどトレーニングをさせたCFRと、単純に相手のコールにひとつだけ上乗せをする戦略をとるBoarPlayerを戦わせたところ、大体75%ほどの勝率でCFRは勝利を収めた。
GitHubのソースコード
dudoのゲームルールはこちらを参照。
三目並べと比較すると、dudoは非完全情報ゲームなので、CFRを適用するにはちょうどいい対象である。
CFRの評価がしたかったので、ゲームの実装は実際のdudoに比べて下記のように簡略化してある。
- 1の目はワイルドカードとしてカウントしない。
- プレイヤーの数は二人
- 各プレイヤーが持つダイスの数は2つ。
200回ほどトレーニングをさせたCFRと、単純に相手のコールにひとつだけ上乗せをする戦略をとるBoarPlayerを戦わせたところ、大体75%ほどの勝率でCFRは勝利を収めた。
コメント
コメントを投稿