・前日。
運動なし。平日の運動はやはり難しいな。サーモンランがあると特に。
晩飯はシリアル120gくらい。
風呂は20分早く入浴。
ステロイド点鼻薬:起床後、夕方、夜。


・モデムを変えたのに早々にエラー。ということはモデムが原因じゃないのか。
回線側が原因なのかなぁ。ただまぁ本体しか取り替えてないので、一応まわりのケーブルとか各種も入れ替えてはみるか。平日にやるのはキツいが、できれば金曜の朝に歯医者に行く前に以前のを送り返したいしなー。
とはいえ火曜もサーモンランあるからキツいかな。やるなら水曜夜か。


・睡眠時間7~8時間くらい。
相変わらず断続的な覚醒自体はあるものの、再び二度寝はだいぶ安定してきた。特に終盤に二度寝できるようになってきたのは大きいかな。「たぶん6時くらいだけどまだまだ1時くらいで床についたばかりだって」とか思うだけで意外と脳味噌が騙されてくれてる感じがある。まぁ実際には別の何かが要因な気がするが。
そして家に置いてある方の市販のステロイド点鼻薬が切れたので、以前にアレルギー科でもらってきた点鼻薬を使うなどした。今朝は鼻詰まりがほとんどない状態で起きたので体感的にはこっちの方が良い気もするが、ここらへんはブレがあるからもう少し様子見か。安定して鼻詰まりがなくなるようならこっちの成分の市販品を探そうか。


・仕事。
ROMの方は安定してるようなので、突発的に作業が発生しない限りは通常通りの作業を進めて良さげ。ここらへんもローカルでコミットだけしておけるのでGitは良いな。
で、今日は引き続き画像切替。今日はちゃんと動けそうなので早速ある程度やってしまおう。


・仕事。
わりとあっという間に1つ目のコーディングが完了。これならもう片方もすぐに終わりそうだし、共通のやつもフォルダの場所さえ決まればあっという間に終わるだろう。
モチベの問題は体調の方が原因だったか。昨日は想像以上に悪かったんだな。今日も別に良くはないはずだが。
動作確認も完了。問題なし。これならコードだけでも今日中に準備は終わりそう。ゆっくりやっても十分間に合うから今日も短時間だけの作業としよう。


・そろそろゲーム理論の本を読みたいところ。今の体調とタスクならいけそうだが。


・行動ゲーム理論
まず「行動」という単語がアレだよなぁ。英語はBehavioralだから「振る舞い」が近い気がするんだけど、それはそれでダサいしな。まぁ難しいは難しいが、「実際の人間の振る舞いに則した理論を組み立てる」「人間が必ずしも論理的に妥当でない選択を行う」という部分が「行動」だけだと伝わらないよなぁ。
最初から脱線するが、「宝くじを買う心理」というのが今朝なんとなく理解できた気がする。あれは「金銭的な期待値」を考えてるんじゃなくて「心理的な期待値」を見てるんだな。つまり、「買わなくても外れても心理的には+0だが、宝くじが当たれば心理的に+たくさん」という感じ。実際にはガッカリ感とかもあるので外れたら微小にマイナスだろうし無限に金をかけるわけじゃないから金銭的な利得と多少のアレがあるのだろうけど。
あと、前提の確認になるが今回の自分の戦術における「心理」とは「どういうゲーム戦略を選ぶか」というものになる。戦法レベルの心理であれば「反応速度の低下」なども考えられるが、今回はゲーム理論をもとに考えるので戦術レイヤーだけ考えて良いだろう。たぶん。もしかしたら読んでて派生するかもしれんが。
というわけでようやく読書開始。
あぁ。句読点が論文のアレ(カンマとピリオド)になってる本は久々に読んだが読みづらいな。カンマとピリオドをパッと見で見分けるのは難しい。大学生の頃は普通に読み分けてたのにな。
イントロを読み終えたが、それなりに時間を食ってしまうな。何回かに分けるのなら項も区切るか。連続で読むわけでもないしな。


・というわけでまずは休憩。そろそろ昼飯の時間でもあるし。
夕方の眠気を軽減するためにも昼のどっかのタイミングはちゃんと休憩だけの時間を取らんとな。今のうちにそこらへんを正式に考えるか。
夕方の眠気が発生するのは「起床から8時間後」。自分の場合は9時起床だから17時前後に眠気が生じる。
で、その眠気はその少し前にちゃんと休憩を取る事で軽減できるらしい。おそらく1~2時間くらい前に15分程度の休憩を取れば良いのだと思うが、そうなると15~16時頃に15分の休みを取る感じになるか。となると、15時からしばらく休憩オンリーにすればいけるかな?
あとは仕事か。残りの画像切替は3箇所。1つ30分として1時間半。昼前にもう1個片付けておいた方が午後に休みやすいか。昼直後にもう1個片付けて、15時からの休憩後にもう1個片付けて今日の作業は終了、って感じで良いか。ひとまずそれで進めよう。


・仕事。
というわけで昼前にもう1つ作業しようと思ったが、残りのやつはちょっと地味に面倒か。単に切替処理を追加するだけでは終わらんな。
となると今日中に全てはムリか。自作ツール側の変更が必要なのもあるし、2日に分けるかな。今日はそのツールの対応もしてしまいたいので、そこらへんをやるか。バイナリの更新もあるからできればすぐにUPできる環境で作業したいが、明日やっても同じだから今日やろう。


・仕事。
昼前の段階でコード側の対応が完了。あとはツール~バイナリの対応をすればいけるはず。昼前はここまでかな。
昼後は作業して15時に休憩。その後にある程度作業して今日は終わりか。できればそこまでに2つ目の作業が終われば良いが。


・行動ゲーム理論:第0章。
まずは概要説明だが、この時点でわりと色々と考える要素があるな。まぁ概要とはいえ内容なんだからそりゃそうか。
第1章の説明。
「解の非決定性」。ゲームの均衡解が存在するにも関わらず、具体的には求めることができない。これはイカとかの実際のゲームでもだいたいそんな感じの気がする。これは捉え方というかフレームワークというかそういうのに関わりそうかな。
「限定合理性」。上記の均衡解に至らない状態でも想定される合理性、って感じか?この本では「効用関数(たぶん最終的な利得を出すための関数)」を利用し、それは「利己的」と「利他的」なものが想定される。タイマンでの対戦ゲームでは利他的というのは考えづらいが、イカのようなチーム戦では「利己的」と「利他的」の両方が普通に存在しうる。ここらへんの概念は重要だろう。さらに「効用の最大化はせず、ある程度の水準で満足するか」という分岐(「合理的」か「限定合理的」か)も想定している。これも確かにイカではそれっぽい状況が発生してる気がする。具体的に何かと問われるとすぐには出てこないが。
「プレイヤーの類型」。上記の「利己的 or 利他的」×「合理的 or 限定合理的」の4パターンがプレイヤーとして考えられ、古くからあるゲーム理論では「利己的&合理的」だけ想定されていたが、行動ゲーム理論では「利己的&限定合理的」と「利他的&合理的」まで拡張される。しかし「利他的&限定合理的」というのはあまり研究されていないらしい。前述の「戦術レイヤーにおける心理」はここらへんの切替は起こらないかな?少なくとも「利己的→利他的」になる可能性は考えづらい。ただ、特定条件下で「利他的→利己的」になる可能性は十分にある。そこらへんの遷移は今回の本ではなさそうか。
「2つのレイヤーの合理性」。「誰から見て合理的なのか」は正確に分ける必要がある。たとえば定番の「囚人のジレンマ」において「互いに協力する」場合。囚人達にとっては安定した利得を得ているので「合理的」だが、観察者側からすれば「裏切った方が大きい利得を得られる」ので「不合理」であるように見える。逆ならば逆になる。このように「誰から見て合理的か」は意識しないとズレる。
第2章の説明。
「混合戦略」。均衡点が存在しない場合に「確率で選ぶ」ようなゲーム戦略?イカで言えば「取れる手がいくつかあるがどれを取るべきか」的な状況かな。わりと多い気がする。で、これは「理屈上の確率」と「実際の現象での確率」はだいたい同じになるっぽいが、繰り返しゲームになると過去の結果によって左右される、という感じらしい。これはまさに「戦術レイヤーの心理」の話のように見える。
そういえば「協力ゲーム」という概念があったっけか?これは改めて調べたいところだな。
第0章だけでもだいぶ時間を食うか。一旦ここまで。


・仕事。
昼後になったので作業。
なんとか15時前に一応ツールまわりの対応が完了し、バイナリ生成~実行確認までいけた。画像のタイリングまわりをどうすれば良いのか確認が必要なものの、ひとまずはこれでOK。
今日はここまででも良いかな。それなりに作業したと思うし、残りの作業は1時間くらいじゃ終わらなそうだし。
ともあれ15時になったのでしばらく休憩。眠気が来るとキツいのでちゃんと休もう。


・マイクラ
そういやイカトラップが動いてなくて待機位置が悪いのかなと思ったが、川とか海に作らないとスポーンしなくなったのか。となると場所を変えないとなー。
ついでなので色々と見てみたが、色々な派生案はあるのな。とはいえそれほど効率を求めるようなものじゃないので、ひとまず動きさえすれば良いか。あとはちゃんとスケルトントラップの位置に待機していて動いてくれると良いが、近くの川でできるかなぁ。まぁ試すだけ試そうか。前回のでだいたい必要なものや作業量は把握できたし、今夜あたりいけるだろう。今夜もサーモンランがあるけども。


・なんとか16時まで休んだ。外出した方が休みやすいかもしれん。
とりあえずあとは次の作業の項目の洗い出しだけはしておこうか。それで多少やれそうなら進めても良いが、基本的にはそこまでで良いかな。


・仕事。
残りの画像切替まわりの作業洗い出しが完了。今日のツール側のよりはラクそうだが、フォルダの場所を決めないと動作確認もできないしツール側での設定もできないから早めに決めたいところか。明日はそこらへんからかな。
ともあれ今日はここまでにしよう。突発的なデバッグ作業の可能性もなくはないし。自分じゃなくても他の人のフォローに入る可能性がある。


・行動ゲーム理論:第0章。
第3章の説明。
「学習理論」。これもまた「戦術レイヤーの心理」の話っぽいな。ただ、ここでは「試行錯誤や直感の過程」を「学習」と呼んでいるように見える。
「信念学習」と「強化学習」。ここで学習の定義というかパターンが出てくるか。「信念学習」は「相手の戦略の学習」であり、「強化学習」は「自分の行動とその結果の学習」である。そして学習の過程は「初期値」に大きく依存する。簡単に言えば初心者ほどあれこれ逸脱した動きをするし、そこでたまたま「正解」に辿り着いたプレイヤーは素早く次のステージへ移る、という感じかな。まぁもっと色々とあると思うが。
第4章の説明。
ゲーム理論における予測と推論」。これもまた「戦術レイヤーの心理」に関係する話っぽいか。
「レベルK理論」。「レベル0=完全ランダムな行動を取る」とし、「レベルK-1=レベルKに対して最適な戦略を取る」とする再帰的な階層構造を有する理論か。初めて聞いたか?少なくとも想定はしていなかったな。一応、イカでもそれっぽく応用はできそうだが、単純な1次元の階層構造で十分とも思えない。
「心理学的ゲーム理論」。これは明確に初めて聞くが、簡単に言えば「Tit for Tat」の説明みたいな感じか。「良くしてくれたら良くし返すし、悪くされたら悪くし返す」。この部分は単純でわかりやすい原理ではあるが、イカに応用するのは相当難しい気がする。そう動いてるとは思えない。まだレベルK理論の方がマシな感じだろう。
第5章の説明。
「ロジット均衡」。これも明確に初めて聞く。合理性のパラメータを0~∞で変更することで、完全にランダムなプレイヤーから完全に合理的なプレイヤーまでを表現して統合する概念か。イカの場合、このパラメータの推定で相手のレベルを測る感じか?1次元で済むか?まぁ詳細見てからかな。
ていうか段々と付箋やら折り目やらが出てきたな。前の人の痕跡が多くなってきた。この後も続くんだろうか?まぁ読むぶんには問題ないが。
第6章の説明。
「コーディネーション問題」。複数のナッシュ均衡がある場合にどう選ぶか。イカで言えば「トキシラズのラッシュでどこに待機するか」という感じかな。ベストな(全員の利得が最も高い)場所はあるものの、自分以外の3人が他の場所に集結していたら自分もそちらに移動した方が良い。そこらへんの「誰が妥協すべきか」とかの話らしい。
「パレート支配基準」。パレートまわりは聞いたことがある気がするな。各プレイヤーの利得の和の最大化とかそこらへんか?
「リスク支配基準」。概要だけだとよくわからんが、「全てのナッシュ均衡に対して"そこから抜けたら皆が一番損する"ってところを選ぶ」って感じかな?他の人が抜けづらいものを選ぶMin-Maxに似た発想の概念だろうか。
「コミュニケーション」。特にここで重要なのは「言葉ではない単なる記号」であってもコミュニケーションが成立していきうるという事であり、つまりイカのようなノンバーバルなやり取り(ナイスとかはあるけど)もまた考慮対象たりうるってあたりかな。
「相関均衡」。概要だとちょっと言ってる意味がわからん。実際の章を見ないとダメか。
第7章の説明。
「メカニズム・デザイン論」。要は「外部的なシステムによってプレイヤーの戦略に干渉し、相関均衡がどうたらこうたら」という感じか。これはイカにはあまり関係ないが、しかしステージデザインなどはまさにそうしたメカニズム・デザインであり、「設計者がどういう意図でこのステージを作ったか」を汲み取り、それに最適な答を出すのには使えるかもしれない。まだよくわからん。
第8章の説明。
「群衆行動」。「個人」での意思・行動とはあたかも独立して「集団」の意思・行動があるかのような構造に関する云々かな。
とりあえず気になる部分のピックアップだけでも以上か。だいぶ時間がかかったな。これは週末までには読み終わらんな。となると、フェスで使えそうなものから読んでいくか。
具体的には「第2章:混合戦略」「第3章:学習理論」「第4章:予測と推論」あたりをまずは読みたいかな。第5章~第6章も気になってるが、時間的に厳しそうなのでまずはこの3つで。


・ともあれ一旦休憩。定時まで残り3時間くらいなので、1章くらいは読めるかなぁ。


・17時を過ぎたが、今のところ体調の悪化は見られないか。さっきトイレのために立ったがふらついたりはしなかったしな。
まぁあくまで起床後8時間「前後」だから影響が単に遅くなっただけって可能性もあるし、念のためしばらく休むかな?


・行動ゲーム理論:第2章:混合戦略。
まずは「混合戦略」について。
たとえば野球のピッチャーVSバッターで言えば、球種が特定されるとバッターが有利となる。つまりピッチャーとしては「確率で選ぶ」のが最も球種を特定されにくい方法となる。実際には「特定されたとしても打たれづらい球」といった感じで利得の変動はあるわけだが、ともあれこうして「確率で選択肢を選ぶ」というゲームが存在しうる。この状況において、「具体的にどういう風に確率を調整すれば利得が最大化されるか」に関するものが「混合戦略」なのだろうという認識。
で、さっきの例で言えば「バレてても打たれづらい球」を選択する確率を高めた方が明らかに利得の期待値は上がるわけだが、同時に「その球だけ選ぶ」とやはり利得は下がってしまう。つまり、多めにしつつも100%ではない確率で選ぶことになる。ここらへんの計算式については書いてあったが今回の自分には関係ないので飛ばしていこう。
重要なのはやはり「1回あたりでどの選択肢を選ぶか」という確率は机上の計算と一致するが、「何度もゲームを行う場合」には「過去の選択」に依存する、という点か。イカで簡単に言えば「相手の初手を潰した場合、相手の次の手は他のものを選ばれる可能性が高い」みたいな。これは学習にも関連するが、逆に「相手の初手が成功した場合も、相手の次の手は別のものが選ばれる可能性が高い」という感じ。なんにせよ「同じ手を何度も使う」というのは心理的に負荷が高いのは自分もよくわかるし、「同じ手を連続で使う可能性は低い」うえで「どの手を選ぶかは期待値などから計算される確率に収束する」って感じだ。ここらへんの確率の仮計算くらいはしてみても良いかもしれない。
というだけか。計算まわりを飛ばしたのもあるが、わりと早く読み終えたな。
計算に関しては「実際のデータを使う」ってのも重要かな。「サッカーのペナルティキック」とかも実際のデータをもとに計算してるし。イカも多少のデータはあるが、ここらへんの計算に実際に使えるものはないかな?とりあえず体感寄りになってしまうか。


・再び一旦休憩。
第2章を読んだ感じ、今回の本から直接何かを導出できる事はなさそうかな?しかし重要な視点とすでに存在する捉え方を知っておくのは道具として重要だろう。フェス前に改めて考える時間を取りたいところだな。


・行動ゲーム理論:第3章:学習理論。
いくつかの学習について説明されるようだが、早速「クールノー学習」が興味深い。
簡単に言えば「相手の直前に取った手に対して最適な手を選ぶ」という学習パターン。直前しか見てないものの、以前のストIIのやり取りはかなりこれで説明できる。つまり、第1ラウンドでダルシム側が完封したのでダルシムは第2ラウンドもそれと同じ手をとり、それを自分はクールノー学習により対策手を選んだ。その先の手は実際には同じではないものの「同じ心理」による選択なので読む事ができ、3回連続で読み勝った。ここらへんの「心理(戦術レイヤー)」に絡めて後で考えたいかな。まぁ他の学習とかも見てから。
「仮想プレー学習」。これは「クールノー学習」の「直前以外まで見た版」って感じか。これなら色々と学習できるのが示されているが、同時に「収束までに相当な回数が必要なこと」「初期値によって収束までの回数が大きく変化すること」も示されている。
強化学習」。ここでの強化学習は工学系における強化学習と同じなので説明は割愛。で、「試行錯誤(意図的に別の選択肢を選ぶ)」とか「忘却(古いデータの価値を低くする)」を導入してみるって感じかな。
簡単に言えば「信念学習」は相手の事しか見てないし、「強化学習」は自分の事しか見てない。イカで言えば「自分の事しか見てない」人が割合的にはだいぶ多い印象はあるが、ともあれこれらを両立できるような学習についても知りたいところ。ただ、そういった統合モデルも提唱されてはいるものの(Camerer and Ho 1999, H0, Camerer and Chong 2007)、それほど採用されてはいないっぽい。
実際の人間は「仮想プレー学習」に基づいて動いてはいないらしい。仮に相手の手が一定割合で収束しきっても、その相手の手の予測は周期的に変動していた。まぁ実際、「相手はさっきアレを選んだから」という風には考えるし、さらに実際相手も「さっきこの手を選んだから」という理由で手を変える事がある。トータルでは確率が収束するとしても、個人の手は完全にランダムにはならない感じだろう。
かの有名な?「モンティ・ホール問題」も出てきたな。これが直感に反するのは自分もそうだが、これを学習という観点から実験したところちゃんとした環境を整えれば利得の高い方を学習できるという結論になったか。ここらへんは学習に適切な環境に関わる話でもあり、そうなると「イカの実践で上手く学習するには?」という話にもなりうるか。ちょっと脱線が強そうなので今回は避けるが。
第3章終了。
とりあえず各学習に基づいた戦術の選択の変更について考えてみるのはアリか。


・定時まで残り1時間くらいだし、今回はここまでにするか。わりと読み進められてるな。


・しかし「採用するゲーム戦略そのもの(戦術)の変遷」みたいな話は出てこなかったな。ゲーム戦略そのものよりは単純に学習して手だけを変えていく感じか。学習の仕方はそう簡単には変化しなさそうだしなぁ。少なくともイカの試合中に変化する可能性は極めて低い。たまに覚醒する人も居るかもしれんが。
問題はどこまでこの学習だけで説明できるか。今回の学習だけで十分に説明できるなら、いちいち戦術操作まで広げる必要もない。まぁそれはそれとして個人的に考えたいところではあるが。
ストIIの件も意外とこれだけで説明できそうだしな。簡単に言えば「相手が自分を格下だと思っていたが、実際には同格だった」という話であり、おそらくは「レベルK理論」において「相手が自分のKを低く見積もっていたが故に失敗した」という感じで説明できそうな気はする。毎回「手」は違うものの、「対策の対策」というKの深さ自体は自分の方が3連続で1つ上だったからな。そこらへんの「Kの推定」を行うロジックとかで説明できるのかもしれない。これは第4章か。


・眠気的なものは微妙に感じるが、昨日よりはずっと良いな。体の重さは感じない。でもまぁちゃんと休んで終わろう。