三人称は破綻する！

　小説ジェネレータ

　人工知能（あるいは無能）によって小説を書かせるという試みは古来からあります。古くはPC-88の官能小説ジェネレータに始まり、星新一の作品をベースにした「作家ですのよ」や、近年ではディープラーニングを使用してハリーポッターを書かせるなどという試みもあるのだそうです。

たとえば、官能小説ジェネレータは10通りほどのテンプレートの中から、固有名詞や細かい枝葉の部分をランダムに入れ替えるという、比較的単純な実装になっていました。文章としては自然になりますが、出力の多様性は大きく制限されます。

また、マルコフ連鎖のようなある一定のプロセスをベースにしたものは、出力は非常に多様になりますが、話のフローやコンテキストが支離滅裂になりがちです。今現在発表されている成果が実際のところどうなのかという事を眺めてみると、一人称の小説を生成することは比較的易しく、三人称の小説を生成することは極めて難しいということに気付きます。

「作家ですのよ」を見てみると、一人称の小説を生成する場合、多少コンテキストを無視した文章が割って入ってきても「とりとめのない独白が混ざっているな」程度の印象で、それほど不自然な文章になりません。たとえば、次のような文章があるとします。

今日の夕食はハンバーグ。ニュースで川の増水をやっている。アメリカンフットボール。それでも私は眠気と戦う。明日も頑張ろう。

どう考えても全く無関係な5つの節を繋げただけですが、結の部分でなんとなく文章が締めくくられていれば、それなりに意味のある文章に見えてしまいます。

ところが、三人称はそうもいきません。三人称の文章として成立したものを書くには、少なくとも場の概念（今いつどこのシーンが描写されていて、そこに誰がいるのか・何があるのか）が必須になってきます。また、小説の中の登場人物と小説家のAIをそれぞれ別個の人格として扱うことがおそらく必要でしょう。

前述のハリーポッターを書かせるという試みは、ディープラーニングを使用したそうですが、文章としてみるととてもマルコフ連鎖チックで、文法は整っているものの、内容は混沌そのもので、場面が1行ごとに飛ぶというものでした。なにしろ、自然言語処理だけでは、そこに誰がいるのか、そこがいつどこなのかという概念は持ちえません。

では三人称で破綻しない小説を生成するにはどうすれば良いのでしょうか？

・官能小説ジェネレータのように脚本のテンプレートを使う
・「作家ですのよ」の人狼知能小説生成システムのように、ルールで定められた出来事しか起こらない箱庭の内で文章を生成する
　　（ゲームの進行状況を文章に変換する）
・本当に最低限の描写だけを行い、人間の想像力による補間に任せる
このようなことが考えられますが……

　ゲームにおける三人称問題

　近年、ゲームでもこの三人称問題が表出してきているようです。あるキャラクタの態度がシーンとシーンで違ったり、明らかにフラグが立っているのに立っていないかのような発言をする、といった細かい矛盾です。また、ゲームの製作規模が大きくなるにつれ、シナリオがそもそも複数人での分業であったり、下手をすればあるエリアとあるエリアでテキストを書いている人がまるきり違う、といったことが当たり前になってきていますが、こうした体制は非常に矛盾を発生させやすいのです。大筋の脚本は緻密に丁寧に作られているのに、実際にプレイしての感覚はまるで素人が作ったかのような支離滅裂さのゲームを見たことがあるかと思います。

プレイヤー＝操作キャラクタで、NPCは完全な他者である一人称のゲームと、キャラクタ同士の相互のインタラクションが多発する三人称のゲームでは、矛盾の目立ち方がだいぶ違います。一人称のゲームでは、プレイヤーの注視点は常にプレイヤー自身にありますが、三人称のゲームでは色々なゲーム中のキャラクタや事象にプレイヤーの注目が移ります。たまたま、その時感情移入していたキャラクタが、明らかにその場のコンテキストと矛盾したことを言うと、全体がさめてしまいかねません。一人称のゲームで無名のNPCが奇怪な行動を取っても数分後には忘却の彼方ですが、三人称のゲームで苦楽をともにしてきた主役級のキャラクターが唐突によそよそしいセリフを吐いたりすると、作品全体の評価を落とすことになりかねません。

また全体的な傾向として、西洋の（特にアメリカの）ゲームは一人称が多く、今昔も演劇的なシナリオが好まれる日本のゲームは三人称であることが多いようです。

そもそも、何故このような問題が起きてしまうのかという根本的な部分を考えてみます。最近、個人的によく議論をさせていただいている、あるAI先端技術の先生によると、物語は3つのレイヤーに分けて考えられ、「テール」と「ナラティブ」が合わさって「ストーリー」となるのだといいます。

テール
個の視点　「今日食べたクレープがおいしかった」

ナラティブ
神様の視点　「ゲルマン民族は○○世紀に北インドへと移動した」

ストーリー
物語
「リーが中国から日本へやってきて3日目、彼は初めて和食に直面した。『そのかき混ぜているものはなんだ』聞けば納豆なるものだという。彼にはそれが得体のしれないグロテスクなものに思え、つい皮肉が口をついて出た。『君たちはこんな怪物の卵を食べているのかね』やめよう。日本人に換骨奪胎されたあのラーメンのほうがまだマシだ」

ナラティブをロジックに変換することは比較的簡単です。たとえば、箱庭ゲームやストラテジーゲームはまさに上記のナラティブの部分を切り取ったものと言えます。また、A地点からB地点に移動する・次から次へと落ちてくるブロックをはめていくといったアクションゲームの反復構造は、ロジックによってドライブされています。

一方、テールをロジックに変換することは人格をモデリングするということに等しく、大変困難です。現在の技術的限界を見てみると、ディープラーニングは与えられた画像が「猫なのか否か」を処理することは得意ですが、「犬なのか猫なのか、それともそれ以外の何かなのか」を判別することは苦手としています。テールとなりえるレベルの人格をモデリングするには、ごくごく狭い箱庭の一単位であるデータセット同士を自由に接続して想像（妄想）することができるようなレベルの知能が必要だと考えますが、おそらくAIの特異点が来ない限りは不可能でしょう……（そもそも、学習元となるデータセットをAI自身で歩いて見て聞いて集めることができず、「人間さま」がAIに与えてやっている限りは特異点が来ることはなさそうですが、仮にAIが完全に自立できても、ゲームにおいてはここでクリス・クロフォードの言う完璧な箱庭を作っても滑稽な笑いにしかならない問題が出てくるものと思います）。

ほぼ100%テールによってドライブされるゲーム（例えば、インタラクティブフィクションや、ノベルゲームの類）では、シナリオライターの想定していないゲームのフローは基本的に起こりえません。一方で、テールを重視するゲームでもRPG、アドベンチャーゲームやオープンワールドゲームの類は、ゲームのフローが一定しておらず、シーンからシーンへと飛び飛びにシャッフルされて再生されることも珍しくなく、「1行ごとに場面が飛ぶ」ような破綻を発生させます。

ゲームにおいてナラティブとテールの食い合わせは基本的に悪く、ロジックでテールを表現しようとすると滑稽な笑いになってしまうか、そもそもプレイヤーからはテールが見えず、意味が殆どないかのどちらかになりがちです。「パワーモンガー」「トロピコ」といったゲームには、ほとんど全てのゲーム上のキャラクタに細かい感情や個人史がプロシージャルに設定されますが、そうしたゲームにおいてはプレイヤーは神の視点でゲーム内の物事を見ており、神さまの仕事にあまりにも忙しく、キャラクタ＃256がドラマチックに親の敵に復讐しても、恋人にプロポーズしても、そもそもその場面に気付くことすらできません。

ゆえに、テールを表現しようとするゲームではロジックとテールが切り離されていることが普通であるように思います。つまり、道具屋の店員を弓矢で殺しても翌日にはケロっとして復活するが、ゲーム上重要なキャラクタがシナリオ上殺されると復活しないわけです。

これが、コンピューターでストーリーテリングをするということの難しさであって、今のゲームにおいては大規模な製作における技術的な限界としてもその影響が現れているように思います。

2018.07.12