Appleが発表した「AIは複雑な問題の前で思考を停止する」という衝撃的な研究は、AI業界に大きな波紋を広げた。しかし、その結論に真っ向から異を唱える論文が発表され、議論は新たな局面を迎えている。AIは本当に「思考の壁」にぶつかったのか、それとも我々が使う「物差し」が間違っていたのか。
発端:Appleが投じた一石「思考の幻想」
2025年6月初旬、Appleの機械学習研究チームが発表した論文「The Illusion of Thinking(思考の幻想)」は、瞬く間にAIコミュニティの話題を席巻した。その内容は、OpenAIの「o」シリーズやGoogleのGeminiといった最先端の「大規模推論モデル(Large Reasoning Models, LRM)」でさえ、真の意味で「思考」しているわけではない、と結論付けるものだったからだ。
Appleの研究者らは、「ハノイの塔」や「川渡りパズル」といった、認知科学で古くから用いられる計画問題をAIに解かせた。これらのパズルは、ディスクの枚数や登場人物を増やすことで、難易度を段階的に調整できる。
実験の結果は衝撃的だった。
パズルの難易度が低い場合は、推論モデルは高い正解率を示した。しかし、ある一定の複雑さを超えた途端、モデルのパフォーマンスは突如としてゼロに急落。研究者らが「推論の崩壊(reasoning collapse)」と呼んだこの現象は、多くのモデルで共通して観察された。
さらに興味深いのは、高難度の問題に直面したモデルが、推論に費やす計算リソース(トークン)を減らし始めたことだ。Appleの研究チームはこれを、モデルが「問題を解くのを諦めた」兆候だと解釈した。
この論文は、「今日のAIは、未知の問題を論理的に解くのではなく、訓練データから学んだ膨大なパターンを照合しているに過ぎない」という見方を補強するものとして、広く受け止められた。SNS上では、「AppleがAIの限界を証明した」といった趣旨の投稿が飛び交い、AIの能力に対する懐疑的な空気が一時的に強まったのは事実だ。
静かなる反撃:「思考の幻想」がもたらした幻想
しかし、このAppleの主張に、鋭いメスを入れる研究者が現れた。非営利団体Open Philanthropyの研究者であるAlex Lawsen氏が、驚くべき共著者と共に発表した論文「The Illusion of the Illusion of Thinking(『思考の幻想』という幻想)」である。その共著者とは、何を隠そう、Anthropic社が開発したAIモデル「Claude Opus」そのものだ。
この反論論文は、Appleが観測した「推論の崩壊」は、AIモデルの根本的な能力の限界を示すものではなく、実験の設計そのものに内在する欠陥の結果であると喝破した。Lawsen氏らが指摘した致命的な問題点は、主に3つに集約される。
欠陥1:見過ごされた「トークン上限」という物理的制約
Lawsen氏らがまず指摘したのは、多くのAIモデルに課せられている「出力トークン数」の上限だ。トークンとは、AIが文章を処理・生成する際の基本単位であり、一度に出力できる量には限りがある。
Appleの実験でモデルが「崩壊」したとされる8ディスク以上の「ハノイの塔」を解くには、膨大な数の手順をリストアップする必要がある。例えば、10ディスクの解法は1023手、15ディスクでは32,767手にも及ぶ。これは、多くのモデルが設定している出力トークン数の上限を優に超えてしまう。AIは、まるで「与えられた小さなメモ用紙一枚に、長編小説の全文を書き写せ」と命じられたようなものだった。
Lawsen氏らが実際のモデルの出力を検証したところ、モデルが「パターンは続きますが、トークンを節約するためにここで停止します」と、自ら出力上限を認識して処理を中断しているケースが発見された。つまり、モデルは「解けなくて諦めた」のではなく、「物理的に書ききれないからやめた」だけだったのだ。Appleの評価手法は、この違いを区別できていなかった。
欠陥2:そもそも解けない問題で「不正解」とされたモデルたち
さらに深刻な問題が、「川渡りパズル」の実験で見つかった。Lawsen氏らの分析によると、Appleが使用した問題設定の一部には、登場人物とボートの定員の組み合わせ上、数学的に解決不可能なものが含まれていたという。例えば、ボートの定員が少なすぎて、指定された全員をルール通りに川の対岸に渡すことが原理的にできない問題だ。
当然、AIモデルはこれらの問題を解くことができない。しかし、驚くべきことに、モデルが「この問題は解けません」と正しく結論づけたにもかかわらず、Appleの自動評価システムはそれを「不正解」としてカウントしていた。これは、優秀な探偵に解決不可能な事件を提示し、「犯人を見つけられなかったから無能だ」と断じるような、不条理な評価と言えるだろう。
欠陥3:柔軟性を欠いた「完璧主義」の評価システム
3つ目の罠は、評価方法そのものの硬直性にある。Appleの自動評価パイプラインは、AIが生成した解答の「一字一句の完全性」のみを基準にしていた。たとえAIの内部的な戦略(思考プロセス)が完璧に正しかったとしても、最終的な出力が途中で切れていたり、フォーマットが少しでも異なっていたりすれば、即座に0点と判定された。
思考の「質」ではなく、出力の「形式」だけを問うこのやり方は、AIの真の能力を見誤らせる。AIは正しい答えを知っていたかもしれない。しかし、それを書き出すための「紙」が足りなかったり、指定された「書き方」が窮屈すぎたりしたために、その能力を発揮できなかった可能性がある。
「問い方」を変えれば、AIは再び思考を始める
では、実験の「欠陥」を取り除けば、結果はどう変わるのか。Lawsen氏らは、これを検証するために代替実験を行った。
彼らはモデルに対し、「ハノイの塔」の全手順を延々と書き出させる代わりに、「解法を導き出すプログラム(Lua言語の関数)を生成せよ」と指示した。これは、単なる手順の記憶力ではなく、問題の構造をアルゴリズムとして理解しているかを問う、より高度なテストと言える。
結果は劇的だった。
Claude、Gemini、OpenAIのo3といったモデルは、Appleの実験ではゼロ点だった15ディスクの「ハノイの塔」についても、アルゴリズム的に完全に正しいコードを問題なく生成したのだ。出力に必要なトークン数も5,000程度に収まり、物理的な制約もクリアできた。
これは、モデルが「思考」していなかったのではなく、その思考を表現する「出力形式」が不適切だった可能性を強く示唆している。まるで、非常に有能な建築家に、設計図ではなく、レンガを一つ一つ積み上げる全工程を口頭で説明させようとして、「彼には建築能力がない」と結論づけてしまうようなものだ。
さらに、ブロガーのSean Goedecke氏は、自身の分析記事で別の興味深い視点を提示している。彼によれば、モデルは複雑な問題に直面したとき、単に「諦める」のではなく、「力ずくで全手順を解くのは非効率だと判断し、より賢いショートカットや一般化された解法を探そうとしている」のではないか、というのだ。この試みがうまくいかずに結果として失敗しているが、その動機自体は、単なるパターンマッチングを超えた、ある種のメタ認知的な「判断」と言えるかもしれない。
なぜこの論争は重要なのか?学術論争に終わらない理由
この一連の応酬は、単なるAI研究者間の意見の相違にとどまらない。我々がAIというテクノロジーとどう向き合うべきかについて、いくつかの重要な教訓を含んでいる。
第一に、AIの能力評価の難しさと重要性だ。「評価設計は、モデル設計と同じくらい重要である」というコンセンサスが、この一件でより強固になった。ベンチマークのスコアだけを見てAIの能力を判断するのは危険であり、そのテストが何を、どのように測っているのかを深く理解する必要がある。
第二に、エンタープライズ領域における実践的な示唆だ。企業が自社の業務にAIを導入する際、モデルが特定のタスクで「失敗」したように見えても、それは必ずしも能力の限界を意味しない。プロンプト(指示)の与え方、タスクの分解方法、あるいは出力形式の指定を変えるだけで、パフォーマンスが劇的に改善する可能性がある。この論争は、AIを使いこなす側にも「賢い問い方」が求められることを教えてくれる。
そして最後に、「思考とは何か」という根源的な問いを我々に突きつける。人間でさえ、1000ステップを超えるような複雑な論理パズルを、ペンも紙も使わずに頭の中だけで完璧に解ける者は稀だ。それをAIができないからといって、「思考していない」と断じるのは早計ではないだろうか。
AIは壁にぶつかったのか、我々が壁を作ったのか
Appleの「The Illusion of Thinking」は、AIの能力を過信することなく、その限界を冷静に見極めようとする重要な問題提起であったことは間違いない。その功績は大きい。
しかし、Lawsen氏とClaudeによる「The Illusion of the Illusion of Thinking」は、我々がAIの能力を測るために使っていた「物差し」そのものが、AIの可能性を狭める「壁」になっていた可能性を鮮やかに暴き出した。
この論争を経て、AIを巡る議論は「AIは思考できるか?」という漠然とした問いから、「我々はAIの思考力を、いかにして正しく、公平に評価できるか?」という、より具体的で成熟した問いへとシフトしつつある。
AIが思考の壁にぶつかったのではない。我々が、AIの思考力を測るための壁の作り方について、初めて真剣に悩み始めたのだ。この健全な葛藤こそが、人間とAIの未来をより建設的な方向へと導く原動力となるだろう。
論文
参考文献
- sean goedecke: The illusion of “The Illusion of Thinking”