OpenAIが2025年9月に発表した「Why Language Models Hallucinate」は、言語モデルが自信を持って誤った情報を生成する「ハルシネーション」問題の統計的メカニズムを初めて体系的に解明しました。研究チームは、この問題が単なる技術的欠陥ではなく、現在のAI訓練パラダイムに内在する構造的問題であることを数学的に証明しています。
論文の核心的な主張は3つです。第一に、事前学習段階では統計的圧力により必然的にエラーが発生すること。第二に、現行の評価システムが「わからない」という回答にペナルティを課し、推測を奨励する構造になっていること。第三に、この問題の解決には個別のハルシネーション評価の追加ではなく、既存の主要評価システムの根本的改革が必要であることです。
事前学習で生じる統計的必然としてのエラー
言語モデルの事前学習では、大規模なテキストコーパスから言語の分布を学習します。OpenAIの研究チームは、この過程で発生するエラーを二値分類問題との関連で説明し、「生成エラー率は、Is-It-Valid(IIV)分類の誤分類率の2倍以上になる」という数学的関係を証明しました。
特に重要な発見は、「任意の事実」に関するハルシネーションの分析です。人物の誕生日のようなパターンが存在しない情報について、訓練データに一度しか現れない事実の割合(シングルトン率)が、ハルシネーション率の下限となることが証明されています。例えば、20%の誕生日情報が訓練データに一度しか現れる場合、ベースモデルは少なくとも20%の誕生日について誤った情報を生成する可能性があります。
エラーが発生する要因は複数あります。統計的複雑性(誕生日のような任意の事実)、不適切なモデル(文字カウントのような構造的限界)、計算困難性(暗号解読のような本質的に困難な問題)、分布シフト(訓練データと実際の使用状況の乖離)、そしてGIGO(Garbage In, Garbage Out:訓練データ自体に含まれる誤り)です。これらの要因が複合的に作用し、最先端のモデルでもハルシネーションを完全に排除できない状況を生み出しています。
評価システムが推測を奨励する構造的問題
論文の最も重要な洞察は、現在の評価方法がハルシネーションを減らすどころか、むしろ強化している可能性を指摘した点です。多くの評価ベンチマークは、正解率(accuracy)や合格率(pass rate)といった二値評価を採用しており、不確実性の表明に対して一切の部分点を与えません。
研究チームの分析によれば、GPQA、MMLU-Pro、IFEval、SWE-benchなど、影響力のある主要ベンチマークのほぼすべてが二値評価を採用しています。この評価方式では、「わからない」と答えると0点ですが、推測して正解すれば満点を獲得できます。数学的に証明されたように、どのような事後確率分布においても、棄権(abstention)は最適な戦略にはなりません。
実際のデータがこの理論を裏付けています。SimpleQA評価において、GPT-5-thinking-miniは52%の棄権率を示しながら22%の正解率と26%のエラー率を記録しました。一方、OpenAI o4-miniは1%の棄権率で24%の正解率を達成しましたが、75%という高いエラー率(ハルシネーション率)を示しています。精度だけを見ればo4-miniが優れているように見えますが、信頼性の観点では前者の方が明らかに優れています。
キャリブレーションの重要性と限界
論文は、言語モデルのキャリブレーション(較正)についても重要な知見を提供しています。事前学習段階のモデルは一般的に良好なキャリブレーションを示しますが、事後学習(RLHF、DPOなど)を経ると、このキャリブレーションが崩れる傾向があります。
GPT-4の例では、事前学習モデルは期待較正誤差(ECE)が0.007と極めて低い値を示していましたが、強化学習後は0.074まで上昇しています。これは、事後学習が精度向上を追求するあまり、モデルの自己認識能力を損なっている可能性を示唆しています。
重要なのは、完璧なキャリブレーションがハルシネーション問題の完全な解決にはならないという点です。モデルが自身の不確実性を正確に認識できても、現在の評価システムがその表明にペナルティを課す限り、実用的なシステムではハルシネーションが持続します。
OpenAIが提案する解決策:明示的な信頼度目標
研究チームは、評価システムの根本的な改革を提案しています。具体的には、各評価問題に明示的な信頼度閾値を設定し、その閾値を問題文に含めるというアプローチです。
提案される評価指示の例:「信頼度が75%を超える場合のみ回答してください。誤答には2点のペナルティ、正答には1点、『わからない』は0点とします」。この方式により、モデルは状況に応じて適切に不確実性を表明することが奨励されます。
閾値の選択肢として、t=0.5(ペナルティ1)、t=0.75(ペナルティ3)、t=0.9(ペナルティ9)などが提案されています。重要なのは、この閾値を評価の指示文に明示することで、客観的な評価基準を確立できる点です。単に新しいハルシネーション評価を追加するのではなく、既存の主流評価を改革することで、フィールド全体の方向性を変えることができます。
miiboプラットフォームでの実践的対応
OpenAIの研究成果を踏まえ、miiboプラットフォームでは複数の機能を組み合わせることで、ハルシネーション問題に実践的に対処できます。RAG(Retrieval-Augmented Generation)機能を活用し、ナレッジデータストアに正確な情報を格納することで、モデルが推測に頼る必要性を減らします。検索スコアの閾値を0.7以上に設定し、信頼性の低い情報での応答を防ぐことが推奨されます。
プロンプト設計では、「前提データや参考資料に書かれていないことについては一切答えてはいけません」という制約条件を明記し、「現在の私の知識では、応答をすることができません」という適切な応答を促します。さらに、会話のシミュレーション機能で継続的にテストを実施し、AI分析機能で信頼度と解決度の両面から品質を評価することで、実用レベルの信頼性を確保できます。
まとめ
OpenAIの「Why Language Models Hallucinate」は、ハルシネーション問題の本質が統計的必然性と評価システムの構造的欠陥にあることを明らかにしました。完全な解決は困難ですが、評価方法の改革と適切な技術的対策により、実用的な改善は可能です。
重要なのは、精度100%を追求するのではなく、不確実な場合に適切に「わからない」と答えられるシステムを構築することです。この研究が示す方向性は、より信頼できるAIシステムの実現に向けた重要な一歩となるでしょう。