HUOXIU

ChatGPT はますます愚かになってきているのでしょうか?

機械が時間の経過とともに学習し、改善していく能力は、現代の人工知能の大きなセールスポイントです。しかし、8月初旬に発表された新たな研究によると、ChatGPTは特定のタスクにおいて、時間の経過とともにパフォーマンスが低下する可能性があることが示唆されています。

スタンフォード大学とカリフォルニア大学バークレー校の研究者による論文の草稿によると、ChatGPTをサポートするOpenAIの大規模言語モデル(LLM)GPT-3.5とGPT-4の結果にかなりのドリフトが検出されたという。

スタンフォード大学とカリフォルニア大学バークレー校の研究者は、GPT-4の数学スコアは3月から6月にかけて低下したのに対し、GPT-3.5の数学スコアは上昇したと指摘した。

3人の研究者には、スタンフォード大学の助教授であるマテイ・ザハリア氏、カリフォルニア大学バークレー校のリンジャオ・チェン氏とジェームズ・ゾウ氏が含まれます。マテイ・ザハリア氏は、Databricksの共同創設者であり、Apache Sparkの開発者です。

研究者らは、数学の問題、センシティブ/危険な質問への回答、世論調査への回答、マルチホップの知識集約型質問への回答、コードの生成、米国の医師免許試験、視覚的推論を含む 4 つのモデルを AI タスク テスト プラットフォームで実行しました。

結果は、LLMが提供した回答に大きな差異を示しました。研究者らは、GPT-4の6月版は3月版と比較して、数学の問題への回答において特に低いパフォーマンスを示したことを発見しました。思考連鎖(COT)ヒントを用いて素数を正しく識別する精度は、GPT-4が3月の84.0%から6月の51.1%に低下しました。一方、GPT-3.5の同じテストにおける精度は、3月の49.6%から6月の76.2%に向上しました。

著者らは、GPT-4の精度がこれほど低下した理由を検討し、COTの挙動が異なっていたことを発見しました。3月版では、研究者らがCOTプロンプトで要求した通り、タスクを複数のステップに分割していました。しかし、6月版のGPT-4では、中間ステップや説明は一切提供されず、単に(誤って)「いいえ」という回答を生成していました。(研究者らは、GPT-4が正しい回答を出した場合でも、動作を実演しなかったため、誤りを犯したと指摘しています。)

2つ目の数学の問題も同様の逸脱を示しました。それは、ハッピーナンバー(数学用語で、研究者らは「ある整数の2乗の和を繰り返して1になる場合、その整数はハッピーナンバーと呼ばれる」と記しています)の特定です。研究者らは「このタスクでパフォーマンスの著しい変化を観察した」と記しており、GPT-4の精度は3月の83.6%から6月には35.2%に低下しました。一方、GPT-3.5の精度は30.6%から48.2%に向上しました。ここでも、GPT-4は研究者らのCOT(Command of the Time)指示に従わなかったのです。

研究者がLLMにセンシティブな質問やリスクの高い質問を投げかけた際にも変化が見られました。GPT-4の質問への回答意欲は時間の経過とともに低下し、3月の21.0%から6月には5.0%に低下しました。一方、GPT-3.5はより積極的になり、2.0%から5.0%に増加しました。研究者たちは、OpenAIがGPT-4に「より強力なセキュリティレイヤー」を採用したのに対し、GPT-3.5は「より保守的でなくなった」と結論付けました。

スタンフォード大学とカリフォルニア大学バークレー校の研究者らは、GPT-4の世論調査への参加が3月から6月にかけて減少したと述べている。

フィードバック調査によると、GPT-4の提出率は3月の97.6%から22.1%へと大幅に減少しましたが、単語数(またはコメントの長さ)は30パーセントポイント近く増加しました。GPT-3.5の回答率と単語数はほぼ横ばいでした。

マルチホップ推論を必要とする複雑な質問への回答において、顕著なパフォーマンスの違いが観察されました。研究者らは、ヒントエンジニアリング機能を備えたLangChainと、マルチホップ質問への回答のためのHotpotQAエージェントを組み合わせた結果、GPT-4の完全一致生成精度が1.2%から37.8%に向上することを発見しました。一方、GPT-3.5の完全一致成功率は22.8%から14.0%に低下しました。

コード生成に関して、研究者たちは両方のLLMにおいて実行可能出力の減少を発見しました。3月にはGPT-4の出力の50%以上が直接実行可能でしたが、6月にはわずか10%でした。GPT-3.5でも同様の減少が見られました。研究者たちは、GPTがPython出力に余分なアポストロフィなどの非コードテキストを追加し始めたことを発見しました。この余分な非コードテキストは、ブラウザでのコードのレンダリングを容易にするためのものでしたが、結果的にコードを実行不可能にしてしまったのではないかと推測しました。

米国医師免許試験では、GPT-4の得点は86.6%から82.4%へとわずかに低下し、GPT-3.5は1%未満の低下で54.7%となりました。しかし、GPT-4の誤答も時間の経過とともに変化しており、3月の誤答の一部が修正されたことで、LLMの得点が6月には正解から誤答へと変化したことが示唆されています。

視覚的推論テストでは、両モデルともわずかな改善が見られました。しかし、全体的な精度(GPT-4では27.4%、GPT-3.5では12.2%)は依然として低いままでした。研究者たちは、これらのモデルが以前は正しく回答していた質問に対して誤った回答をすることを再び観察しました。

研究者らは、テスト結果から、GPT-3.5とGPT-4のパフォーマンスと動作が短期間で大幅に変化したことが示されたと記している。

「これは、アプリケーションにおけるLLMのドリフト挙動を継続的に評価・検証する必要があることを浮き彫りにしています。特に、ChatGPTのようなLLMが時間の経過とともにどのように更新されるかは透明性が欠けているためです」と研究者らは記しています。「本研究はまた、LLMの多面的な機能を均一に向上させるという課題も浮き彫りにしています。追加データによる微調整など、一部のタスクにおけるモデルのパフォーマンスを向上させると、他のタスクにおける動作に意図しない副作用が生じる可能性があります。同様に、GPT-3.5とGPT-4は、一部のタスクではパフォーマンスが低下しますが、他のタスクではパフォーマンスが向上します。さらに、GPT-3.5とGPT-4の傾向は異なる傾向があります。」

原作者:アレックス・ウッディー