HUOXIU

すごい!Google DeepMind の新しい論文では、超人的なパフォーマンスを持つ AI によって設計された大規模言語モデルに最適なプロンプト語が明らかにされています。


出典 | 量子ビット

プロンプトに「深呼吸してください」を追加すると、AI モデルの数学スコアがさらに 8.4 ポイント向上します。

Google の DeepMind チームは最近、この新しい「マントラ」(深呼吸)とおなじみの「一歩ずつ考えましょう」を組み合わせることで、GSM8K データセットの大規模モデルのパフォーマンスが 71.8 から 80.2 に向上することを発見しました。

さらに、最も効果的なプロンプトはAI 自身によって発見されました

一部のネットユーザーは、深呼吸をすると冷却ファンの速度が上がると冗談を言った。

また、高給の仕事に就いたばかりのエンジニアは、その仕事に就いている期間が短いかもしれないので、深呼吸をすべきだと提案する人もいた。

関連論文「大規模言語モデルをオプティマイザーとして利用する」が再び大きな話題を呼んでいます。

具体的には、大規模モデル自体によって設計されたプロンプトは、Big-Bench Hard データセットで最大 50% の改善を達成しました。

「最適なプロンプト語はモデルごとに異なる」という事実に注目する人もいます。

さらに、この論文では、プロンプトの設計タスクに加えて、線形回帰や巡回セールスマン問題などの古典的な最適化タスクにおける大規模モデルの能力もテストしました。

モデルが異なれば、最適なプロンプト語も異なります。

最適化の問題はどこにでもあり、微分と勾配に基づくアルゴリズムは強力なツールですが、実際のアプリケーションでは、勾配が適用できない状況に遭遇することがよくあります。

この問題に対処するために、チームは、言葉を促すことで最適化する「OPRO」と呼ばれる新しい手法を開発しました。

最適化問題を正式に定義してプログラムで解決するのではなく、最適化問題を自然言語で記述し、新しいソリューションを生成するために大規模なモデルを必要とします。

1 枚の画像の要約は、本質的には大規模なモデルへの再帰呼び出しです。

各最適化ステップでは、大規模モデルは以前に生成されたソリューションとスコアを入力として使用して新しいソリューションとスコアを生成し、それらをプロンプト単語に追加して次の最適化ステップで使用します。

この論文では、評価モデルとして主に Google のPaLM 2と Bard のtext-bisonバージョンを使用しています。

さらに、オプティマイザーとして GPT-3.5 と GPT-4 が使用され、合計 4 つのモデルになります。

結果は、異なるモデルが異なるプロンプト ワード スタイルを設計するだけでなく、適用可能なプロンプト ワード スタイルも異なることを示しています。

これまで、GPT シリーズの AI によって設計された最適なプロンプト ワードは、「**正しい答えが得られるように、これを段階的に実行してみましょう。**」でした。

このプロンプトはAPEメソッドを使用して設計され、ICLR 2023で論文が発表されました。GPT-3(text-davinci-002)で人間が設計したバージョン「Let's think step by step」を上回りました。

しかし、Google の PaLM 2 と Bard では、基準としての APE バージョンは人間のバージョンよりもさらに悪い結果となりました。

OPRO メソッドを使用して設計された新しいプロンプトのうち、「深呼吸する」と「この問題を分析してください」が PaLM に最も効果的でした。

Bard モデルのテキスト バイソン バージョンでは、より詳細なプロンプトが推奨されます。

この論文では、数学的最適化装置における大規模モデルの可能性も実証しています。

線形回帰は、連続最適化問題の一例です。

巡回セールスマン問題は、離散最適化問題の一例です。

ヒントだけで、大規模なモデルでも適切なソリューションを見つけることができ、場合によっては手動で設計されたヒューリスティック アルゴリズムに匹敵するか、それを上回る結果を出すこともあります。

しかし、研究チームは、大規模モデルが従来の勾配ベースの最適化アルゴリズムに取って代わることはできないと考えています。問題規模が大きい場合(ノード数の多い巡回セールスマン問題など)、OPRO法のパフォーマンスは低下します。

将来の改善に関して、チームは、現在の大規模モデルではエラー事例を効果的に活用できず、大規模モデルでエラーの原因を捉えるには、単にエラー事例を提供するだけでは不十分であると指摘しました。

有望な方向性の 1 つは、エラーケースに関するより豊富なフィードバックを組み込み、最適化の軌跡において、生成された高品質プロンプトと低品質プロンプトの主な機能の違いを要約することです。

この情報は、オプティマイザー モデルが以前に生成されたヒントをより効率的に改善するのに役立ち、ヒントの最適化に必要なサンプルの数をさらに削減できる可能性があります。

この論文では、最適なキーワードの提案が多数発表されています。

この論文は、GoogleとDeepMindの合併後に設立された部門からのものだが、著者は主にQuoc Le氏やZhou Dengyong氏など、元のGoogle Brainチームのメンバーである。

2人の卒業生は、復旦大学卒業生でコーネル大学博士号を取得した楊成潤さんと、上海交通大学卒業生でカリフォルニア大学バークレー校博士号を取得した陳欣雲さんです。

研究チームは論文の中で、映画の推薦や映画タイトルのパロディといった実用的なシナリオを含む、実験から得られた多数の最適なプロンプトも提供しており、必要な人は自由に利用できます。

論文の宛先:
https://arxiv.org/abs/2309.03409