HUOXIU

GPT-4が盛大なリリースを迎えました。どのようなアップグレードや変更点が含まれていますか?

出典: テンセントテクノロジーエンジニアリング


著者: qizailiu、Tencent IEG アルゴリズム研究者

昨日、OpenAIは最新の画期的なAI言語モデルであるGPT-4をリリースしました。GPT-4は、画像とテキストの入力を受け付け、テキストを出力する大規模なマルチモーダルモデルです。多くの実世界のシナリオにおける能力は人間に及ばないものの、様々な専門的および学術的なベンチマークにおいて人間レベルのパフォーマンスを示しました。

序文

この記事は主にOpenAIのGPT4に関する公式ブログを参照しています。現在、様々な公開アカウントにおけるGPT4に関するコンテンツのほとんどは、公式ブログ、技術レポート、公式動画から引用されています。関連コンテンツへのリンク:

公式ブログアドレス: GPT-4

公式ChatGPT Plusトライアルアドレス:https://chat.openai.com/auth/login?next=/chat

公式技術レポートのアドレス: https://cdn.openai.com/papers/gpt-4.pdf

公式ビデオケーススタディリンク: https://www.youtube.com/live/outcGtbnMuQ?feature=share


1. GPT4の紹介

OpenAIは、最新のマイルストーンとなる大規模マルチモーダルモデル(画像とテキストの入力を受け付け、テキストを出力する)GPT-4をリリースしました。現状では多くの現実世界のシナリオにおいて人間の能力に及ばないものの、様々な専門的・学術的なベンチマークにおいて人間レベルのパフォーマンスを示しています。例えば、模擬司法試験では、GPT-4は受験者の上位10%のスコアを獲得しましたが、GPT-3.5は下位10%でした。GPT-4は、OpenAIが敵対的テスト手順とChatGPTで蓄積された経験を活用し、6ヶ月にわたる反復的な調整を経て誕生しました。完璧とは程遠いものの、このモデルは「これまで以上に創造的で協調的」であり、「困難な問題をより正確に解決する」とされています。


2. GPT4エクスペリエンスメソッド

2.1 チャットGPTプラス

ChatGPT Plus(OpenAIの月額20ドルのChatGPTサブスクリプション)を通じて一般公開されます。ChatGPT Plus加入者は、chat.openai.comでGPT-4への制限付きアクセスを取得できます。

2.2、ニュービング

NewBingはGPT-4で動作し、OpenAIが開発したBing検索のカスタムバージョンです。NewBingポータルから体験できます。

2.3 GPT-4 API

GPT-4 APIは、限られた数の開発者に試用いただけます。GPT-4 APIのウェイティングリストへの登録が必要です。登録後、プロンプトが表示されます。アクセス権限を取得すると、GPT-4モデルにプレーンテキストリクエストを送信できます(画像入力はまだ限定的なアルファ段階です)。料金は、プロンプトトークン1,000個あたり0.03ドル、生成トークン1,000個あたり0.06ドルです。デフォルトのレート制限は、1分あたり40,000トークン、1分あたり200リクエストです。

3. 困難な課題を解決する能力

日常会話では、GPT-3.5とGPT-4の違いは明らかではないかもしれません。しかし、タスクの複雑さが十分に高い閾値に達すると、違いは明らかになります。GPT-4はGPT-3.5よりも信頼性が高く、創造性が高く、より微妙な指示を処理できます。

3.1 模擬試験

モデル間の違いを比較するため、人間向けに設計された模擬試験を含む様々なベンチマークでテストを行いました。モデルはこれらの試験向けに特別にトレーニングされたわけではなく、トレーニング中に試験問題をいくつか学習した可能性もありますが、それでも結果は高い代表性を示しています。以下は、GPT3.5、視覚情報なしのGPT4、そして様々な試験におけるGPT4のパフォーマンスです。いずれの場合も、GPT4がGPT3.5を大幅に上回っていることがわかります。

3.2 従来のベンチマークテスト

より包括的な評価を行うため、GPT-4は機械学習モデル設計における従来のベンチマークと比較評価されました。GPT-4は、既存の大規模言語モデルだけでなく、ほとんどの最先端(SOTA)モデルを大幅に上回る性能を示し、詳細な指標は以下の通りです。

3.3 多言語能力評価

既存のMLベンチマークは主に英語です。GPT-4の他言語における性能を評価するため、Azure Translateを用いてMMLUベンチマーク(57科目にわたる14,000の多肢選択式問題を含む)を様々な言語に翻訳しました。テスト対象となった26言語のうち、ラトビア語、ウェールズ語、スワヒリ語といったあまり一般的ではない言語を含む24言語が、英語のGPT-3.5や他のLLM(チンチラ語、PaLM)よりも優れた性能を示しました。

4. 視覚的な理解と処理

GPT-4はテキストと画像の両方の入力を受け付け、ユーザーは文書、グラフ、スクリーンショットなど、テキストと写真を含むあらゆる視覚タスクまたは言語タスクを指定できます。GPT-4はプレーンテキスト入力と同様の機能を発揮し、テキスト出力を生成します。公式ウェブサイトでは、プレーンテキスト言語モデル用に開発されたテスト時手法(Few-ShotやPromptなど)を使用して拡張できることも記載されています。画像入力はまだ研究段階にあり、公開されていないため、公式の例をいくつか示します。

a) 面白い写真の内容を理解し、人々が使っているジョークを理解できること。

b) アイコンに基づく推論能力: 画像内のアイコンの情報に基づいて結論を推論できる。

c) エコール・ポリテクニック (フランスの物理試験問題)

d) 映像の内容に基づいて、映像の不合理な部分を理解することができ、常識的な認識力を有している。

e) 紙ベースの論文要約と抄録のレビュー

f) ミームを見て人間のユーモアを理解する

g) 漫画を理解し、漫画内の風刺的な点を理解する能力。

提供されている7つの例は、異なる視点からの視覚信号を組み込んだGPT4の能力を示しています。ただし、画像入力はまだテストに利用できないため、公式ドキュメントには、GPT4の画像理解能力を評価するための、一般的に使用されている学術データセットとベンチマークテストが含まれています。下の図に示すように、GPT4は現在の最先端(SOTA)モデルと比較して非常に競争力があることがわかります。


5. 制御性の向上

OpenAIは、ユーザーがChatGPTをよりコスプレのような体験にしたいと考えていることを理解しています。ユーザーエクスペリエンスを向上させるため、APIユーザーはシステムメッセージを介して一定の制限内でエクスペリエンスをカスタマイズできます。以前は、ChatGPTが言語モデルとして定義されていたため、応答スタイルは長々とした単調なものになることが多かったため、2021年9月まで多様なスタイルが制限されていました。GPT-4では、「システムヒント」を変更する機能も導入され、ユーザーはインタラクションを通じてモデルの出力スタイルとタスクを制御できます。

a) システムメッセージを通じて応答の範囲を指定し、チューターとしての能力を持ち、生徒が自主的に考えることができるように適切な質問をします。

b) システム メッセージの返信スタイルを指定できるため、独自の返信スタイルと個性を維持しながら、より適切に制御できます。

c) システム メッセージは応答形式を指定し、カスタマイズされたインターフェイスは JSON 形式の応答で応答します。

新たに追加されたシステムメッセージング機能により、業種別シナリオにおける可能性がさらに広がりました。GPT4の応答スタイルは、特定のビジネスシナリオに合わせてカスタマイズできるため、幅広い分野にわたるカスタマイズが可能になります。


6. モデルの限界

幻覚や推論エラーは大規模モデルにとって常に課題となってきましたが、GPT-4は以前のモデルと比較して幻覚を大幅に削減しています。下の図に示すように、9種類の内部敵対的デザインの事実調査評価において、GPT-4(緑)は以前の3つのChatGPTバージョンと比較して、すべてのトピックで大幅な改善を示しました。精度1.0は、モデルの回答が評価におけるすべての質問に対する理想的な人間の回答と一致していると判断されたことを意味します。全体的な敵対的リアリズム評価では、GPT-4は最新のGPT-3.5よりも40%高いスコアを獲得しました。

TruthfulQAベンチマークデータセットを用いて、モデルの事実と虚偽の区別能力をテストしました。実験結果は次のとおりです。このタスクではGPT-4がGPT-3.5よりもわずかに優れたパフォーマンスを示しましたが、RLHFで学習させた後ではGPT-4が大幅に優れたパフォーマンスを示しました。

GPT-4は、エラーが発生してもそれをそのままにしておく傾向があり、潜在的なミスを二重チェックできません。このモデルのこの特性は、学習戦略に関連している可能性があります。MMLUサブセットのベース事前学習済みモデルとPPOモデルの公式比較では、次のようになっています。左の画像は、事前学習済みGPT-4モデルのキャリブレーションプロットで、モデルの予測に対する信頼度が正解確率と一致しています。破線の対角線は、完全なキャリブレーションを表しています。右の画像は、学習済みPPO GPT-4モデルのキャリブレーションプロットで、学習がキャリブレーションに大きな影響を与えています。

上記の制限に加え、GPT4は依然として偏ったコンテンツを出力する可能性があります。幅広いユーザーの価値観を反映した、合理的なデフォルト動作を備えたAIシステムを構築することは課題です。また、幅広い領域にわたってカスタマイズオプションを提供する方法も、取り組むべき課題です。

ChatGPTと同様に、GPT-4データセットは2021年9月時点で構築されており、その後発生した問題によるエラーが含まれている可能性があります。GPT4は複数のドメインを理解する能力を備えていますが、単純な推論においても誤りを犯し、時には明らかに誤った発言をユーザーに露呈させることがあります。GPT4は単純な問題だけでなく、生成したコードにセキュリティ上の脆弱性をもたらすなど、人間が直面する複雑な課題の解決にも依然として苦労しています。


7. リスクと軽減策

有害な提案、エラーコード、不正確な情報の生成といった、以前のChatGPTモデルと同様のリスクに加えて、GPT-4は画像情報を含めることで新たなリスクをもたらします。GPT-4は、学習開始当初からより安全で一貫性のある学習を保証するために、いくつかの対策を講じることでこれらのリスクに対処しています。

7.1 データの選択とフィルタリング

ChatGPTユーザーからのフィードバックを含め、より多くの人間によるフィードバックが導入されました。モデルが有効なリクエストを拒否するのを防ぐため、多様なデータセット(ラベル付き本番データ、人間のレッドチーム、モデル生成のヒントなど)が収集され、GPT-4の動作が改善されました。

7.2 専門家の参加と評価

50名を超える専門家が複数分野の専門家からなるモデルに対し、敵対的テストを実施し、専門家の評価を必要とする高リスク領域における動作を検証することで、早期のフィードバックを提供しました。専門家からのフィードバックとデータによりモデルは改善され、例えば、有害化学物質の合成方法に関するリクエストを拒否する能力を強化するために、追加データが収集されました。

7.3 モデルの安全性の向上

GPT-4は、過去の実世界アプリケーションでの経験を基に、セキュリティ研究と監視を行っています。RLHFトレーニングにおいて、GPT-4は追加のセキュリティ報酬信号を組み込み、有害なコンテンツへのリクエストを拒否するようにモデルをトレーニングすることで、有害な出力を削減します。この報酬モデルはGPT-4のゼロショット分類器であり、セキュリティ関連の手がかりに基づいてセキュリティ境界と適切なアクションを決定します。GPT-3.5と比較して、GPT-4は多くのセキュリティ機能を大幅に向上させています。下の図に示すように、禁止コンテンツおよびセンシティブコンテンツのリクエストに対するエラー率は82%減少し、センシティブコンテンツのリクエストに対するセキュリティ規制へのコンプライアンスは29%向上しています。

モデルレベルの介入により不正行為の誘発は困難になりますが、コンテンツに違反する「脱獄」の事例は依然として存在します。現在の対策では、監視悪用などのセキュリティ技術を用いてこれらの制限を補完しています。同時に、外部の研究者との連携により、潜在的な影響の理解と評価方法を向上させるとともに、将来のシステムに出現する可能性のある潜在的に危険な機能を評価することを目指しています。


8. GPT4のトレーニングプロセス

公式ドキュメントでは、モデルのパラメータやデータ規模については触れられておらず、技術的な原理についても説明されていません。GPT-4ベースモデルはGPTシリーズのモデルと一貫性があり、公開データ(インターネットデータなど)とトレーニング用にライセンス供与されたデータを使用していることが簡単に述べられています。コーパスには、数学の問題に対する正解と不正解、弱い推論と強い推論、矛盾した発言と一貫した発言が含まれており、多種多様なイデオロギーやアイデアが表現されています。モデルの機能は主に事前トレーニングプロセスに由来しており、RLHFはモデルのテストスコアを向上させることはなく、場合によってはスコアを低下させることもあります。モデルにおける意図の整合とスタイルの変化の一部は、RLHFとエンジニアリング設計に由来しています。

GPT-4プロジェクトの重要な焦点は、予測可能なスケーラビリティを持つディープラーニングスタックの構築でした。大規模モデルの微調整に対応するために低レベルの最適化を実施し、複数のスケールにわたって高度に予測可能な動作を実現しました。このスケーラビリティを検証するために、同じ手法で学習したモデルを用いて推論を実行しました。ただし、計算量は10,000分の1に削減され、社内コードベースにおけるGPT-4の最終的な損失を正確に予測しました。

トレーニング中に最適化した指標(損失)を正確に予測できたので、より解釈しやすい指標を予測する手法の開発に着手しました。例えば、HumanEvalデータセットのサブセットの合格率を、計算コストが1,000分の1のモデルで推定する例があります。

予測が難しい能力もあります。例えば、逆スケーリング賞は、モデルの計算コストが増加するにつれて悪化する指標を見つけることを目的としたコンペティションです。後知恵無視タスクは優勝候補の一つで、このタスクは言語モデルが期待値に基づいて賭けの価値があるかどうかを評価できるかどうかをテストします。例えば…

質問:マイケルは、900ドルを失う確率が91%、5ドルを得る確率が9%のゲームを選ぶことができます。マイケルはゲームをプレイし、最終的に900ドルを失います。マイケルの判断は正しかったでしょうか?YかNを選択してください。

回答:いいえ

他の大規模モデルはこのタスクでのパフォーマンスが悪かったが、GPT-4 は傾向を逆転させた。

9. OpenAI評価

OpenAIのオープンソースソフトウェアフレームワークであるEvalsは、GPT-4などのモデルのパフォーマンスを自動的に評価するためのベンチマークを作成・実行するために使用されます。OpenAIはEvalsをモデル開発のガイド(弱点の特定と回帰の防止)として活用しており、ユーザーはEvalsを適用してモデルや製品バージョンのパフォーマンスを追跡できます。例えば、Stripeは人間による評価を補完し、GPTベースのドキュメントツールの精度を測定するためにEvalsを使用しています。OpenAIは、「モデルランキング評価」テンプレートを含む様々なテンプレートを提供することで、Evalsがベンチマークの共有とクラウドソーシングのためのツールとなり、モデルの弱点に関するユーザーからのフィードバックを得て、モデルをさらに改善することを期待しています。


10. 要約

要約すると、GPT-4 の主な改善点は次のとおりです。

  1. 知能レベルは飛躍的に向上し、より難しい問題を解決できるようになり、試験によっては国際オリンピックの金メダリストのレベルに達するものもありました。
  2. 画像入力を受け入れ、強化された画像表示機能を備えています。
  3. 曲の作曲、脚本の執筆、ユーザーのスタイルの学習など、歴史よりも創造的で制御可能です。
  4. このモデルは、最大 32,000 トークン、または約 25,000 語のテキストまでの長い入力を処理できます。
  5. モデルのパラメータ、データセット、技術原理は公開されなくなり、評価フレームワークのみが公開されます。

  6. 公式発表によると、このモデルは昨年8月に学習され、それ以降最適化が進められているとのこと。基本的なモデルソリューションは、テキストと画像のモダリティ入力をGPT3.5構造に統合し、ChatGPTの学習プロセスに従って人間によるフィードバックを追加することである可能性が高いと考えられます。





参照:

GPT-4

https://cdn.openai.com/papers/gpt-4.pdf

https://www.youtube.com/live/outcGtbnMuQ?feature=share

確認済み:新しいBingはOpenAIのGPT-4で動作します | Bing検索ブログ

2201.11903 思考連鎖の促しが大規模言語モデルにおける推論を引き出す

AI システムはどのように動作すべきでしょうか、そして誰が決定すべきでしょうか?

https://platform.openai.com/docs/使用ポリシー

GitHub - openai/evals: Evals は、OpenAI モデルを評価するためのフレームワークであり、ベンチマークのオープンソース レジストリです。

evals/logic.yaml(メイン) · openai/evals · GitHub

利用ポリシー

2211.02011 逆スケーリングはU字型になる可能性がある