HUOXIU

GPT-4 が華々しくリリースされました: マルチモーダルな大規模モデル、ChatGPT と Bing への直接アップグレード、オープン API、ゲームオーバーになったのか?

マシンハートレポート
マシンハート編集部

ChatGPT はテクノロジー業界に希望の光をもたらしました。GPT-4 は瞬く間に普及するのでしょうか?


ChatGPTを倒せるのは誰でしょうか?どうやらOpenAI自身らしいです。

ChatGPTがテクノロジー界に火をつけた後、AI開発の「次のステップ」は何かという議論が活発化し、多くの学者がマルチモーダルコンピューティングに言及しました。そして、私たちはすぐにその答えを待ちました。今朝早く、OpenAIはマルチモーダル事前学習済みの大規模モデルGPT-4をリリースしました。


GPT-4 は、強力な画像認識機能、25,000 文字へのテキスト入力制限の拡張、回答精度の大幅な向上、歌詞やクリエイティブなテキストを生成してスタイルのバリエーションを可能にする機能など、飛躍的な進歩を遂げています。


「GPT-4は、高度な経験と強力な機能を備えた世界初の高度なAIシステムであり、すぐにすべての人に提供したいと考えています」とOpenAIのエンジニアは紹介ビデオで語った。

OpenAI は、ゲームを一挙に終わらせることを目指しているようで、論文 (技術レポートのようなもの) とシステム カードをリリースし、ChatGPT を GPT-4 バージョンに直接アップグレードし、GPT-4 API も公開しました。

さらに、マイクロソフトのマーケティング責任者はGPT-4のリリース直後に次のように述べています。「過去6週間に新しいBingプレビューを使用したことがある方は、すでにOpenAIの最新モデルのパワーを体験されていることでしょう。」実際、マイクロソフトの新しいBingでは既にGPT-4が使用されています。


さあ、この素晴らしい打ち上げを味わってみましょう。

GPT-4: 私は SAT で 710 点を獲得しましたが、まだ弁護士になれます。

GPT-4は、画像とテキストの入力を受け付け、正しいテキスト応答を出力できる大規模なマルチモーダルモデルです。実験では、GPT-4は様々な専門試験や学術ベンチマークにおいて人間と同等の性能を発揮することが示されています。例えば、GPT-4は模擬司法試験に合格し、受験者の上位10%のスコアを獲得しました。一方、GPT-3.5は下位10%のスコアでした。

OpenAI は、敵対的テスト手順と ChatGPT から学んだ教訓を活用して 6 か月間にわたって GPT-4 の反復と調整を行い、リアリズムと制御性の点でこれまでで最高の結果を達成しました。

OpenAI は過去 2 年間でディープラーニング スタック全体を再構築し、Azure と共同でワークロード向けにスーパーコンピューターをゼロから設計しました。1 年前、OpenAI は初めてこのスーパーコンピューティング システムを GPT-3.5 のトレーニング中にテストし、それ以来、バグの発見と修正、理論的根拠の改良を行ってきました。これらの改良により、GPT-4 のトレーニングにおいて前例のない安定性が実現し、OpenAI は GPT-4 のトレーニング パフォーマンスを事前に正確に予測できるようになりました。これは大規模モデルとして初めて達成された成果です。OpenAI は、今後も信頼性の高いスケーリングに注力し、安全性にとって極めて重要な、パフォーマンスの事前予測と将来への計画のための機能をさらに強化するために、手法をさらに改良していくと述べています。

OpenAIは、ChatGPTとAPI(候補リスト付き)を介してGPT-4のテキスト入力機能を公開しています。画像入力機能については、OpenAIは他企業と連携し、より広範な利用の実現を目指しています。

OpenAIは本日、AIモデルの性能を自動評価するフレームワーク「OpenAI Evals」をオープンソース化しました。OpenAIは、この取り組みにより、誰でもモデルの欠陥を指摘できるようになり、OpenAIによるモデルのさらなる改善に役立てられると述べています。

興味深いことに、GPT-3.5とGPT-4の違いは微妙です。タスクの複雑さが十分に高い閾値に達すると、違いが現れます。GPT-4はGPT-3.5よりも信頼性が高く、創造性が高く、より細かい指示を処理できます。2つのモデルの違いを理解するために、OpenAIは様々なベンチマークと人間向けに設計された模擬試験で実験を行いました。



OpenAIは、機械学習モデル向けに設計された従来のベンチマークでもGPT-4を評価しました。GPT-4は、既存の大規模言語モデルだけでなく、ほとんどの最先端(SOTA)モデルを大幅に上回る性能を示しました。


既存の機械学習ベンチマークの多くは英語で書かれています。GPT-4の他言語における能力を予備的に理解するため、研究チームはAzure Translateを使用して、57のトピックをカバーする14,000の多肢選択式問題からなるMMLUベンチマークを複数の言語に翻訳しました。テストした26言語のうち24言語において、GPT-4は英語においてGPT-3.5や他の大規模言語モデル(Chinchilla、PaLM)よりも優れたパフォーマンスを示しました。


ChatGPTを使用している多くの企業と同様に、OpenAIも社内でGPT-4を使用していると述べており、コンテンツ生成、販売、プログラミングにおける大規模言語モデルの有効性も監視しています。OpenAIはAI出力の評価にもGPT-4を使用しており、これはOpenAIの戦略の第二段階です。OpenAIはGPT-4の開発者であり、ユーザーでもあります。

GPT-4: ミームで遊べる

GPT-4 はテキスト形式と画像形式の両方でプロンプトを受け入れることができ、新しい機能によりユーザーはプレーンテキスト設定とともに任意の視覚タスクまたは言語タスクを指定できます。

具体的には、散在するテキストと画像からなる人間の入力から、対応するテキスト出力(自然言語、コードなど)を生成します。GPT-4は、テキストと画像の両方を含む文書、グラフ、スクリーンショットなど、幅広い領域において、プレーンテキスト入力と同様の機能を発揮します。さらに、プレーンテキスト言語モデル向けに開発されたテスト時技術(Few-ShotやThought-Chainプロンプトなど)によって強化することも可能です。

たとえば、GPT-4 用の奇妙な形の充電器の写真が渡された場合、なぜそれが面白いのでしょうか?


GPT-4 は「iPhone を充電する VGA ケーブル」と応答しました。


ジョージアと西アジアにおける一人当たりの1日あたり平均肉消費量:


GPT では計算エラーが発生しなくなったようです。


まだ簡単すぎるので、物理の問題を解かせてみましょう。


私はGPT-4のフランス語の質問を理解し、完全に答えました。


GPT-4 は写真内の「何かがおかしい」ことを解釈できます。


GPT-4は学術論文の量子速度読解も可能です。論文を与え、概要を要約するように指示すると、次のような結果になります。



論文の特定の図に興味がある場合はどうすればよいでしょうか?GPT-4はそれを説明することもできます。


次に、疑問となるのは、「GPT-4 ミームは何を意味するのか?」です。


詳細な回答が提供されます。


漫画はどうですか?


GPT-4 にニューラル ネットワークにレイヤーを追加する必要がある理由を説明してもらうと、ユーモアが倍増するようです。


しかし、OpenAIはここで、画像入力は研究プレビューであり、公開されることはないと述べています。

研究者たちは学術的なベンチマークを用いてGPT-4の画像読み取り能力を解釈しようとしましたが、もはやそれだけでは不十分でした。彼らは、このモデルが刺激的な新しいタスクを処理できることを発見し続けました。現在の矛盾は、AIの能力と人間の想像力の間にあるのです。


この時点で、一部の研究者は「コンピューター ビジョン (CV) はもう存在しない」と嘆くかもしれません。

制御性

固定された、長くて落ち着いた口調とスタイルの従来の ChatGPT パーソナリティとは異なり、開発者 (および ChatGPT ユーザー) は、「システム」メッセージでこれらの指示を記述することで、AI のスタイルとタスクを定義できるようになりました。

システムメッセージを使用すると、APIユーザーは特定のスコープ内で異なるユーザーエクスペリエンスをカスタマイズできます。OpenAIは、ChatGPTにコスプレをさせていることを認識しており、ぜひそうすることをお勧めします。


制限

GPT-4は強力な機能を備えているにもかかわらず、以前のGPTモデルと同様の限界を抱えており、その中で最も重大なのは信頼性が低いことです。OpenAIは、GPT-4は依然として錯覚を生み出したり、誤った答えを生成したり、推論エラーを起こしたりする可能性があると述べています。

現在、言語モデルを使用する場合は、出力コンテンツを慎重に確認し、必要に応じて、特定のユースケースの要件に一致する正確なプロトコルを使用する必要があります (例: 手動レビュー、追加のコンテキスト、完全な回避)。

全体として、GPT-4は以前のモデルと比較して、錯視問題を大幅に軽減しました(複数回の反復と改良を通じて)。OpenAIによる内部敵対的リアリズム評価では、GPT-4は最新のGPT-3.5モデルよりも40%高いスコアを獲得しました。


GPT-4は、TruthfulQAなどの外部ベンチマークでも進歩を遂げています。OpenAIは、このモデルが事実に基づいた虚偽の発言と敵対的な発言を区別する能力をテストし、その結果を下の図に示しています。


実験結果によると、このタスクではベースとなるGPT-4モデルがGPT-3.5よりわずかに優れているだけです。しかし、RLHFで学習させると、両者の差は顕著になります。以下はGPT-4のテスト例ですが、必ずしも正しい選択をするとは限りません。


モデルの出力にはさまざまなバイアスが含まれる可能性があり、OpenAI は、構築する AI システムが幅広いユーザーの価値観を反映した合理的なデフォルト動作を行えるようにすることを目標に、これらの分野で進歩を遂げてきました。

GPT-4は、データ遮断の大部分(2021年9月)以降に発生した事象を理解できず、経験から学習しません。多くの領域における能力とは矛盾するような単純な推論エラーを犯したり、ユーザーからの明らかに誤った発言を過度に信じ込んだりすることがあります。また、生成したコードにセキュリティ上の脆弱性を組み込むなど、人間と同様に難しい問題に失敗することもあります。

GPT-4は予測に誤りを犯す可能性がありますが、非常に自信を持っており、誤りの可能性に気付いても再確認を行いません。興味深いことに、ベースとなる事前学習済みモデルは高度にキャリブレーションされています(予測の信頼度は通常、正しい確率と一致します)。しかし、OpenAIの現在の学習後処理では、キャリブレーションが軽減されています。


リスクと緩和策

OpenAIは、研究チームがGPT-4を訓練開始時からより安全で一貫性のあるものにするために、改良を重ねてきたと述べています。その取り組みには、訓練前データの選択とフィルタリング、評価と専門家の関与、モデルの安全性向上、監視と強制執行などが含まれます。

GPT-4は、有害な提案の生成、欠陥のあるコード、不正確な情報など、従来のモデルと同様のリスクを伴います。しかし、GPT-4の追加機能は新たなリスク側面をもたらします。これらのリスクの範囲を理解するために、チームはAIアライメントリスク、サイバーセキュリティ、生体認証、信頼とセキュリティ、国際安全保障などの分野から50人以上の専門家を招き、高リスク領域におけるモデルの挙動に関する敵対的テストを実施しました。これらの領域では評価に専門知識が必要であり、これらの専門家からのフィードバックとデータは、リスク軽減策とモデルの改善の基礎となりました。

リスク予防

デモ動画に登場したOpenAIのエンジニアによると、GPT-4のトレーニングは昨年8月に完了しており、残りの時間は微調整と改善、そして危険なコンテンツ生成の排除という最も重要な作業に費やされたとのことだ。

GPT-4は、RLHFトレーニング中に追加の安全報酬信号を組み込み、有害なコンテンツへのリクエストを拒否するようにモデルをトレーニングすることで、有害な出力を削減します。この報酬は、安全境界と安全関連のプロンプトがどのように満たされるかを決定するGPT-4のゼロショット分類器によって提供されます。モデルが有効なリクエストを拒否するのを防ぐため、チームはさまざまなソース(ラベル付けされた本番データ、人間のレッドチーム、モデル生成プロンプトなど)から多様なデータセットを収集し、許可されたカテゴリと許可されていないカテゴリの両方に安全報酬信号(正または負の値)を適用します。

これらの対策により、GPT-4のセキュリティ性能は多くの点で大幅に向上しました。GPT-3.5と比較すると、GPT-4は禁止コンテンツへのリクエストに応答する確率が82%低下し、一方で、センシティブなリクエスト(医療アドバイスや自傷行為など)へのポリシー遵守率は29%向上しました。


トレーニングプロセス

以前のGPTモデルと同様に、GPT-4ベースモデルは文書内の次の単語を予測するように学習されます。OpenAIは、公開されているデータ(インターネットデータなど)とライセンスデータの両方を学習に使用します。学習データはネットワーク規模のコーパスデータであり、数学の問題に対する正解と不正解、弱い推論と強い推論、矛盾する記述と一貫性のある記述、そして多様なイデオロギーやアイデアが含まれます。

そのため、質問が投げかけられた際に、ベースモデルの応答はユーザーの意図から大きく逸脱する可能性があります。OpenAIは、ユーザーの意図に合わせるために、強化学習ヒューマンフィードバック(RLHF)を用いてモデルの動作を微調整しています。モデルの能力は主に事前学習プロセスから得られるように見えます。RLHFはテストスコアを向上させることはなく(むしろ低下させる可能性があります)、モデルの制御は学習後プロセスから得られます。つまり、ベースモデルでさえ、質問に答えるためにはタイムリーなエンジニアリングが必要です。

GPT-4の重要な焦点は、予測可能なスケーラビリティを持つディープラーニングスタックの確立です。その主な理由は、GPT-4のような大規模な学習では、モデル固有の広範なチューニングは現実的ではないためです。チームは、複数のスケールにわたって予測可能な動作を示すインフラストラクチャと最適化を開発しました。このスケーラビリティを検証するために、同じ手法で学習されたモデルを用いた推論によって、内部コードベース(学習セットの一部ではない)上でGPT-4の最終的な損失を事前に正確に予測しました。ただし、計算コストは​​1/10000です。


OpenAIは、トレーニング中に最適化されたメトリクス(損失)を正確に予測できるようになりました。例えば、計算コストが1/1000のモデルで、HumanEvalデータセットのサブセットの合格率を予測することに成功しました。


一部の能力は予測が依然として困難です。例えば、Inverse Scalingコンペティションは、モデルの計算コストが増加するにつれて悪化する指標を見つけることを目的としており、後知恵無視タスクは優勝者の1つでした。GPT-4はこの傾向を逆転させました。


機械学習による未来の正確な予測能力は、技術セキュリティにとって極めて重要ですが、十分な注目を集めていません。OpenAIは、関連手法の開発にさらなる投資を行っており、業界に協力を呼びかけています。

OpenAIは、GPT-4などのモデルを評価するためのベンチマークを作成および実行し、モデルのパフォーマンスをサンプルごとにチェックするために使用されるOpenAI Evalsソフトウェアフレームワークをオープンソース化すると発表しました。

ChatGPT は GPT-4 バージョンに直接アップグレードされました。

GPT-4のリリースに続き、OpenAIはChatGPTを直接アップグレードしました。ChatGPT Plus加入者は、chat.openai.comで使用制限付きでGPT-4にアクセスできます。

GPT-4 API(gpt-3.5-turboと同じChatCompletions APIを使用)にアクセスするには、ユーザーは登録して待機する必要があります。OpenAIは、厳選された開発者を招待して体験してもらう予定です。

アクセスが許可されると、ユーザーは現在、GPT-4モデルにプレーンテキストリクエストを送信できます(画像入力はまだ限定的なアルファ段階です)。料金は、プロンプトトークン1,000個あたり0.03ドル、完了トークン1,000個あたり0.06ドルです。デフォルトのレート制限は、1分あたり40,000トークン、1分あたり200リクエストです。

GPT-4のコンテキスト長は8,192トークンです。OpenAIは、32,768トークン(約50ページのテキスト)のコンテキストを持つバージョンへの限定アクセスも提供しており、これは時間の経過とともに自動的に更新されます(現在のバージョンはgpt-4-32k-0314で、こちらも6月14日までサポートされます)。価格は、プロンプトトークン1Kあたり0.06ドル、完了トークン1Kあたり0.12ドルです。


本日のOpenAIのGPT-4に関する解説はこれで終わりです。 一つ残念なのは、OpenAIが公開した技術レポートには、モデルのアーキテクチャ、ハードウェア、計算能力などに関する詳細な情報が全く記載されておらず、非常に非公開であることです。

いずれにせよ、熱心なユーザーはすでにテストや体験を始めているはずです。


最後に、読者の皆さんに質問です。GPT-4 のリリースについてお読みになった後、どのような感想をお持ちでしょうか?

参考: https://openai.com/product/gpt-4


© 終わり

転載の許可についてはこちらの公式アカウントまでご連絡ください。

記事の投稿やメディアに関するお問い合わせ:[email protected]