Wenxinの一言 vs. GPT-4：実世界テスト！Baiduの死闘

奥飛寺編集チーム、QbitAI | WeChat公式アカウント QbitAI

GPT-4 がリリースされた翌日、すべてのプレッシャーは Baidu にかかりました。

先ほど、百度が報告書を提出しました。

百度の新世代の知識強化型ビッグ言語モデルが、百度本社の「手を振って国を語る」会議室で正式に発表された。

静かな雰囲気の中、ロビン・リーが少し緊張した口調で小さく登場した。

ChatGPTとGPT-4をベンチマークすることが期待されていますが、これはかなり高いハードルです（笑）。
妊娠10ヶ月後、このAIモデルのWenxin Yiyanがどのように見えるかを紹介します。

以前、Baidu を GPT-4 の横にあるボックスと比較するミームが広く流布されていました。

百度を村全体の希望だと称賛する人もいた。

記者会見が行われている間、百度の香港株式市場における価値は当初下落し、関連トピックは微博のホット検索リストでもトレンドになったが、会見後には回復した。

しかし、ライブストリームのコメント欄では、視聴者から賛成の声が上がっていた。

それで、このChatGPTの中国語版はどれほどの能力があるのでしょうか?

Baidu の記者会見で公開された録画済みのデモと、新しくリリースされた GPT-4 を比較し、そのパフォーマンスを確かめてみましょう。

ウェンシン・イーヤン vs GPT-4

GPT-4 と同様に、Wenxin Yiyan はマルチモーダルな大型モデルです。

冒頭、ロビン・リーは、文学創作、ビジネスコピーライティング、数学論理推論、中国語理解、マルチモーダル生成を含む、Wenxin Yiyan の 5 つの機能を紹介しました。

ウェン・シンはその場で、地に足のついた四川語を披露し、ネットユーザーを笑わせた。

その他の機能についてはどうでしょうか？詳しく見てみましょう。

創作

文学創作の面では、ロビン・リーは『三体』の著者である劉慈欣を招き、その専門知識を貸してもらうことから始めた。

まず文欣が劉慈欣について簡単に紹介する。「実は私も劉慈欣と同じ故郷なんです。」

問題はなさそうです。GPT-4に同じ質問をしてみてください。

えっ？劉慈欣の故郷が湖北省洪湖市に移転されたんだって！湖北省の人たちは大喜びしてるよ。

これに続いて、Robin Li 氏は哲学的観点から記事を続けるデモを紹介しました。

かなり標準的で合理的に見えます。いつものように、GPT-4と比較してみましょう。

GPT-4 の「三体」の続編、または Wenxin Yiyan のバージョンを見たいですか?

テレビドラマ「三体」で石強と王妙を演じたかつてのパートナーたちを見てみましょう。彼らにはどんな共通点があるのでしょうか？

何も問題はありません。

プレゼンテーションがちょっと速すぎたような気がします。ロビン・リーの話すスピードよりも少し速かったくらいです（冗談です）。

商業コピーライティング

次に、Robin Li 氏が Wenxin Yiyan 氏の商業コピーライティング能力を披露しました。

たとえば、新しい会社に名前を付けることです。

そして、この名前はランダムに選ばれたわけではありません。

GPT-4の命名効果を見てみましょう。

GPT-4 の中国語の習得は、本質的な部分が少し欠けているように思われます。

会社設立に関するプレスリリースの執筆については、文鑫一燕氏にとって問題ではないようだ。

数学的論理演繹

大規模な生成モデルの開発においては、数学的能力が大きな課題となります。ChatGPTもリリース当初は多くの問題に直面しました。

しかし、ウェンシンさんが現場で解いた数学の問題は複雑なものではなく、小学校の数学コンテストでよくある「同じケージの鶏とウサギ」の問題だった。

驚いたことに、李延紅が最初に出した質問に対して、文欣は映画「嵐」の高其生の有名なセリフ「この質問は間違っている」を口にした。

タイトルを修正して、もう一度 Wenxin Yiyan に送信してみましょう。

答えは論理的推論を通じて段階的に導き出されたもので、合理的かつ根拠のあるものであるように思われます。

李延紅氏は「これらの質問に100％正確に答えられるとは断言できないが、少なくとも文鑫易言氏の思考プロセスを反映している」と述べた。

中国語の理解

次に、ロビン・リー氏はウェンシン・イーヤン氏の中国語の理解度を取り上げ、特に次の点を強調しました。

Wenxin Yiyan の中国文化に対する理解力は、事前にトレーニングされたあらゆる大規模モデルの理解力を上回るはずです。

冒頭の慣用句は「洛陽の紙は高い」。一体どれくらい高いのでしょうか？

これは「知恵の言葉」の効果のデモンストレーションです。

この慣用句の背後にある経済原理も説明されました。

では、GPT-4にこの質問をしてみるとどうなるでしょうか？まず、「洛陽の紙は高価だ」という言葉の意味を知っているかどうかを尋ねてみましょう。

次に、対応する経済理論は何かを尋ねます。

GPT-4 の中国語理解力は Wenxin Yiyan と同等のようです。

それでは、頭韻詩を書く彼らの能力を調べてみましょう。

まず、「心からの一言」の効果を実証してみましょう。

次に、GPT-4 が何を言っているかを見てみましょう。

うーん、GPT-4 は「頭韻詩」の意味をあまり理解していなかったようです。

この文化理解の波の中で、文鑫易燕は確かにわずかな優位性を持っています。

しかし、ロビン・リー氏は、中国語の英語版は扱えるものの、その能力は中国語版に比べると大幅に劣っていることも認めた。

これは、Baidu が現在アクセスできるトレーニングデータにも関連しています。

マルチモーダル生成

最後に、Robin Li 氏が Wenxin Yiyan のマルチモーダル表現生成能力を簡単に実演しました。

まず、2023年に開催される世界高度道路交通システム会議のために作成されたポスターを見てみましょう。

前述のテキストから四川語への変換機能に加えて、Wenxin Yiyan はテキストをビデオに変換することもできます。

Robin Li からの「上記のコンテンツからビデオを生成」という単一のコマンドで、Wenxin はわずか数秒で字幕とビデオを素早く作成しました。

残念ながら、Wenxin Yiyan さんは ChatGPT で頻繁に賞賛されているプログラミングスキルを現場で披露しませんでした。

しかし、王海鋒氏は、文心易燕のトレーニングデータにはコードも含まれていることを明らかにした。

Wenxin Yiyan (文心一言) はどうやって「乗り越えた」のでしょうか?

ChatGPTがOpenAIのGPTシリーズから生まれたのと同様に、Baiduが新たにリリースしたERNIE BotもWenxinの大規模モデル技術に基づいて構築されています。

王海鋒によれば、文心易言は主に次の 2 つのモデルから派生しています。

数千億のエントリを持つ Baidu の知識強化モデル ERNIE シリーズと、Baidu の大規模オープンドメイン対話モデル PLATO。

これを踏まえて、主に6つのコア技術が採用されました。

これらのうち 3 つは、教師あり微調整、人間によるフィードバック強化学習(RLHF) 、キュー構築など、よく知られた大規模モデル手法です。

P.S. 人間のフィードバック強化学習も ChatGPT の重要な技術です。

残りの3つは、知識強化、検索強化、対話強化の技術など、「Baidu独自の」技術です。

まず、ChatGPT に似た技術、つまり教師あり微調整、RLHF、キューベースの構築について見てみましょう。

特に中国語データについては、教師あり学習による微調整が不可欠です。Baiduは、中国語の言語と文化、そして中国語のアプリケーションシナリオに関する理解に基づき、モデルのトレーニングに使用する特定のデータを選択します。

人間のフィードバックとプロンプト構築に基づく強化学習（RLHF）に関しては、動作はChatGPTと非常に似ています。

これに続いて、モデルのパフォーマンスをさらに向上させるために百度が提案した技術が続きました。

知識強化は、知識の内在化と知識の外部化という2つの部分から構成されます。知識の内在化とは、モデルパラメータに知識を「浸透させる」ことであり、知識の外部化とは、モデルが外部知識を直接活用する能力を指します。

強化された検索機能は、Baidu 検索エンジンが蓄積してきた検索技術に関連しています。

Baiduは検索技術と生成技術を組み合わせます。まずコンテンツを取得し、次に最も有用な部分を使用して結果を生成し、最後に統合して最終結果を出力します。

最後に、対話強化の部分があります。これには、Baidu がこれまでに蓄積してきた記憶メカニズム、コンテキスト理解、対話計画などの技術が含まれます。

要約すると、ウェンシン・イーヤンが示した能力は、ロビン・リーによって「創発的知能」と表現されました。

この現象は、パラメータの数が数千億に達し、トレーニングコーパスが十分に大きい場合に発生します。

現在、百度のAI技術は、チップ（Kunlun Chip）、フレームワーク（PaddlePaddle）、モデル（Wenxin）、アプリケーションの4つの部分に分けられます。

Baidu は、ハードウェアとソフトウェアの両方を導入する理由はコスト削減のためだと述べています。

生成 AI には非常に高い計算能力が必要であり、かなり高価です。
したがって、アーキテクチャの 4 つの層間の調整と最適化を行うことで、他の層よりも効率を高め、コストを大幅に削減することができます。

Robin Li 氏は、これがまさに Baidu の強みだと考えている。

4つのフロアすべてに主力製品が揃っている企業は極めて稀です。

この Wenxin 大規模モデルの背後にあるハードウェアコンピューティング能力も、 Baidu AI Cloudによって提供されています。

現在、文心易言は検索リソースの効率向上を目的として百度検索に統合されています。

一方、小度や自動運転のアポロなどの製品や、iQiyiなどの企業も、百度の文心易眼モデルを統合している。

ネットユーザーらは「早期退職する必要はなさそうだ」とコメントした。

本稿執筆時点では、百度の香港上場株価は大幅な下落後、やや回復している。

記者会見の終了後、ネットユーザーの間で最も多かった反応は「事前収録は少し不快だった」というものだった。

李延紅は、質問がかなり長かったため、撮影時間を節約するために事前に録音したと説明した。

多くのネットユーザーは、文馨易言が示した能力に満足しなかった。中には、それを見た後、「早期退職の時期を少し先延ばしにできるかもしれない」と冗談を言う人もいた。

GPT-4 にはまだ 20 人の夫が足りません。

一部のネットユーザーは、ウェンシン・イーヤンの記者会見が卒業式の発表会のようだと感じたほどだ（doge）：

しかし、一部のネットユーザーは国産品にもう少しの時間と忍耐を与えたいとの希望を表明した。

記者会見の最後に、王海鋒氏は、個人および企業ユーザーを対象に、Wenxin Yiyanの公開テストを本日開始すると発表した。

ラバであれ馬であれ、今後さらに多くの結果が見られるでしょう。

もう一つ

ちなみに、ネットユーザーの中には、すでに文心易言のベータテスト資格を取得していると言っている人もいる。

こんにちは。Wenxin Yiyan をお試しいただきありがとうございます。トライアルアドレスは https://yiyan.baidu.com/welcome です。ご利用中に、より多くのフィードバックをいただければ幸いです。Wenxin Yiyan 招待コード：KFCVME50RMB、有効期限は2023年3月16日24:00までです。

HUOXIU