HUOXIU

これは中国最大のモデルコンテストのランキングです。


OpenAI vs Google

現在、大規模AIモデルのトップ2は、OpenAIのGPT-4とGoogleのPalm-2です。両社は長年この分野に携わり、高い技術力を有しています。しかし、GPT-4と比較すると、国産の大規模モデルは依然として大きく遅れをとっています。

しかし、国内市場は現在好調に推移しており、多くの企業が競合しているものの、絶対的な優位性を持つ企業はまだ存在しない。

目が回るようなランキング

以前、一部メディアは中国の大規模モデル企業トップ5 として、百度の文信易言、アリババの同益前文、テンセントの渾源、ファーウェイの盤古、360の智澳を挙げていた。

最近、中国の汎用大規模モデルベンチマーク( SuperCLUE )の最新結果が公開され、GPT-4が圧倒的な差をつけてリードし、 国内モデルの中で最高性能を示したのはiFlytekのSpark Cognitive Large Modelでした。驚くべきことに、Wenxin YiyanはChatGLM-6Bよりもさらに低い最下位にランクインしました。これは本当に信じられないことです。

でも、レビューをよく見てみると、なんと、レビューセットはSuperGLUEではなくSuperCLUEでした。

ご存知の通り、国際的なNLP分野には、GLUEとSuperGLUEという権威あるデータセットが存在します。OpenAIやGoogleなどの大規模モデルがこれらのデータセット上で評価されており、NLP分野の発展を大きく促進しています。

このSuperCLUEのレビューは、中国のGLUE(略称CLUE)組織によって開始されました。CLUEはGLUEをモデルにした国内の非政府組織ですが、その権威と影響力はGLUEにはるかに劣っています。CLUEのWeChatアカウントは個人名義です。しかし、これが業界関係者を混乱させ、 GLUEとCLUEの区別を困難にしています。これは、本物と偽物の典型的な例です

疑問が残る点が一つある。評価ランキングが発表された5月9日、公式サイトでは崔一鳴氏が中国ベンチマーク評価チームの顧問の第1位にランクされており、学術諮問委員会主任およびハルビン工業大学・iFlytek共同実験室(HFL)の上級研究員を務めていた。しかし、この顧問の情報は5月10日に公式サイトから削除された。

最初の創設メンバー(No. 001)であるXu Liangは会長であり、実質的にこのリストの責任者です。「brightmart」の愛称を持つ彼は、中国語タスクベンチマークの創始者であり、中国語版の事前学習済みモデル、テキスト分類、データセットなどを含む複数のオープンソースプロジェクトの作者です。

徐亮氏にはもう一つの正体がある。5月9日の公式サイトによると、彼は杭州世材智能のアルゴリズム専門家であり、YuanYu Intelligenceの創設者である。2月には「中国初の大規模機能対話モデル『ChatYuan』」と称する製品をリリースしたが、テストが不可能だっただけでなく、リリースから数日後に規制当局によって開発が停止された。4月には、オープンソースコンポーネントをシェルの下にリリースしたと再び報じられた。一部のアナリストは、このスタートアップは資金調達のプレッシャーにさらされており、人気の波に乗って投資家を引き付けようとしているのではないかと見ている。

SuperClueランキングリストの主催者は、最初のアドバイザー(No. 001)がiFlytekと提携関係にあり、最初のベンチマーク発起者(No. 001)がスタートアップの創業者であるにもかかわらず、リスト公開後に関連情報を削除しました。これは、業界の公平性と公正性に対する批判を恐れたためです。これは多くのことを物語っています。

わずか 100 個の評価質問を使用して「信頼できるレポート」が作成されました。

最後に、ランキングリスト自体について考察してみましょう。業界関係者であれば、この評価が極めて不合理であることは一目瞭然です。まず、 評価データや具体的な評価方法は公表されていません。さらに、公式発表によると、設問数は合計100問しかありません。これは信じられないほど少ないです。専門家が参加している可能性もありますが、SuperGlueのような権威ある国際ランキングリストは通常​​2万問以上あり、このリストは権威あるリストの何万分の一にも満たない量です。さらに、上位スコアラーはすべて人間ですが、このスコアの根拠は何でしょうか?主観的な要素が多く含まれているのでしょうか?このデータセットで大規模なモデルを事前学習させたのでしょうか?

タスク設計はあまりにも恣意的でした。いわゆる「一般的な」ベンチマークは、人間の一般的な認知能力をテストすることを目的としているため、当然のことながら、モデルがシミュレートしようとする認知能力や関連理論を参考に、評価タスクが体系的に選択されることが期待されます。しかし、実際には、ベンチマーク作成者は利便性と容易さを重視してタスクを選択したように見受けられました。過去には、CLUEの一部のデータセットはタスクの複雑さのみに焦点を当て、最も基本的な分布境界(場所、アトラクション、組織、およびそのサブカテゴリといった様々なNERカテゴリの境界など)を無視していたため、データの一貫性が不明確でした。

競争に加わらないか、きちんとした競争をしましょう。自分で問題を設定し、自分でテストを実施し、場合によっては早まって審査員になることさえあります。それは真実を知っている大衆を利用する行為に過ぎません。 日和見主義や策略はいずれ失敗します。スキルと知識を磨くことこそが、成功する唯一の方法です。

主要国産車ランキング(参考)

これらの要素を脇に置き、モデル規模、モデル性能、市場シェアといった要素を考慮すると、百度の「文心易言」、華為の「攀瑪」、アリババの「通易前文」、テンセントの「渾元」を上位4位にランクインさせるのは妥当と言えるでしょう。その他の企業のランキングは不確実ですが、以下のランキングを参考にすることができます。

完全なリストは次のとおりです。



公開時間で並べ替え:

百度:知恵の言葉

中国で最も早くリリースされた大規模モデルの一つである百度の「文心易言」は、今年3月16日にリリースされ、その後、数回のバージョンアップを経て、現在では数千社もの企業が導入しています。文心易言は、画像や音声を含むマルチモーダルコミュニケーションをサポートしています。

3月16日、百度(バイドゥ)はChatGPTに匹敵する大規模モデル製品「文心易演(Wenxin Yiyan)」をリリースした初のグローバル大手テクノロジー企業となりました。文心易演は、わずか1ヶ月強の社内テスト期間に4つの主要な技術アップグレードを実施し、大規模モデル推論性能が約10倍向上したとされています。

5月4日に行われた百度の社内イベントで、ロビン・リー氏は、百度がグーグル、メタ、アマゾンなどの大手企業に先駆けて生成型大規模モデル製品をリリースできたのは、百度がフルスタックレイアウトを実現し、チップ、フレームワーク、モデル、アプリケーションの4つのレベルそれぞれで主導的な地位を獲得したためだと述べた。

360:360スマートブレイン

百度は中国でナンバーワンの検索エンジン会社であり、360は第2位です。

両社は、大規模モデルに必要な計算能力、データ、アルゴリズム、そしてシナリオを保有しています。これは、大規模モデルの研究、開発、実装のためのビジネスサポートとデータサポートを提供している検索企業にとっても大きな強みとなります。

360グループとZhipu AIは5月16日に戦略提携を発表し、両者が共同開発した「360GLM」モデルは新世代の認知知能汎用モデルの水準に達した。

世界知能大会で、周紅一氏は「360 Brain」のマルチラウンド対話機能と「360 Hongtu」のAI生成画像生成機能の2つの機能を披露した。

GoogleとMicrosoftのように、一方がGoogle検索、もう一方がBingを運営しています。同様に中国では、Baiduと360がそれぞれ独自の検索エンジンを運営しており、一方がBaidu検索、もう一方が360検索を運営しています。