HUOXIU

大規模モデルの時代において、オープンソース技術と自社開発技術の「戦い」が再燃しています。

ここ数日、ソーシャルメディア上で異例の活発な議論が繰り広げられています。そのきっかけとなったのは、アリババの元AI科学者、賈陽青氏の投稿です。彼は、国産の大規模モデルがMETAのLLaMAアーキテクチャを盗用し、変数名をいくつか変更しただけで自社開発だと主張していると非難し、この行為は全く恥知らずだと非難しました。多くの人が国産の大規模モデルを1対1で比較し、どの企業が盗作したのか推測する中、ついに「犯人」が浮上しました。イノベーション・ワークスの会長兼CEO、李開復氏が打ち上げた易34Bです。

盗作に対する「大金」について

海外の開発者がLingyiwu.comのオープンソースページ「Hugging Face」を直接批判した。開発者のEhartford氏は、このモデルがMETA LLaMAアーキテクチャを採用し、わずか2つのテンソルのみを変更しているのではないかと疑問を呈した。Lingyiwu.comは数日前、新たにリリースしたオープンソースの大規模モデル「Yi-34B」が優れた性能を誇り、大成功を収めたと発表していた。同社はOpenAIやGoogleといった大手企業に匹敵するチームを擁し、トップクラスに躍り出るという野心と決意を表明していた。盗作疑惑を受けて、Lingyiwu.comは公式に謝罪し、モデルとコードを様々なオープンソースプラットフォームに再提出し、LLaMAライセンスのコピープロセスを完了し、オープンソースコミュニティ全体でバージョンアップデートを迅速に進めると述べた。

ZeroOneWorldは、モデルの学習プロセスにおいてGPT/LLaMAの基本アーキテクチャを採用したことを公然と認めています。LLaMAコミュニティのオープンソースへの貢献があったからこそ、ZeroOneWorldは迅速に開発を開始できたのです。

この時点で、メリットやデメリットを判断することなく、国内の主要モデルは責任が自分に降りかからなかったことに感謝して安堵のため息をつく一方で、オープンソース対自社開発の問題は再び論争を巻き起こした。

実際、国産ソフトウェアの自主的なイノベーション能力は、過去のソフトウェア開発時代においても疑問視されてきました。我が国は基礎ソフトウェアの基盤が弱く、後発であったため、当初はオープンソースを積極的に導入し、「殻に包まれたオープンソース」というレッテルを貼られることがありました。実際、国産ソフトウェアの開発過程では、一部の機能を欧米企業のソフトウェアで実装したため、依然としてこれらの企業の特許規制の対象となり、特許料を支払わなければなりませんでした。しかし、グローバル化した技術環境においては、国境を越えた競争と協力が当たり前であり、すべての技術革新は先人たちの成果の上に成り立っています。つまり、オープンソースの活用は自主的なイノベーション能力の欠如を意味するのではなく、コミュニティの信頼性と幅広い支持に基づいて、より多くの企業がより安定したアプリケーションを構築できることを意味するのです。

しかし、オープンソースを選択するか自社開発のイノベーションを選択するかに関わらず、ゲームのルールを遵守しなければなりません。ユーザーに状況を明確に伝え、彼らの仕事に敬意を払う必要があります。これはあらゆる企業にとっての基本的な行動原則です。

オープンソースかクローズドソースか?

昨年末以降、国内外の企業が大規模モデルへの移行を急速に進めており、テキストからテキスト、テキストから画像、テキストから動画といった様々なアプリケーションが雨後の筍のように次々と登場しています。これは強力なオープンソースインフラによるものです。オープンソースのデータ、アルゴリズム、フレームワークがあれば、他社は車輪の再発明をする必要がなくなり、技術革新の効率化につながります。では、モデルが自社開発モデルかどうかをどのように評価すればよいのでしょうか?業界のコンセンサスの一つは、アルゴリズムとフレームワークを自社で実装し、データの収集とクレンジングも自社で行う場合は自社開発とみなされる一方で、3つすべてがオープンソースであれば自社開発とはみなされないというものです。

オープンソース環境においては、モデルの自社開発性だけが基準ではないことに注意することが重要です。実用性、パフォーマンス、信頼性も考慮する必要があります。したがって、オープンソースフレームワークを使用し、オープンソースコミュニティのガイドラインと原則を遵守し、他者の知的財産権を侵害せず、オープンソースコミュニティの開発促進に最大限貢献するモデルであれば、そのモデルは自社開発とみなされます。

実際、大規模モデルの開発が急速に加速し始めて以来、多くの企業がこの問題に苦慮してきました。オープンソースが利用可能になった今、独自に開発する必要があるのでしょうか?結局のところ、ほとんどの企業は同じ選択をします。他者から学ぶことはできるものの、完全にコピーすることはできないのです!モデルのトレーニングはブラックボックスではありません。完全に透明性が確保されていない限り、セキュリティリスクは存在します。

現在、大規模モデルは様々な業界や企業に浸透しつつあります。例えば、金融業界における情報評価と予測、医療業界における画像解析と医薬品開発、小売業界における売上分析と市場予測、製造業における生産データ分析とスケジュール策定などは、かつてないほど大きな影響を受けるでしょう。最終的な決定権を持つためには、私たちは自らが独立し、制御可能なモデルを構築する必要があります。

現実には、多くの大手インターネット企業にとって、独自の大規模エコシステムを持たないことは、将来の発展を阻害し、場合によっては市場からの淘汰につながるため、大規模エコシステムは必要不可欠です。一方、中小企業は、垂直産業モデルを構築するために、より大規模なエコシステムに依存しています。このように、大規模エコシステムは活気に満ち、「百のモデルの戦い」、あるいは「千のモデルの戦い」へと発展しているように見えますが、その背後にある競争ははるかに熾烈です。この熾烈な競争環境の中で生き残るためには、参入するすべてのプレーヤーにとって、適切な「タイミング」を見極めることが不可欠です。