新知源報道 [新しい情報サマリー] OpenAI のオープンソース化の再開は、テクノロジー大手からの「贈り物」なのか、オープンソース コミュニティへの「償い」なのか?ちょうど今、The Information の最新レポートによると、OpenAI はまったく新しいオープンソースの大規模言語モデルをリリースしようとしている。 OpenAI が、間もなくオープンソースとなるモデルを使用して、Vicuna や他のオープンソース モデルから市場シェアを奪うつもりであるかどうかは不明です。 しかし、新しいモデルの機能が GPT-4 や GPT-3.5 に匹敵することはできないことはほぼ確実です。 結局のところ、GPTの最初の2つのバージョンはオープンソースであったにもかかわらず、270億ドルの評価額は、OpenAIの最も高度なモデルが商用目的で使用されることも意味します。 OpenAIの広報担当者はコメントの要請に応じなかった。 アルパカファミリーのオープンソース爆発 実際、オープンソース コミュニティが Google と OpenAI の「利益」を蝕んでいるため、この軍拡競争では Google も OpenAI も勝者にはなれないようだ。 ChatGPTは世界的なLLM革命を引き起こしました。しかし、OpenAIのオープン性の欠如は、多くの企業や開発者に無力感を与えました。 この時点で、Meta が前進し、LLaMA をリリースして、世界中の開発者に利益をもたらしました。 Meta は当初、LLaMA を非商用の研究用途向けにオープンソース化すると約束していましたが、リリースからわずか 1 週間後に LLaMA の重みが突然 4chan に漏洩し、瞬く間に何千ものダウンロードが引き起こされるとは誰が想像したでしょうか。 この「大規模なリーク」は、オープンソースLLM分野の状況を一変させました。わずか数週間のうちに、ChatGPTの代替となる様々なツールが驚異的なスピードで爆発的に増加しました。 Alpaca、Vicuna、Koala、ChatLLaMA、FreedomGPT、ColossalChat... まさに「アルパカファミリー」の爆発的増加です。 実際、アルパカ以前から、オープンソース モデルが OpenAI の野望を阻んできた。 当時、新しくリリースされたDall-E 2は、その驚くべきテクスチャ効果でネット上で大きな話題を巻き起こしました。 しかし、OpenAI がまだ API を販売しようとしている間に、オープンソースの代替手段である Stable Diffusion が突然登場しました。 安定拡散の急速な増加により、Dall-E 2 は開発者からすぐに忘れ去られました。 オープンソースの大規模モデルはシリコンバレーの巨大企業を混乱させる準備ができているのでしょうか? Vicuna の能力を向上させるために、ストイカ氏とその同僚は、コードの作成など、推論を伴うタスクの処理に役立つモデル内の計算量を増やす取り組みを行っています。 Vicunaは、年間数百万ドルの予算を持つバークレーのチームによって開発されました。そのうち約50万ドルは、Microsoft、Google、Amazonなどの上場企業から提供されました。 カリフォルニア大学バークレー校のコンピュータサイエンス教授、イオン・ストイカ氏は、無料のAIモデルのパフォーマンスは、現在、GoogleやOpenAIの独自モデルのそれに「かなり近い」と述べ、ほとんどの開発者が最終的に無料モデルを選択することは間違いないと語った。 一方、オープンソース モデルでは、開発者は独自のデータを使用して特定の問題を解決できます。 一方、Vicunaのような学習モデルは数百ドル程度で済むため、大手企業に高額な使用料を支払う必要がありません。 https://lmsys.org/blog/2023-03-30-vicuna/ ストイカ氏の見解が正しければ、オープンソース AI は、独自のモデルの使用権を販売する Google、OpenAI、Microsoft などの大手企業のビジネス計画を必然的に混乱させることになるだろう。 Vicuna の品質とオープンソース AI のカンブリア爆発により、Google のエンジニアである Luke Sernau 氏は、Google が OpenAI に追いつこうとする取り組みにおいて、独自のソフトウェアに重点を置きすぎていると同僚に警告した。
このメモはすぐに業界全体に響き渡りました。たとえセルナウ氏がオープンソース AI の能力を過大評価し、そのコストとリスクを過小評価していたとしても、ほとんどの専門家は Meta がそこから恩恵を受ける可能性が非常に高いことに同意しました。 例えば、Metaはコンテンツの推奨や広告ターゲティングにAIモデルを社内で活用しています。開発者がMetaのモデルを改良すれば、Metaはそれらの改良点を社内のAIに組み込むことができます。 MetaのCEOであるマーク・ザッカーバーグ氏は、これを長い間計画してきた。 4月、アナリストとの電話会議で、彼は次のように同社の戦略について語った。
しかし、Google は AI ソフトウェアに対して完全に独自のアプローチを採用しているわけではありません。 2020年にGoogleはオープンソースの言語モデルT5をリリースしました。これにより開発者は翻訳や要約のタスクを実行できるソフトウェアを構築できるようになりました。その後、Googleはより高度なバージョンであるFlan-T5をリリースしました。 しかし、ストイカ氏や他の専門家によると、Meta がリリースするソフトウェアは Google モデルを大幅に改善できるため、開発者が Meta モデルを選択する可能性が大幅に高まるとのことです。 しかし、ストイカ氏は、オープンソースソフトウェアにおいてはGoogleが依然として2つの優位性を持っていると述べた。 1. Google のモデルは、外部に公開されていないユーザー データを活用すれば、コンテンツの推奨など特定の専門分野でより優れたパフォーマンスを発揮する可能性があります。 しかし、Googleの広報担当者は、同社は既存のユーザーデータでベースモデルをトレーニングしていないと述べた。 2. 検索会社は大規模なコンピューティング インフラストラクチャの管理に関する専門知識を持っているため、クラウド顧客へのサービス提供を含め、モデルをより低コストで実行できます。 同時に、OpenAI は、何百万人もの人々が ChatGPT とどのようにやり取りしているかに関するデータを収集することで早期に優位性を獲得しており、これは Microsoft との協力協定はもちろんのこと、OpenAI の AI ソフトウェアの改善にも役立つでしょう。 オープンソースの繁栄は大企業からの「贈り物」なのか? しかし、オープンソース上に築かれたこの繁栄は不安定です。 現在、オープンソースの多くは、資金力のある大規模企業による大規模なモデルの提供に依存しています。OpenAIとMetaが事業を停止した場合、かつては活況を呈していたオープンソースコミュニティは荒廃してしまう可能性があります。 たとえば、現在では多くのオープンソースの代替品が Meta の LLaMA 上に構築されています。 他のモデルでは、オープンソースの非営利団体 EleutherAI がまとめた Pile と呼ばれる大規模な公開データセットを使用します。 EleutherAI が存在するのは、OpenAI のオープン性により、開発者グループが GPT-3 の作成方法をリバース エンジニアリングし、空き時間に独自のモデルを作成できるからです。 しかし、すべては変わる可能性があります。 OpenAIはもはやオープンではなく、Metaもスタートアップがオープンソースコードを悪意のある目的で使用するのを防ぐためにオープンソースを制限することを検討している。 Meta AIのエグゼクティブディレクター、ジョエル・ピノー氏は、今コードを外部に公開するのは正しいことだが、Metaが今後5年間で同じ戦略を採用するかどうかはわからないと述べた。 この閉鎖傾向が続けば、オープンソース コミュニティが見捨てられるだけでなく、次世代の AI のブレークスルーも、最大規模で最も資金力のある AI ラボの手に戻ってくることになるでしょう。 明らかに、大規模な AI モデルの作成方法と使用方法の将来は岐路に立っています。 もし OpenAI が過去にケチだったなら、現在のオープンソースの成功は達成できなかっただろう。オープンソースの自由競争による利益がリスクを上回るかどうかを検討している人々もいる。 Meta AIがLLaMAをリリースしたのと同時に、Hugging Faceはゲートアクセスメカニズムを導入しました。これは、プラットフォームからモデルをダウンロードする前に、ユーザーが申請して承認を得ることを義務付けるものです。これは、正当な理由のあるユーザーのみにアクセスを制限することを目的としていました。 「私はオープンソースの伝道師ではありません」と、ハギング・フェイスの主任倫理科学者、マーガレット・ミッチェル氏は言う。「オープンソース化しない理由も理解できます。 」 大規模モデルが広く使用されることの欠点の 1 つは、AI 生成ポルノが急増する可能性があることです。 以前Googleで勤務し、AI倫理チームを設立したミッチェル氏は、モデルの誤用によるリスクを痛感しています。そのため、彼女はMeta AIがモデルを制御された方法で公開するという決定を支持しています。 一方、OpenAIもGPT-4の普及を止めている。GPT-4がリリースされた際、「GPT-4のような大規模モデルの競争環境とセキュリティへの影響」を理由に、アーキテクチャ(モデルサイズを含む)、ハードウェア、トレーニング計算、データセット構築、トレーニング手法などの詳細は明らかにされなかった。 この制限は、OpenAIの考え方の転換を反映しています。共同創設者兼主任科学者のイリヤ・スツケバー氏は、OpenAIの過去のオープン性は間違いだったと述べています。 OpenAIの政策研究者、サンディニ・アガルワル氏は、 「以前は、オープンソースであれば、少数の修理業者が関心を持つ程度だった。しかし今では、環境全体が変化した。オープンソースは開発を加速させ、競争を促進する可能性を秘めている」と述べた。 もし3年前に戻って、OpenAIがGPT-3の詳細を発表する際に同じ原則に従っていたとしたら、EleutherAIは存在しなかったでしょうし、オープンソースのイノベーションが繁栄することもなかったでしょう。 現在、EleutherAIはオープンソースエコシステムにおいて極めて重要な役割を果たしています。Pileは、Stability AIのStableLMを含む複数のオープンソースプロジェクトのトレーニングに使用されています。 しかし、GPT-4、5、6 がロックアウトされたことで、オープンソース コミュニティは再び少数の大企業に遅れをとることになるかもしれません。 彼らは前世代のモデルに閉じ込められ、進歩を望むなら密室で作業することしかできない。 |