|
10月28日、OSI(オープンソース・イニシアティブ)は、初のオープンソース人工知能定義(OSAID)をリリースしました。これは、オープンソースAIムーブメントにとって大きな前進となりました。OSAIDは確かに前進ではありますが、学習データの公開に関する要件が不足しているため、最終的には埋めるべきギャップが残されています。 OSI は、オープン ソースの意味を定義し、オープン ソース ソフトウェアのリリースを支援するライセンスを作成するために、約 30 年にわたって活動してきた標準化団体です。 「このプロセスは『完全、徹底的、包括的、そして公正』です」と、OSI理事会会長のカルロ・ピアナ氏は述べています。「理事会は、このプロセスによって作成された定義が、オープンソース定義および4つの基本的自由で定義されたオープンソース標準に準拠していると確信しています。また、この定義によってOSIが業界全体に有意義かつ実用的なオープンソースガイダンスを提供できると確信しています。」 「4 つの基本的な自由」は、あらゆるソフトウェアにおいて、すべてのユーザーが次の自由を持つ必要があることを要求します...
OSAID 1.0の定義によると、オープンソースの人工知能は「誰もがその恩恵を受けられる」ことが求められます。人工知能の定義では、開発者はシステムのトレーニングと実行に使用される完全なソースコードを提供することが求められており、これには「データ処理とフィルタリングの完全な仕様、そしてトレーニングの実行方法」が含まれます。 これには、「データの処理とフィルタリングに使用されるコード、トレーニングに使用されるコード(使用されるパラメータと設定を含む)、検証とテスト、サポートライブラリ(トークナイザーやハイパーパラメータ検索コードなど)、推論コード、モデルアーキテクチャ」が含まれます。OSAIDに基づくオープンAIシステムの作者は、重みや構成設定を含むパラメータの完全な説明も完全に開示する必要があります。 しかし、モデルの学習に使用するデータに関しては、OSAIDは学習データを必要としません。代わりに、「熟練した人が実質的に同等のシステムを構築できるようにシステムを学習するのに十分な詳細度を持つデータ情報」のみを必要とします。 OSAID の定義にはさらに次のように記されています。 「特に、これには(1)トレーニングに使用されたすべてのデータの完全な説明(共有できないデータの場合を含む)、データのソース、データの範囲と特性、データの取得方法と選択方法、注釈手順、データの処理方法とフィルタリング方法の開示、(2)公開されているすべてのトレーニングデータのリストとデータの取得元、(3)第三者から入手可能なすべてのトレーニングデータのリストとデータの取得元(有料で取得されたデータを含む)が含まれる必要があります。」 MozillaのAI戦略責任者であるアヤ・ブデール氏は、これは「多くのプロプライエタリモデルや表向きはオープンソースのモデルが現在行っていること」をはるかに超えるものだと述べた。しかし、ブデール氏は、トレーニングデータの完全なコピーを必要としないことはOSAID側の妥協を意味するとも認めているようだ。 「これは、AIトレーニングデータの扱い方に関する複雑さに対処するための出発点であり、完全なデータセットを共有することの課題を認識しつつ、オープンデータセットをAIエコシステムにおいてより広く普及させることを目指しています」と彼女はプレスリリースで述べています。「オープンソースからのAIトレーニングデータに関するこの考え方は完璧ではないかもしれませんが、モデル構築者が現実的に達成できない、イデオロギー的に原始的なゴールドスタンダードを主張しており、最終的には逆効果になる可能性があります。」 Lightning AI の CTO である Luca Antiga 氏は、オープンソース人工知能の定義においてオープンなトレーニング データを必須とすることで、OSI がさらに一歩前進することを期待しています。 「モデルのソースコードをトレーニングデータ、あるいは少なくともその大部分とみなすならば、私たちのオープンソースAIソースコードはオープンではありません。これは単なる学術的な区別ではありません」と彼はBigDATAwireに語った。「何かが実用的であるためには、オープンソースの定義は包括的なものでなければならないと私は考えています。」 Apache 2.0ライセンスは、オープンソースソフトウェアの開発者がユーザーを訴えないことを保証するため、オープンソースのゴールドスタンダードと考えられています。しかし、アンティガ氏は、OSAIDからトレーニングデータを除外することでこの定義が弱まり、Apache 2.0ライセンス製品の商用ユーザーよりもユーザーの安心感が低くなると主張しています。 「これにより、オープンソースは商業環境でも使用できるもののように思われるが、それは少々弱すぎる」と同氏は語った。 これらは間違いなく困難な問題であり、特に大規模言語モデル(LLM)の文脈においてはなおさらです。LLMは規模が大きく、構築が困難で、公開および非公開のインターネットウェブサイトから取得した膨大なデータを用いた学習が必要です。こうした障害のため、LLMの開発と学習に成功しているのは、世界最大級のテクノロジー企業のうちほんの一握りに過ぎません。 例えば、MetaのLlama3モデルは非常に人気があり、強力で、無料でダウンロードできますが、Metaはこれをオープンソースモデルとは呼んでいません。これは、FacebookやInstagramの会話など、Metaが公開を望まない独自のデータでモデルが学習されたためと考えられます。OpenAIは2022年11月にChatGPTをリリースし、LLMブームを巻き起こしましたが、その名前にもかかわらず、モデルがオープンソースであることを主張していません。 OSI エグゼクティブ ディレクターのステファノ マフーリ氏は、オープン データを必須にすると、オープン ソースの人工知能に課題が生じることを認識しているようです。 「本日のOSAID 1.0のリリースは、OSIコミュニティにとって新たな課題に満ちた、困難な道のりでした」と、マフルリ氏はOSIのプレスリリースで述べています。「プロセスは繊細で、様々な意見や未知の技術フロンティアに満ち、時には白熱した議論もありましたが、結果は2年間のプロセス開始時に設定された期待と一致しています。これは出発点であり、OSAID v.1.0の解釈と適用に関する知識を深めるために、より広範なオープンソースコミュニティと協力しながら、定義を段階的に洗練させていきます。」 Lightning AI の Antiga 氏は、オープンソース AI モデルの標準を作成することの難しさを認め、これらの問題を提起する OSI の先駆的な役割に感謝の意を表しました。 「批判のために批判したいわけではありませんし、彼らはこの問題について良い議論をしたと思います」と彼は述べた。「ただ、結果として得られた定義は妥協案であり、現在の人工知能を膨大なデータセットで訓練する方法によって決定づけられていると思います。」 しかし、アンティガ氏は、OSAIDは完全にオープンなトレーニングデータを必要とする人工知能の定義に関して法的救済策を提供できないため、業界は他の解決策を模索するだろうと述べた。企業、モデル開発者、そして学界は、OSAIDと連携して倫理的および法的問題に対処するために必要な情報開示を提供するトレーニングデータの追加ライセンスを求める可能性が高いとアンティガ氏は述べた。 「最終的には、真のニーズが道を見つけると信じています」と彼は述べた。「水のように、必ず流れるべき方向を見つけます。したがって、OSIの定義には一定のデータ条件が伴い、人々はA+Xがオープンソースであることを受け入れるでしょう。より準拠性の高いモデルを採用する人が増え、より準拠性の低いモデルが普及するにつれて、実践によってこの図は洗練され、両方の欠けている部分の定義を見つけるのに役立つでしょう。OSIは今のところ残りの部分についてはコメントしませんが、いずれ明らかになるでしょう。」 著者: アレックス・ウッディ |