|
OpenAIは最近、製品開発を強化し、Googleの大規模モデル競争に激しく挑んできました。しかし驚くべきことに、OpenAIは主要株主であるMicrosoftと共に特許侵害で訴えられ、被告となりました。 複数のピューリッツァー賞受賞者が、 大規模モデルのトレーニングに自らの研究成果を悪用したとしてOpenAI とMicrosoft を訴えた。 ロイター通信によると、現地時間12月21日、ノンフィクション本の著者計11人がマンハッタン連邦裁判所に訴訟を起こし、OpenAIとMicrosoftがChatGPTやその他のAIソフトウェアを支える大規模モデルのトレーニングに彼らの本を悪用したと訴えた。 これらの作家の中には、ピューリッツァー賞受賞者のケイ・バード、タイラー・ブランチ、ステイシー・シフも含まれていることは特筆に値します。彼らはオッペンハイマーの伝記『アメリカン・プロメテウス』の共著者であり、この作品は今年大ヒット映画『オッペンハイマー』として映画化されました。 これらの著者は、OpenAIとMicrosoftがOpenAIのGPT大規模言語モデル(LLM)の学習に彼らの著作物を許可なく使用したと主張しており、これは彼らの著作物やその他の著作物の「スクレイピング」に等しいと彼らは考えています。他者の著作物のこのような無断使用は著作権侵害にあたります。彼らは損害賠償を求め、これらの企業に対し著作権侵害の停止を求めています。 マンハッタン連邦裁判所に著者らが提訴した今回の訴訟は、これまでの訴訟の継続・発展と捉えることができる。昨年11月には、作家兼編集者のジュリアン・サンクトン氏が訴訟を起こしており、これがきっかけでマイクロソフトが初めてOpenAI訴訟の被告に名指しされた。マイクロソフトがOpenAIに数十億ドルを投資し、自社のシステムをOpenAI製品に統合していることは周知の事実である。著者らの見解では、これはマイクロソフトが人工知能モデルの研究開発に深く関わっており、著作権侵害の責任があることを意味する。今年6月と7月には、コメディアンのサラ・シルバーマン氏を含む3名が、ChatGPTトレーニングデータに関する著作権侵害でOpenAIとMetaを相手取り同様の集団訴訟を起こしている。 明らかに、OpenAI が著作権侵害で訴えられた事件は、孤立した事件ではありません。 これらの著者は、ChatGPTが彼らのコンテンツを要約・分析する能力を持つはずがないという見解を一般的に持っています。したがって、いわゆる「ChatGPT出力」は、実際には元の著作物の著作権侵害によって生じた二次著作物です。OpenAIはこれらの著作物を違法に使用してGPT言語モデルの学習を行い、利益を得ていましたが、これは違法です。さらに、訴訟では、OpenAIが学習データに著作権で保護されたコンテンツが含まれていることを知りながら利用規約に違反したため、故意の著作権侵害に該当すると主張しています。訴訟は、裁判所に対し、OpenAIによるこの「違法な商業活動」への関与を禁止し、OpenAIに侵害に対する損害賠償と罰金の支払いを命じるよう求めています。 現在のところ、OpenAIもMicrosoftもこれらの訴訟には応じていない。 大規模 AI モデルの時代が始まりました。しかし、根底にある著作権の問題は未解決のままです。 OpenAIが著作権侵害の責任を負うかどうかは現時点では不明であり、裁判所の判決を待つ必要があります。しかし、一つ注意すべき点があります。それは、大規模AIモデルの時代が到来したにもかかわらず、それに伴う著作権の問題が未解決のままであるということです。 AIGC大型模型の急速な台頭は、業界のコンテンツ創造ロジックの再構築と人々の仕事と生活のエンパワーメントに大きな影響を与えました。しかし同時に、著作権レベルでは新たな課題も次々と生み出しています。大型模型の学習段階にはどのような著作権利用活動が関わっているのか?その過程にはどのような侵害リスクが存在する可能性があるのか?そして、産業発展の観点から、大型模型の学習と免責のための科学的メカニズムをどのように構築できるのか?これらはいずれも取り組むべき重要な課題です。これらの問題が効果的に解決されなければ、大型模型産業の発展と技術進歩は大きな不確実性に直面することになるでしょう。 現在、膨大なコンテンツデータを用いてモデルを学習する様々な生成型人工知能(GAI)手法は、大きく分けて2つのステップに分けられます。第1ステップでは、データベースの購入や公開クロールなどの方法によって膨大なコンテンツデータを取得し、何らかの形で変換した後、関連サーバーに保存します。第2ステップでは、コンテンツデータを分析・処理して特定のパターン、傾向、相関関係を発見し、それらを大規模なモデルパラメータに変換して、後続のコンテンツ生成に利用します。しかし、「コンテンツを取得する」プロセスには、著作権の問題が避けられません。 著作権問題を議論する際には、AI企業が著作権を侵害しているかどうかのみを問題視することが多いことを明確にしておくことが重要です。しかし、この問題を細かく分解すると、著作物の取得、著作物の保管、そして著作物の分析という3つの行為が関わってきます。現在、著作権法上の「著作権」の範囲に該当するのは「著作物の保管」行為のみであり、より重要な「著作物の分析」行為については議論が続いています。不完全な統計によると、2022年11月から2023年10月にかけて、カリフォルニア州北部地区連邦地方裁判所だけで10件の侵害訴訟が受理され、著作権者はStability AI、OpenAI、Meta、AlphabetなどのAI企業を訴えています。 未解決の著作権問題は、AI 時代における「従来の著作権モデル」の失敗、あるいは無効性から生じています。 著作権問題は常に私たちの関心の的となっています。様々な侵害事件が時折発生しているものの、従来の著作権モデルの下では、著作権保護の問題は常に追跡可能でした。しかし、AI時代の到来に伴い、従来の「ライセンスモデル」は機能不全に陥り、あるいは効果を発揮しなくなっているようです。 大規模モデルのライセンス基準が明確ではないため、どのような著作権を付与すべきか議論の余地があります。一見すると、大規模モデルの学習は「考え、吸収し、再現する」行為と捉えられますが、これは明らかに独占的な著作権には該当しません。つまり、著作権者にとってモデルの著作権侵害を発見・立証することは極めて困難です。 第二に、大規模モデルの学習には、多様な出所と多様な所有権を持つ膨大な数の著作物が関わってきます。これらの著作物を従来の「実装ライセンス」を通じてライセンス取得しようとすると、膨大な作業量となります。膨大なデータから保護対象著作物を正確に分離・抽出する必要がある一方で、個々の著作物の権利者を特定し、ライセンス契約を交渉し、様々なライセンス料を支払う必要もあります。このプロセスは非常に長く複雑で、実際に導入するのは困難です。 AI著作権の問題は未解決のままですが、議論や提案が全くないわけではありません。ただ、意見が多様化しているだけです。情報技術やビジネスモデルの進化に対応するために、ある程度の「複製の自由」を認めるべきだと考える人もいます。一方で、ハイテク産業は「無法地帯」であってはならず、「セーフハーバー」制度は存在すべきではないと主張する人もいます。 大規模AIモデルという新興分野において、著作権問題にどう対処すればよいのでしょうか?おそらく、現実世界の問題こそが解決策の創出を促す原動力となるでしょう。AI開発の規模が十分に大きく、発生する著作権問題の数も十分であれば、それに応じた答えは自然に浮かび上がってくるでしょう。 |