|
出典: 同期 編集者:ピーチ・スワロー 【新知源紹介】 ChatGPTは何を間違えたのか?アメリカの弁護士が裁判所に提出した書類には、全く存在しない6つの事例が引用されており、それが裏目に出て制裁を受けることになった。
米国で最近起こされた訴訟では、原告側の弁護士がChatGPTが捏造した6件の架空の事例を挙げた。裁判官は法廷で、弁護士の弁護は完全な嘘であり全く馬鹿げていると指摘した。しかし、弁護士は弁護のために、ChatGPTとのチャットのスクリーンショットの証拠も提出した。明らかに、ChatGPT は「これらの事例は現実である」と主張しています。彼が原告として起こした訴訟は裏目に出て、制裁を受けることになり、この動きはネット上で大きな騒動を引き起こした。結局のところ、GPT-4 が初めてリリースされたとき、OpenAI は UBE (学部試験) のスコアを発表し、そこで 90 ポイントを獲得しました。ネットユーザーは警告しています: 法的調査には ChatGPT を決して使用しないでください!!!問題はあなたのプロンプトにあると冗談めかして言う人もいました。
この訴訟は他の多くの訴訟と同じように始まりました。ロベルト・マタという男性がニューヨークのジョン・F・ケネディ国際空港行きの飛行機に乗っていたところ、屋台車に膝をぶつけられて負傷した。そのため、彼はその便を運航した航空会社アビアンカを訴えるつもりだ。マタさんは、この事件で自分を代理するため、法律事務所レビドウ・アンド・オーバーマンの弁護士を雇った。弁護士スティーブン・A・シュワルツ氏は、この事件を引き受けた後、10ページに及ぶ答弁書を裁判所に提出した。その中で、関連する6つの判決が引用されていた。 ヴァルギース V. 中国南方航空 シャブーンV.エジプト航空 ピーターセンV.イラン航空 マルティネス デルタ航空 ダーデン V. KLM オランダ航空の遺産 ミラーV.ユナイテッド航空
元のファイル: https://storage.courtlistener.com/recap/gov.uscourts.nysd.575368/gov.uscourts.nysd.575368.32.1.pdf
しかし、驚いたことに、事件そのものから司法の判決、内部告発に至るまですべてが偽物だったのです。なぜ偽物なのでしょうか?それはChatGPTによって生成されたからです。現在、相手側の弁護士は原告側の弁護士に制裁を与えるための公聴会の開催を検討している。シュワルツ弁護士はニューヨークで30年間勤務した、非常に経験豊富な弁護士です。彼の言葉から、彼はChatGPTを使ったことがなく、生成されたコンテンツが偽物だと気づかなかったために、ひどく騙されたことがわかりました。本当にひどい話です。宣誓供述書の中で、原告側の弁護士スティーブン・A・シュワルツ氏は、関連する調査にChatGPTを使用したことを認めた。これらのケースの信憑性を検証するために、彼が唯一合理的なことをしました。それは、ChatGPT にその信憑性を検証してもらうことでした。彼は裁判官に対し、「裁判所や航空会社を欺く意図はなかった」と述べた。 ChatGPTにこれらの事例の情報源について尋ねると、ChatGPTはまず以前の不明瞭な発言について謝罪したが、それでもこれらの事例は実際に存在し、WestlawとLexisNexisで見つけることができると主張した。相手方の弁護士も、レヴィドウ・アンド・オーバーマン法律事務所の原告側弁護士がいかに不合理で馬鹿げているかを主張したため、裁判所はこの詳細を真剣に受け止めた。あるケースでは、ヴァルギースという男性が中国南方航空を訴えました。しかし、これは実現しませんでした。 ChatGPTは別の判例、Zicherman v. Korean Airを引用しているようですが、日付と判例の詳細が誤っています。シュワルツ氏はその後、ChatGPT が偽の判例を提供する可能性があることに気付いていなかったと後悔の意を表し、法的調査に生成 AI を使用したことを今では深く後悔していると述べました。裁判官は、この事態は前例のないものであり、制裁の可能性について議論するために6月8日に審問が開かれると述べた。この事件は、ChatGPT を使用した後は、他のソースを使用して二重、あるいは三重の検証を行う必要があるという非常に重要な事実を改めて証明しています。 AIモデルが入力情報に重大な事実誤認を起こしたのは今回が初めてではない。GoogleのBardもこの問題に遭遇した。
GPT-4が初めてリリースされた日のことを覚えていますか?「小さな町の受験者」が、すべてのテスト指標でほぼ完璧なスコアを獲得しました。特に、統一司法試験 (UBE) では、GPT-4 のスコアは 90% に達する可能性がありますが、ChatGPT (GPT-3.5) のスコアは 10% にしか達しません。しかし、その後間もなく、MITの研究者であるエリック・マルティネス氏が、司法試験におけるGPT-4のパフォーマンスを再評価した論文を発表しました。この論文では、GPT-4 司法試験の点数は誇張されているとはっきり述べています。 論文リンク: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4441311著者らは、UBE における GPT-4 のパフォーマンスに関する OpenAI の評価を示唆する 4 つの調査結果を提示していますが、GPT-3.5 に対する大きく印象的な飛躍はあるものの、誇張であるように思われます。特に、それが現役弁護士の実際の能力を反映するという意図は言うまでもなく、「下位パーセンタイル範囲」を表す控えめな推定値として受け止められる場合。まず、GPT-4 司法試験のスコアを、2 月にイリノイ州司法試験を受けた受験者のスコアと比較します。これらの受験者は全員再受験者であることは注目に値するので、彼らのスコアがさらに悪くなる理由は理解に難くありません。次に、最新の 7 月の試験のデータによると、GPT-4 の UBE スコアは 68% でした。 3 番目に、公式の NCBE データを調べ、いくつかの保守的な統計的仮定を使用することで、GPT-4 はすべての初回テストで 63% の成功率を達成したと推定されます。最後に、試験に合格した人(つまり、弁護士資格保有者または弁護士申請中者)のみを考慮すると、GPT-4 のパフォーマンスは 48% に低下すると予想されます。ネットユーザーによると、より正確に言えば、GPT-4 のスコアは 63 か 68 になるはずだそうです。記事の中で著者は、法律業務を AI モデルにアウトソーシングすることの望ましさと実現可能性に関する洞察に満ちた見解も示しています。さらに、AI 開発者は、安全で信頼性の高い AI の重要性を確保するために、厳格で透明性の高い機能評価を実施します。原告側の弁護士がこの研究を読んでいたら、これほど大きな損失を被ることはなかったかもしれない。
結局のところ、ChatGPT が存在しない 6 つの事例を捏造できるのは、「錯覚」という固有の問題に起因しています。率直に言えば、それは彼らがナンセンスなことを話すという生来の傾向によるものです。マスク氏もこの重大な問題を解決したいと考え、TruthGPTと呼ばれるAIプラットフォームの立ち上げを正式に発表しました。マスク氏はかつて、TruthGPTは宇宙の本質を理解しようとする「最も偉大な真実探求AI」になるだろうと述べた。しかし、GPT に関係なく、幻覚に対処するのは困難です。最近、OpenAI の共同設立者兼研究者である John Schulman 氏は、「RL と真実性 - TruthGPT に向けて」というプレゼンテーションで、幻覚の原因と解決策について説明しました。シュルマンによれば、幻覚は大きく分けて 2 つの種類に分類できます。 1. パターン補完動作。言語モデルは不確実性を表現できず、プロンプト内の前提に疑問を呈することができず、以前に犯した間違いを続けることもできません。言語モデルは、学習データから得られた事実を自身のネットワーク内に保存する知識グラフを表します。ファインチューニングとは、知識グラフ上で動作し、トークン予測を出力する「関数の学習」と理解できます。たとえば、「スターウォーズってどんな映画?」という質問と「SF」という答えが含まれている場合は、データセットを微調整します。この情報が元のトレーニングデータに存在する場合、モデルは新しい情報を学習するのではなく、行動を学習し、回答を出力します。この微調整は「行動クローニング」とも呼ばれます。 「スターウォーズってどんな映画?」という質問の答えが元のトレーニングデータに含まれていない場合でも、モデルは正しい答えを知らなくても学習します。問題は、ナレッジ グラフに含まれていないこれらの回答を微調整に使用すると、モデルに回答を捏造するように学習させ、「錯覚」と呼ばれる状態を作り出す可能性があることです。逆に、モデルが誤った回答でトレーニングされると、モデルの知識ネットワークによって情報が隠されてしまいます。
この事件後、ネットユーザーはさまざまな形で意見を表明した。キム氏は、ChatGPTだけではない、人間も知識のギャップを埋めるために想像力を駆使するのが好きだと述べました。ChatGPTはこうしたギャップを説得力を持って描写できるというだけです。重要なのは、ChatGPTが何を知っていて、何を知らないのかを理解することです。 Zero は非常に建設的な提案をしました。今後、ChatGPT が例を提供するときには、ソース リンクを含めるべきです。フランシス氏は、前述の通り、ChatGPTは生成型人工知能の一種であると述べました。これは、入力された質問に基づいて回答を生成することを意味します。質問を理解した上で、人間の洞察力に富んだ回答をどれだけ正確に模倣したとしても、ChatGPT自体が質問を理解していないという事実は変わりません。トライコーンは、原告側弁護士はChatGPTを責めるべきではないと考えている。ChatGPTは用語を誤用したからだ。原告側弁護士は、プロンプトの一部として例を入力し、議論の不足部分をChatGPTに補わせるべきだった。一部のネットユーザーからは、ChatGPTにもっと注目した方がいい、そうでないと次のスーパーボウル優勝者になれるかもしれない、というコメントもありました。これは明白な証拠です。ChatGPTのような人工知能ツールが人間のタスクを実行すると、大惨事につながる可能性が非常に高いのです。 ChatGPT のパフォーマンスについてどう思いますか? https://www.theverge.com/2023/5/27/23739913/chatgpt-ai-lawsuit-avianca-airlines-chatbot-research https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.htm |