|
2020-04-10 12:46:43 マシンハートレポート 参加者:張騫、丹江 昨日、「AI分野を救え、子供たちを救え!」というタイトルの投稿が知乎に掲載され、コミュニティ内で大きな注目を集めました。AI分野は一体何が問題なのか?どうすれば救えるのか?この記事では、これらの疑問に焦点を当てていきます。 元の投稿リンク: https://zhuanlan.zhihu.com/p/127085043 投稿者は、AI分野における盗作や捏造の蔓延が無視できないレベルに達していると考えており、論文やコードに見つかった問題点を指摘するよう、すべての人に呼びかけています。そのため、彼女は「AI論文オンライン質問」というコラムを立ち上げ、誰もが発見した問題点を報告し、共に議論し、AIコミュニティの浄化に向けて共に努力できることを願っています。 この取り組みは、清華大学の准教授である劉志遠氏をはじめとする、この分野の研究者から支持を得ています。結局のところ、学術上の不正行為や粗雑な研究は、特にAI分野の長期的な発展にとって極めて有害です。ポスターにも記されているように、科学研究は継続的な反復プロセスです。「トップカンファレンスで先人たちが発表した論文が捏造されたものであれば、後継者が発表する論文は、ゴミの上に築かれた空中楼閣のように、不安定で危ういものになるでしょう。」 現在、多くのトップレベルの会議運営委員会やジャーナル編集者はこの問題に気づき始めており、論文の再現性にますます注意を払い、著者にコードの提出を義務付け、反復研究を奨励しています。しかし、投稿数が多く、公的資金が限られている状況では、「民間セクター」の力も活用する必要があります。 CVPR 2019で明らかになった問題点 長年の課題として、AI分野における「水増し」や「偽造」の問題に対する国内コミュニティの注目は、CVPR2019の結果発表時にピークに達したようだ。 CVPR 2019では最終的に5,165件の有効な投稿があり、前年比で50%以上増加しました。投稿数の大幅な増加により、オンライン共同編集ツールOverleafは編集者の過密によりクラッシュしました。 華南理工大学のタン・ミンクイ教授は、「ハードウェアの限界により、ハードウェア分野におけるムーアの法則が徐々に破綻すると、論文発表の数がその座を占めるようになる」とコメントした。 それ以来、今日のトップカンファレンスはもはや以前と同じではないことに気づく人が増えています。 CVPRをはじめとするトップカンファレンスに対する国民の不満がついに爆発した。知乎では「CVPR 2019でひどい論文は何か?」という質問に対し、多数の記事が引用され、口頭発表も含め各論文を一つ一つ分析・批判し、「CVPRは特別なものではない」と断言している。 こうした「疑問」は、様々なトップカンファレンスにも存在しています。人工知能(AI)の台頭に伴い、研究者の数が急増し、論文投稿数も急増したため、かつては権威があったトップカンファレンスは「肥大化し、耐え難いもの」に見えるようになってしまいました。 ニュールIPS 2019 10,000 件を超える投稿、1,428 件の採択論文、57 のワークショップ、13,000 人の参加者があり、会議会場は遠くから見るとコンサートのようでした… ICLR 2020 応募作品数は年々増加しており、2018年には900作品以上、2019年には1,500作品以上、2020年には2,600作品以上となりました。 CVPR 2020 提出された論文IDの数は10,000を超え、有効な提出数は6,656件となり、CVPR 2018の2倍以上となりました。 AI分野で働いた経験のある人なら、程度の差はあれ、奇妙な不安(同調圧力)を経験したことがあるでしょう。NIPSに論文を投稿した後、どのAAAIに論文を投稿するか考え、AAAIに投稿した後はどのCVPRに論文を投稿するか考えます。なぜこんなに多くの論文を投稿しなければならないのでしょうか?少数のトップ研究者や業界リーダーであれば、短期間で素晴らしいアイデアを次々と生み出し、それらのアイデアを徹底的に理論的・実践的に検証できるかもしれません。しかし、それ以外の人はどうでしょうか?結局、無関係で質の低い論文ばかりが投稿されるのです。(@InformationGateRunnerより引用) どうやって保存するのですか? 問題点は山ほどありますが、どうすれば解決できるでしょうか?主要なカンファレンスやジャーナルの現状、そして個人的な提案を踏まえると、アプローチは大きく分けて2つに分けられます。1つは、カンファレンスやジャーナルにおいて、より厳格な投稿ポリシー(コードの提出を必須とするなど)を策定し、一方で、反復的な研究や無効な結果をもたらす調査を積極的に受け入れることです。もう1つは、コミュニティ主導の「フェイクニュース」キャンペーンを展開し、コミュニティのリソースを最大限に活用して「共に欠点を見つける」ことです。既に様々な団体が、この2つのアプローチの実験を始めているようです。 NeurIPS 2020: コードの提出を「強く推奨」 NeurIPS 2019から、組織委員会は論文へのコード提出を奨励する(ただし必須ではない)戦略を導入しました。この戦略は好結果をもたらしました。NeurIPS 2019の最終提出段階では、採択された論文の75%にコードが含まれていました。これは、2018年の50%と比較して大幅に増加した数値です。 今年、組織委員会はこの戦略をさらに強化し、「奨励」から「強く推奨」(まだ必須ではない)に変更し、コード提出のためのガイドラインとテンプレートも提供しました。 このルールは、2019年の査読者からのフィードバックに基づいて決定されました。調査によると、各査読後、査読者の13%がコードを確認したと回答し、21%が確認しなかったと回答しました。残りの査読者は「該当しない」と回答しました。これは、多くの論文にコードが含まれていなかったためと考えられます。コードが提供されていない場合、21%の査読者はコードのある論文を好むと回答しました。さらに、組織委員会は、論文に提出されたコードの品質と査読者のスコアの間に強い相関関係があることを発見しました。 性質: 複製研究および無効な結果を伴う研究を奨励します。 2月の論説で、*Nature*は研究機関とジャーナルが再現研究や無結果研究を奨励すべきという取り組みを提案しました。記事では、無結果研究を発表する研究者は、コミュニティがより生産性の高い分野に多額の資金を投入することに貢献し、無結果研究の普及は最終的にコミュニティが理論を現実世界により適用しやすいように修正することを促すと強調しました。 この社説では、これに対応して 2 つの戦略を提案しています。 まず、研究機関は言葉と行動の両方を通じて、こうした行動を奨励すべきです。昨年、ベルリン保健研究所は、再現性危機に対処するため、研究者に対し、再現可能な結果と無効な結果をそれぞれ独自に発表するよう促す書面によるイニシアチブを発表しました。このイニシアチブに応じた研究者には1,000ユーロの報奨金が授与されました。さらに、同研究所は、再現可能な研究やデータを出版するためにどのジャーナル、プレプリントプラットフォーム、その他のチャネルに連絡すればよいかを研究者が判断できるよう支援するアプリとアドバイザーを提供しています。このアプリは、予想される出版費用、投稿期限、論文のフォーマット、査読要件などの情報を提供します。 第二に、この記事は、より多くのジャーナルが、再現研究や無効な結果をコミュニティに発表することの重要性を強調すべきだと指摘しています。Nature誌は、「Natureでは、再現研究は他の研究と同様に重視されています。Natureは、過去に発表された研究への洞察を提供できる投稿を歓迎します」と明確に述べています。 AI分野でPubPeerを作成しますか? ジャーナルや会議は広範な影響力を持つものの、投稿数の多さによってそのキャパシティは限られています。そのため、冒頭で述べた取り組みが生まれました。これに対し、劉志遠教授は「PubPeerのAI版の開発を検討してもよい」と述べました。 2012年に設立されたPubPeerは、研究者が出版された論文に匿名でコメントすることを奨励するウェブサイトです。PubPeerは本質的に科学フォーラムであり、PubPeerアカウントを持つ研究者は誰でも、出版された論文にコメントし、批判、質問、改善提案を行うことができます。多くの物議を醸す研究議論はこのウェブサイトから生まれており、その結果、論文が撤回された例もあります。 このような「フェイクニュース」ウェブサイトの存在は、研究者による学術上の不正行為をある程度抑止する可能性があります。AI分野にも同様のウェブサイトがあれば、コミュニティ全体の研究環境の改善に間違いなく貢献するでしょう。 おすすめの読み物: 「CVPR 2019 への論文投稿に関する考察」 https://zhuanlan.zhihu.com/p/50263270 ディープラーニングの先駆者ベンジオ氏:「トップ AI カンファレンス論文の締め切りをキャンセルすべき時が来た」 参考リンク: https://www.nature.com/articles/d41586-020-00530-6 https://medium.com/@NeurIPSConf/neurips-2020の再現性プログラムの設計-7fcccaa5c6ad https://www.toutiao.com/i6813939858885575182/ |