|
GPT-4 と Microsoft 365 Copilot に圧倒された後、おそらく多くの人がこのような感想を抱くでしょう。 GPT-3.5と比較すると、GPT-4は多くの分野で大幅な改善を示しています。例えば、模擬司法試験では、下位10%から上位10%へと上昇しました。もちろん、一般の人にはこうした専門試験の重要性は理解できないかもしれません。しかし、グラフを見れば、その改善がいかに目覚ましいものかを理解できるでしょう。 画像出典:清華大学コンピュータサイエンス学部教授、唐潔氏のWeiboアカウント。リンク:https://m.weibo.cn/detail/4880331053992765これは物理学の問題であり、GPT-4は与えられたテキストと画像に基づいて段階的に解く必要がありました。これはGPT-3.5(以前のChatGPTで使用されていたモデル)には欠けていた能力です。GPT-3.5はテキスト理解のみを訓練されていたため、問題内の画像を理解することができませんでした。また、GPT-3.5の問題解決能力も弱く、「ケージの中のニワトリとウサギ」という単純な問題でさえも難解でした。しかし今回は、どちらの問題も非常にうまく解けたようです。誰もがこれが切り札だと思った矢先、Microsoftはさらなる衝撃的な発表をしました。GPT-4の機能がMicrosoft 365 Copilotという新しいアプリケーションに統合されたのです。強力なテキストおよび画像処理機能を備えたMicrosoft 365 Copilotは、様々な文書の作成を支援するだけでなく、文書をPowerPointプレゼンテーションに簡単に変換したり、Excelデータを自動的にグラフにまとめたりすることも可能です。 OpenAIとMicrosoftは、技術発表から製品発売まで、一般の人々にわずか2日間の反応期間を与えました。一夜にして、新たな生産性革命が到来したかのようです。変化があまりにも急速に起こっているため、学界も産業界も多かれ少なかれ混乱と「FOMO」(取り残されることへの恐怖)に陥っています。今、誰もが一つの答えを知りたがっています。この波の中で何ができるのか、どのような機会を掴めるのか、ということです。Microsoftが公開したデモから、明確なブレークスルー、すなわちインテリジェントな画像とテキスト処理が浮かび上がります。現実の世界では、様々な業界の多くの仕事で、非構造化データをグラフに整理したり、グラフに基づいてレポートを作成したり、大量の画像やテキストデータから有用な情報を抽出するなど、画像やテキストの処理が伴います。そのため、この革命の影響は、多くの人が想像するよりもはるかに甚大なものになる可能性があります。OpenAIとウォートン・ビジネス・スクールが最近発表した画期的な論文では、この影響を予測しています。米国の労働者の約80%は、業務の少なくとも10%がGPTの影響を受ける可能性があり、約19%の労働者は業務の少なくとも50%がGPTの影響を受ける可能性があります。これらの仕事の大部分が画像とテキストのインテリジェンスに関わるようになると予想されます。この観点から、どのような研究やエンジニアリングの取り組みが検討に値するでしょうか?中国画像グラフィック学会(CSIG)が主催し、Hehe InformationとCSIG文書画像分析・認識専門委員会が共催した最近のCSIGエンタープライズツアーイベントでは、学界と産業界の研究者数名が「インテリジェント画像・テキスト処理技術とマルチシナリオアプリケーション技術」について詳細な議論を行い、この分野に関心を持つ研究者や実務家にとって刺激となるかもしれません。テキストと画像の処理は、基礎となるビジュアル デザインを習得することから始まります。前述の通り、GPT-4の画像およびテキスト処理能力は実に素晴らしいものです。OpenAIの技術レポートでは、前述の物理学の問題以外にも、GPT-4に学術論文の画像を読み込ませるといった例も紹介されています。しかし、このようなテクノロジーが広く採用されるまでには、まだ多くの基礎作業が必要であり、基礎となるビジョンもその 1 つです。低レベルビジョンの特徴は非常に明白です。入力は画像であり、出力も画像です。画像の前処理、フィルタリング、復元、強調はすべてこのカテゴリに該当します。 「低レベルビジョンの理論と手法は、携帯電話、医療画像解析、セキュリティ監視など、多くの分野で幅広く応用されています。画像や動画コンテンツの品質を重視する企業や機関は、低レベルビジョン分野の研究を無視することはできません。低レベルビジョンが適切に行われなければ、多くの高レベルビジョンシステム(検出、認識、理解など)を真に実現することはできません」と、Hehe Informationの画像アルゴリズム研究開発ディレクター、郭鋒軍氏はCSIG Enterprise Tourイベントでのプレゼンテーションで述べました。この文をどう理解すればいいのでしょうか?いくつか例を見てみましょう。 OpenAIとMicrosoftのデモで示された理想的なシナリオとは異なり、現実世界の画像やテキストは常に、変形、影、モアレといった複雑な形状をしており、それが後の認識と理解の難易度を高めています。Guo Fengjun氏のチームは、これらの問題を初期段階で解決することを目指しています。この目的のために、研究者たちはタスクを、関心領域 (RoI) 抽出、変形補正、画像復元 (影やモアレ パターンの除去など)、品質向上 (鮮明度や明瞭度の向上など) を含む複数のモジュールに分割しました。これらの技術を組み合わせることで、非常に興味深いアプリケーションを作成できます。長年の研究を経て、これらのモジュールは非常に優れた成果を上げており、関連技術は同社のインテリジェントテキスト認識製品「CamScanner」に応用されています。単語から表、そして章へと進み、テキストと画像を段階的に理解します。画像の処理が完了したら、次のステップはテキストと画像の内容を認識することです。これは非常に細心の注意を要する作業であり、「文字」レベルで行われる場合もあります。現実世界の多くのシナリオでは、文字が標準的な印刷形式で表示されない場合があり、文字認識が困難になります。教育現場を例に考えてみましょう。あなたが教師だと想像してみてください。AIに生徒全員の宿題を採点し、各セクションの理解度をまとめ、さらに理想的には、間違いやスペルミスに関する情報や改善点の提案を提供してほしいと思うでしょう。中国科学技術大学音声言語情報処理国家工程研究所の准教授である杜俊氏は、この研究に取り組んでいます。具体的には、漢字の認識、生成、評価のための部首ベースのシステムを構築しました。これは、部首の組み合わせが文字全体のモデリングよりもはるかに少ないためです。認識と生成は共同で最適化されており、これは学生の学習における文字認識と書き取りの相互強化プロセスに似ています。これまでの評価研究は主に文法に焦点を当てていましたが、Du Jun氏のチームは、画像からスペルミスのある単語を直接識別し、誤りの詳細な説明を提供する手法を設計しました。この手法は、インテリジェントな採点などのシナリオで非常に有用となるでしょう。テキストに加え、表の認識と処理も大きな課題です。コンテンツを識別するだけでなく、コンテンツ間の構造的な関係性を理解する必要があり、表によってはワイヤーフレームさえ存在しない場合もあるためです。この問題に対処するため、Du Jun氏のチームは「セグメンテーション・マージ」手法を設計しました。これは、まず表の画像を一連の基本グリッドに分割し、それらをマージすることでさらに修正する手法です。 Du Jun チームの「最初に分割してから結合する」というテーブル認識方法。もちろん、これらの研究はすべて、最終的には章レベルでの文書の構造化と理解に貢献します。現実のシナリオでは、モデルが扱う文書はほとんどの場合、1ページ以上の長さです(研究論文など)。この方向性において、Du Junのチームはページをまたがる文書要素の分類とページをまたがる文書構造の復元に焦点を当ててきました。しかし、これらの手法は複数ページのシナリオでは依然として限界があります。大規模モデル、マルチモーダルモデル、世界モデル…未来はどこにあるのでしょうか?テキストレベルの画像処理と理解について議論する場合、実はGPT-4からそれほど遠くありません。「マルチモーダルGPT-4のリリース後、これらの分野で何かできることはないかと考えてきました」とDu Jun氏はイベントで述べました。画像処理分野の多くの研究者や実務家も、おそらくこの考えを共有しているでしょう。 GPTシリーズのモデルは常に汎用性の向上を目指し、最終的には汎用人工知能(AGI)の実現を目指してきました。GPT-4が示す強力なテキストおよび画像理解能力は、この汎用性にとって不可欠な要素です。OpenAIは同様の機能を持つモデルを作成するための知見を提供してきましたが、多くの謎や未解決の問題も残しています。まず、GPT-4の成功は、大規模モデルとマルチモーダル研究を組み合わせたアプローチが実現可能であることを示しています。しかし、大規模モデルでどの問題を研究すべきか、そしてマルチモーダル研究の膨大な計算負荷にどのように対処するかは、研究者にとって依然として課題となっています。最初の質問に対して、復旦大学コンピュータサイエンス学院の邱希鵬教授は、検討に値する方向性をいくつか示しました。OpenAIが以前に発表した情報によると、ChatGPTは、文脈内学習、思考連鎖、指示からの学習など、いくつかの重要な技術に大きく依存していることが分かっています。邱教授はプレゼンテーションの中で、これらの能力がどこから来るのか、どのようにさらに改善していくのか、そしてどのように既存の学習パラダイムを変革していくのかなど、これらの分野には未開拓の課題が数多く残されていると指摘しました。さらに、大規模な会話型言語モデルを構築する際に考慮すべき能力や、これらのモデルを現実世界に整合させるための研究方向性についても共有しました。
2つ目の質問に関して、厦門大学の特任教授である季栄栄氏は重要な視点を示しました。彼は、言語と視覚は自然な繋がりを持ち、両者の共同学習は避けられない流れだと考えています。しかし、この波に直面して、単一の大学や研究室のリソースはもはや不十分に思えます。そこで彼は現在、所属する厦門大学を拠点に、研究者たちにコンピューティングパワーを統合し、マルチモーダルな大規模モデルを構築するためのネットワークを構築するよう働きかけています。実際、最近のイベントでは、AI for Scienceを専門とするE Weinan院士も同様の見解を示し、あらゆる分野が「大胆に独創的なイノベーションにリソースを集中させる」ことを期待していました。しかし、GPT-4の道筋は必ずしも汎用人工知能(AGI)につながるのでしょうか?チューリング賞受賞者のヤン・ルカン氏をはじめとする一部の研究者は、これに疑問を抱いています。ルカン氏は、現在の大規模モデルはデータと計算能力への要求が驚くほど高いにもかかわらず、学習効率が非常に低いと考えています(例えば、自動運転車)。そこでルカン氏は、「世界モデル」(つまり、世界の仕組みを記述した内部モデル)と呼ばれる理論を構築し、世界モデル(現実世界のシミュレーションを実行すると捉えることができます)を学習することがAGI実現の鍵となる可能性があると主張しました。イベントでは、上海交通大学のヤン・シャオカン教授が、この方向性における研究成果を発表しました。特に、同教授のチームは視覚的直観の世界モデル(視覚的直観には膨大な情報量が含まれるため)に焦点を当て、視覚、直観、そして時間と空間の知覚をモデル化しようと試みています。最後に、ルカン氏は、この種の研究において、数学、物理学、情報認知、そしてコンピュータサイエンスの融合が重要であることを強調しました。 「毛虫は食物から栄養を吸収し、蝶になります。人々はこれを理解するために何十億もの手がかりを引き出してきました。GPT-4は人類の蝶なのです。」ディープラーニングの父、ジェフリー・ヒントン氏は、GPT-4がリリースされた翌日にこのようにツイートした。現時点では、この蝶がどれほどの規模のハリケーンを引き起こすかは誰にも断言できません。しかし確かなのは、この蝶はまだ完璧な蝶ではなく、AGIの世界全体のパズルもまだ完成していないということです。すべての研究者と実践者にはまだチャンスがあります。
|