著者 | アンソニー・アルカラス 編纂者:岳陽 私たちは人工知能の新時代の最前線に立っています。過去1年間における生成モデルの急速な発展は驚異的でした。DALL-E 3を用いた想像力豊かな画像の生成から、ChatGPTを用いた美しく、流暢で魅力的な記事の作成まで、これらのモデルは、この期間におけるAI技術の驚異的な進歩を実証しています。 しかし、人工知能の中でもより専門的な分野である文書理解においては、劇的ではないものの、同様に大きな変化が静かに進行しています。この分野における近年の進歩は、膨大な量の非構造化企業データにおける自動推論を可能にし、人間の生産性をさらに向上させる可能性を秘めています。 潜在的に利用可能なビジネス情報の80%以上が、スキャンされた文書、フォーム、契約書、メール、その他の非構造化データソースに保存されていると推定されています。これは膨大な知識の蓄積を表しています。しかし、コンピューターには、人間が持つような直感や細部への注意力が欠けており、これらの情報を処理することはできません。 今日の優れたAIシステムは、日付、名前、金額などの情報をかなりの精度で識別できます。しかし、概念間の深い意味的関係を理解し、証拠に基づいた論理的推論を行い、非構造化データを処理する際に生じるその他の複雑性や課題に対処することは、依然として大きな課題であり、さらなるブレークスルーが求められています。 例えば、取引の支払期日を相互参照し、それらを個別の支払通知書にリンクさせることで請求書から支払日を推測する場合、単一の情報に頼るのではなく、文書の関連する文脈を考慮する必要があります。これは、財務記録における不整合や矛盾の解決、あるいは事業活動や運用ニーズに関する問い合わせにも当てはまります。 これらの問題を最終的に解決する重要な革新的テクノロジーが登場しました。これらのモデルは、強力なニューラル言語基盤と、グラフィカルおよび空間エンコーディングを使用してドキュメント構造を理解する能力を組み合わせたものです。 テキスト媒体における言語モデルの習得と、画像および音声処理アーキテクチャの進歩が相まって、人間の生産性を大幅に向上させる画期的な文書分析アプリケーションの基盤が築かれました。 Dall-E-3によって生成されました 01. 技術的な手段を使用して、文書から有用な情報や知識を抽出します。文書理解における主な課題は、構造化データとは異なり、文書には表やグラフなどの複雑な視覚要素と、自然言語によるテキスト記述の両方が含まれている点にあります。自然言語によるテキスト記述は、厳密な構造的制約なしに、柔軟かつ自然に構成されています。人間の推論はこのような複雑な情報を容易に処理できますが、コンピューターはこの能力を再現するのに苦労しています。 1.1 文書内の視覚要素がどのように配置され、構成されているかを理解するプレーンテキストとは異なり、文書では表、グラフ、ヘッダー、フッターなどの視覚的な構造を用いて情報間の関係性を伝えます。これらの関係性を推測するには、単にテキストだけを扱うのではなく、ページ上の要素の位置、近接性、バウンディングボックスを分析する必要があります。 たとえば、表のヘッダーと値を一致させたり、サイドバーのテキストを関連セクションにリンクしたり、ドキュメント内の各部の順序を理解したり、複数ページのドキュメント内の各部間の論理的な関係や情報の流れを把握したりするには、ドキュメント全体の構成とレイアウトを詳細に分析する必要があります。 1.2 文書内の言語の構成と表現を理解する。文書における言語の自由さと柔軟性は、理解と処理において課題となる場合があります。複雑な文法、二重否定、皮肉、断片的なテキスト、そして分野特有の用語などは、いずれも文脈に基づいた理解を必要とします。 事前学習済みの言語モデルは、既に言語のニュアンスをかなり正確に把握できます。しかし、契約書、財務報告書、医療記録などに見られる特有の言語パターンを確実に解釈するには、ドメイン固有の文書に合わせた微調整が不可欠です。 1.3 ドキュメントのさまざまな部分間の論理的な関係を接続します。最後に、大量のデータや情報を扱う際の推論、分析、判断のプロセスは複雑で極めて困難です。これらの文書には、相互に関連しているものの、明確な関連性のない情報が含まれています。財務文書を分析し、潜在的な支払詐欺を発見し、関連する関連性を確立するには、複数の情報源から証拠を集約し、論理的な手がかりを構築する必要があります。これは長年の課題となっています。 02 文書処理のための新世代人工知能モデルの出現利用可能な学習教材: 1. 2. 2.1 強力な言語理解と処理能力を備えた基本モデルDocLLM と DocGraphLM (JPMorgan Chase 製) はどちらも、豊富な言語知識とテキスト理解機能を活用した高度なニューラル言語モデルに基づいて構築されています。 具体的には、DocLLM は、ドキュメントの空間レイアウト構造情報を自己注意メカニズムの計算プロセスに組み込むことで、標準の Transformer アーキテクチャに基づく大規模言語モデルを拡張および強化します。 同時に、DocGraphLM はグラフ ニューラル ネットワークを事前トレーニング済みの言語モデル埋め込みと統合し、テキスト意味論と構造意味論の統一された表現とモデリングを実現します。 したがって、基本モデルのセマンティック分析の利点を維持しながら、ドキュメント処理のニーズと特性にさらに適応できるようにモデルを強化または改善します。 2.2文書の構成構造、書式、段落レイアウトを理解し、分析します。これらのモデル間の主な違いは、構成、レイアウト、段落の配置など、ドキュメント内の視覚的な構造情報を処理するためのそれぞれの技術的アプローチにあります。 DocLLM は、Transformer フレームワーク内で 2 つの異なるデータ モダリティ (テキスト コンテンツとドキュメントの空間レイアウト構造情報) の並列モデリングを可能にする、分離した空間アテンション メカニズムを導入します。 一方、DocGraphLM は、ドキュメントの構造と内容をグラフの形式で明確に表現し、テキスト段落をグラフ内のノードとしてマッピングし、それらの間の空間関係をキャプチャします。 したがって、1 つのモデルではトランスフォーマー方式を使用し、もう 1 つのモデルではグラフィカルなアプローチを使用して意味情報を表現または提示しましたが、どちらの方法も効果的であることが証明されています。 2.3モデルの事前学習中に設定される目標またはタスクどちらのモデルも、ドキュメントに適用可能な自己教師型目標を使用して事前トレーニングされています。 DocLLM のトレーニング タスクには、生成モデリング中に不規則なドキュメント レイアウトを処理するためにテキスト ブロックのパディングとマスキングが含まれます。 DocGraphLM は、欠落している接続を予測して完全なグラフ構造を再構築する方法を学習し、ドキュメント構造をベクトルまたは表現に変換して、モデルがドキュメントの構成と関係をよりよく理解できるようにします。 事前トレーニングにより、マルチモーダルドキュメント理解機能の開発が促進されました。 文書分析分野に出現する可能性のある3つの新たな機会テキストメディアの言語モデルの強力な理解および処理能力と、マルチモーダル理解におけるアーキテクチャの進歩が相まって、ドキュメント分析の分野における画期的なアプリケーションの基盤が築かれました。 3.1 自動化テクノロジーを活用して、ドキュメントから情報を抽出し、注釈を付けます。多くの企業では、依然として手作業による情報抽出が主流となっています。しかし、人工知能(AI)は、文書内のエンティティ、関係性、階層構造を検出することで、アノテーション作業の最大50~60%を自動化すると期待されています。これにより、アナリストの生産性が大幅に向上し、下流の分析作業が促進されます。 3.2 新しいテクノロジー、方法、またはデータ ソースを導入することで、BI システムの機能をさらに強化できます。BIシステムにドキュメント理解機能を直接組み込むことで、特定の情報の発見と理解が可能になります。売上レポートでは取引記録をリンクさせ、競合他社情報では市場シェアの変化と新製品の発売を関連付けることができます。 3.3 運用上のコンプライアンスを確保するためのツール、プロセス、ガイダンス、または技術的ソリューションを提供します。コンプライアンス リスクを評価するために法的契約を分析したり、財務監査で申し立てや主張に対する信頼できる証拠やサポートを提供したり、調査を支援したりすることは、すべて、ビジネス インテリジェンス (BI) が法務チームやコンプライアンス チームに大いに役立つ領域です。 04. タスクまたはプロセスを自動化した後のフォローアップ処理手順RAGシステムのコア部分は検索と生成に重点を置いていますが、追加の後処理モジュールを統合することでタスクを自動化できます。これにより、RAGモデルを実際のビジネスワークフローに適用しやすくなります。 4.1 会話エージェントRAGシステムを対話管理機能を備えた会話フレームワークに組み込むことで、エンタープライズアシスタントとして機能し、ドキュメントの理解を自動化できます。このエージェントは、ユーザーの意図を理解し、情報提供プロセスをガイドまたは管理し、会話全体を通してコンテキストを維持するなど、インタラクションを処理します。 4.2 タスク指向エージェントタスク指向の会話エージェントは、ユーザーとの対話に加えて、RAGシステムを下流タスクの完了へと導くことができます。例えば、エージェントは文書理解の結果を必要なデータ形式に変換し、特定の条件が満たされると、システムは関係担当者に自動的に通知を送信して、手動によるレビューや承認、新規データの追加、既存データの変更、その他の更新、あるいはAPI統合による意思決定の実行などを行うことができます。 4.3 強化学習RAGシステムと対話する自動エージェントを最適化するために、強化学習を用いて意思決定戦略を段階的に改善し、エージェントが文書理解に基づいて行動をとれるようにすることができます。エージェントは、特定のビジネス目標を達成したり、特定のタスクを達成したりするために、一連の効果的なアクションを実行する方法を学習できます。 05. 人工知能開発の全体的な動向と影響について、より深い考察と議論を行う。(The Bigger Picture)人工知能(AI)の急速な発展に伴い、非構造化テキストや画像を構造化された知識に変換する能力は、短期間でAIの分析能力を飛躍的に向上させるでしょう。文書から得られる情報の包括的な理解と、構造化データに基づく分析フレームワークを組み合わせることで、多くの興味深い発展が期待されます。 これは、情報への即時アクセスと、テクノロジーやツールを用いた日常的な知的作業の自動化を通じて、人間の生産性に革命が迫っていることを示唆しています。しかし、責任ある開発には、意思決定と行動における公平性、透明性、そして説明責任を確保しつつ、進歩のペースを加速させることが不可欠です。 そのため、生成モデルの進歩は常に注目を集めますが、変革をもたらす変化は、爆発的に現れる前に、しばしば静かに裏で醸成されます。しかし、ドキュメントAIは、まもなく火花から猛烈な炎へと変わり、人工知能の次の時代への道を照らすかもしれません。 読んでくれてありがとう! ———— アンソニー・アルカラス 最高 AI 責任者兼アーキテクト: ニューロシンボリック AI システムの構築者 @Fribl が HR 向けに GenAI を強化 終わり |