HUOXIU

AIネイティブアプリケーションのクイックガイド

出典: Baidu Geek Talk
著者 | Baidu Wenkuアプリ

導入
導入
百度の創業者、会長兼 CEO であるロビン・リー氏が今年初めに予測したように、ビッグモデルの時代における最大のチャンスはアプリケーション層にあり、そこでは「キラー」アプリケーションが出現するでしょう。

全文は 4448 語から成り、読むのに 12 分かかると推定されます。


「AIを技術的な『台座』から降ろし、その応用の『土壌』へと落とし込む必要がある。」


オタクトーク

01

AIネイティブ思考

ネイティブAIアプリケーションの秘密を探る前に、まずAIネイティブのマインドセットを養う必要があります。これは、人工知能技術を起点としてアプリケーションを設計・開発し、AIを中核的な原動力としてアプリケーションを再設計・再構築することを指します。

人工知能技術の発展動向から判断すると、AI時代のデジタルネイティブは少なくとも次のような考え方を持っている必要があります。

1. データ主導の考え方:デジタルネイティブはデータ主導の考え方を持ち、データ分析とマイニングを通じて問題を発見し解決できる必要があります。

2. 学際的思考:デジタルネイティブは学際的思考を持ち、さまざまな分野の知識を統合して応用できる必要があります。

3. 革新的な思考:デジタルネイティブは革新的な思考を持ち、テクノロジー、製品、サービスを継続的に革新し、改善できる必要があります。

4. Win-Win のマインドセット: AI 時代のネイティブは Win-Win のマインドセットを持ち、AI 自体、AI 専門家、さらには関連企業や組織と協力して、相互利益と Win-Win の結果を達成する必要があります。

5. リスク認識と責任:デジタルネイティブは、リスク認識と責任を持ち、人工知能技術の開発と適用時に潜在的なリスクを考慮し、対応する責任を負う必要があります。

「AIネイティブ」の概念を理解するには、「電力ネイティブ」や「クラウドネイティブ」との類似性を見出すことができます。「電力ネイティブ」とは、電灯、電信、送電網など、電気インフラを基盤とした様々な製品形態を指します。「クラウドネイティブ」とは、クラウドコンピューティング技術の発展によって生まれたソフトウェア、ハードウェア、アーキテクチャを指し、クラウドネイティブデータベース、クラウドネイティブOS、クラウドネイティブチップなど、情報通信技術のアーキテクチャ全体を再構築しています。同様に、「AIネイティブ」とは、AI技術を基盤とした様々な製品やサービスを指します。AI技術の発展に伴い、「電力ネイティブ」や「クラウドネイティブ」製品と同様に、AIネイティブ製品も自然に利用されるようになるはずです。


オタクトーク

02

AIネイティブアプリケーション

AI ネイティブは、AI に基づいてアプリケーションを構築および実行するための方法であり、一連のテクノロジと方法論です。

AIネイティブアプリケーションでは、AIが中核を担い、データの収集と処理、モデルのトレーニングと最適化、モデルの展開と管理、そしてアプリケーションアーキテクチャ全体へのAI機能の統合を網羅しています。AIはAIネイティブアプリケーションにおける製品の中核コンポーネントであり、AIがなければ製品の中核機能プロセスは存在し得ません。

AIネイティブアプリケーションの第一波の中で、百度文庫(Baidu Wenku)は際立っています。 文庫は「ワンストップ・インテリジェント・ドキュメント・プラットフォーム」へと進化し、その大規模モデルはドキュメント作成を強力にサポートし、インテリジェントオフィスソリューション分野におけるイノベーションを継続的にリードしています。

Baidu Wenkuは現在、毎週2~3個の新機能をリリースしています。過去1ヶ月間では、ドキュメントからPPTファイルへの変換、ドキュメントからグラフや分析インサイトへの変換、PPTグラフの生成、インテリジェントなドキュメント要約、Q&Aといった「キラー機能」を次々とリリースしました。ドキュメント生成の精度、豊富さ、スピードはいずれも業界最高水準で、作成したドキュメントはすぐに使用できます。

例えば、「ドキュメントをPPTに変換」機能は、記事の要点、文章ロジック、コンテンツスタイルをより複雑に理解・分析し、百度文庫の技術力を実証しています。また、「テキストをグラフに変換」機能は、企業調査や財務データ分析に適しており、テキストからグラフへの変換を効率的に完了し、データの洞察を生み出すことができます。数万語に及ぶ長文記事もワンクリックで要約できるため、ユーザーは効率的に記事を読み、記事に基づいてパーソナライズされたQ&Aを実施して、コンテンツを完全に理解・学習することができます。


オタクトーク

03

大規模モデルの応用シナリオ

AIビッグデータモデルの開発は第二段階に入りました。AIビッグデータモデルの真の競争力は、アプリケーションをどのように強化し、産業のデジタル変革をどのように促進するかにかかっています。

LLM(大規模モデル学習)の強力な理解、生成、論理、記憶機能を、NLP、音声認識/合成、プロンプトエンジニアリング、SFTファインチューニング、ウェブスクレイピングといった主要技術と統合することで、様々な市場セグメントにおいて、より多くの応用シナリオを実現できます。これらの技術を組み合わせることで、よりインテリジェントで効率的なソリューションを開発し、人々が様々なタスクをより迅速かつ正確に完了できるように支援します。LLMは、以下の分野に幅広く応用できます。

1. 映画やテレビ番組の脚本作成、キャラクターやシーンの作成、ポストプロダクション。

2. メディアトピックの選択と企画、情報収集と編集、コンテンツ制作、放送。

3. 電子商取引の製品展示、人間とコンピュータの相互作用、広告およびマーケティング、仮想販売。

4. C エンド エンターテイメントおよび仮想デジタル ヒューマン向けの画像、テキスト、音声、ビデオ コンテンツのクリエイティブな生成。

5. ゲームの NPC 設定、環境とストーリーライン、レベル ロジック、戦闘トレーニング。

さらに、LLM は、金融、コンピューター テクノロジー、教育、産業、ヘルスケアなど、多くの分野に応用できます。

オタクトーク

04

創意工夫とインスピレーション

簡単に言えば、クラウドネイティブやエレクトロニクスネイティブの考え方と同じように、AIネイティブなアイデアを考案したい場合、一般的にはLLMの特性と機能を理解し、自社の業界を深く理解し、どのような具体的なシナリオが存在するかを把握することから始めます。LLMを活用してサポート技術(IoT、OCR、音声認識、Webスクレイピングなど)を統合することで、実際の問題をより適切に解決し、効率性と利便性を向上させることができます。

例えば、医療分野では、NLPや音声認識技術を活用して医療記録や症例ファイルを自動分析し、医師がより迅速に病気を診断・治療できるよう支援することができます。金融分野では、LLM技術を活用して複雑な金融データやニュースを自動分析し、投資家がより正確な投資判断を下せるよう支援することができます。さらに、カスタマーサービス分野では、音声合成技術を活用して音声応答を自動生成し、より効率的で便利なサービスを顧客に提供することができます。


オタクトーク

05

行動は言葉よりも雄弁である

先月、第27回ハッカソン・コーディングパーティー&コーディングショーに出場しました。テーマは「大規模モデルの時代を受け入れる」でした。このイベントでは、AIが生み出した想像力豊かで先進的なAIアイデアの数々が披露されました。デートのあらゆるニーズを一元管理するAI「恋愛戦略家」、新築や古家のリフォームをサポートするAIデザイナー、さらにはAIがカスタムデザインした殺人ミステリーゲームなど、実に様々なアイデアが発表されました。

ハッカソン・マーケットプレイスで私が最も興味を持ったのは、ダークホース賞のトップ3には入らなかったものの、「RuSu」というアイデアでした。これは、一般ユーザーと法律専門家向けにカスタマイズされたインテリジェントな法律対話ツールで、ユーザーが効率的かつ効果的に要求を表明し、権利を主張できるようにすることを目的としています。RuSuは、法律知識に関するQ&A、AI弁護士による相談、法律教育用の音声・動画資料のインテリジェント作成などの機能に拡張できます。

著者は、次の理由からこのアイデアが良いと考えています。

一方で、AIはデータベースの規模が膨大であるため、「古典文献の引用」や多数の法規制と歴史的事例の照合においては人間よりも優位性を持っています。

一方、各国の規制の違い、そして訴訟自体がローカライズという固有の利点を持つ場合、大規模な商業化には高いコストがかかることを考えると、外国企業が参入するリスクははるかに高くなるでしょう。したがって、法的支援が必要な市場においては、外国企業との競争ははるかに少なくなるでしょう。

最後に、個人の法律知識の限界と、民事・刑事事件に直面した際の専門的な法律相談の緊急性という矛盾が、膨大な需要を生み出しました。この需要が、リーガルサービス市場の発展を牽引しました。

これらの技術を統合することで、より多くの機会と可能性が生まれ、様々な分野でより大きなイノベーションと進歩がもたらされます。大規模モデルと比較して、AIネイティブアプリケーションは、技術の実用化と商業化に重点を置いています。大規模モデルの開発には、膨大な計算リソースと学習時間が必要となるため、実稼働環境への直接適用は困難です。一方、AIネイティブアプリケーションは、技術の実現可能性と商業化の見通しを重視しています。中国が現在、経済発展と産業高度化を加速させる必要性に迫られていることを考えると、AIネイティブアプリケーションはより実用的で迅速であり、中国のイノベーションと発展をより推進する能力が高いと言えます。


オタクトーク

06

必要な条件をマスターし、迂回を避ける

今年9月、ロビン・リーは2023年百度クラウドインテリジェンスカンファレンスと百度「文心カップ」起業家コンテストでの受賞スピーチで、「AIネイティブアプリケーション」が満たすべき3つの条件をさらに明確にした。

1. 自然言語を使用して対話する能力は、最も根本的な変化です。

2. 従来の技術では利用できなかった理解、生成、論理、記憶などの機能を最大限に活用できます。

3. 3 番目に、各アプリケーションのインタラクションでは、メニューのレベルが 2 つを超えないようにする必要があります。

さらに、実際に製品にAI機能を組み込むために変更を加える際には、必然的にエントリーポイントを追加する必要があり、ページが複雑になります。そのため、デザインレイアウトにおいては、「1つ追加、2つ削除」の原則に従い、不要な要素や手順を最小限に抑えながら、新しい機能やエントリーポイントを追加するようにしています。この原則の目的は、製品をよりシンプルで使いやすくし、ユーザーエクスペリエンスを向上させることです。

さらに、大規模モデルは依然として急速なイテレーションと機能の飛躍的向上の時期にあります。将来的にさらなる拡張とアップグレードを進め、長期的な視点で取り組むためには、製品の拡張性と持続可能性に重点を置く必要があります。


オタクトーク

07

AI ベース - 銭帆

Baidu AI Cloud 千帆大規模モデルプラットフォームは、エンタープライズ開発者向けの大規模モデル開発とサービス運用をワンストップで提供するプラットフォームです。千帆は、基盤モデルである文心易眼(ERNIE-Bot)やサードパーティ製のオープンソース大規模モデルの提供に加え、各種AI開発ツールと充実した開発環境を提供しています。 データ管理、自動モデルSFT推論サービスクラウド展開など、大規模モデルのカスタマイズサービスをワンストップでサポートし、様々な業界の生成型AIアプリケーションニーズの実現を支援します。

導入ガイドについては、 「Baidu AI Cloud Qianfan Large Model Platformとは? 」(https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Slfmc9dds) をご覧ください使用ガイドについては、 「プラットフォーム使用クイックスタートガイド(https://cloud.baidu.com/doc/WENXINWORKSHOP/s/qlgujhcpo)をご覧ください。便利なワンストップサービスと幅広い大規模モデルの選択肢により、ユーザーは特定のビジネスシナリオに適したAIネイティブアプリケーションを迅速に構築できます。


オタクトーク

08

アプリケーション層テクノロジーの概要

ネイティブAIアプリケーションを作成するために、必須の基本サービスを見てみましょう。例えば:

1. 大規模モデルサービスのコストが高いことを考慮すると、予算の使用を制御可能にするために、対応する周波数制御サービスが必要です。

2. 大規模モデルによって生成されるコンテンツは制御不能な性質を持つため、ユーザーのクエリと AI 生成コンテンツをフィルタリングするための、対応するポルノ対策の敏感な単語検出サービスが必要です。

3. 大規模なモデルからコンテンツを生成するには長い時間がかかるため、より効率的でリアルタイムなデータプッシュを実現し、フロントエンドページでタイプライターの出力効果をレンダリングして待機時間を短縮するには、リアルタイムデータプッシュに対応する SSE 通信メカニズムが必要です。

4. ユーザーニーズの表現が明確でないと、コンテンツ生成の質が低下する可能性があります。生成されるコンテンツの品質を向上させるには、意図認識、マルチターン対話、暗黙的なプロンプトエンジニアリングなどのサービスが必要です。


オタクトーク

09

開発の機会

大規模モデルの開発は急速に進んでおり、イテレーションごとに大幅な機能向上がもたらされており、私たちは非常に興奮しています。大規模モデルはより高度なAGIへの道であり、一時的な現象にとどまることはないでしょう。

新しいツール、テクノロジー、そして製品が絶えず登場し、人類社会における技術の進歩と革新的な発展を牽引しています。近年注目されている他のテクノロジーと比較すると、大規模モデルとブロックチェーンの最も大きな違いは、その幅広い応用範囲、既存製品への容易な統合、そしてユーザーエクスペリエンスの顕著な向上にあると私は考えています。

さらに、「グランドモデル」の概念は「メタバース」の概念とは異なります。メタバースとは、ネットワーク通信、仮想現実(VR/AR/MR/XR)、人工知能、ゲーム、ブロックチェーンといった数々の先進技術の融合によって形成される新たなデジタルエコシステムです。メタバースは有望なコンセプトですが、「iPhone Moment」に匹敵する製品は未だ登場していません。これは主に、十分に高度な技術が不足しているためです。一方、「グランドモデル」は突如生まれた概念ではなく、人工知能を基盤とした数十年にわたる技術開発の成果であり、量的変化による質的飛躍です。chatGPTの絶大な人気は、「グランドモデル」が具体的な製品を通して真にその価値を証明していることを示しています。

発展の機会に関して言えば、全体的なモデルはネットワーク通信技術(2G→3G→4G→5G…)に似ていると考えています。どちらも様々な産業の技術基盤となる特徴を持つ一方で、技術の反復、データ処理能力の向上、制御性やマルチモーダル性の向上、そして応用シナリオの継続的な拡大により、社会の様々な分野における産業の高度化を推進していくでしょう。どちらも、現実の生産活動や日常生活に大きな価値をもたらす技術です。


オタクトーク

10

終わり

大規模モデルを基盤としたAIネイティブアプリケーションは、業界で徐々に注目を集めています。しかし、大規模モデルの作成と活用には参入障壁が高いため、この分野はまだ探索段階にあります。大規模モデルを深く理解し、批判的に学び、思考し、積極的に関与し、大胆に実践し、そして継続的に自己研鑽していくことが不可欠です。

この記事では、AIネイティブアプリケーションに関する著者の見解を共有し、今後の開発動向を探ります。この記事をお読みいただくことで、AIネイティブアプリケーションの概念が明確になり、思考が広がり、ビジネスに価値を生み出す一助となれば幸いです。