HUOXIU

ネットワークケーブルをその場で抜く!4Paradigm版GPT機能の初デモ。ちょっと変わった機能です。

QbitAI第4パラダイムビルからのJin Leiのレポート | WeChat公式アカウントQbitAI

国産大型模型の戦いに、新たな強豪が参戦した。

ちょうど今、 4Paradigm が自社開発した大型モデル「SageGPT」が、発売から 2 か月を経て、ついに機能を満載してデビューしました

さらに、この出来事全体を見ると、最も直接的に感じられるのは、「これは違う、本当に違う」ということです。

どうして?

まず、ライブデモンストレーション中にインターネットケーブルを抜くという大胆な行動に出ました。

効果は次のようになります。たとえば、映画「Raging Storm」の静止画をアップロードし、「Shishuo」に写真の説明を求めると、応答は次のようになります。

この写真では、制服を着た男性のグループがテーブルの前に立っています。

静止画の中に何人いるかと聞かれると、「石碩」は即座に「9人」と答えた。

テキストから画像を作成する能力を見てみましょう。まずは「ライオンの頭」を描いてみましょう。

生成された画像が標準を満たしていることは簡単にわかります。この時点で、観客の多くはすぐに「煮込まれたライオンの頭はどこにあるのですか?」と尋ねました。

4 番目のパラダイムは恐れることなく、その場ですぐにそれを実証しました。

次に、コード生成についてですが、Fourth Paradigm では「Shishuo」さんに「Python 乱数推測」を現地で実演していただきました。

インターネットケーブルが抜かれた状態でのライブデモンストレーションを目の当たりにした観客は驚き、拍手喝采を送り続けました。

しかし、違いはそれだけではありません。上記に示した機能は単なる「前菜」に過ぎません。

Fourth ParadigmのGPTは、単に「あなたが知っていると思うもの」ではなく、他のベンダーとは異なるアプローチを採用しているため、

AIGC 機能 (AIGS) を使用してソフトウェアをリファクタリングする目的は、エンタープライズ ソフトウェアのユーザー エクスペリエンスと開発効率を向上させることです。

例えば、「Shishuo」にコンテナや小箱の寸法を解析させ、梱包プランを設計させます。

まず、関連する詳細についてユーザーに相談し、思考プロセスを提供しながら、解決策を段階的に実行します。

これに対して、4ParadigmのCEOである戴文元氏はイベントで次のように説明した。

消費者向け (C エンド) 製品はユーザー エクスペリエンスの限界に近づいていますが、エンタープライズ レベル (B エンド) ソフトウェアは実行システムが非常に複雑になることがよくあります。

これらの B2B ソフトウェア プログラムの極めて複雑なインタラクティブ エクスペリエンスと、この複雑さから生じる極めて低い開発効率により、生成 AI の再構築と変革の余地が十分に残されています。

それはあなたが思っている GPT ではありません。

総じて言えば、「Shishuo」が上記のような能力を持つことができたのは、その背後に3つの主要な技術的「武器」を備えているからである。

1つ目は、マルチモーダル大規模言語モデル技術です。

「Say It」が2月に初めてリリースされたとき、サポートされていたのはテキストベースの会話という単一の方式だけでした。

わずか 1 か月後、Fourth Paradigm は音声、画像、表、ビデオなどのマルチモーダル入出力機能を統合しました。

2 つ目の主要な技術的「武器」は、エンタープライズ レベルの Copilotです。

この Copilot は、Microsoft や GitHub が使用する Copilot とは異なることに注意してください。

代わりに、Fourth Paradigm は独自に開発した大規模言語モデルを使用して専門分野の知識を理解し、ユーザーが特定の機能を実現できるように支援します。

たとえば、開発中は、エンタープライズ グレードの Copilot のサポートにより、必要なコストは API の統合のみです。

それはどういう意味ですか?

これは ChatGPT プラグインに似ており、サードパーティのプラグインをインストールするだけで、ChatGPT を特定の分野でよりスマートかつプロフェッショナルにすることができます。

同様に、企業が「Shuoshuo」を利用する場合、Copilot は企業のソフトウェアの関連機能にアクセスでき、従業員は音声、画像、表、動画などの手段を通じて必要な回答を得ることができます。

たとえば、航空宇宙製造業界では、ソフトウェア設計者はいくつかの画像をアップロードするだけで、「Shishuo」に何百万ものツール部品のライブラリから類似の部品を見つけて組み立てるように要求できます。

これは、 「マルチモーダル大規模言語モデル + Copilot」の組み合わせにより、AIGC が実際の産業アプリケーションにより適したものになることを示しています。

しかし、それだけではまだ十分ではありません。

前述の機能は、特定の単一の断片化されたタスクにしか対応できませんが、業界の問題はより複雑で多面的であることが多いです。

Photoshop を使用して写真を強化する場合と同様に、切り抜き、フィルターの調整、明るさの調整など、複数の手順が必要になることがよくあります。

しかし、多くの場合、人々が望んでいるのは、単に「特定の製品のポスターを生成してください」と言うだけで、要求したものをすぐに入手できる、1 つのステップで完了することです。

企業生産の文脈では、この状況は単に完全な結果を得るということではなく、生産プロセスが「ブラック ボックスではない」こと、つまり各ステップが説明可能であることも求められます。

そのため、前述の 2 つの主要な「武器」に加えて、Fourth Paradigm は、エンタープライズ レベルの Chain of Thought (CoT) という3 つ目の重要なテクノロジーを導入しました。

マインドチェーンの概念は Google によって初めて提案されたもので、特別な種類のコンテキスト学習です。

入力と出力のペアの例のみを提供する標準的なヒントとは異なり、マインド チェーンのヒントでは追加の推論プロセスも追加されます。

従業員にはタスクを与えるだけで、比較的完璧な回答が得られるだけでなく、プロセス全体がどのように考え出され、どのように実行されたかが詳細に説明されます。

注目すべきは、第 4 のパラダイム、つまりこのような企業レベルの思考チェーンは、特定の分野の学習の「ルーチン」であり、より専門的で信頼性が高いということです。

しかし、公平に言えば、今日の Fourth Paradigm のリリースは、この人気の波を利用して一夜にして実現できたものではありません。

4Paradigmによれば、パラダイム研究所はBERTがリリースされた頃からこの技術分野に注目し投資を始めており、GPT3のリリース後にはその方向性がさらに明確になったという。

一方で、フォースパラダイムは「今年の投資と比較すると、ここ数年の間にはまだギャップがあることは間違いない」とも率直に述べた。

全体として、第 4 パラダイムの技術ロードマップは、おおよそ3 つのステップに要約できます。

  • Shishuo 1.0 :言語対話を生成する機能があり、主なシナリオはドキュメントライブラリの質疑応答です。つまり、GPT が企業知識を学習した後、従業員と自然に対話し、専門的な質問に答えることができ、追跡可能です。

  • バージョン 2.0 では、テキスト、音声、画像、表、ビデオなどのマルチモーダル入出力機能が追加され、エンタープライズ レベルの Copilot 機能も追加されています。

  • Formula 3.0 : Copilot と Mind Chain に重点を置いて、従来の B2B エンタープライズ ソフトウェアのユーザー エクスペリエンスを向上させます。

なぜこのレイアウトなのですか?

簡単に言うと、 AIGS はAIGC の略で、AIGC 機能を使用してソフトウェアをリファクタリングすることを意味します。

結局のところ、優れた技術とは実際に使える技術です。AIGCブームは非常に人気があり、GPT-4のような非常に強力な効果を持つ技術が登場していますが、それらはこれまで業界にどのような技術的価値をもたらしたのでしょうか?

これは第 4 のパラダイムが取り組む根本的な問題であり、戴文元氏は次のように述べています。

AIGS を達成するために、大規模なモデルは必ずしも幅広い知識を持つジェネラリストや十種競技のチャンピオンである必要はありません。

さらに重要なことは、このモデルが Copilot と CoT (Co-thinking Trace) の機能を備えていることです。

第4パラダイムによれば、従来のB2Bソフトウェアは、まずユーザーエクスペリエンスの欠陥に悩まされていました。例えば、企業の経費精算システム、人事システム、OAシステムは、「メニューが山積みで、無数のオプションがある」状態と表現できます。

大規模言語モデルの出現により、これらの複雑なシステムは、より優れた対話型の方法を通じて機能を呼び出すことができるようになりました。これは破壊的な側面の 1 つです。

たとえば、AI 対応のエンタープライズ ソフトウェアでは、会議室を予約するときに日付、時間帯、会議室を選択する必要がなくなります。

代わりに、秘書に話しかけるかのように、「特定の時間に会議室を予約してください」と言えば済みます。

同じことがエンタープライズ ソフトウェア開発にも当てはまります。

従来の B2B エンタープライズ ソフトウェアは高度にカスタマイズされ、メニューベースになっていることが多いため、機能のアップグレードごとにプロトタイプ、設計、開発のプロセスを繰り返し実行する必要があり、完了するまでに少なくとも 1 か月かかります。

しかし、新たなインタラクション手法の登場により、データ、API、コンテンツに着目して機能やロジックを開発できるようになり、これまでにないレベルの開発効率が実現するという、破壊的な変化が起こりました。

4番目のパラダイムは次のように述べています。

大規模モデルはユーザーエクスペリエンスと開発効率を向上させるため、ソフトウェア業界の飛躍的な発展につながることは間違いありません。あとは、誰が最初にそれを実現できるかが問題です。

ソフトウェア業界が変革すれば、業界全体のビジネス価値とビジネスモデルは飛躍的に向上し、巨大な市場が生まれるでしょう。

では、AIGS は具体的にどのように進めていくべきでしょうか?

4 番目のパラダイムも、この問題について独自の洞察を提供し、主に 3 つの段階に分かれています。

  • フェーズ1 :Copilotは、様々な情報、データ、アプリケーションを動員し、ユーザーからの指示を実行するためのアシスタントとして機能します。これは、あらゆるエンタープライズレベルのソフトウェアシステムにコマンダーが存在するようなものです。コマンダーは、「写真を20%明るくする」といったユーザーからの指示に従います。

  • 第2段階:Copilot+は、企業のルールベースの「知識ベース」を基盤としています。AIはルールを参照することで複雑なタスクを実行できます。例えば、AIは「ポートレート美化」の知識ベースにクエリを実行することで、写真の見栄えを良くするための手順を実行できます。

  • 第三段階:Copilot + CoT。ソフトウェアシステムにおけるユーザー行動は最終的に大規模モデルによって学習され、この分野におけるAIの思考プロセスが形成されます。つまり、AIは「写真をより良く見せる」といった複雑な指示を、手順に従って自動的に実行できるようになります。

しかし、Fourth Paradigm の過去を深く掘り下げて調査してみると、このレイアウトの背後にある本質を見るのは難しくありません。「エンタープライズ レベルのソリューションの構築」と「ソフトウェア企業との取引」は、常に Fourth Paradigm の DNA の中核を成していたようです。

今回、Fourth ParadigmがAIGCを通じて産業用ソフトウェアの新たなパラダイムを再構築できるかどうか、注目されるところです。