QbitAI第4パラダイムビルからのJin Leiのレポート | WeChat公式アカウントQbitAI国産大型模型の戦いに、新たな強豪が参戦した。 ちょうど今、 4Paradigm が自社開発した大型モデル「SageGPT」が、発売から 2 か月を経て、ついに機能を満載してデビューしました。 さらに、この出来事全体を見ると、最も直接的に感じられるのは、「これは違う、本当に違う」ということです。 どうして? まず、ライブデモンストレーション中にインターネットケーブルを抜くという大胆な行動に出ました。 効果は次のようになります。たとえば、映画「Raging Storm」の静止画をアップロードし、「Shishuo」に写真の説明を求めると、応答は次のようになります。
静止画の中に何人いるかと聞かれると、「石碩」は即座に「9人」と答えた。 テキストから画像を作成する能力を見てみましょう。まずは「ライオンの頭」を描いてみましょう。 生成された画像が標準を満たしていることは簡単にわかります。この時点で、観客の多くはすぐに「煮込まれたライオンの頭はどこにあるのですか?」と尋ねました。 4 番目のパラダイムは恐れることなく、その場ですぐにそれを実証しました。 次に、コード生成についてですが、Fourth Paradigm では「Shishuo」さんに「Python 乱数推測」を現地で実演していただきました。 インターネットケーブルが抜かれた状態でのライブデモンストレーションを目の当たりにした観客は驚き、拍手喝采を送り続けました。 しかし、違いはそれだけではありません。上記に示した機能は単なる「前菜」に過ぎません。 Fourth ParadigmのGPTは、単に「あなたが知っていると思うもの」ではなく、他のベンダーとは異なるアプローチを採用しているため、 AIGC 機能 (AIGS) を使用してソフトウェアをリファクタリングする目的は、エンタープライズ ソフトウェアのユーザー エクスペリエンスと開発効率を向上させることです。 例えば、「Shishuo」にコンテナや小箱の寸法を解析させ、梱包プランを設計させます。 まず、関連する詳細についてユーザーに相談し、思考プロセスを提供しながら、解決策を段階的に実行します。 これに対して、4ParadigmのCEOである戴文元氏はイベントで次のように説明した。
それはあなたが思っている GPT ではありません。総じて言えば、「Shishuo」が上記のような能力を持つことができたのは、その背後に3つの主要な技術的「武器」を備えているからである。 1つ目は、マルチモーダル大規模言語モデル技術です。 「Say It」が2月に初めてリリースされたとき、サポートされていたのはテキストベースの会話という単一の方式だけでした。 わずか 1 か月後、Fourth Paradigm は音声、画像、表、ビデオなどのマルチモーダル入出力機能を統合しました。 2 つ目の主要な技術的「武器」は、エンタープライズ レベルの Copilotです。 この Copilot は、Microsoft や GitHub が使用する Copilot とは異なることに注意してください。 代わりに、Fourth Paradigm は独自に開発した大規模言語モデルを使用して専門分野の知識を理解し、ユーザーが特定の機能を実現できるように支援します。 たとえば、開発中は、エンタープライズ グレードの Copilot のサポートにより、必要なコストは API の統合のみです。 それはどういう意味ですか? これは ChatGPT プラグインに似ており、サードパーティのプラグインをインストールするだけで、ChatGPT を特定の分野でよりスマートかつプロフェッショナルにすることができます。 同様に、企業が「Shuoshuo」を利用する場合、Copilot は企業のソフトウェアの関連機能にアクセスでき、従業員は音声、画像、表、動画などの手段を通じて必要な回答を得ることができます。 たとえば、航空宇宙製造業界では、ソフトウェア設計者はいくつかの画像をアップロードするだけで、「Shishuo」に何百万ものツール部品のライブラリから類似の部品を見つけて組み立てるように要求できます。 これは、 「マルチモーダル大規模言語モデル + Copilot」の組み合わせにより、AIGC が実際の産業アプリケーションにより適したものになることを示しています。 しかし、それだけではまだ十分ではありません。 前述の機能は、特定の単一の断片化されたタスクにしか対応できませんが、業界の問題はより複雑で多面的であることが多いです。 Photoshop を使用して写真を強化する場合と同様に、切り抜き、フィルターの調整、明るさの調整など、複数の手順が必要になることがよくあります。 しかし、多くの場合、人々が望んでいるのは、単に「特定の製品のポスターを生成してください」と言うだけで、要求したものをすぐに入手できる、1 つのステップで完了することです。 企業生産の文脈では、この状況は単に完全な結果を得るということではなく、生産プロセスが「ブラック ボックスではない」こと、つまり各ステップが説明可能であることも求められます。 そのため、前述の 2 つの主要な「武器」に加えて、Fourth Paradigm は、エンタープライズ レベルの Chain of Thought (CoT) という3 つ目の重要なテクノロジーを導入しました。 マインドチェーンの概念は Google によって初めて提案されたもので、特別な種類のコンテキスト学習です。 入力と出力のペアの例のみを提供する標準的なヒントとは異なり、マインド チェーンのヒントでは追加の推論プロセスも追加されます。 従業員にはタスクを与えるだけで、比較的完璧な回答が得られるだけでなく、プロセス全体がどのように考え出され、どのように実行されたかが詳細に説明されます。 注目すべきは、第 4 のパラダイム、つまりこのような企業レベルの思考チェーンは、特定の分野の学習の「ルーチン」であり、より専門的で信頼性が高いということです。 しかし、公平に言えば、今日の Fourth Paradigm のリリースは、この人気の波を利用して一夜にして実現できたものではありません。 4Paradigmによれば、パラダイム研究所はBERTがリリースされた頃からこの技術分野に注目し投資を始めており、GPT3のリリース後にはその方向性がさらに明確になったという。 一方で、フォースパラダイムは「今年の投資と比較すると、ここ数年の間にはまだギャップがあることは間違いない」とも率直に述べた。 全体として、第 4 パラダイムの技術ロードマップは、おおよそ3 つのステップに要約できます。
なぜこのレイアウトなのですか?簡単に言うと、 AIGS はAIGC の略で、AIGC 機能を使用してソフトウェアをリファクタリングすることを意味します。 結局のところ、優れた技術とは実際に使える技術です。AIGCブームは非常に人気があり、GPT-4のような非常に強力な効果を持つ技術が登場していますが、それらはこれまで業界にどのような技術的価値をもたらしたのでしょうか? これは第 4 のパラダイムが取り組む根本的な問題であり、戴文元氏は次のように述べています。
第4パラダイムによれば、従来のB2Bソフトウェアは、まずユーザーエクスペリエンスの欠陥に悩まされていました。例えば、企業の経費精算システム、人事システム、OAシステムは、「メニューが山積みで、無数のオプションがある」状態と表現できます。 大規模言語モデルの出現により、これらの複雑なシステムは、より優れた対話型の方法を通じて機能を呼び出すことができるようになりました。これは破壊的な側面の 1 つです。 たとえば、AI 対応のエンタープライズ ソフトウェアでは、会議室を予約するときに日付、時間帯、会議室を選択する必要がなくなります。 代わりに、秘書に話しかけるかのように、「特定の時間に会議室を予約してください」と言えば済みます。 同じことがエンタープライズ ソフトウェア開発にも当てはまります。 従来の B2B エンタープライズ ソフトウェアは高度にカスタマイズされ、メニューベースになっていることが多いため、機能のアップグレードごとにプロトタイプ、設計、開発のプロセスを繰り返し実行する必要があり、完了するまでに少なくとも 1 か月かかります。 しかし、新たなインタラクション手法の登場により、データ、API、コンテンツに着目して機能やロジックを開発できるようになり、これまでにないレベルの開発効率が実現するという、破壊的な変化が起こりました。 4番目のパラダイムは次のように述べています。
では、AIGS は具体的にどのように進めていくべきでしょうか? 4 番目のパラダイムも、この問題について独自の洞察を提供し、主に 3 つの段階に分かれています。
しかし、Fourth Paradigm の過去を深く掘り下げて調査してみると、このレイアウトの背後にある本質を見るのは難しくありません。「エンタープライズ レベルのソリューションの構築」と「ソフトウェア企業との取引」は、常に Fourth Paradigm の DNA の中核を成していたようです。 今回、Fourth ParadigmがAIGCを通じて産業用ソフトウェアの新たなパラダイムを再構築できるかどうか、注目されるところです。 |