HUOXIU

GPT-4の製品化に関する大胆なアイデア

最近、インターネットでちょっと検索してみると、「GPT-4 はすごい」「信じられない」「技術革命が到来した」「人類は職を失うことになる」といったコメントが大量に見つかります...

しかし、このような大きな変革は一体どのようにして起こったのでしょうか?その答えはやや曖昧です。ChatGPTの基本的なQ&Aサービスとライティングサービス、そしてMicrosoftが既に開発中の検索アプリケーションとオフィスアプリケーションだけが、大規模言語モデルの比較的明確な実装ソリューションとなっています。しかし、これだけでは技術革命の効果を達成するには不十分なようです。

なぜこのようなことが起こるのでしょうか?

その答えは、あらゆる技術が最終的に効果を発揮するためには、「技術→製品→経済的効果」という3段階の開発プロセスを経なければならないという事実にあります。この中で、製品化は最初の段階を次の段階に繋ぐ不可欠なステップです。多くの優れた技術は、製品化できないためにニッチな分野や専門分野にとどまっています。逆に、多くの革命は特定の技術的焦点を必要とせず、製品自体の優秀さによって引き起こされることもあります。例えば、iPhoneは多くの新しい技術を統合していますが、それ自体が製品イノベーションなのです。

この重要な局面において、GPTの変革力は誰もが実感できるでしょう。しかし、それがどのように製品化されるかについては、まだほとんど何も分かっていません。私たちが目にするアプリケーションは、主にギークや開発者向けのAPIの形で提供されています。

では、このAIブームからどんな「キラー」製品が生まれるのでしょうか?GPT-4の重要な特徴を手がかりに、いくつかの大規模言語モデルの製品化の可能性についてお話しします。

世界を混乱させるような話はまだやめておきましょう。それは抽象的すぎるからです。また、既存の技術力だけに焦点を当てるのもやめましょう。それは具体的すぎるからです。このAIブームにおいて、大多数の人々にとってチャンスとなるのは、製品化の中期段階に入ってからです。

情報化時代3.0の特徴は「コマンド」です。

情報化時代は、情報獲得とパーソナルエンターテインメントという揺るぎない二つのテーマによって特徴づけられています。検索エンジン、ニュースフィード、ポータル、ライブストリーミング、ショートビデオなど、これらのインターネット製品はすべて、情報獲得効率の向上とパーソナルエンターテインメント体験の強化に依存しています。大規模言語モデルを表現するGPT-4は、短時間で膨大な量のコンテンツを生成でき、従来のAIGC(AI生成コンテンツ)では実現が困難なPowerPoint、ウェブサイト、動画の作成さえも可能にします。

この機能をさらに拡張すると、大規模な言語モデルによって人々が情報と対話する方法が完全に変化するという点に最大の製品価値が生まれます。

NVIDIA GTC 2023 で、ジェンスン フアンは「生成 AI は人間の言語でプログラムできる新しいタイプのコンピューターであり、誰でもコンピューターに指示して問題を解決できます」と述べました。

「コマンド」という言葉が重要です。GPT-4などの大規模言語モデルが製品の基盤となるにつれ、ユーザーが情報・エンターテイメント製品とインタラクションを行う最も可能性の高い方法はコマンドとなるでしょう。

情報 1.0 の時代には、ニーズを見つけることができました。これが検索メカニズムであり、代表的な製品は検索エンジンでした。

情報 2.0 時代では、ニュース フィードやショート ビデオなどの製品に代表される推奨メカニズムによって、ユーザーのニーズに応えることができます。

AIの能力がさらに向上するにつれて、ニーズをカスタマイズし、短期間で満たすことができるようになります。GPT-4、5、6、7によってもたらされた新しいメカニズムは、コマンドメカニズムです。

この段階では、情報はすでに形成されておらず、ユーザーのニーズに基づいて取得されるわけではありません。むしろ、情報自体は存在せず、ユーザーがコマンドを発行した後にのみAI生成コンテンツ(AIGC)が生成されます。例えば、検索エンジンの時代では、チップに関する記事を書こうとすると、キーワードや重要な情報を用いて様々なデータレポートを検索・照会する必要があり、ユーザーには忍耐力と情報探索スキルが求められました。しかし、情報フィードの時代では、AI推奨メカニズムが、チップ関連情報の検索や閲覧に基づいて、関連コンテンツを自動的にプッシュします。これらのコンテンツには有用なものとそうでないものがあり、ユーザーはその違いを見分ける必要があります。

「コマンド」が情報交換の主な手段になると、AIに直接指示を出してチップに関する最新のデータをすべて見つけ出し、自分専用のレポートを作成できるようになります。満足できない場合は、変更を指示することもできます。

このようなコマンドベースの情報収集が、制作と学習の効率性、そして情報取得方法を変えるならば、同様のテクノロジー主導型AI生成動画は、エンターテインメントのパターンを劇的に変える可能性があります。今日では、多くの短編動画は定型的でテンポが速く、まるでAIが作ったかのようだと感じるかもしれません。しかし将来的には、動画が実際にAIによって作成されるようになるため、こうした懸念はなくなるかもしれません。

映画レビュー、セレブのゴシップ、エネルギッシュなダンスパフォーマンスなど、AIGCは将来、大量の動画コンテンツをカスタマイズできるようになります。映画情報はGPTでクロールし、セレブのゴシップはAIが収集し、ダンス中の男女の画像はAIが生成します。コンテンツを探す必要も、AIの推奨に頼る必要もなく、多数のショートビデオクリエイターやコンテンツクリエイターが制作・編集に時間と労力を費やす必要もありません。たった一つのコマンドで、数時間ものエンターテイメントを簡単に楽しむことができます。

情報化時代 1.0 では人が情報を検索し、2.0 では情報が人を見つける時代でしたが、AIGC によってもたらされる情報化時代 3.0 では、誰も他の人を検索する必要がなくなり、AI が独自に情報を生成できるようになります。

この製品化の核となるのは、検索エンジンや情報フィードに続く「コマンドエンジン」と呼ばれる新しい製品形態を創造することです。「アラジンのランプ」という名前は良いかもしれません。

ゲームのNPCがあなたを見つめています。

GPT-4 がリリースされた夜、多くの開発者がグループ内で議論しているのを見ました。GPT-4 のアプリケーションについて最初に表示されたメッセージは、GPT-4 を NPC としてゲームに組み込むことができるというものでした。

NPC が大規模な言語モデルをベースとして使用し、プレイヤーと豊富で高度にカスタマイズ可能なマルチターンのダイアログを行うというのは簡単に思いつくアイデアのはずですが、この友人が言いたかったのはそういうことではありません。

GPT-4の重要な革新的な特徴は、AIが画像を認識し、その詳細と意味合いを理解できるようにすることです。例えば、面白いミームのユーモアを理解することができます。

この能力がゲームに適用されれば、ゲームとゲームの NPC に、プレイヤーを見る能力という前例のない力が付与されることになります。

ビデオゲームの誕生以来、プレイヤーは仮想世界を見て、聞いて、その世界に没入するだけだった。この過程で、プレイヤーは周囲の現実から可能な限り切り離される必要があり、ゲーム体験は常に一方通行だった。ARやモーションセンサーゲームの登場により、この状況はある程度変化し、プレイヤーの姿勢、動き、力、そしてゲーム環境がゲームに取り込まれるようになったものの、ゲーム自体は依然としてプレイヤーを理解するには至っていない。

GPT-4をゲームのNPC、あるいはゲームのメカニクスの一部にすれば、ゲームがプレイヤーを理解し、それに応じて反応できるようになる日もそう遠くないかもしれません。あなたがゲームのNPCを観察している間、彼らもあなたを観察し、あなたの表情やボディランゲージを理解しようとし、混乱や興奮、あるいは行き詰まりコントローラーを投げたくなるような怒りを解釈しようとしているかもしれません。

このメカニズムがゲーム開発の達人の手に渡れば、最終製品は間違いなく息を呑むほど素晴らしいものになるでしょう。実際、AIが生成したレベルや環境、そして自動レンダリングはすでにゲーム開発を劇的に変えており、将来GPT-4がゲームに深く統合される可能性は非常に高いでしょう。

この融合は、インタラクションを重視する AR および VR ゲームと、NPC 間の自由なインタラクションに重点を置いたオープンワールドおよびマルチエンディングのロール プレイング ゲームの 2 つの分野で発生する可能性が最も高くなります。

「理解する」能力はゲーム以外にも、デジタルヒューマンやロボットにも応用でき、大きな製品チャンスを生み出す可能性があります。

「ワンストップサービス」

toCについてお話ししたので、toBについてお話しましょう。今日では多くの人が「ワンストップオンラインサービス」という言葉をご存知でしょう。これは、行政サービスシステムにおける各部署の情報システム間の垣根を取り払い、申請者が各部署を行き来して、延々と続く手続き、無数の印紙、そして困難な移動を繰り返す必要性をなくすことを意味します。

世界各地において、オンライン政府サービスは、都市サービス、政務、金融、税務といった分野におけるデジタル化の中心的な方向性となっています。中国でも、東部沿岸地域や一級都市において、オンライン政府サービスが急速に発展しています。

しかし、「ワンストップオンラインサービス」モデルには依然として問題点が残っています。

まず、「ワンストップサービス」とは、データが繋がっているだけで、処理ロジックや方法は従来と同じままです。ユーザーは依然としてやり方が分からず、行き詰まってしまうでしょう。何度も質問をしたり、資料を記入したり、相談したりして、多くの時間を費やすことになるかもしれません。

もう一つの課題は、「ワンストップオンラインサービス」の効率性は、オペレーターの能力に大きく依存することです。オペレーターは限られた時間と専門知識を持つため、様々な業務領域への理解が不足することになります。そのため、複雑な状況では、オペレーターは業務を遂行できても、どのように進めれば良いか分からず、各階層の上司に承認を求めたり、部門をまたいでコミュニケーションを取ったりする必要があり、かえって効率を低下させてしまう可能性があります。

大規模言語モデルをこれらの分野に統合することで、必然的にいくつかの問題が解決されます。ユーザーはAIに直接相談することで、複雑な部門や業務プロセス間の内部ロジックや手順を理解し、タスクを可能な限り一括で完了できるようになります。一方、オペレーターはAIを活用して部門横断的な運用方法や事例を入手し、より複雑な状況にも効率的に対応できるようになります。最も重要なのは、同様の機能によって、AIが手作業を代替できるようになることです。

このサービスプラットフォームは、大規模言語モデルの知識獲得能力と論理分析能力を活用し、「ワンストップオンラインサービス」を「ワンボイスサービス」へと進化させ、申請者がニーズを明確に伝えるだけで、すべてが処理されるようにします。もちろん、この名称は単なる冗談ですが、都市サービスの核心は間違いなく「ネットワーク」から「人」へと移行する必要があり、これは大規模モデル時代のB2B製品にとっての核心的な機会でもあります。

このような能力の実用化が最も求められている分野は、行政と金融です。これらの分野は、非常に多くの事項を扱い、専門性が高く、国民のニーズと密接に結びついています。さらに将来的には、税務、法律、医療といった分野も含まれる可能性があります。大規模な言語モデルであるGPTは、公共サービスの境界を打ち破り、AIが専門知識とユーザーのニーズを結び付けることを可能にします。

今後、コンサルティング、データ集約、タスク処理、文書認証などの機能を統合した新しい AI サービス プラットフォームは、B2B 市場における AI テクノロジーの中心的なビジネス チャンスとなるでしょう。

スーパーノーコード開発

モバイル インターネットのスタートアップがブームになったとき、よく「アイデアも機会も方法論もある。資金を得るために必要なのはプログラマーだけだ」と冗談を言う人がいました。

これは明らかに冗談ですが、笑いながら、そのプログラマーも悪くないことに気づくかもしれません。

ChatGPTの最も印象的な点の一つは、自動コード生成と修正機能です。多くのプログラマーは、AIモデルの機能は主に補助的なものであり、ビジネス、製品ロジック、実装方法を理解しているプログラマーの代わりにはならないと述べています。

しかし、複雑な開発が不可能なら、シンプルな開発はできないのでしょうか?GPT-4がリリースされた際に実証された革新的な機能の一つは、モデルが要件に基づいてウェブサイトを自動生成できることでした。生成された結果は比較的粗雑なものでしたが、基本的な開発要件は既に​​満たしていました。

クラウドコンピューティングとソフトウェア業界では、ローコード開発、さらにはノーコード開発がここ2年間で人気のコンセプトとなっています。その根幹は、コードライブラリを用いて既存の開発例を迅速に書き換えることですが、GPT-4のロジックは明らかにより高度です。ユーザーがアーキテクチャを理解する必要すらなく、要件に基づいて開発プログラムを直接生成します。

この能力は、複雑なソフトウェア アプリケーションを短時間で生成するには不十分かもしれませんが、プログラミングや開発のスキルが不足している多くの人々にとって、AI を使用してミニプログラム、電子商取引プラットフォーム、または簡単なアプリを作成することは依然として非常に有意義です。

GPT-4のテンプレートを利用することで、「スーパーノーコード」製品を作成できます。ユーザーは要件を提出し、料金を支払うだけで独自のソフトウェアアプリケーションを入手でき、開発プロセス全体の人件費はほぼゼロになります。

AI主導のテンプレートベースのソフトウェア開発に、人間向けに微調整を加えることが、新たなトレンドになるかもしれません。考えてみてください。今ではグループチャットを簡単に作成できます。これは、インターネットチャットルームの黎明期には想像もできなかったことです。ですから、将来的には、誰もが複数のアプリ、複数のウェブサイト、そしてデジタルヒューマンのグループを持つことが、もはや難しくなくなるかもしれません。

事前学習済みの大規模モデルの台頭から今日のChatGPTやGPT-4に至るまで、最も注目すべき点は、知能の出現が情報技術のいくつかの基本的な概念を変えたことです。言い換えれば、GPT-4は結果ではなく、条件なのです。

こうした新たな条件をうまく活用し、新たな手法を導き出し、新たな製品を生み出す者だけが、AI時代に最高の成果を達成できるのです。

このような大きな変化が私の仕事や生活に混乱をもたらすのではないかと心配する人もいるかもしれません。

実際、この種の不安は常に存在しますが、実際に災害に発展したことはありません。

1999 年、Pu Shu は「New Day」という曲をリリースしました。この曲には、「さあ、Pentium コンピューターよ、私の代わりに考えさせてくれ」という歌詞が含まれていました。

20 年以上経ちましたが、人々はまだ「Pentium コンピューターはどこにあるのだろう?」と疑問に思っています。