HUOXIU

GPT-4oは盛大な宣伝とともにリリースされました。しかし、ユーザーから直接のレビューによると、OpenAIのマーケティングは誇張されていた可能性があることが明らかになりました。

5月14日の早朝、OpenAIは待望の「春の製品発表」で、次世代のフラッグシップ生成モデルGPT-4o、デスクトップアプリ、そして一連の新機能を発表しました。ライブストリーミングでは、GPT-4oがユーザーに無料で提供されると言及されていました。私はその朝すぐにアカウントにログインしましたが、GPT-4oは表示されませんでした。このモデルはまだグレースケールテスト段階にあるのではないかと疑い、AIレビューブロガーになって、OpenAIの宣伝通り、GPT-4oモデルの実環境検証を行うことにしました!

まず、OpenAI公式ブログでは、既存のモデルと比較して視覚と音声の理解において特に優れているGPT-4oについて言及されています。

OpenAIのデモ動画を拝見しましたが、OpenAIのスタッフがビデオチャットでGPT-4oとまるで友達のようにやり取りしている様子が印象的で、本当に感動しました!ぜひ試してみたいですね!

しかしながら、大変申し訳ございませんが、ビデオインタラクション機能はまだ一般ユーザーにはご利用いただけません。ChatGPTとのインタラクションは、写真やファイルのアップロードのみとなります。

さらに、公式チームが披露したリアルタイム音声翻訳機能も観客の注目を集めました。OpenAIは、この携帯電話を翻訳機として使用し、約20の一般的な言語を翻訳できると回答しました。

試してみたところ、リアルタイムの音声翻訳はまだできないことがわかりました... ChatGPTとの音声対話後にはまだ数秒の待機時間があります。

OpenAIは公式ブログで、「GPT-4oの新しい音声および動画機能を、今後数週間以内にAPI経由で信頼できる少数のパートナーに提供する予定です」と述べています。待望されていたもののまだ提供されていないこれらの機能に加え、公式ブログ記事では、テキスト画像変換機能や画像、音声、動画認識機能も紹介されました。次回は、これらの機能のデモ、テスト、レビューを行います。公式ブログ記事の入力をプロンプトとしてコピーし、独自の画像を生成しました。その結果を公式出力と比較したので、ぜひ参考にしてください。

漫画のパネルレイアウト:ロボットの執筆ボトルネック

このデモでは、GPT-4oの強力な画像生成機能、特に画像上のテキスト生成の改善や、複数の画像を生成する際に人物の表現の一貫性を維持する機能などを紹介します。しかし、最終的な結果は…

最初の画像では、セルフテストによって生成されたテキストにまだタイプミスがあり、文字がぼやけていることがわかります。

2 番目の画像では、ロボットの手は明らかに変化しており、一貫した位置を維持しなくなり、紙も変化しています。

3 枚目の写真は基本的には問題ありませんが、紙に書かれた文字が最初の 2 枚の写真とはまったく異なります...

漫画パネル:郵便配達員サリーの物語

素晴らしい!GPT-4o は、公式の写真よりもさらに美しい、日本のアニメ スタイルの美しい郵便配達員の画像を生成しました。

ちょっと待って、なんで絵のスタイルが変わったの?なんで日本のアニメは人形劇みたいに見えるの?それに遠近感もおかしい。

3枚目の画像はスタイルが違います。個々の画像とテキストはよくマッチしているのですが、全体として一貫したストーリーを伝えるのは難しいですね…

漫画のアバター

次の機能は私のお気に入りで、GPT-4oが最も優れたパフォーマンスを発揮する部分でもあります。写真をアップロードすると、あなたにぴったりの漫画風アバターがデザインされます。背景もカスタマイズ可能です。

これは、OpenAI の技術者 Alex Nichol によるオリジナル画像です。

これはGPT-4oによって生成された漫画風アバターです。公式に生成されたものほどリアルではありませんが、基本的な特徴は再現されています。

芸術的なフォント

効果は素晴らしく、公式画像よりも優れています!

しかし、なぜ文字数が減っているのでしょうか?

3Dレンダリング

見た目は十分ですが、このように変更された後でもロゴは使用できますか?

クリエイティブなタイポグラフィ

手書きはとても美しいですが、テキストの正確さはまだ少し欠けています...

人間の感情認識

編集者が感情豊かな人物の写真をアップロードすると、GPT-4o はそれを正確に識別し、さらにそれに関するストーリーを作成しました。

会議録画認識

編集者は複数人での会議の録音をアップロードし、録音に何人参加していたかを尋ねました。GPT-4oは音声トラック分析によって回答を返しましたが、これはかなり不合理な結果でした…

ユーザーエクスペリエンス全体の観点から見ると、現在一般ユーザーが利用できるGPT-4oは宣伝ほど優れていません。今回のリリースは、真摯な取り組みが欠けている、駆け足のPR活動のように感じられます。OpenAIの動画は、明日のGoogleの動画と同様に編集されているとは思いますが、動画でOpenAIの従業員が使用しているGPT-4oは、私が現在使用しているものとは明らかに異なります。内部および外部の互換性がいつ実現するかについては、今後の動向を待つしかありません。

フォローを歓迎します

「Trusted AI Progress」WeChat公式アカウントは、大規模グラフ学習、因果推論、知識グラフ、大規模モデルといった分野を網羅し、最新の信頼できる人工知能技術の普及とオープンソース技術の育成に取り組んでいます。QRコードをスキャンしてフォローし、AIに関する最新情報を入手しましょう!