HUOXIU

GPT-4o、1日で2つの強力なライバルに挑む!Grok-2、ベータ版リリース!Gemini Live、ローンチ! | AI Daily

記事のおすすめ

AIは簡単な質問で学習を飛躍的に向上させます!AIをどのように活用して学習を加速できるでしょうか?

ワンクリックでPPTを生成?iFlytek Smart Presentation 2.0がメジャーアップグレード!マスク氏がGrok 2 AIモデルベータ版のリリースを発表。

今日のホットトピック

Google Makes 2024: Gemini、Android、Pixel ポートフォリオを通じて、Google AI の最高の機能をより多くのユーザーとスマートフォンに提供します。

第 9 回 Made by Google イベントで、Google は次の AI 関連コンテンツを共有しました。

Gemini は、モバイル デバイスを強力な AI アシスタントに変えます。

Gemini Liveは、GoogleがOpenAI向けにリリースした製品です。機能はChatGPTとほぼ同じです。以前はテスト段階だったGemini Liveは、現在Geminiと無料で会話できるようになり、Androidスマートフォンの英語版加入者にも利用可能です。

一方、Gemini は既存の Google アプリやツールと連携して、ユーザーがアプリやサービス間を切り替えずにタスクを完了できるようにします。

新しい Pixel 9 シリーズ デバイスには、Google AI の最高の機能が搭載されています。

通話履歴は会話の要約を保存します。Pixel 9シリーズには、通話後に会話の要約を保存する通話履歴機能が搭載されています。詳細なテキストメモはスマートフォンの通話履歴に保存されます。

Pixel Studioは、Pixel 9、Pixel 9 Pro、Pixel 9 Pro Foldデバイス専用の画像生成アプリです。Pixel Studioでは、プロンプトを入力して創造性を刺激する画像を作成し、その後ステッカーを追加したり、編集したり、変更したりできます。

Pixel Screenshots は AI を使用して、キャプチャされたテキスト、人物、オブジェクトなどのスクリーンショットの内容を分析し、写真内のアクセス コードや住所などの情報を検索することもできます。

atforms

xAI は Grok-2 を正式にリリースし、X に画像生成機能を追加しました。

イーロン・マスクの Grok-2 と Grok-2 mini が本日ベータ版としてリリースされ、推論機能が強化されました。

xAIはGrok-2に関するブログ記事で、Grok-2はGrok-1.5から大幅に進化しており、チャット、コーディング、推論の分野で最先端の機能を備えていると述べています。同時に、xAIはGrok-2の小型ながらも強力な兄弟製品であるGrok-2 miniもリリースしました。

新しい Grok AI モデルは、X ソーシャル ネットワーク上で画像を生成できるようになりました。ただし、Grok へのアクセスは現在、X の Premium および Premium+ ユーザーに限定されています。

初期のユーザー生成画像は、Grok の画像生成機能が政治家の画像を作成する上で制限がないことを実証しており、多くのユーザーがこれを使用して他のプラットフォームでは生成できない画像を生成しています。

しかし、米国大統領選挙が近づいており、同社はこれらの機能を制限するよう圧力を受ける可能性がある。

Cosine AI は Genie をリリースし、彼をこれまでで世界最高の AI ソフトウェア エンジニアと称しました。

Cosine AIは、同社のGenieがこれまでで世界最高のAIソフトウェアエンジニアであると主張しています。Genieは、バグの解決、機能の構築、コードのリファクタリングなど、完全に自律的に、あるいはまるで同僚と協力するかのようにユーザーと連携して行うことができます。

Cosine AI は競合他社とはまったく異なるアプローチを採用しています。ユーザーがモデルをソフトウェア エンジニアのように動作させたい場合、人間のエンジニアがどのように作業するかをモデルに教える必要があります。

このアプローチにより、Cosine AI は人間のソフトウェア エンジニアのように動作する製品を構築できます。

Cosine AIは、ソフトウェアエンジニアの実際の作業例から人間の推論を抽出する新しい技術を開発しました。このデータは、人間のエンジニアが論理的に行うすべてのことを表しています。

このデータセットを使用してモデルをトレーニングすることで、Cosine AI は、一部が機能するまでランダムなコードを生成するだけでなく、人間のように問題を解決します。

私の国には、登録され、開始され、一般に公開されている生成 AI サービス モデルが 180 以上あります。

中国工業情報化部の公式WeChatアカウントによると、先日開催された第12回インターネット安全会議で、中央サイバースペース事務委員会弁公室副主任兼国家インターネット情報弁公室副主任の王静涛氏は、現在までに中国は一般向けにサービスを提供できる生成型人工知能サービスモデルを180件以上、申請と立ち上げを完了しており、登録ユーザー数は5億6400万人を超えたと発表した。

報道によれば、我が国は近年、人工知能の開発において目覚ましい進歩を遂げているそうです。

一方、比較的充実した人工知能技術産業システムが初期に構築され、関連企業は4,500社を超え、産業規模は拡大し続けています。

一方、人工知能と実体経済の融合は深まり、人工知能の応用研究は加速的に進み、2,500以上のデジタルワークショップとスマートファクトリーが構築されました。人工知能による変革後、研究開発サイクルは平均20%短縮され、生産効率は35%向上しました。

同時に、人工知能は、政府、金融、エネルギーなどの分野でもデジタル化のプロセスを加速させています。

Alitongyiが音声言語モデルQwen2-Audioのオープンソース化を発表

AGIシステム構築という目標を達成するには、モデルが様々なモダリティからの情報を理解できる必要があります。Alibaba Tongyiは、音声とテキストの入力を受け付け、テキスト出力を生成するQwen-Audioの次期バージョンであるQwen2-Audioをリリースしました。

Qwen2-Audio には次の特徴があります。

  • 音声チャット: 初めて、ユーザーは音声を使用して、ASR モジュールを必要としないオーディオ言語モデルにコマンドを発行できるようになりました。
  • オーディオ分析: このモデルは、音声、サウンド、音楽などのオーディオ情報を分析でき、テキスト コマンドも含まれています。
  • 多言語:このモデルは、中国語、英語、広東語、フランス語、イタリア語、スペイン語、ドイツ語、日本語など、8 つ以上の言語と方言をサポートしています。

近い将来、Alitongyi は、より大規模な事前トレーニング済みデータセットで改良された Qwen2-Audio モデルをトレーニングし、モデルがより長いオーディオ (30 秒以上) をサポートできるようにする予定です。

Alitongyi 氏は、音声言語モデルのスケーリング ルールを調査するために、より大規模な Qwen2-Audio モデルを構築することも計画しています。