|
著者について:アリババのローカルサービスプラットフォームのアルゴリズム専門家である袁愛全は、ローカルサービス向けAIアルゴリズムチームを率いています。チームの研究分野は、検索、認知グラフ、LLM大規模モデル、画像/動画処理など多岐にわたります。過去数年間で、複数の特許を取得し、WSDM、CIKM、ICASSPなどの学会で複数の論文が採択されています。 記事のおすすめ AIってこんなだったのか!AIの真髄を突いた漫画集…ぜひ見てください!
1. 業界における最新の動向にはどのようなものがありますか?
今年上半期は、大手メーカーが次々と自社の強みをアピールした時期と言えるでしょう。今年上半期に開催された業界カンファレンスと、主要な会議で発表された内容を振り返ってみましょう。 - 3月18日、NVIDIA GTCカンファレンス
- 3月23日〜24日、上海。GDCグローバル開発者パイオニアカンファレンス
- 4月9日、クラウドネクスト2024
- 4月11日~13日、Qcon24、北京
- 4月15日、スタンフォード AI インデックスレポートが発表されました...
- 百度AIカンファレンス、4月16日
- 4月17日、QuantumBit.China AIGC業界サミットが開催されました。
- 5月13日、OpenAIは春のローンチイベント「GPT-4o」を開催した。
- 5月14日、 Google I/Oカンファレンス
- 2024年5月15日 春 Volcano Engine FORCE Power Conference
- 5月17日、AICon'24
- 6月2日、台北· Computex 2024 · NVIDIA
- 6月10日、 AppleのWWDC24
- 人工知能会議(AIIC)は6月14〜15日に開催されます。
- 上海WAIC会議、7月4日~6日
... 5月13日、OpenAIは「春の新製品発表会」を開催しました。 OpenAIは、急遽準備された春の発表イベントでGoogleを出し抜き、GPT-4oの印象的なリアルタイムで感情に訴えるインタラクションモードを披露しました。「o」は「omni(全方位)」の頭文字で、その野心的なビジョンを表しています。WeChat公式アカウントでもGPT-4oの即時レビューを実施しました。しかし、2ヶ月が経過した現在も、最も期待されていたリアルタイムインタラクション機能は未だ実現されていません。 5月14日、Google I/Oカンファレンス GPT-4o は高いハードルを設定したため、Google I/O での発表は見劣りするように見えました。しかし、詳しく調べてみると、それでも一定のメリットはあります。
1) ジェミニシリーズ: - ジェミニ1.5プロ、
- 最大 200 万トークン。バージョン 1.5 Pro は実際にはバージョン 2.15 でリリースされましたが、今回は 100 万トークンから 200 万トークンに増加しています。
- ジェミニは短期的には第 1.5 世代レベルに留まると思われますが、第 2 世代のリリースを心待ちにしています。
- Gemini 1.5 Flash: 今回新たにリリースされた、低レイテンシ、低コストを特徴としています。
- Gemini Nano: Androidオペレーティングシステムを基盤とする
- 現場ではケーススタディが実演され、通話によって潜在的な危険を自動的に分析し、警告を発する方法が示されました。
- マルチモーダル コミュニケーションは、音声、映像、その他のインタラクティブな機能を提供でき、会話を自動的に理解して提案を提供できます。
2) ジェマシリーズ Gemma2がもうすぐリリースされると言われています。 - PaliGemma がリリースされました。モデルのサイズは 3 バイトです。どのようなタスクを実行できますか?
- 単一タスクの微調整
- 画像の質問回答とキャプション
- ビデオの質問回答と字幕作成
- セグメンテーション
- 同様に
- バージョン 24.2、リリースされた Gemma-7B は、Gemini に基づいています。
- 24.4、Gemma の 2 つの構造バリアントがリリースされました: CodeGemma | RecurrentGemma
- バージョン 24.4、Gemma 1.1 がリリースされました。
3) イメージン3をリリース今回リリースされたのはImagen-3で、Imagen-2は2023年12月、Imagen-1は2022年5月にリリースされる予定です。 4) Veo、ビデオ生成高品質でリアルな1080pビデオクリップを作成できます。また、テキストからビデオ、ビデオからビデオ、画像からビデオへの変換もサポートしています。 5) AIアプリケーションインテリジェント検索、Gemini Advanced Assistant など。 6月2日、NVIDIA Computex 2024 6月2日、台北で開催されたComputex 2024の基調講演で、NVIDIAの共同創業者兼CEOのジェンスン・フアンが、NVIDIAの最新のAIテクノロジーと今後の戦略計画を発表しました。 - AIファクトリー
- NIM、オンライン推論マイクロサービス
- デジタルヒューマン/ACE
- 次世代GPU:Bシリーズ
そして、有名な格言があります。「買えば買うほど、節約できる」 - ブラックウェルの新しいアーキテクチャ:
- BlackWellチップには2つのB200チップが含まれています。B200は現在、世界で最も強力なシングルチップソリューションです。
- Blackwell GPU は、最大 20 PetaFLOPS のシングルチップ AI パフォーマンスを提供し、前世代の Hopper H100 と比べて 4 倍の向上を実現しています。
- 192GB HBM3e メモリを搭載し、最大 8TB/s の帯域幅を実現します。
- Blackwell GPU は、前世代よりも 30 倍高速な AI 推論パフォーマンスを提供します。
- これら 2 つは最大 10TB/秒の速度で相互接続できます。
- 第 5 世代の NVLink を搭載し、1.8TB/s の双方向帯域幅を提供し、複数の GPU 間のシームレスな通信をサポートします。
- 最大 10 兆個のパラメータを持つ大規模言語モデルをサポートします。(10 兆、10,000 バイト、10 テラバイト)
...黄氏は、ブラックウェルを紹介する際に、ある世代の GPT のパラメータを誤って公開してしまったのでしょうか? 1.8T、つまり 1800B、つまり 1.8 兆個のパラメータです。 さらに、NVIDIA の GPU シリーズの長年にわたる概要は次のとおりです。 6月10日、Apple WWDC 2024 このプレゼンテーションでは、Apple版の「AI」を「Apple Intelligence」として再定義しました。クック氏は屋上に立っていました。かなり安全ですよね?他のメンバーはApple Ringの中央にある会議室にいましたが、観客はいませんでした。 1) AppleのAI 5つのキーワード: - パワフル: 非常に効率的で、A17、M1/2/3/4 などの Apple Silicon チップ上で実行できます。
- 直感的: 直接的なインタラクティブ操作で、手間がかかりません。
- 統合: 複数のアプリケーションを統合し、アプリケーション間でアクションを実行できるようにします。
- 個人的: 個人的な状況を効果的に捉える
- プライベート: ローカルデバイス上の大規模なエッジモデル。クラウドコンピューティングでも厳重に機密性が保たれます。
高度にカスタマイズされたAIネイティブ: アプリケーション間で実行可能 エンドツークラウド統合: 1.デバイス上での処理により個人のプライバシーを保護しながら(デバイス側の大規模モデル) 、強力なインテリジェント機能を提供します。 2.プライベート クラウド コンピューティングにより、Apple Intelligence はユーザーのプライバシーを保護し、データが保存またはアクセスされないようにしながら、コンピューティング能力を拡張できます。 2) シリの復活 Siriは登場から10年以上経ちますが、私の経験から言うと、会話はできるものの、完全にインテリジェントとは言えません。自然さや人間らしさ、驚きといったものが欠けているように感じます。今回、Apple Intelligenceによって、Siriはより自然で、状況に応じて使い分け、パーソナライズされ、より多くの機能やアクションをサポートするようになるでしょう。 4月15日、スタンフォード AI インデックスレポートが発表されました... スタンフォードAI レポートWeb サイト: https://aiindex.stanford.edu/report/ 1) トップ10のポイント 1. 人工知能(AI)は一部のタスクでは人間を上回っていますが、すべてのタスクで上回っているわけではありません。AIは、画像分類、視覚的推論、英語理解など、いくつかの分野で人間のパフォーマンス基準を上回っています。しかし、競技レベルの数学、視覚的常識推論、計画といったより複雑なタスクでは、AIは遅れをとっています。 2. 最先端のAI研究は産業界が引き続き主導権を握っています。 2023年には、産業界が51の注目すべき機械学習モデルを生み出したのに対し、学界はわずか15件でした。産学連携によって誕生した有名自動車モデルの数も、2023年には過去最高の21件に達しました。 3. 最先端モデルのコストはますます高くなっています。AI Indexの推計によると、高度なAIモデルの学習コストはかつてないレベルに達しています。例えば、OpenAIのGPT-4の学習には推定7,800万ドルの計算コストがかかり、GoogleのGemini Ultraの学習コストは1億9,100万ドルでした。 4. AIモデルの主な供給元として、米国は中国、欧州連合(EU)、英国を上回っています。 2023年には、米国の機関から61の著名なAIモデルが生まれ、EUの21、中国の15を大きく上回りました。 5. LLM責任に関する堅牢かつ標準化された評価の深刻な欠如。Responsible AI: The AI Indexによる最近の調査では、責任あるAIに関する報告において標準化が著しく欠如していることが明らかになっています。OpenAI、Google、Anthropicといった主要な開発者は、主に様々な責任あるAIベンチマークを用いて自社のモデルをテストしています。このアプローチは、AIモデルのリスクと限界を体系的に比較する取り組みを複雑化させています。 6. 生成AIへの投資が急増。 2018年の民間AI投資全体は減少したものの、生成AIへの資金は急増し、2022年から8倍近く増加して252億ドルに達する見込みです。OpenAI、Anthropic、Hugging Face、Inflectionといった生成AI分野の主要企業は、いずれも多数の資金調達ラウンドを報告しています。 7.データを活用することで、人工知能(AI)は労働者の効率を高め、より質の高い仕事へと導くことができます。 2023年には、AIが労働力に与える影響を評価する複数の研究が行われ、AIによって労働者はタスクをより迅速に完了し、成果物の質を向上させることが示されました。これらの研究は、AIが低技能労働者と高技能労働者のスキル格差を埋める可能性も示しました。しかしながら、適切な監督なしにAIを使用すると、パフォーマンスの低下につながる可能性があると警告する研究もあります。 8. 人工知能のおかげで、科学の進歩はさらに加速しました。例えば、Google AlphaFole 3. 2022年には、人工知能が科学的発見を支援し始めました。しかし、2023年には、アルゴリズムによる分類の効率を向上させるAlphaDevから、材料発見プロセスを促進するGNoMEまで、さらに重要な科学関連AIアプリケーションがリリースされました。 9. 米国におけるAI規制の数は急増しています。米国におけるAI関連規制は、過去1年間および過去5年間で大幅に増加しています。2023年には25件のAI関連規制がありましたが、2016年にはわずか1件でした。昨年だけでも、AI関連規制の総数は56.3%増加しました。 10. 世界中の人々が、人工知能(AI)の潜在的な影響に対する認識と不安を強めています。イプソスの調査によると、AIが今後3~5年以内に生活に大きな影響を与えると考える人の割合は、昨年の60%から66%に増加しました。さらに、AI製品やサービスに対する不安を表明した人は52%で、2022年から13ポイント増加しました。米国では、ピュー研究所のデータによると、AIに対する期待よりも懸念を表明した人は52%で、2022年の37%から増加しています。 2) いくつかのスライド 3) AIが経済に与える影響 1. 生成AIへの投資が急増。昨年、民間AI投資全体は減少したものの、生成AIへの資金は急増し、2022年以降8倍近く増加して252億ドルに達しました。OpenAI、Anthropic、Hugging Face、Inflectionといった生成AI分野の主要企業は、いずれも多数の資金調達ラウンドを報告しています。 2. 米国は既にAIへの民間投資を拡大し、リードしています。 2023年には、米国のAI投資額は672億ドルに達し、世界第2位の投資国である中国の約8.7倍に達しました。2022年以降、中国と欧州連合(英国を含む)の民間AI投資はそれぞれ44.2%と14.1%減少しましたが、米国では同期間に22.1%という大幅な増加を記録しました。 3. AI関連の求人は米国および世界全体で減少しています。 2022年には、米国の求人総数のうちAI関連職種は2.0%を占めていましたが、2023年には1.6%に減少しました。AI関連求人の減少は、大手AI企業における求人数の減少と、これらの企業における技術職の割合の低下に起因しています。 4. 人工知能はコストを削減し、収益を増加させます。マッキンゼーの最新の調査によると、回答者の42%が人工知能(生成型AIを含む)の導入によりコストが削減されたと回答し、59%が収益が増加したと回答しています。前年と比較して、コスト削減を報告した回答者の割合は10ポイント増加しており、AIがビジネス効率の大幅な向上を促進していることを示しています。 5. VC:人工知能への民間投資総額は再び減少する一方で、新規に資金提供を受けたAI企業の数は増加しました。人工知能への世界の民間投資は2年連続で減少しましたが、2021年から2022年にかけての急激な減少とは異なり、減少幅は大きくありませんでした。新規に資金提供を受けたAI企業の数は1,812社に急増し、前年比40.6%増加しました。 6. 組織におけるAI導入率は上昇傾向にあります。マッキンゼーの2023年のレポートによると、現在、少なくとも1つの事業部門または機能でAI(生成AIを含む)を導入している組織は55%に上り、2022年の50%、2017年の20%から増加しています。7+8.産業用ロボット分野では中国が優位に立っています。 - 中国は2013年に日本を抜いて最大の設置国になって以来、産業用ロボットの分野で最大の競争相手との差を大きく広げている。
2013年には中国が世界の設備容量の20.8%を占め、この割合は2022年までに52.4%に増加すると予想されています。ロボットの設置はますます多様化しています。 2017年には、協働ロボットは新規産業用ロボットの設置数のわずか2.8%を占めていましたが、この数字は2022年までに9.9%に上昇しました。同様に、2022年には、医療用ロボットを除くすべてのアプリケーションカテゴリーでサービスロボットの設置数が増加しました。この傾向は、ロボットの設置数が全体的に増加しているだけでなく、人間と対面する役割を果たすロボットの導入に重点が置かれていることも示しています。 9. フォーチュン500企業は、人工知能、特に生成AIについて積極的に語り始めています。 2023年には、AIは394件の決算説明会で言及され(フォーチュン500企業全体の約80%)、2022年の266件から大幅に増加しました。2018年以降、フォーチュン500企業が決算説明会でAIに言及した回数はほぼ2倍になっています。生成AIはすべての決算説明会で最も頻繁に言及されたトピックであり、すべての決算説明会の19.7%を占めました。 II. どのような新しい主要モデルが登場しましたか? 2.1 ランキング: チャットアリーナバークレー ビッグモデルアリーナ: https://chat.lmsys.org/?leaderboard結果をここには掲載しませんが、リンクをコピーして自分で確認することができます。 1) 革新的なバトルモード バークレーのLMSYSが運営するチャットボットアリーナは、最もよく知られている大規模モデルランキングシステムの一つです。2人ずつのチャットボットを2つずつ並べた形式で、数千人のユーザーがページを開き、チャットしたり評価したりすることができます。https ://arena.lmsys.org/ 上のスクリーンショットに示すように、下部の青いボックスに「prompt(プロンプト)」と入力すると、2つのモデルが同時に応答します(緑のボックス領域)。ユーザーは4つのボタンをクリックして評価できます。「Aの方が優れている」、「Bの方が優れている」、「どちらも同等」、「どちらも良くない」です。各対戦では、両方の匿名モデルからサンプルが採取されます。データの多様性を促進するため、ウェブサイトでは入力プロンプトは設定されていません。ユーザーはどちらのモデルに対しても、自由にプロンプトを入力できます。 また、実際の使用状況を反映した様々な入力情報を収集するのにも役立ちます。モデルが回答を提示した後、ユーザーはそれらを並べて比較し、好みの回答に投票します。最初のラウンドで選択できない場合は、勝者が決まるまでチャットを続けることができます。迷っている人のために、「同率」と「どちらでもない」という2つのボタンも用意しています。 2) LMSYS組織バークレーにある LMSYS 組織は、2023 年以降、大規模モデルの研究と評価において一定の影響力を持っており、次のような活動を行ってきました。 タイムライン: [2024/03] Chatbot Arenaの技術レポートを公開しました [2023/09] Arenaプラットフォームの100万件の実際の会話データポイントを収録したLMSYS-Chat-1Mをリリースしました。 [2023/08] Vicuna v1.5をリリースしました。Llama 2をベースにしており、コンテキスト長は4k/16kです。 [2023/07] 33,000件の会話を含むChatbot Arena会話データセットをリリースしました。 [2023/08] Llama 2をベースにした32Kコンテキスト長のLongChat v1.5をリリースしました [2023/06] MT-benchとVicuna-1.3をリリースしました。バージョン7Bと33Bが利用可能です。 [2023/06] 長いコンテキストでのLLM評価ツールLongChatをリリースしました。LongChatの長いコンテキストでのLLM評価ベンチマークMT-Benchは、その後のInterLM2でも使用されました。 [2023/05] モデルバトルモードを搭載したChatbot Arenaがリリースされ、対話データセットも公開され、33,000から100万に増加しました。 [2023/03] LLaMAトレーニングに基づいたVicuna 1.0 (alpaca), 13Bをリリース。同時期にスタンフォード大学がAlpacaをリリース。 ここでは、Vicuna、Alpaca、LLaMA を見ていきます。次の情報は GPT-4o から取得したものです。 1. LLaMA - 正式名称: 大規模言語モデルメタAI
- 開発者: Meta (旧Facebook)
- 特徴:LLaMAはMeta社が開発した大規模言語モデルで、効率的かつ高性能なテキスト生成・理解機能を提供するように設計されています。3つのモデルの中で最も基本的なモデルであり、他のモデルに必要なインフラストラクチャと事前学習データを提供します。
2. アルパカ - 基盤: LLaMAモデルに基づく
- 開発者:スタンフォード大学の研究チーム
- 特徴:Alpacaは、LLaMAモデルをベースにさらに微調整・最適化された言語モデルです。大量の対話データとタスク固有のデータを用いて学習され、対話システムとタスク処理のパフォーマンス向上を目指しています。Alpacaモデルは、特定の対話タスクにおいて、より優れた理解力と生成能力を備えています。
3. ビクーニャ - 基盤: LLaMAとAlpacaモデルに基づく
- 開発者: カリフォルニア大学バークレー校、カーネギーメロン大学、スタンフォード大学の研究者
- 特徴:Vicunaは、LLaMAモデルとAlpacaモデルをベースに開発・最適化された対話言語モデルです。モデル構造を最適化し、より豊富な学習データを用いることで対話の流暢性と文脈理解を向上させることで、対話生成タスクのパフォーマンス向上に重点を置いています。
結論は: - Vicuna: 対話生成に重点を置いた、LLaMA と Alpaca に基づくさらなる最適化。
- Alpaca: LLaMA をベースに、細かく調整され、対話システム向けに特別に最適化されています。
- LLaMA: 最も基本的な大規模言語モデルであり、他の 2 つのモデル用のインフラストラクチャと事前トレーニング済みモデルを提供します。
全体的には、LLaMA が基盤であり、Alpaca はその上での最適化であり、Vicuna は前述の 2 つに基づくより深い最適化とドメイン固有の改善です。 2.2 火災のビデオ生成 1) ソラ: OpenAI ソラのメイキング - 32 Refs ここでは詳しく説明しません。公式の技術レポートを参照してください: https://openai.com/research/video-generation-models-as-world-simulators ソラが人気になってから、多くの人がソラを再現しようとしました。 2) オープンソラ: キーワード: 16秒、720p、柔軟性(さまざまな期間、解像度、アスペクト比、フレームレート)
画像と動画 -> - 事前学習データ: 970万本の動画 + 260万枚の画像
- 微調整データ: 56万本のビデオ + 160万枚の画像
Open-Soraは多段階学習方式を採用しており、各段階では前の段階の重みに基づいて学習を継続します。64個のH800 GPUで約9日間かかりました。技術的な詳細はここでは説明しません。興味のある方は、以下のリンクから詳細をご覧ください。 - 公式ブログ: https:// hpc-ai.com/blog/open-so ras-comprehensive-upgrade-unveiled-embracing-16-second-video-generation-and-720p-resolution-in-open-source
- 技術レポート: https://github.com/hpcaitech/Op en-Sora/blob/main/ docs /report_02.md
3) ヴィドゥ:清華大学 Vidu: (We Do) Togetherは5月7日、盛舒科技が開発したViduがCCTVのニュース番組で紹介されたと報じました。盛舒科技は清華大学と共同で、独自開発の動画モデルViduを最近リリースしました。この動画モデルはCCTVの複数の番組「ニュース放送」「東方的地平線」「ニュース30分」で紹介されました。CCTV13の「東方的地平線」では、Viduとその研究開発チームに関する12分間の特別レポートが放送されました。Viduは、滑らかで連続的な映像、ディテール、そして論理的な一貫性を備えた16秒間の動画を生成します。そのコアアーキテクチャは、盛舒科技が2022年9月に発表した論文で言及されているU-ViTアーキテクチャです。 技術タイムライン:2022年9月 / U-ViT(コアアーキテクチャ)+ 2023年3月 / UniDiffuser(統合マルチモーダルおよびマルチタスクアーキテクチャとU-ViTの大規模検証) -> Vidu 2.3 LongCtx: より長いコンテキスト 1) キミが最初に「ロールアップ」した 2024年3月18日、Dark Side of the Moonは、Kimiインテリジェントアシスタントが最大200万文字のロスレスコンテキスト入力をサポートするようになったと発表しました。この画期的な進歩により、Kimiはこれほど長いコンテキストをサポートする世界初の大規模モデルとなり、わずか5ヶ月で当初の20万文字から200万文字にまで増加しました。 上の画像に示されている論文は、OpenAIの2022年4月のDALL・E-2で発表されたもので、約27ページの長さです。このように要約用のPDFをアップロードすることで、会話の長さ(200万語)を超えることなく、10~20語程度の会話を投稿できます。また、1つの会話内に複数のファイルをアップロードし、ファイル間で質疑応答を行うことも可能になります。 2) Gemini 1.5 Pro: 1000万? 異なる入力での「干し草の山から針を探す」テスト: テキスト入力セクションでは、実際の入力は7MBで、理論上は10MBまでの入力はほぼすべて緑色(つまり、すべてのテキストが緑色)になります。2MBの音声(約22時間)も緑色、2.8MBの動画(約3時間)も緑色です。入力は1MBから10MBまで可能です。10MBとはどの程度の長さでしょうか?論文では次のような例えが用いられています。 3) その他のモデル 以下の画像は Coze アプリケーション開発プラットフォームから取得したものです。「xx k」は最長コンテキストのモデル バージョンを表すものではなく、参考用です。 2.4 MoE: マルチタスクトレーニング 2023年6月、北京人工知能アカデミー(BAAI)カンファレンスで、Googleの科学者である周延奇氏(T5モデルの作者であり、上海交通大学の卒業生)は、大規模モデリング+マルチタスク/MOEという自身の仕事の方向性を発表しました。 2023年9月、フランスのAI企業Mistralは、大規模モデルのトレーニングにMoEアーキテクチャを採用した最初の企業となりました。 ここで紹介したMistral 8x7Bモデルは、推論時にわずか70億のパラメータしか持たないにもかかわらず、700億のLlaMAモデルよりも優れた性能を示しました。2024年2月、GoogleはMoEモデルであるGemini 1.5 Proをリリースしました。その後、Musk氏のxAIもMoEの採用を公式に発表しました。 その後、アリババのQwenを含む業界の多くの企業がMoEを採用しました。 大規模モデルの学習におけるMoEは、徐々にパラダイムとして定着してきました。さらに、Googleは2018年にMMoE(下図参照)を提案し、ランキングシステムやレコメンデーションシステムで広く使用される定番モデルとなりました。その後、AlibabaはESMMを開発しました。
2.5 合成データ例えば、Microsoftのファイシリーズ。ファイ黄金比の素晴らしい点は、その比率がその逆数と一致することです。例えば、1.618の逆数は0.618であり、1.618:1は1:0.618と同じです。 - 2024年4月22日、Phi-3、技術レポート/論文付き。
- 2023 年 12 月、Phi-2、2.7B、1.4T トークン、RLHF なし、紙なし。
- 2023年9月に、PHI-1.5、1.3Bに技術レポートがありました。
- 2023年6月、phi-1、1.3B/350Mサイズ、紙付きが利用可能になります。
Microsoft Phiシリーズ全体は、一つの核となるテーマを中心に展開しています。それは、サイズやデータの「パラメータ/量」の巨大化を急ぐのではなく、「小さくて美しい」こと、つまりミニサイズのデータと高象限データをどのように組み合わせて優れたLLMを構築するかに焦点を当てることです。そのため、 Microsoft自身も「大規模LM」(LLM)ではなく「小規模LM」(SLM)に取り組んでいると宣言しています。これは特にPhi-2の技術レポートで顕著であり、SLMが頻繁に言及されています。Phi-1 -> Phi-1.5 -> Phi-2 -> Phi-3へと進むにつれて、核となる開発トレンドは次のようになります。 - データ量は、PHI-1 の 7B から PHI-3 の 4.8T まで、高品質を維持しながら飛躍的に増加しています。
- モデルのサイズは、当初の 0.35B から Phi-3 の 14B まで、非常に抑制された形で増加していますが、その増加幅は 1 桁未満です。
データラインの下にあるもう一つの開発サブラインでは、合成データの使用を推進しています。このサブラインでは、人間の事前知識に基づき、GPT-3.5/4などの既存のLLMを利用してバッチ生成を自動化しています。合成データの重要性は、Phi-1からPhi-1.5まで検証されています。 Phi-1 の 1B コードデータが統合され、また Phi-1.5 の 20B (常識的推論、NLP 理解など)も統合され、どちらも重要な役割を果たします。 もう1つのポイントは、phiは常に「基本」モデル、つまり事前学習後の生のモデルであり、指示の調整やRLHFのような強制的なアライメントは行われていないことです。公式の主張では、これはオープンソースコミュニティにより良い二次的な出発点を提供するため(より「素朴な」モデルをオープンソース化することで、誰もが自由に使える余地を増やすため)であるとされています。しかし、これはまた、ある概念を暗示しています。つまり、テキストブックのような高品質な合成データには、既に人間の専門家による多くの事前知識が注入されているため、事前学習自体で指示とアライメントの目的が達成されているため、事後学習を行う必要はないということです。 2.6 Ferret: エッジモデルの台頭 AppleにはFerretと呼ばれるモデルシリーズがあります。
タイムライン: - 2024年4月23日、 OpenELM :270M/450M/1.1B/3B
- 2024年4月11日にFerret-v2の論文が提出されました。
- 2024年4月8日に、 「Ferret-UI :モバイルデバイスのUIインタラクションのためのFerretの使用」というタイトルの論文が提出されました。
- 2024年3月29日、 ReALM :80M/250M/1B/3B、スマートデバイス上の画面理解とユーザー応答性。
- 2024年3月26日にLLMをベースにエッジデバイスにASRが実装されました。
- 2024年3月14日、 MM1大型モデル、30B
- 2023年12月、技術調査:限られたDRAMを搭載したデバイスにおけるLLMの仕組み
- 2023年12月に、フェレットのチェックポイント7B、13Bが解放されました。
- 2023年10月にFerretのコードが提出され、Ferret-Benchがリリースされました。
- 2023年10月に、参照タスクとグラウンディングタスクをマルチモーダル大規模モデルに統合したFerret Paper (v1)が提出されました。
Ferret-UI: イラスト
Ferret-UI はモバイル UI 画面で使用できます。 - 柔軟な入力形式 (ドット、ボックス、落書き) を使用します。
- グラウンディング タスクを使用します (例: ウィジェットの検索、アイコンの検索、テキストの検索、ウィジェット リストの検索)。
- 参照タスクを実行します (例: ウィジェットの分類、アイコンの認識、OCR)。
これらの基本的なタスクにより、モデルに豊富な視覚的および空間的な知識が提供され、さまざまなアイコンやテキスト要素など、大まかなレベルと細かいレベルの両方で UI タイプを区別できるようになります。 これらの基本的なスキルは、より高度なタスクを実行するために不可欠です。 具体的には、このモデルは、詳細な説明や知覚的対話における視覚要素について議論できるだけでなく、対話型対話において目標指向のアクションを提案し、機能的推論を通じて画面の全体的な機能を推測することもできます。 Ferret-UI: モデル構造
Ferret-UI-anyres には、追加のきめ細かいイメージング機能が含まれています。 1. 事前トレーニング済みの画像エンコーダーと投影層が、画面全体の画像特徴を生成します。 2. 元の画像のアスペクト比に基づいて取得された各サブ画像に対して、追加の画像特徴が生成されます。 3. 領域参照を含むテキストの場合、ビジュアルサンプラーは対応する領域連続特徴を生成します。このLLMは、画像全体表現、画像部分表現、領域特徴、およびテキスト埋め込みを用いて応答を生成します。 2.7 国内のコードモデルは非常に印象的です。 DeepSeek-Code-V2を見てみましょう。 - オープンソースの Mixture-of-Experts (MoE) モデルは、さらなる事前トレーニングを通じて、コード固有のタスクでクローズドソース モデル (GPT4-Turbo など) に匹敵するパフォーマンスを実現します。
- DeepSeek-V2 の中間チェックポイントから始めて、追加の 6 兆トークン (6T) が事前トレーニングされ、一般的な言語タスクでのパフォーマンスを維持しながら、DeepSeek-V2 のエンコードと数学的推論の機能が強化されました。
- 複数のプログラミング言語のサポート:サポートされるプログラミング言語の数が86 から 338 に増加し、モデルの適用範囲が大幅に拡大しました。
- コンテキストの長さが 16K から 128K に拡張され、モデルはより複雑で広範なコーディング タスクを処理できるようになりました。
- 標準ベンチマークでの優れたパフォーマンス:コーディングおよび数学ベンチマークにおいて、DeepSeek-Coder-V2 はクローズドソース モデルと比較して優れたパフォーマンスを発揮します。
- データセットの構築: データセットは、60% のソースコード、10% の数学的コーパス、30% の自然言語コーパスで構成されており、すべて慎重に選択され、クリーンアップされています。
タイムライン: さらに、他のコード モデルについては以下で簡単に説明します。 - MetaのLLaMAファミリー:
- CodeLlama: Llama2をベースにしたコード言語モデル。50~1兆個のコードトークンを含むデータセットで事前学習済み。モデルのサイズは7B、13B、34B、70Bの4種類。
- BigCode が制作 (BigCode コミュニティは ServiceNow と HuggingFace が共同で管理しています)。
- StarCoder: 150億のパラメータを持つ公開モデル。Stackデータセットの厳選されたサブセットに基づいて訓練されており、86のプログラミング言語をカバーしています。
- StarCoder2 は、Stack2 データセット内の 3.3 兆~ 4.3 兆のトークンでトレーニングされた 30 億、70 億、150 億のパラメータ モデルで構成され、619 のプログラミング言語をカバーしています。
- マジックスクエアクォンティティブ制作:
- DeepSeek-Coder:10億から330億までのパラメータを持つ一連のコード言語モデルが含まれています。各モデルは2兆個のトークンを用いてゼロから学習されており、そのうち87%はコード、13%は英語と中国語の自然言語です。これらのモデルは、16KBのウィンドウサイズと追加の空欄補充タスクを用いてプロジェクトレベルのコードコーパスで事前学習されており、プロジェクトレベルのコード補完とパディングが可能です。
- ミストラル製作:
- Codestral:22Bのパラメトリックモデル。Python、Java 、 JavaScriptといった一般的な言語に加え、SwiftやFortranといったより専門的な言語も含め、80以上のプログラミング言語の多様なデータセットで学習済みです。公式ブログはこちら: https://mistral.ai/news/codestral/
... 2.8 GPT-4を超える一般理論に関する1000の質問スタンフォード大学は6月20日、大規模モデルベンチマーク「HELM MMLU」の最新結果を発表しました。スタンフォード大学基礎モデリングセンター所長のパーシー・リャン氏は、Ali Tongyi Qianwen Qwen2-72BモデルがLlama3-70Bモデルを上回り、オープンソースの大規模モデルとして最高位を獲得したと述べました。
2.9 国内大型モデル市場における価格競争 5月には、Deepseek、Zhipu、豆宝同義前問、Baiduなどが相次いで値下げを行い、大型AIモデルの価格競争が激化しました。値下げ後、1元で大型モデルを小紅書(中国のソーシャルメディアプラットフォーム)に350文字の投稿を1万件書いたり、『三国志演義』を3巻読んだりすることが可能になりました。中にはトークンが使い切れないほどあるという開発者もおり、50元のチャージで数年間は使えるとのことです。モデルの品質が損なわれない限り、値下げはユーザーにとって依然として大きなメリットがあり、AI応用スタートアップの新たな波を巻き起こす可能性も秘めています。 III. アプリケーションの概要 3.1 アプリケーション開発: AI Studio 1) バイト選択 https://www.coze.cn/home 2) Google AIスタジオ https://aistudio.google.com/app / prompts /new_chat 3) Microsoft Azure スタジオ 这有篇ATA教程: https:// grow.alibaba-inc.com/co urse/4800016717248449官网: https:// azure.microsoft.com/en- us/products/ai-studio 3.2 典型AI Demo 部分AI APP示意 PC端web playground
百度AI图片助手
Kimi & 腾讯元宝 Kimi:号称一次性可以读200万字至1,000万字的文章 元宝:可支持单文档最长1000万字的超长文处理,能够一次性解析最多50个文件(单个文件<=100M)
AI手机 Vivo在2023年11月发布了蓝心大模型,Apple iOS18后,Macbook上,都会有端模型。 OPPO Reno12: 闭眼修复: 小布助手: 图/文生视频·可灵大模型 6月,可灵大模型的文生视频功能在快影App开启内测,后续又上线图生视频和视频续写功能,不仅在国内掀起一波试用的热潮,还「馋哭」了一众外国网友。
さらなる議論 4.1 Sora能代表物理世界吗? 1)对Sora的质疑
首先,Sora定位自视很高,原标题是:“Video generation models as world simulators”但是,Yann LeCun是不信的,顺便介绍了一波Meta自己的JEPA联合表征架构;JEPA自己不是视频生成; weibo 张俊林大神于2.27日的文章,进行了更深度的讨论: https:// weibo.com/ttarticle/x/m /show/id/2309405005949600661553 另,如果Sora的数据中,采用游戏仿真器,进行了数据生成,并基于它们进行了训练,那么,这是间接地具备了一定的模拟能力。未来有一定可能性,或许可以通过结合不同技术,如GPT-4和Sora,来互补各自的能力,共同构建出一个世界模型。 例如,Apple Vision Pro加上GPT-4和Sora的组合可能会创造出一个用户可以自由体验不同世界的系统。图片/视频模型和LLM像是大脑的右脑和左脑,分别负责形象思维和抽象思考。共同实现对复杂世界的共同理解和生成。如下图: 2)Genie:“建模世界”的一种探索 另外,Google发布的Genie也一定程度佐证了未来“物理世界模拟器”实现的可能性。 模型结构: 由三部分组成:1、Video Tokenizer:将原始视频帧转换为离散标记 2、Latent Action Model:用于推断每对帧之间的潜在动作 3、Dynamics Model:根据潜在动作和过去的帧标记,预测视频的下一帧 4.2 大模型为啥不善于做数学题? 几个原因如下: 1)早期Tokenizer对数字切分粒度问题 经常把连续的若干数字切在一起形成一个Token,比如“13579”,可能被切成三个Token ,“13”是一个,“57”是一个,“9”是一个Token从LLama-1开始,对数字做最细粒度的切分了,原文是这么说的: 2)输入LLM时,数字高低位顺序问题 数字计算,是从低位计算,逐步向高位进位计算的。这会产生两个问题: a. 计算难度增加 但输入LLM,通常是高位在前、低位在后;倒不是说这样不行,而是,增加了LLM做计算题的难度如果你按照“13579+24680=”顺序输入给LLM,Next Token就要求先输出计算结果的最高位,这意味着LLM必须在内部把完全正确的加法结果38259算完,而且得找地方存起来,然后再先输出高位3,再输出次高位8(这种类似想好了再说)…. b. 计算效率也不高 参考: https://www. zhihu.com/question/6055 67747/answer/3441552623以56*123=6888为例,每一次模型迭代,等同于10次小的迭代的相加:可以看出,前5次迭代,对于得到6888 这个结果而言,没有直接帮助。那是否可以跳过这几次infer呢?跳过后,速度是变快了,但依然不会助于,提高计算复杂数学题的准度。 3)对应数位难以准确对齐 LLM在做数学运算的时候,经常对不齐相应位置的数字,比如“13579+24680”,3本来应该对齐4,但是LLM经常把3对到4附近的数字,解决办法是: 1、加入位置提示(Hint)比如“13579+24680”,每个位置加入提示字符,形成“a1b3c5d7e9+a2b4c6d8e0”这种输入形式,相同位置数字有个共同的提示字符,这很可能利用了Induction Head的作用(我猜的),可以有效帮助LLM对齐数字。 2、对每个数字Chunk单独引入新的位置编码(Abacus Embedding)对于每个数字块,第一个字符引入位置编码1,后续数字依次递增。这样,因为相同位的数字有相同的位置编码,所以有利于解决LLM数字对不齐的问题。如下图: 4)数字较长时,LLM外推差 数学计算的特点是: 1、逻辑缜密,没有模糊的空间,答案是标准化的;这意味着,数理逻辑,不同于人们的自然语言逻辑和惯性,所以LLM面对数学计算,泛化性会有边界, 2、问题空间&解的空间,是天文数量级的;而人类语料(目前GPT训练语料,大多是人们日常活动/行为产生的语料),不可能覆盖到所有的长度、计算问题。由上,产生了一个子问题是:经由短序列数字训练的GPT,不容易直接泛化到长序列的数字计算。 说人话就是:我们在训练LLM的时候,LLM见过的最长的数字串长度是10位,但实际使用的时候,若给出20位长度的数字要求做加法,就容易算错俊林大神提到了FIRE和abacus emb两种位置编码,大致原理是:如果训练语料,只能是较短的数字,那么,我们位置编码,可以不从1开始呀。。。我从51、67、98开始,递增编码就是了,这样,我的位置编码的取值空间,是可以突破训练样本的限制的,至少能自己骗自己一把。这几种位置编码,下文详读。 5)大模型幻觉 GPT生成自然语言,还有幻觉/错误率呢,更何况要求贼精确的数字?而且,生成自然语言,幻觉其实不易发现;但计算数学题,生成数值型答案,正确vs错误之间,没有模糊的空间。所以,模型生成错了,一眼就看出来了,进而得出“大模型不擅长数学题”的结论。简而言之,大模型算数学题,错就是错了,躲无可躲,就会给人留下差印象。 4.3 展望AG 1)AI Agent的5个层次 原文: https:// cobusgreyling.substack.com /p/five-levels-of-ai-agents 2)对AGI审视 原文:UIUC的综述: https:// arxiv.org/pdf/2405.1031 3对AGI Internal的期待: AGI与外部物理世界的连接姿势: AGI在逐渐赶超人类: 五、AI应用之我见命题很大,我没有很体系化的思考,就几个碎片,暂抛出来: 1、AI和搜索 有篇文章,不是取代的关系,未来会持续并存;而且,短期内,搜索占比依然是大头。纯Online应用中,目前看来,除了AIGC/多模,那GPT跟搜索的关系,是最近的。这里有篇,讲述了两者相互渗透的关系: https:// arxiv.org/abs/2407.0012 81 、Search-for-LLM 2、LLM-for-Search 2、具身智能具身智能,目前被Robot行业深度绑定一方面,中国是世界工业机器人装机量第一,远超美国和日本,这体现了工业制造的实力;另一方面,很多具身智能是被“人形机器人”用的较多,LLM作为Robot的大脑,发挥大模型规划推理的能力。上海WAIC大会上,也有很多机器人展台。如下图是Tesla Optimus: 但坦白讲,人形机器人的使用价值,还没那么大;产业还在技术研发阶段。 3、AI+业务流程现有业务框架内,本身有很多SOP(Standard Operation Procedure)业务流程,直接把LLM嵌入到里面来,是比较现实的方案。一方面,LLM/AIGC大模型,本身只是一个“点”,另一方面,不用大幅度改造太多原有的流程,风险最小。如果不是这样,而是为了LLM,去创新新的架构、流程,那难度大得多,属于“以点带线/面”。大模型作为“点”,可以涌现井喷式的出现,但新架构出现不是一日之功。 4、Chat对话,人机交互新模式 LLM大模型的next-token输出形式,天然是有利于对话的。以至于,Chat深深地跟大模型绑定,很多大模型底座,都会同时发布xx-chat版本。从传统的搜推来看,用户的交互轮数比较少,推荐是用户被动式的,搜索时用户虽然主动,但多次搜索之间用户没有上下文连贯感。 从互动交互的视角来看,大模型当做前置的意图理解、推理规划、多轮上下文融合,是solid的,毋庸置疑。如果落地没有收益,不是这几个技术定位有问题,而是在上层整理、场景选择层面不够准确,甚至只是缺少打磨而已。毕竟,我们做一个产品,急着要产出,耐心很少的。 5、手机AI化/端模型类比原有的Compute发展,有超大的计算机/计算中心,也有较小的计算机,比如手机/PC等。我个人觉得,LLM model size,也会走向两个阶段,反而不存在中间态。具体来讲,100B以上的模型、10B以下模型,会成为主流。10B以下的模型,依然会需要:1、它们并不弱,具体请见微软Phi系列model2、它们很被需要,比如端侧。LLM走向手机端,更AI Native,这本就是去年就有的概念,目前很多业界,手机厂商,已经在大肆AI化中。这里多说一嘴,手机端AI,去年有很多,是AIGC,即针对拍照照片,进行美化处理,此不赘述。那从今年开始,会出现很多,AI Native的应用,这里面GPT主导,结合多模态理解。纯UI的模型,比如苹果的Ferret系列,已经有了。 6、内容生成这里指的是,图片、视频、语音等,狭义的AIGC。其实广义的AIGC,是包括GPT文本生成的。回到这几种模态,我个人觉得,他们不同于LLM:LLM生成的本质,是“序列/组织”AIGC生成的本质,就是“内容”,字面意思。虽然它们序列、二维、多维,但是内容。两者是两回事儿,分开看,就清晰多了。 AIGC生成图片视频,在业务场景比较solid,基本上是需求驱动,或者产出后可以直接落地,取得经济收益。做的工作,适合项目制,逐个项目、逐个需求、逐个场景。当然,在技术层面,很多技术栈是通用共用的。但从顶层看,我觉得未必强制用“一盘棋”去看,而是用“百花齐放”去看更合理些。每朵花的差异性,大于共性。也不是一个model能搞定的。
|