HUOXIU

Qwen2 は正式にオープンソース化されており、そのパフォーマンスはオープンソースモデル Llama3-70B を上回っています。

Alibaba Cloudは本日、Qwen2-72Bが正式にオープンソース化され、その性能はオープンソースモデルのLlama3-70Bを上回り、Wenxin 4.0、Doubao Pro、Hunyuan Proなど多くの大規模な中国のクローズドソースモデルも上回ったと発表した。

これまでQwenシリーズはQwen1.5からQwen2へと進化を遂げてきました。Qwen2には、Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72Bの5つのサイズがあります。今回オープンソース化されたQwen2は、Alibaba Cloudの最も強力なモデルであり、そのオープンソース情報は現在Hugging FaceとModelScopeで公開されており、ダウンロードして使用することができます。Qwen2-72Bは128Kトークンのコンテキスト長を誇り、自然言語理解、知識処理、コード処理、数学的推論、多言語対応において優れた性能を発揮します。ベンチマークテストでは、Llama-3-70B-Instructに匹敵する性能を発揮しています。

Qwen2 オープンソース情報の詳細は次のとおりです。

米国のオープンソース Llama3 や中国のクローズドソース モデルよりもさらに優れた Qwen2 がオープンソースとなり、無料でダウンロードできるようになりました。

ダウンロードリンク:

https://modelscope.cn/organization/qwen

こんにちは、Qwen2

導入

数か月にわたる努力の末、Qwen 1.5 から Qwen 2 への Qwen シリーズのメジャー アップグレードを発表できることを嬉しく思います。今回は次の内容をご紹介します。

Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B を含む、事前トレーニング済みで指示ベースの微調整されたさまざまなサイズの 5 つのモデル。

トレーニング データには、中国語と英語に加えて、他の 27 言語に関連する高品質のデータが含まれるようになりました。

複数のベンチマークでトップクラスのパフォーマンス。

コーディング能力と数学的能力の大幅な向上。

コンテキスト長のサポートが最大 128K トークン (Qwen2-72B-Instruct) に増加されました。

すでにHugging FaceとModelScopeの両方でオープンソース化しています。皆様からのフィードバックをお待ちしております!

モデル基本情報

Qwen2シリーズには、Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72Bの5つのサイズの事前学習済みおよび指示ベースの微調整済みモデルが含まれています。以下の表をご覧ください。

Qwen 1.5シリーズでは、32Bおよび110BモデルのみにGQAを採用していました。今回は、推論の高速化やメモリ使用量の削減といったGQAのメリットをユーザーが実感できるよう、全てのモデルサイズにGQAを採用しました。小規模モデルでは、埋め込みパラメータの数が多いため、入力層と出力層でパラメータを共有できるタイ埋め込みを採用し、非埋め込みパラメータの割合を高めました。

コンテキスト長に関しては、すべての事前学習済みモデルは32Kトークンのデータで学習され、128KトークンのPPL評価でも良好なパフォーマンスを示しました。ただし、命令微調整モデルでは、PPL評価に加えて、「干し草の山の中の針」のような長いシーケンス理解実験も必要です。この表では、「干し草の山の中の針」テスト結果に基づいて、各命令微調整モデルがサポートする最大コンテキスト長を示します。YARNなどの手法を使用する場合、Qwen2-7B-InstructとQwen2-72B-Instructはどちらも最大128Kトークンのコンテキスト長をサポートします。

モデルの多言語対応能力を強化するため、多言語事前学習データと指示微調整データのスケールアップと品質向上に多大な労力を費やしました。大規模言語モデルは本質的にある程度の一般化能力を備えていますが、特に中国語と英語以外の27言語を強化しました。

さらに、多言語環境でよく見られるコードスイッチングの問題を特に最適化し、モデルにおけるコードスイッチングの発生確率を大幅に低減しました。コードスイッチングを容易に引き起こすプロンプトを用いてモデルをテストしたところ、Qwen2シリーズのモデルのこの分野における能力が大幅に向上していることが確認されました。

モデル評価

Qwen1.5と比較して、Qwen2は大規模モデルにおいて大幅な性能向上を達成しました。Qwen2-72Bの包括的な評価を実施しました。事前学習済み言語モデルの評価において、Qwen2-72Bは、現在最も優れたオープンソースモデルと比較し、自然言語理解、知識、コード、数学、多言語表現など、複数の機能において、Llama-3-70BやQwen1.5の最大モデルであるQwen1.5-110Bなどの現在の主要モデルを大幅に上回りました。これは、事前学習データと学習方法の最適化によるものです。

大規模な事前学習の後、モデルの知能を高め、パフォーマンスをより人間らしくするために微調整を行いました。このプロセスにより、コーディング、数学、推論、指示追従、多言語理解能力がさらに向上しました。さらに、モデルは人間の価値観に沿うことを学習し、人間にとってより有益で、誠実で、安全なものになりました。微調整プロセスは、手動による注釈を最小限に抑えながら、スケーラブルな学習の原則に従いました。数学の拒否サンプリング、コードと指示追従のコード実行フィードバック、クリエイティブライティングのバック翻訳、ロールプレイングのスケーラブルな監視など、高品質で信頼性が高く創造的な指導と選好データを取得するために、さまざまな自動化手法を検討しました。学習では、教師あり微調整、フィードバックモデル学習、オンラインDPO(データポイントオブジェクティブ)を組み合わせました。また、オンラインモデルマージを採用して調整コストを削減しました。これらの手法により、モデルの基本機能と知能が大幅に向上しました。

Qwen2-72B-Instructの性能を16のベンチマークテストで包括的に評価しました。Qwen2-72B-Instructは、基本機能の強化と人間の価値観への適合をバランス良く両立させています。Qwen1.5の72Bモデルと比較すると、Qwen2-72B-Instructは全てのテストで大幅に優れた性能を示し、Llama-3-70B-Instructに匹敵する性能を達成しました。

小型モデルに関しては、Qwen2シリーズは、同サイズ、さらにはより大型のオープンソースモデルの中でも、最高の性能を概ね発揮しています。最近リリースされた最高のモデルと比較すると、Qwen2-7B-Instructは、特にコードと中国語の理解において、複数の評価において依然として大きな優位性を示しています。

ハイライト

#コードと数学

Qwenのコーディング能力と数学的能力の向上に継続的に投資しています。コーディング面では、CodeQwen 1.5の成功経験をQwen2の開発に統合し、複数のプログラミング言語において大幅な改善を実現しました。数学的能力面では、大規模かつ高品質なデータにより、Qwen2-72B-Instructの数学的問題解決能力が飛躍的に向上しました。

#長いテキストの処理

Qwen2 シリーズのすべての Instruct モデルは 32k のコンテキスト長でトレーニングされ、YARN や Dual Chunk Attention などのテクニックを使用してより長いコンテキスト長に拡張されます。

下の画像は、Needle in a Haystackテストセットの結果を示しています。Qwen2-72B-Instructは、コンテキスト長が最大128kまでの情報抽出タスクを完璧に処理できることは特筆に値します。その強力なパフォーマンスと十分な計算能力を組み合わせれば、長文テキストタスクの処理に最適な選択肢となることは間違いありません。

さらに、Qwen2 シリーズの他のモデルも非常に優れたパフォーマンスを発揮します。Qwen2-7B-Instruct は最大 128k のコンテキストをほぼ完璧に処理します。Qwen2-57B-A14B-Instruct は最大 64k の長さのコンテキストを処理できます。また、このシリーズの 2 つの小型モデルは最大 32k の長さのコンテキストをサポートします。

ロングコンテキストモデルに加えて、100万トークンレベルのコンテキストを効率的に処理するためのエージェントソリューションもオープンソース化しました。詳細については、このトピックに関するブログ投稿をご覧ください。

安全性

下の表は、大規模モデルが生成した有害なレスポンスの割合を、4つの多言語の安全でないクエリカテゴリ(違法行為、詐欺、ポルノ、プライバシー侵害)にわたって示しています。テストデータはJailbreakから取得し、評価のために複数の言語に翻訳しました。Llama-3は多言語プロンプトの処理性能が低いことが判明したため、比較には含めませんでした。有意差検定(P値)の結果、Qwen2-72B-Instructモデルはセキュリティの点でGPT-4と同等のパフォーマンスを示し、Mixtral-8x22Bモデルを大幅に上回ることがわかりました。

Qwen2の使用

これらのモデルは現在、Hugging FaceとModelScopeでオープンソースとして公開されています。具体的な使用方法や、機能やメトリクスなどのモデルに関する詳細情報については、モデルカードをご覧ください。

長年にわたり、オープンソースエコシステムの仲間たちはQwenの開発を一貫して支援してきました。その内容には、微調整(Axolotl、LLaMA-Factory、Firefly、Swift、XTuner)、量子化(AutoGPTQ、AutoAWQ、Neural Compressor)、デプロイメント(vLLM、SGL、SkyPilot、TensorRT-LLM、OpenVINO、TGI)、ローカル実行(MLX、Llama.cpp、Ollama、LM Studio)、エージェントおよびRAG(検索拡張生成)フレームワーク(LlamaIndex、CrewAI、OpenDevin)、評価(LMSys、OpenCompass、Open LLM Leaderboard)、モデルの二次開発(Dolphin、OpenBuddy)などが含まれます。サードパーティフレームワークでのQwenの使用方法の詳細については、各プロジェクトの公式ドキュメントと、より詳しい使用方法については公式ドキュメントをご覧ください。

もちろん、ここに記されていない多くの方々にもご協力いただいております。皆様のご支援に心より感謝申し上げます。コミュニティの連携が、オープンソースAIの発展を共に推進していくことを願っております。

モデルライセンス

今回は、異なるモデルライセンスを採用しています。Qwen2-72Bは引き続き従来のQianwenライセンスを採用していますが、それ以外のモデル(Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B)はApache 2.0ライセンスを採用しています。このオープン性の向上により、Qwen2のグローバル展開と商用利用が加速することを期待しています。

Qwen2 の次は何ですか?

より大規模なモデルを学習させ、モデルとデータの両方におけるスケーリング則の探究を継続しています。さらに、Qwen2を視覚と音声の理解を組み込んだマルチモーダルモデルに拡張する予定です。近い将来、新しいモデルもオープンソース化していきます。どうぞご期待ください!

引用

Qwen2に関する技術レポートを近日公開予定です。ぜひご活用ください!

@article{qwen2,

title={Qwen2 技術レポート},

年={2024}

}