|
出典: MCNU クラウドネイティブ 今年、chatGPTは大きな注目を集め、chatGPTについて語らない人はまるでインターネット環境のない村の出身者のように思われるほどです。様々なテクノロジープラットフォームにも人工知能関連の記事が溢れており、AIについて語らない人は時代遅れだと感じています。 コミュニティの多くの友人からLLM(大規模言語モデル)について質問があり、特にVPNなしではchatGPTが使えないことを懸念しています。そこで、数日かけて準備し、ついにこの記事をまとめました。この記事では、オープンソースの大規模言語モデルがchatGPTの代替としてどのように機能し、誰もが独自の大規模言語モデルを持つことができるのかを解説します。 この記事では、最も人気があり効果的なオープンソース LLM モデル 10 個をまとめ、モデルを習得する喜びを自分で体験できるようにします。 ラマ
LLaMAは、Large Language Model Meta AIの略称です。Metaがオープンソース化した大規模言語モデルの基礎です。パラメータサイズが70億、130億、300億、650億と、複数のモデルバージョンが存在します。LLaMA-13BはほとんどのベンチマークでGPT-3(1750億)を上回り、LLaMA-65Bは最優秀モデルであるChinchilla70BやPaLM-540Bと互角の性能を発揮します。 LLaMAは、AI分野の研究者の研究を発展させるために設計された、高度な基盤的大規模言語モデルです。LLaMAのような小型で高性能なモデルにより、限られたインフラリソースを持つ研究者でも大規模言語モデルを扱うことができます。 LLaMAは計算能力をあまり必要とせず、様々なタスクの微調整に適しています。創造的なテキストの生成、数学の定理の解、読解問題の解答において優れたパフォーマンスを発揮します。 アルパカ
Alpacaは、スタンフォード大学がオープンソース化した軽量言語モデルです。メール、ソーシャルメディアの投稿、生産性ツールなど、ユーザー入力に基づいて様々な種類のテキストを生成できます。Alpacaは、Metaがリリースした大規模事前学習済み言語モデルシリーズであるLLaMAモデルの改良版です。 Alpacaモデルの学習方法は2つの部分から構成されています。最初の部分では、text-davinci-003モデルを活用して自己学習アプローチを採用し、学習用データセットと出力データセットを自動生成します。2番目の部分では、このデータセットを用いて教師あり学習を行い、LLaMAモデルを微調整します。Alpacaモデルの学習コストは非常に低く、A100 80G画像8枚でわずか3時間の学習で済み、費用は100ドル未満です。 Alpacaモデルも優れた性能を誇ります。単一ラウンドの命令実行において、Alpacaモデルの応答品質はtext-davinci-003モデルに匹敵します。ただし、Alpacaモデルのパラメータは7バイトであるのに対し、text-davinci-003モデルは175バイトです。Alpacaモデルは、LoRAテクノロジーを用いてメモリ使用量と計算負荷を削減することで、コンシューマーグレードのグラフィックカードでも使用できます。 Alpacaモデルは、LLaMAモデルのオープンソースライセンスを継承したオープンソースプロジェクトです。学術研究に限定されており、トレーニングデータとコードはGitHubで公開されています。 アルパカという言葉には別の意味もあります。アルパカは、ラマに似ていますが通常はより小さい南米原産のラクダの一種を指し、「ラマモデル」とも呼ばれています。 アルパカは発売以来、国内で非常に人気となり、非常に人気のある代替モデルとみなされています。 アルパカ-LoRA
Alpaca-loraモデルは、Llamaモデルをlora技術を用いて微調整した軽量言語モデルです。メール、ソーシャルメディアの投稿、生産性ツールなど、ユーザー入力に基づいて様々な種類のテキストを生成できます。Alpaca-loraモデルは、スタンフォード大学の研究者によってオープンソース化され、MetaのLlamaモデルから微調整されたAlpacaモデルの改良版です。 LAR(Local Arithmetic Reduction)は、低ランク適応手法です。この手法では、元のモデルのLARMAパラメータを固定したまま、モデルにネットワーク層を追加し、新たに追加した層のパラメータのみを学習します。これらの新しいパラメータの数は比較的少ないため、完全なモデルファインチューニングと同等の結果を得ながら、ファインチューニングのコストを大幅に削減できます。 alpaca-loraモデルの学習方法は2つの部分から構成されています。第1段階では自己学習アプローチを採用し、text-davinci-003モデルを用いて学習データと出力データセットを自動生成します。第2段階では、このデータセットを用いて教師あり学習を行い、ラマモデルを微調整し、LOA手法を用いてパラメータ数を削減します。alpaca-loraモデルの学習コストは非常に低く、RTX 4090グラフィックスカードでわずか5時間の学習で、alpacaに匹敵するモデルを学習できます。 微調整は非常に重要な機能です。実際、多くの大規模言語モデルは、特定のシナリオに実際に適用する前に微調整する必要があり、LoRaは微調整のための一般的かつ効果的なソリューションです。 中国産ビクーニャ
Chinese-Vicunaは、LLAMA+命令データに基づいて構築された、中国語向けの低リソースLLAMA+LORAソリューションです。このモデルの主な特徴は、中国語へのより柔軟な対応、効率的なパラメータ、GPUフレンドリーな設計、容易な導入、そして少ないリソースで優れた学習結果を実現することです。 公式の説明によると、このモデルは比較的少ないリソースを消費します。たとえば...
使用するリソースをできるだけ少なくし、特定の垂直シナリオからのデータを微調整し、より中国語に適したサポートが必要な場合は、このモデルが適しています。 咲く
BLOOMは、BigScienceが提供するオープンソース言語モデルです。BigScience Large Open-science Open-access Multilingual Language Model(BigScience Large Open-science Open-access Multilingual Language Model)の略です。BLOOMは、46の自然言語と13のプログラミング言語で学習された1,760億パラメータの言語モデルであり、数百人の研究者によって共同で開発・公開されています。 ブルームモデルはTransformerアーキテクチャを用いて実装されており、自己注意メカニズムと大規模な学習データを用いて言語をモデル化します。膨大なテキストデータを用いて事前学習することで、ブルームモデルは豊富な言語表現と意味知識を学習し、強力な言語理解・生成能力を備えています。 BLOOMのモデルアーキテクチャはGPT3と非常に似ていますが、いくつかの改良点があります。最も顕著な特徴は数千億ものパラメータを持つことです。これにより、Bloomモデルは言語理解および生成タスクにおいて優れたパフォーマンスを発揮します。さらに、BLOOMはマルチモーダル処理をサポートしているため、視覚的な質問応答や画像記述生成といった言語関連のマルチモーダルタスクの処理において優位性を発揮します。 全体として、BLOOMは言語生成、テキスト理解と分類、質問応答、転移学習、解釈可能性と制御可能性において優れた性能を発揮し、機械翻訳、要約生成、感情分析、対話システム、情報検索などのシナリオに適用できます。現在、中国のいくつかの企業で既に導入されています。 ベル
BELLEは「Be Everyone's Large Language model Engine」の略称で、オープンソースの中国語対話大規模モデルです。BELLEは、オープンソースの事前学習済み大規模言語モデルをベースに、誰もが最高のパフォーマンスと指示表現能力を備えた独自の言語モデルを構築できるようにすることに重点を置いており、大規模言語モデル、特に中国語大規模言語モデルの研究と応用のハードルを下げることを目指しています。 BELLEモデルは、ディープニューラルネットワークに基づく大規模マルチモーダル言語モデルです。言語情報と視覚情報を組み合わせ、共同学習によってマルチモーダルデータを理解・生成します。BELLEモデルは、Transformerや畳み込みニューラルネットワーク(CNN)などの高度なニューラルネットワークアーキテクチャを採用し、テキストや画像などのマルチモーダルデータの深層表現学習を実現します。 BELLE は、マルチモーダル学習、言語理解と生成、視覚的な質問応答、視覚的推論、画像説明生成において優れたパフォーマンスを発揮します。 T5
T5(Text-to-Text Transfer Transformer)モデルは、Googleによってオープンソース化され、自然言語処理(NLP)分野で広く利用されているTransformerアーキテクチャに基づく大規模な事前学習済み言語モデルです。T5モデルは、「テキストからテキストへ」アプローチを通じて様々なNLPタスクの表現を統合し、異なるタスクをテキストからテキストへの変換問題に変換することで、マルチタスク学習と転移学習機能を実現します。 T5 モデルで強調されている主な機能:
T5モデルの適用シナリオ:
T5モデルは、マルチタスク学習と転移学習において卓越した能力を備えた、強力で大規模な事前学習済み言語モデルです。機械翻訳、テキスト要約、質問応答システム、テキスト分類といったタスクにおいて優れた性能を発揮し、様々な応用シナリオにおいて重要な役割を果たし、自然言語処理分野の発展に大きく貢献しています。 バート
BERT(Bidirectional Encoder Representations from Transformers)は、Transformerアーキテクチャに基づく双方向エンコーダ言語モデルであり、自然言語処理(NLP)分野で広く利用されています。事前学習と微調整により、BERTはテキストの深い理解と表現学習を実現し、複数のNLPタスクにおいて優れたパフォーマンスを発揮しています。 BERT モデルの主な機能:
BERTモデルの適用シナリオ:
強力な双方向エンコーダ言語モデルであるBERTは、双方向コンテキスト表現、コンテキスト依存単語ベクトル、事前学習による微調整といった優れた機能を備えています。テキスト分類、質問応答システム、固有表現認識、機械翻訳など、複数のNLPタスクにおいて大幅な性能向上を実現し、幅広い応用シナリオで重要な役割を果たしています。 オプト
OPTはOpen Pre-trained Transformersの略で、Metaが提供するオープンソースAIモデルです。英語のみに対応しており、現在中国語には対応していません。OPTは、1億2500万から1750億のパラメータを持つ様々な規模のパラメトリックモデルを提供しています。中でもOPT-175Bは、5つの公開データセットから800GBのデータを用いて学習された、1750億パラメータの言語モデルです。その他の小規模モデルは、1億2500万、3億5000万、13億、27億、67億、130億、300億のパラメータを持ち、様々なシナリオやニーズに対応しています。 GPTシリーズのモデルと同様に、OPTモデルはTransformer-Decoder構造を採用し、自己回帰アプローチを用いてテキストを生成します。Fully Sharded Data ParallelismやTensor Parallelismといった高度な分散学習技術に加え、AdamWやGradient Clippingといった最適化戦略を採用することで、学習効率と安定性を向上させています。 OPTはリリース当初、1750億個のパラメータを持ち、GPT-3の3750億個よりも少ないにもかかわらず、GPT-3に匹敵する性能を誇ることから、大きな話題を呼び、大きな注目を集めました。記事生成、コード生成、機械翻訳、Q&Aなど、複数のNLPタスクにおいて、GPT-3と同等、あるいはそれ以上の成果を達成しながら、GPT-3の7分の1の計算リソースしか使用していません。Meta AIは、OPT-175Bモデルのトレーニングと展開に必要なのは、わずか16基のNVIDIA V100 GPUだと述べています。 OPT モデルは、コードと重みファイルだけでなく、トレーニング ノートとデータセットもオープンソース化しており、他の研究者や開発者が簡単に再現して使用できます。 GLM
自然言語処理(NLP)分野の急速な発展に伴い、言語モデルの重要性はますます高まっています。中でも、強力な言語モデルである巨大言語モデル(GLM)は、NLPタスクにおいて目覚ましい成果を上げています。 生成言語モデル(GLM)は、自然言語の理解と生成を主な目的とする、ディープラーニングベースの言語モデルです。GLMは、入力テキストから文脈関係と意味情報を効果的に捕捉する自己注意メカニズムであるTransformerアーキテクチャを採用しています。大規模なテキストデータによる事前学習を通じて、GLMモデルは語彙、統語、意味に関する知識を含む豊富な言語表現を学習できます。 GLM モデルには、次の重要な特性があります。
GLM モデルは、コンテンツ生成、質問応答システム、分類検索などの複数のシナリオに適用できますが、推論能力は若干弱くなります。 現在、清華大学発のオープンソースGLMモデルの中で最も人気があるのは、中国語と英語の両方に対応したGLM-6BとGLM-130Bです。特にGLM-6Bは中国語のサポートが優れており、学習と推論に必要なリソースが比較的少なく、オープンAPIを備えているため使い勝手が良いです。国内のオープンソースコミュニティで非常に人気があり、試してみる価値があります。 GLM-130B は、単一の A100 (40G * 8)またはV100 (32G * 8) サーバー上で 130B パラメータによる推論タスクをサポートし、中国語と英語の両方をサポートし、NVIDIA、Hygon DCU、Ascend 910、Sunway でのトレーニングと推論をサポートします。 パフォーマンス面では、7つのゼロサンプルCLUEデータセット(+24.26%)と5つのゼロサンプルFewCLUEデータセット(+12.75%)でERNIE TITAN 3.0 260Bを大幅に上回り、LAMBADAではGPT-3 175B davinci(+5.0%)、OPT-175B(+6.5%)、BLOOM-176B(+13.0%)を上回り、GPT-3 175B(+0.9%)をわずかに上回りました。 GLMモデルはイテレーションが非常に速く、コミュニティも非常に活発です。最近ではマルチモーダル機能のサポートもリリースされており、今後機能がさらに充実し、より強力なものになると期待しています。 これらは私がまとめた、人気のオープンソースLLMモデル10選です。中国で使用されているオープンソースモデルのほとんどが含まれています。ご興味があれば、ぜひご自身で作ってみてはいかがでしょうか?ぜひお気軽にご相談ください! |