HUOXIU

オープンソースのGPT代替ツールトップ10:独自のChatGPTを作成する

出典: MCNU クラウドネイティブ

今年、chatGPTは大きな注目を集め、chatGPTについて語らない人はまるでインターネット環境のない村の出身者のように思われるほどです。様々なテクノロジープラットフォームにも人工知能関連の記事が溢れており、AIについて語らない人は時代遅れだと感じています。

コミュニティの多くの友人からLLM(大規模言語モデル)について質問があり、特にVPNなしではchatGPTが使えないことを懸念しています。そこで、数日かけて準備し、ついにこの記事をまとめました。この記事では、オープンソースの大規模言語モデルがchatGPTの代替としてどのように機能し、誰もが独自の大規模言語モデルを持つことができるのかを解説します。

この記事では、最も人気があり効果的なオープンソース LLM モデル 10 個をまとめ、モデルを習得する喜びを自分で体験できるようにします。

ラマ

  • GitHub プロジェクト名: facebookresearch/llama

  • 星の数:21.5K

LLaMAは、Large Language Model Meta AIの略称です。Metaがオープンソース化した大規模言語モデルの基礎です。パラメータサイズが70億、130億、300億、650億と、複数のモデルバージョンが存在します。LLaMA-13BはほとんどのベンチマークでGPT-3(1750億)を上回り、LLaMA-65Bは最優秀モデルであるChinchilla70BやPaLM-540Bと互角の性能を発揮します。

LLaMAは、AI分野の研究者の研究を発展させるために設計された、高度な基盤的大規模言語モデルです。LLaMAのような小型で高性能なモデルにより、限られたインフラリソースを持つ研究者でも大規模言語モデルを扱うことができます。

LLaMAは計算能力をあまり必要とせず、様々なタスクの微調整に適しています。創造的なテキストの生成、数学の定理の解、読解問題の解答において優れたパフォーマンスを発揮します。

アルパカ

  • GitHubプロジェクト名:tatsu-lab/stanford_alpaca

  • 星の数:23.9K

Alpacaは、スタンフォード大学がオープンソース化した軽量言語モデルです。メール、ソーシャルメディアの投稿、生産性ツールなど、ユーザー入力に基づいて様々な種類のテキストを生成できます。Alpacaは、Metaがリリースした大規模事前学習済み言語モデルシリーズであるLLaMAモデルの改良版です。

Alpacaモデルの学習方法は2つの部分から構成されています。最初の部分では、text-davinci-003モデルを活用して自己学習アプローチを採用し、学習用データセットと出力データセットを自動生成します。2番目の部分では、このデータセットを用いて教師あり学習を行い、LLaMAモデルを微調整します。Alpacaモデルの学習コストは非常に低く、A100 80G画像8枚でわずか3時間の学習で済み、費用は100ドル未満です。

Alpacaモデルも優れた性能を誇ります。単一ラウンドの命令実行において、Alpacaモデルの応答品質はtext-davinci-003モデルに匹敵します。ただし、Alpacaモデルのパラメータは7バイトであるのに対し、text-davinci-003モデルは175バイトです。Alpacaモデルは、LoRAテクノロジーを用いてメモリ使用量と計算負荷を削減することで、コンシューマーグレードのグラフィックカードでも使用できます。

Alpacaモデルは、LLaMAモデルのオープンソースライセンスを継承したオープンソースプロジェクトです。学術研究に限定されており、トレーニングデータとコードはGitHubで公開されています。

アルパカという言葉には別の意味もあります。アルパカは、ラマに似ていますが通常はより小さい南米原産のラクダの一種を指し、「ラマモデル」とも呼ばれています。

アルパカは発売以来、国内で非常に人気となり、非常に人気のある代替モデルとみなされています。

アルパカ-LoRA

  • GitHub プロジェクト名: tloen/alpaca-lora

  • 星の数:14.7K

Alpaca-loraモデルは、Llamaモデルをlora技術を用いて微調整した軽量言語モデルです。メール、ソーシャルメディアの投稿、生産性ツールなど、ユーザー入力に基づいて様々な種類のテキストを生成できます。Alpaca-loraモデルは、スタンフォード大学の研究者によってオープンソース化され、MetaのLlamaモデルから微調整されたAlpacaモデルの改良版です。

LAR(Local Arithmetic Reduction)は、低ランク適応手法です。この手法では、元のモデルのLARMAパラメータを固定したまま、モデルにネットワーク層を追加し、新たに追加した層のパラメータのみを学習します。これらの新しいパラメータの数は比較的少ないため、完全なモデルファインチューニングと同等の結果を得ながら、ファインチューニングのコストを大幅に削減できます。

alpaca-loraモデルの学習方法は2つの部分から構成されています。第1段階では自己学習アプローチを採用し、text-davinci-003モデルを用いて学習データと出力データセットを自動生成します。第2段階では、このデータセットを用いて教師あり学習を行い、ラマモデルを微調整し、LOA手法を用いてパラメータ数を削減します。alpaca-loraモデルの学習コストは非常に低く、RTX 4090グラフィックスカードでわずか5時間の学習で、alpacaに匹敵するモデルを学習できます。

微調整は非常に重要な機能です。実際、多くの大規模言語モデルは、特定のシナリオに実際に適用する前に微調整する必要があり、LoRaは微調整のための一般的かつ効果的なソリューションです。

中国産ビクーニャ

  • GitHub プロジェクト名: Facico/Chinese-Vicuna

  • 星の数:2.9K

Chinese-Vicunaは、LLAMA+命令データに基づいて構築された、中国語向けの低リソースLLAMA+LORAソリューションです。このモデルの主な特徴は、中国語へのより柔軟な対応、効率的なパラメータ、GPUフレンドリーな設計、容易な導入、そして少ないリソースで優れた学習結果を実現することです。

公式の説明によると、このモデルは比較的少ないリソースを消費します。たとえば...

  • Llama-7B は、2080Ti (11G) チップ上の命令で微調整できます。

  • Llama-13B は、3090 (24G) チップ上のコマンドを使用して微調整できます。

  • 長さが 2048 のダイアログでも、3090 の Llama-7B を使用して微調整することができ、わずか 50,000 のデータ ポイントを使用して良好な結果を得ることができます。

使用するリソースをできるだけ少なくし、特定の垂直シナリオからのデータを微調整し、より中国語に適したサポートが必要な場合は、このモデルが適しています。

咲く

  • プロジェクト名(huggingfaceがホスト) : bigscience/bloom

  • 星の数:3.5K

BLOOMは、BigScienceが提供するオープンソース言語モデルです。BigScience Large Open-science Open-access Multilingual Language Model(BigScience Large Open-science Open-access Multilingual Language Model)の略です。BLOOMは、46の自然言語と13のプログラミング言語で学習された1,760億パラメータの言語モデルであり、数百人の研究者によって共同で開発・公開されています。

ブルームモデルはTransformerアーキテクチャを用いて実装されており、自己注意メカニズムと大規模な学習データを用いて言語をモデル化します。膨大なテキストデータを用いて事前学習することで、ブルームモデルは豊富な言語表現と意味知識を学習し、強力な言語理解・生成能力を備えています。

BLOOMのモデルアーキテクチャはGPT3と非常に似ていますが、いくつかの改良点があります。最も顕著な特徴は数千億ものパラメータを持つことです。これにより、Bloomモデルは言語理解および生成タスクにおいて優れたパフォーマンスを発揮します。さらに、BLOOMはマルチモーダル処理をサポートしているため、視覚的な質問応答や画像記述生成といった言語関連のマルチモーダルタスクの処理において優位性を発揮します。

全体として、BLOOMは言語生成、テキスト理解と分類、質問応答、転移学習、解釈可能性と制御可能性において優れた性能を発揮し、機械翻訳、要約生成、感情分析、対話システム、情報検索などのシナリオに適用できます。現在、中国のいくつかの企業で既に導入されています。

ベル

  • GitHub プロジェクト名: LianjiaTech/BELLE

  • 星の数:5.3K

BELLEは「Be Everyone's Large Language model Engine」の略称で、オープンソースの中国語対話大規模モデルです。BELLEは、オープンソースの事前学習済み大規模言語モデルをベースに、誰もが最高のパフォーマンスと指示表現能力を備えた独自の言語モデルを構築できるようにすることに重点を置いており、大規模言語モデル、特に中国語大規模言語モデルの研究と応用のハードルを下げることを目指しています。

BELLEモデルは、ディープニューラルネットワークに基づく大規模マルチモーダル言語モデルです。言語情報と視覚情報を組み合わせ、共同学習によってマルチモーダルデータを理解・生成します。BELLEモデルは、Transformerや畳み込みニューラルネットワーク(CNN)などの高度なニューラルネットワークアーキテクチャを採用し、テキストや画像などのマルチモーダルデータの深層表現学習を実現します。

BELLE は、マルチモーダル学習、言語理解と生成、視覚的な質問応答、視覚的推論、画像説明生成において優れたパフォーマンスを発揮します。

T5

  • GitHub プロジェクト名: google-research/text-to-text-transfer-transformer

  • 星の数:5.2K

T5(Text-to-Text Transfer Transformer)モデルは、Googleによってオープンソース化され、自然言語処理(NLP)分野で広く利用されているTransformerアーキテクチャに基づく大規模な事前学習済み言語モデルです。T5モデルは、「テキストからテキストへ」アプローチを通じて様々なNLPタスクの表現を統合し、異なるタスクをテキストからテキストへの変換問題に変換することで、マルチタスク学習と転移学習機能を実現します。

T5 モデルで強調されている主な機能:

  1. マルチタスク学習:T5モデルは、機械翻訳、テキスト要約、質問応答システム、テキスト分類など、複数の異なるNLPタスクを同時に処理できます。大規模データを用いた共同学習により、T5モデルは一般的な言語表現とタスク処理能力を学習し、複数のタスクにおいて優れたパフォーマンスを発揮します。

  2. 転移学習:T5モデルは大規模なマルチタスク学習で事前学習されているため、強力な転移学習能力を備えています。つまり、T5モデルは少量のタスク固有のデータを微調整することで、新しいタスクに迅速に適応し、優れたパフォーマンスを発揮できるため、異なるタスクの学習コストと時間を削減できます。

  3. 汎用的なテキスト変換フレームワーク:T5モデルは、入力と出力の両方をテキストシーケンスとして表現する、統一されたテキスト変換フレームワークを採用しています。この設計により、T5モデルは異なるタスク間で一貫した表現を維持し、モデルの設計と適用を簡素化します。適切なタスク記述と入力形式により、T5モデルは様々なタスクに適応し、柔軟かつ効率的なマルチタスク処理を実現します。

T5モデルの適用シナリオ:

  1. 機械翻訳: T5 モデルは、ある言語を別の言語に翻訳するために使用でき、高品質の自動翻訳を実現し、言語間のコミュニケーションと情報の普及を促進するのに役立ちます。

  2. テキスト要約: T5 モデルは長いテキスト コンテンツを要約および調整して簡潔で正確なテキスト要約を生成することができ、大量の情報を処理し、重要な情報をすばやく取得するのに役立ちます。

  3. 質問応答システム: T5 モデルは質問応答タスクに使用でき、質問に基づいて正確な回答または解決策を提供し、質問応答システムをよりインテリジェントかつ実用的にします。

  4. テキスト分類: T5 モデルは、感情分析、スパム フィルタリング、ニュース分類など、テキストを分類し、テキストが属するカテゴリまたはタグを識別できます。

  5. 自動テキスト生成: T5 モデルには強力なテキスト生成機能があり、次のようなテキストを生成できます...

  6. 自動対話システム:T5モデルは対話システムにおいて幅広い応用が可能です。ユーザー入力に基づいて自然で流暢な応答を生成し、インテリジェントな対話とインタラクションを実現します。

  7. テキストの修正と書き直し: T5 モデルを使用すると、テキストのスペルミスや文法エラーを修正したり、テキスト内の矛盾した文章を書き直したりすることができ、テキストの修正と改善の提案が得られます。

  8. テキスト生成および作成アシスタント: T5 モデルはテキスト生成の分野で非常に優れたパフォーマンスを発揮し、記事、物語、詩などのさまざまな形式のテキストを生成するために使用でき、クリエイターにインスピレーションと支援を提供します。

  9. 情報の検索と推奨: T5 モデルを使用すると、ユーザーのクエリを理解し、ユーザーのニーズに基づいて関連する検索結果や推奨を生成することができ、それによって情報の検索および推奨システムの精度とパーソナライゼーションが向上します。

  10. ドメイン固有のタスク: T5 モデルは柔軟性と拡張性が非常に高く、微調整とドメイン適応によってカスタマイズできるため、医療分野での医療記録の要約や法務分野での法的文書分析など、特定のドメインのタスクに適しています。

T5モデルは、マルチタスク学習と転移学習において卓越した能力を備えた、強力で大規模な事前学習済み言語モデルです。機械翻訳、テキスト要約、質問応答システム、テキスト分類といったタスクにおいて優れた性能を発揮し、様々な応用シナリオにおいて重要な役割を果たし、自然言語処理分野の発展に大きく貢献しています。

バート

  • GitHub プロジェクト名: google-research/bert

  • 星の数:34.3K

BERT(Bidirectional Encoder Representations from Transformers)は、Transformerアーキテクチャに基づく双方向エンコーダ言語モデルであり、自然言語処理(NLP)分野で広く利用されています。事前学習と微調整により、BERTはテキストの深い理解と表現学習を実現し、複数のNLPタスクにおいて優れたパフォーマンスを発揮しています。

BERT モデルの主な機能:

  1. 双方向コンテキスト表現:BERTモデルは双方向コンテキストエンコーディングを採用しており、コンテキスト情報を同時に活用してテキストを理解できます。マスク言語モデル(MLM)と次文予測(NSP)タスクによる事前学習を通じて、BERTモデルは豊富な文レベルおよび単語レベルのコンテキスト表現を学習します。

  2. 文脈依存型単語ベクトル:BERTモデルによって生成される単語ベクトルは文脈依存型であり、同じ単語でも文脈によって表現が異なる場合があります。この機能により、BERTモデルは単語の意味の多様性と文脈の変化をより適切に捉えることができ、テキスト理解と表現の精度が向上します。

  3. 事前学習と微調整:BERTモデルは2段階の学習アプローチを採用しています。まず、大量のラベルなしデータを用いて事前学習を行い、一般的な言語表現を学習します。次に、特定のタスク向けにラベル付きデータを用いて微調整を行い、モデルをそれらのタスクに適用して最適化します。この学習方法により、BERTモデルは大量のラベルなしデータと少量のラベル付きデータを最大限に活用し、転移学習と汎化能力の向上を実現します。

BERTモデルの適用シナリオ:

  1. テキスト分類と感情分析: BERT モデルはテキスト分類タスクで優れたパフォーマンスを発揮し、テキストを分類して、ニュース分類や製品レビューの感情分析などの感情分析を実行できます。

  2. 質問応答システム: BERT モデルは質問応答タスクにおいて優れたパフォーマンスを発揮し、読解や常識に関する質問など、与えられた質問とコンテキストに基づいて正確な回答を生成できます。

  3. 名前付きエンティティの認識とエンティティ関係の抽出: BERT モデルは、テキスト内の名前付きエンティティを認識し、人物関係の抽出や医療エンティティの認識など、エンティティ間の関係を抽出できます。

  4. 機械翻訳とテキスト生成: BERT モデルは、機械翻訳タスクに適用して、ある言語を別の言語に翻訳できるほか、要約や対話システムなどの自然で流暢なテキストを生成するためにも使用できます。

  5. テキストのマッチングと類似度の計算: BERT モデルは、検索エンジンでのクエリとドキュメントのマッチング、文章の類似度の計算など、2 つのテキスト間の類似度または一致度を判断できます。

  6. テキスト生成および作成アシスタント: BERT モデルは強力なテキスト生成機能を備えており、記事、物語、詩などのさまざまな形式のテキストを生成するために使用でき、作成者にインスピレーションと支援を提供します。

  7. 意味理解と文の表現: BERT モデルは、テキスト文を高品質の意味ベクトル表現にマッピングすることができ、これは文の類似性の計算、クラスター分析、意味検索などのタスクに使用できます。

  8. ドメイン固有のタスク: BERT モデルは特定のドメインに合わせて微調整できるため、医療分野での病気の診断や法務分野での事例分析など、ドメイン固有のタスクに適しています。

強力な双方向エンコーダ言語モデルであるBERTは、双方向コンテキスト表現、コンテキスト依存単語ベクトル、事前学習による微調整といった優れた機能を備えています。テキスト分類、質問応答システム、固有表現認識、機械翻訳など、複数のNLPタスクにおいて大幅な性能向上を実現し、幅広い応用シナリオで重要な役割を果たしています。

オプト

  • GitHub プロジェクト名: facebookresearch/metaseq

  • 星の数:5.9K

OPTはOpen Pre-trained Transformersの略で、Metaが提供するオープンソースAIモデルです。英語のみに対応しており、現在中国語には対応していません。OPTは、1億2500万から1750億のパラメータを持つ様々な規模のパラメトリックモデルを提供しています。中でもOPT-175Bは、5つの公開データセットから800GBのデータを用いて学習された、1750億パラメータの言語モデルです。その他の小規模モデルは、1億2500万、3億5000万、13億、27億、67億、130億、300億のパラメータを持ち、様々なシナリオやニーズに対応しています。

GPTシリーズのモデルと同様に、OPTモデルはTransformer-Decoder構造を採用し、自己回帰アプローチを用いてテキストを生成します。Fully Sharded Data ParallelismやTensor Parallelismといった高度な分散学習技術に加え、AdamWやGradient Clippingといった最適化戦略を採用することで、学習効率と安定性を向上させています。

OPTはリリース当初、1750億個のパラメータを持ち、GPT-3の3750億個よりも少ないにもかかわらず、GPT-3に匹敵する性能を誇ることから、大きな話題を呼び、大きな注目を集めました。記事生成、コード生成、機械翻訳、Q&Aなど、複数のNLPタスクにおいて、GPT-3と同等、あるいはそれ以上の成果を達成しながら、GPT-3の7分の1の計算リソースしか使用していません。Meta AIは、OPT-175Bモデルのトレーニングと展開に必要なのは、わずか16基のNVIDIA V100 GPUだと述べています。

OPT モデルは、コードと重みファイルだけでなく、トレーニング ノートとデータセットもオープンソース化しており、他の研究者や開発者が簡単に再現して使用できます。

GLM

  • GitHub プロジェクト名: THUDM/ChatGLM-6B、THUDM/ChatGLM-130B

  • 星の数:25.3K

自然言語処理(NLP)分野の急速な発展に伴い、言語モデルの重要性はますます高まっています。中でも、強力な言語モデルである巨大言語モデル(GLM)は、NLPタスクにおいて目覚ましい成果を上げています。

生成言語モデル(GLM)は、自然言語の理解と生成を主な目的とする、ディープラーニングベースの言語モデルです。GLMは、入力テキストから文脈関係と意味情報を効果的に捕捉する自己注意メカニズムであるTransformerアーキテクチャを採用しています。大規模なテキストデータによる事前学習を通じて、GLMモデルは語彙、統語、意味に関する知識を含む豊富な言語表現を学習できます。

GLM モデルには、次の重要な特性があります。

  • 大規模なパラメータ: GLM モデルには通常、数十億から数百億のパラメータがあり、より豊富で正確な言語表現を学習できます。

  • 文脈理解: 自己注意メカニズムを通じて、GLM モデルはテキスト内の文脈関係を正確に捉えることができ、文章の全体的な意味を理解する能力が向上します。

  • マルチタスク学習: GLM モデルは、複数の NLP タスクを共同でトレーニングし、モデル パラメータを共有することで、モデルの一般化能力とパフォーマンスを向上させることができます。

GLM モデルは、コンテンツ生成、質問応答システム、分類検索などの複数のシナリオに適用できますが、推論能力は若干弱くなります。

現在、清華大学発のオープンソースGLMモデルの中で最も人気があるのは、中国語と英語の両方に対応したGLM-6BとGLM-130Bです。特にGLM-6Bは中国語のサポートが優れており、学習と推論に必要なリソースが比較的少なく、オープンAPIを備えているため使い勝手が良いです。国内のオープンソースコミュニティで非常に人気があり、試してみる価値があります。

GLM-130B は、単一の A100 (40G * 8)またはV100 (32G * 8) サーバー上で 130B パラメータによる推論タスクをサポートし、中国語と英語の両方をサポートし、NVIDIA、Hygon DCU、Ascend 910、Sunway でのトレーニングと推論をサポートします。

パフォーマンス面では、7つのゼロサンプルCLUEデータセット(+24.26%)と5つのゼロサンプルFewCLUEデータセット(+12.75%)でERNIE TITAN 3.0 260Bを大幅に上回り、LAMBADAではGPT-3 175B davinci(+5.0%)、OPT-175B(+6.5%)、BLOOM-176B(+13.0%)を上回り、GPT-3 175B(+0.9%)をわずかに上回りました。

GLMモデルはイテレーションが非常に速く、コミュニティも非常に活発です。最近ではマルチモーダル機能のサポートもリリースされており、今後機能がさらに充実し、より強力なものになると期待しています。

これらは私がまとめた、人気のオープンソースLLMモデル10選です。中国で使用されているオープンソースモデルのほとんどが含まれています。ご興味があれば、ぜひご自身で作ってみてはいかがでしょうか?ぜひお気軽にご相談ください!