HUOXIU

大規模モデルの開発プロセスを1記事で理解!



出典: JavaEdge


1. 大規模言語モデルの開発

LLM、大規模言語モデル。なぜ2.0と呼ばれるのか?それは、大規模言語モデル(LLM)が登場する前は、1.0時代と分類していたからです。1.0時代は主に様々なNLP(自然言語処理)プロジェクトで構成されていましたが、それらはすべて共通の特徴、つまり一般化可能性の低さを持っていました。AI分野全体の究極の目標、あるいは未来への究極の希望は、AGI(汎用人工知能)です。1.0はシングルタスクAIかもしれません。例えば、Deep Blueはチェスのチャンピオンに勝利しましたが、チェスしかプレイできず、そのチェスのプレイは多くのチェス戦略の学習に基づいていました。Deep Blueはチェスしかプレイできず、他のことを尋ねても答えられないでしょう。

2. LLMの特徴

大規模言語モデルの特徴は何でしょうか?大規模言語モデルとは、言語そのもののように人間と相互作用し、言語を通して様々なシナリオに拡張できることを意味します。将来的には、このアプローチに基づいて、人間と同様の知能を持つインテリジェントエージェント、つまりAGI(汎用知能)を開発できるかもしれません。さて、AI 1.0についてはNLP(自然言語処理)が多用されるため、ここでは触れません。

バージョン2.0以降、技術的な側面は、本質的に特定の点からより広い理解へと進むプロセスとなっています。最も初期の技術の一つは、自然言語の単語をベクトルを用いて表現する単語ベクトル化でした。ベクトルとは数学的な概念です。例えば、ベクトル空間における「cat」という単語は、座標位置で表現されます。「dog」は異なる座標を持ち、「cow」もまた異なる座標を持つ可能性があります。したがって、各単語はベクトル空間において固有の座標を持ち、単語辞書が形成されることがわかります。そして、これらの座標を表現するために、例えば「apple」を座標101としてラベル付けするなど、ワンホットエンコーディング法が用いられます。自然言語は数学的な言語を用いて記述され、座標系であるため、その位置を正確に特定することができます。

3つの主要モデルの欠点と解決策

しかし、問題があります。それは、単語間の関係を表現できないことです。例えば、「猫」(1)のような座標と「犬」(01)のような座標の間にはどのような関係があるのでしょうか? 答えが分かりません。

第二に、効率はあまり高くありません。

その後の展開では、この単語ベクトルに基づいて、[次のようなものが出現した]

4. 単語埋め込み

これを単語ベクトルと呼ぶこともできますが、これは本質的には言語モデルの事前学習です。大量の既存のテキストデータを用いて、単語ベクトルに言語情報を付与します。この事前学習により、ベクトル空間内の単語ベクトルは追加情報を持つようになり、モデルの性能を効果的に向上させます。さらに、後続のタスクにおける転移学習も可能になります。これは、大規模言語モデルの事前学習の初期プロトタイプです。

例えば、猫と犬は座標で表現され、低次元のベクトル表現となります。また、意味的に類似したベクトル空間を共有することも可能です。例えば、記事と記事の広範な事前学習データに基づくと、猫と犬はどちらもペットカテゴリに属していることがわかります。したがって、ベクトル空間における座標は近い可能性があります。ペットを検索する場合、猫と犬は「ペット」ベクトル領域に属します。一般的な肉用家畜である牛と羊は、おそらく同じベクトル領域に属します。したがって、単語ベクトルは位置ベクトル表現であると同時に、意味的に類似したベクトル空間という特性も備えていることがわかります。さらに、単語ベクトルは他のタスクにも転用可能です。Deep Blueのチェスの例は、このスキル転用能力を示しています。

単語埋め込み後に現れる

5. 巨大ベクトルと全文ベクトル

これまでの情報に基づいて、次のテキストを分析するか、他の言語に翻訳してください。これは何を表していますか?例えば、次のようなモデルを表しています。

  • RNN(リカレントニューラルネットワーク)
  • LSTM(長短期記憶)ネットワーク

時系列データを効果的に処理できます。例えば、「今何時ですか?」という質問に対するニューラルネットワークの学習では、学習プロセスは層ごとに行われます。最初の層は「何」、次に「時間」「です」「それ」、最後に疑問符を認識します。この順序で文章を処理して文脈を理解します。また、RNNやLSTMと同様に、短期記憶や選択的忘却も実行できます。主な用途は、テキスト生成、音声認識、画像記述です。RNNやLSTMのようなモデルが登場した時点で、既に一般的なAI認識タスクを実行できるようになっています。

次のステップは文脈、具体的には「buy what is」のようなパターンのようなテキスト全体の文脈を理解することです。このパターンはBERTのような大規模モデルによって表現されます。この段階では、クローズテストに似たタスクを実行できます。BERTは文脈に基づいて「男性」「彼」「女性」「彼女」「動物」「それ」などの現在の代名詞を理解し、クローズテストを完了します。これは、真のドメインで学習されたモデルの時代の幕開けです。

特徴

並列学習をサポートしています。例えば、「今何時ですか?」と尋ねるようなCNN(畳み込みニューラルネットワーク)モデルは、データを層ごとに処理することしかできず、並列学習をサポートしていません。次のタスクに進む前に、1つのタスクを完了する必要があります。

したがって、RNN や CNN などのニューラル ネットワークに取って代わり、より強力になり、意味認識などを実現できます。

そしてついに、OpenAIのGPT(Generative Pre-trained Transformer)が登場し、大規模統合モデルの時代の幕開けとなりました。GoogleのT5(Text-to-Text Transfer Transformer)を皮切りに、学習モデルが導入されました。これは、モデルにプロンプ​​トを与え、回答を生成するように学習させ、この手法を用いて継続的に再学習させるというものです。モデルに質問を投げかける際には、プロンプトを用いてモデルを誘導します。この時代において、chatGPTを代表例として、そのパフォーマンスは目覚ましいものとなっています。最新の成果として、大規模モデルがマルチモーダルコンピューティングをサポートできるようになりました。OpenAIがこの大規模モデルの時代を切り開いたことは、本質的にこの学習手法を提示していると言えるでしょう。

大規模モデル全体の開発は、特定の点からより広い範囲へと発展していくプロセスです。最も核心的かつ初期の技術は単語ベクトルに基づいています。そこから継続的な開発を経て、ニューラルネットワーク、線形学習、並列学習、そして最終的には超大規模学習セットへと進歩し、大規模言語モデルの開発を実現しました。

多くの学生はCheck GPTのようなものしか知らなかったり、国内のものには精通していたり​​しますが、海外のものについてはあまり知らないので、ここでまとめておきます。

6つの主要モデルの開発

開発の観点から見ると、前節で述べたように、大規模言語モデルは大きな進化を遂げてきました。その進化は、最終製品を見れば一目瞭然です。2017年頃、初期の大規模言語モデルはすべてGoogleのTransformer技術、特にTransformerアーキテクチャをベースとしていました。2017年頃にGoogleはT5モデルをリリースし、それ以降、数多くの新しい大規模言語モデルが開発されてきました。GPT-2、GPT-3、GLM-130B、FacebookのオープンソースフレームワークLaMa、GPT-4、中東の研究機関が開発したFanCL、GPT-4の最新バージョン、そしてマルチモーダルモデルや最新の大規模ウィンドウモデルなど、最近アップデートされているものも数多くあります。

7. 海外および中国の大型模型

左の表は主に海外の一般的な大型モデル、右の表は国内メーカーの大型モデルです。まず発売日を見ると、海外の大型モデルの方が当社よりも早く発売されていることがわかります。当社が名を挙げたり、頻繁に使用したりする大型モデルの多くは、今年、2023年に発売されたばかりです。国内では、技術の蓄積やレベル、つまりタイムラインが海外よりも少し遅れていると言えます。

8. パラメータとモデル機能

まずは海外の例をいくつか見てみましょう。例えば、最初の例であるGPT-2は約15億個のパラメータを持っています。では、パラメータとは何かについてお話ししましょう。これは、よく耳にする大規模言語モデルのパラメータのことです。

パラメータはモデルの複雑さを表します。パラメータが大きいほど、必要な計算能力と容量は大きくなり、結果としてモデルの機能は強力になります。逆に、パラメータが小さいほど、必要な計算能力は少なくなりますが、機能は相対的に弱くなります。モデルの機能の強さは、主に質問に答える、または質問に対する回答を抽出する能力によって決まります。

GoogleのT5は約110億個のパラメータを持ちます。その最大の特徴は、マルチタスクの微調整が可能で、オープンソースであることです。OpenAIが中心となって開発したGPTは、GPT-3.5がリリースされ、その優れたパフォーマンスは大きな注目を集めました。しかし、そのパラメータ数も1750億個と非常に多く、以前のバージョンと比べて数倍もの膨大な計算能力を必要とします。人間によるフィードバックに基づく微調整もサポートしています。

それからMeta、つまりFacebookもOPTモデルを開発しました。このモデルは約1750億のモデルで構成されており、ベースモデルは英語で、英語でトレーニングされています。

底型とは何ですか?

大規模モデルを事前学習する場合、事前学習プロセスが必要です。事前学習には大量のコーパスが必要です。入力が大量の英語資料である場合、その基盤となるモデルは英語をベースにしたものになります。例えば、入力が英語であれば、それに基づいて英語の質問をいくつか実行することができ、学習効果が向上します。

LLaMAはアルパカとも呼ばれます

現在、オープンソースのフレームワークとモデルの中で最も主流となっているのは、大規模なパラメータを持つ効果的なオープンソースモデルであるGPT-4です。最も人気のあるオープンソースモデルの一つであるGPT-4はその代表例です。最新バージョンでもパラメータは大きく変わっていませんが、基盤となるモデルの数は膨大です。GPT-4は1兆8000億ものパラメータを誇り、史上最強のモデルと称されています。この膨大なパラメータ数は、その膨大な容量と計算能力を示しています。例えば、GPTの基盤モデルには中国語のコーパスが含まれています。その膨大な量により、GPTは事実上すべてのインターネット知識をカバーしています。GPT-3.5は2021年までのインターネット知識をカバーし、GPT-4の知識ベースは2023年に更新されており、幅広い言語をカバーしています。

右側では、国産モデルについて簡単に見ていきましょう。まず、王小川氏が開発したオープンソースモデル「百川AI」があります。パラメータ数は約70億で、比較すると「アルパカAI」モデルとほぼ同等です。一方、百度の「文心易燕(ウェンシンイーヤン)」は、AIに多額の投資を行っているため、はるかに大規模です。パラメータ数は約2,600億です。大きな特徴は、データの85%が中国語コーパスであり、学習に中国語データを多用していることです。これは、百度が膨大な中国語データを保有していることを考えると当然のことです。

アリババのTongyi Qianwenのパラメータは700億から7000億の範囲にあり、その総合的な性能はGPT-3と同等です。つまり、国産品は依然としてわずかに劣っていることがわかります。

GLM-6Bは約60億のパラメータを持っています。GLMチームは清華大学に所属しています。現在、100億パラメータ未満のパラメータでは、中国国内、ひいては国際的に最も強力な中国製オープンソースモデルです。この100億パラメータの範囲内では、現在最高のパフォーマンスを発揮しています。私は頻繁に使用していますが、そのパフォーマンスは実に良好です。

次に、テンセントのHunyuanモデルがあります。具体的なパラメータは公開されていませんが、1000億を超えると推定されています。おそらく重要な機能は、マルチモーダル処理のサポートでしょう。マルチモーダルとはどういう意味でしょうか?テキスト生成だけでなく、画像生成、テキストから画像への変換、画像からテキストへの変換など、様々なモダリティをサポートすることを意味します。これは、基盤となるモデル、つまり事前学習がより複雑になることを意味し、テキストだけでなく画像でも学習できます。また、160億単位のデータを持つようです。オープンソースモデルであるため、複数のプラグインもサポートされる可能性があります。

つまり、それぞれに特徴があるということです。しかし、中国では主に2つの特徴が見られます。1つ目は、リリースが少し遅く、2023年頃であることです。2つ目は、中国語のサポートが海外のモデルよりもはるかに優れていることです。商業的な観点から見ると、オープンソースモデルを中心に、一部のモデルは商用利用に適していないことがわかります。例えば、LaMaは商用利用をサポートしていませんが、BaichuanやFanCLなどのGLMは非常に優れており、商業的に実現可能です。

9つの主要モデルのエコシステム

実際、私たちは現在、OpenAI によって引き起こされた、数百のモデルの戦い、数千のモデルの戦い、複数のモデルの戦いという状況にあります。

Hugging Face(AI版GitHubとも言うべき場所)は、多くのオープンソースモデルが共有され、再リリースされる場所です。膨大な数のモデルを見つけることができます。

したがって、この大規模なモデル全体の開発は非常に速く、エコシステムは繁栄していることがわかります。

PupilFaceのホームページ上の10清華​​大学チーム

先ほどお話ししたChatGLMは清華大学チームのもので、こちらがPupilFaceのホームページです。彼らの研究成果とチームの様子を見ることができます。ChatGLM、WebGLM 130Bといった大規模モデル(LM)や、事前学習済みのグラフ学習済みニューラルネットワークなど、様々なツールを開発しており、多くの成果を上げていることがわかります。https://huggingface.co/THUDM/chatglm3-6b

6B(60億パラメータ)、6B、32K(これはモデルの特定の構成またはバージョンを指している可能性があります)、そして7B(70億パラメータ)、13B(130億パラメータ)と続きます。最も強力なのは130B(1300億パラメータ)です。このセクションを通して、この大規模モデル全体が非常に大きく、それぞれのモデルが独自の特性を持っていることがわかります。

11. 市販のオープンソース大規模モデルをサポート

  • ChatGLM/6B/1T/商用利用可能
  • ChatGLM2/6B/1T/商用利用可能
  • LLaMA/7B/13B/33B/65B/1T/商用利用不可
  • LLaMA2/7B/13B/33B/65B/2T/商用利用可能
  • BLOOM/1B7/7B1/176B-MT/1.5T/商用利用可能
  • 白川/7B/13B/1.2T/1.4T/商用利用可能
  • ファルコン/7B/40B/1.5T/商用利用可能
  • Qwen/7B/7B-Chat/2.2T/商用利用可能
  • Aquila/7B/7B-チャット/商用利用可能