HUOXIU

大規模言語モデル: AI 時代のテキスト計算機?

編集者注:大規模言語モデル(LLM)は、自然言語処理(NLP)分野で注目を集めています。LLMは本当に「インテリジェント」なのでしょうか?どのような洞察を提供してくれるのでしょうか?Darveen Vijayan氏が、これらの疑問に答える示唆に富む記事を執筆しました。

著者は主に2つの点を指摘している。第一に、LLMは次の単語を予測する一種の単語計算機と捉えるべきであり、現段階では「知能」として分類すべきではない。第二に、LLMには現状の限界があるものの、人間の知能の本質について考える機会を与えてくれる。私たちは常にオープンな心を持ち、新たな知識と知識の新たな理解を絶えず追求し、他者と積極的にコミュニケーションをとることで、認知の限界を広げるべきである。

LLMが知的であるかどうかは依然として議論の余地がある。しかし、一つ確かなことは、LLMが自然言語処理分野に革命をもたらし、人間の知能の本質を理解するための新たな次元を提供したということだ。この記事は、大規模モデルツールのユーザーやAI実践者にとって、注意深く読み、繰り返し考察する価値がある。

著者 | ダルヴィーン・ヴィジャヤン

編纂者:岳陽

17世紀初頭、エドマンド・ゴーントという数学者であり天文学者でもあった人物は、前例のない天文学上の課題に直面しました。惑星の複雑な軌道を計算し、日食を予測するためには、天文学者は直感に頼るだけでなく、複雑な対数演算や三角法の方程式を習得する必要がありました。そこで、他の優れた革新者たちと同様に、ゴーントもアナログ計算装置を発明することを決意しました。彼が開発した装置は、後に今日私たちが知っている計算尺となりました[1]。

計算尺は、長さ30センチの長方形の木片で、固定枠とスライド部分で構成されています。固定枠には固定された対数目盛りがあり、スライド部分には可動目盛りがあります。計算尺を使うには、対数の基本原理と、掛け算、割り算、その他の数学演算における目盛りの合わせ方を理解する必要があります。可動部分をスライドさせて数字を合わせ、計算結果を読み取り、小数点の位置に注意する必要があります。うわー、本当に複雑ですね!

計算尺

それから約300年後の1961年、ベルパンチ社は世界初の卓上電子計算機「ANITA Mk VII」を発表しました。その後数十年にわたり、電子計算機はますます高度化し、機能も豊富になりました。以前は膨大な手計算を必要としていた作業の時間が短縮され、従業員はより分析的で創造的な仕事に集中できるようになりました。このように、現代の電子計算機は作業効率を向上させるだけでなく、人々がより効果的に問題を解決することを可能にします。

計算機は数学の処理方法に大きな変化をもたらしましたが、言語についてはどうでしょうか?

文章の組み立て方を考えてみましょう。まず、文章で何を表現しようとしているのか、アイデアが必要です。次に、語彙を習得する必要があります(十分な語彙力)。そして、それらの単語を正しく文章に組み込める必要があります(文法を習得する必要があります)。うーん、まだ複雑ですね!

現代人類が初めて言語を作り出した5万年前から、言語語彙を生成する方法は基本的に変わっていません。

文章の構成という点では、私たちはまだ計算尺を使っているグンターのようです。

文章を生成することに関しては、私たちはまだグンターの計算尺を使った時代にあると言ってもいいでしょう。

よく考えてみると、適切な語彙と正しい文法を使うことは、単に言語の規則に従うことです。

これはルールがたくさんある数学に似ていて、1+1=2 であることや電卓の仕組みを理解することができました。

テキスト用の計算機が必要です!

必要なのは、言葉のための計算機です。

はい、言語によってルールは異なりますが、これらのルールに従うことによってのみ、言語は理解されます。言語と数学の重要な違いは、数学には決まった明確な答えがあるのに対し、文を構成する適切な単語はたくさんあるということです。

次の文の空欄を埋めてみましょう。「I ate a _________.(私は _________ を食べました。)」次に出てくる単語を想像してみてください。英語には約100万語あります。多くの単語が使えますが、すべてではありません。

「ブラックホール」と答えるのは、2+2=5と答えるのと同じです。さらに、「リンゴ」と答えるのも不正確です。なぜでしょうか?それは文法上の制約によるものです!

ここ数ヶ月、大規模言語モデル(LLM)[2]は世界的な現象となっています。自然言語処理分野における大きな進歩と呼ぶ人もいれば、人工知能(AI)の新時代の幕開けと捉える人もいます。

LLMは人間のようなテキスト生成において非常に効果的であることが証明されており、言語ベースのAIアプリケーションの水準を高めています。膨大な知識ベースと優れた文脈理解能力を備えたLLMは、言語翻訳やコンテンツ生成から、仮想アシスタントや顧客サポート用のチャットボットまで、様々な分野に適用できます。

私たちは 1960 年代の電子計算機と同じような転換点にいるのでしょうか?

この質問に答える前に、LLMの仕組みを理解しましょう。LLMは、文中の次に最も適切な単語を計算・予測するTransformerニューラルネットワークに基づいています。強力なTransformerニューラルネットワークを構築するには、大量のテキストデータを用いたトレーニングが必要です。「次の単語またはトークンを予測する」アプローチが非常に効果的なのは、大量のトレーニングデータが容易に利用できるからです。LLMは単語のシーケンス全体を入力として受け取り、次に最も可能性の高い単語を予測します。最も可能性の高い次の単語を学習するために、彼らはまずウォーミングアップとしてWikipediaのデータ全体を読み込み、次に大量の書籍を読み、最後にインターネット全体を読み込みました。

前述の通り、言語には様々な規則やパターンが含まれています。モデルはこれらの規則を全ての文から暗黙的に学習し、次の単語を予測するタスクを実行します。

ディープニューラルネットワーク

単数名詞の後に「s」で終わる動詞が続く確率が高くなります。同様に、シェイクスピアの作品を読むと、「doth」や「wherefore」といった単語に出会う確率が高くなります。

トレーニング中に、モデルはこれらの言語パターンを学習し、最終的には言語の専門家になります。

しかし、それで十分なのでしょうか?言語のルールを学ぶだけで十分なのでしょうか?

しかし、それで十分なのでしょうか?言語のルールを学ぶだけで十分なのでしょうか?

言語は複雑であり、文脈に応じて単語が複数の意味を持つことがあります。

そのため、自己注意が必要です。簡単に言うと、自己注意とは、言語学習者が文やテキスト内の異なる単語の関係を理解するために用いる手法です。物語を理解するために様々な部分に注目するのと同じように、自己注意によってLLM(言語学習モデル)は情報処理において文中の特定の単語に重点を置くことができます。これにより、モデルは言語規則のみに基づいて次の単語を盲目的に予測するのではなく、テキスト全体の意味と文脈をより深く理解できるようになります。

自己注意メカニズム

大規模な言語モデルを、単に次の単語を予測する単語計算機とみなした場合、どのようにしてすべての質問に答えることができるのでしょうか?

LLM が単語の計算機であり、次の単語を予測するだけである場合、どのようにしてすべての質問に答えることができるのでしょうか?

大規模な言語モデルに思考を必要とするタスクを与えて成功した場合、それはおそらく、そのタスクを何千もの例で経験しているからでしょう。例えば、以下のような非常に独特な要件を提示したとしても、

シャチが鶏肉を食べることについての詩を書いてください。

シャチが鶏を食べる詩を書いてください

大規模言語モデルでは、割り当てられたタスクも正常に完了できます。

波の中で、目に見えないところで、シャチが素早く鋭く狩りをする。海の世界で、ダンスが始まる。鶏の運命のように、シャチが勝つ。

強力な顎で獲物を襲い、羽根が舞い、漂い、自然の摂理に従って物語が紡がれ、生と死が一つになる。

チャットGPT

かなり良いと思いませんか?これは、関連情報を効果的に融合・照合し、合理的で一貫性のある回答を構築できる自己注意メカニズムのおかげです。

大規模言語モデル(LLM)は、学習中にデータ内の単語(およびフレーズ)間のパターン、関連性、関係性を認識することを学習します。広範な学習と微調整により、LLMは言語翻訳、要約生成、質問応答、さらにはクリエイティブライティングといった新たな特性を発揮できるようになります。モデルは特定のタスクやスキルを直接学習させるわけではありませんが、膨大な量のデータを用いた学習と学習を通じて、期待を超える能力を発揮し、非常に優れたパフォーマンスを発揮することができます。

では、大規模言語モデルは知能を備えているのでしょうか?

大規模言語モデルはインテリジェントですか?

電子計算機は60年以上前から存在しています。これらのツールは技術的に飛躍的な進歩を遂げてきましたが、これまでインテリジェントとはみなされてきませんでした。なぜでしょうか?

チューリングテストは、機械が人間の知能を備えているかどうかを判定する簡単な方法です。機械が人間の話し言葉と区別がつかない方法で人間と会話できる場合、その機械は人間の知能を備えているとみなされます。

この計算機は、人間と同じ言語ではなく数学的な言語のみでコミュニケーションをとるため、チューリングテスト[3]を受けたことはありません。しかし、大規模な言語モデルは人間の言語を生成します。その学習プロセス全体は、人間の言語を模倣することに重点を置いています。したがって、「人間の言語と区別がつかない方法で人間と会話する」ことができるのも不思議ではありません。

したがって、大規模言語モデルを「インテリジェント」という言葉で表現するのは、知性の真の定義について明確なコンセンサスがないため、やや難しいと言えます。何かがインテリジェントかどうかを判断する一つの方法は、それが興味深く、有用で、ある程度複雑または創造的なことを実行できるかどうかです。大規模言語モデルはこの定義に当てはまります。しかし、私はこの解釈に完全に同意するわけではありません。

私は知性を、知識の境界を広げる能力と定義しています。

私は知性を、知識の境界を広げる能力と定義しています。

本稿執筆時点では、次のトークン/単語を予測して動作するマシンは、依然として知識の境界を拡大することができません。

しかし、既存のデータに基づいて推論し、ギャップを埋めることはできます。言葉の背後にある論理を明示的に理解することも、既存の知識体系を理解することもできません。革新的なアイデアや深い洞察を生み出すことはできません。比較的一般的な答えしか提供できず、画期的なアイデアを生み出すことはできません。

機械が革新的な思考や深い洞察を生み出すことができないという事実から、私たち人間はどのような影響や教訓を学ぶことができるでしょうか?

それで、これは私たち人間にとって何を意味するのでしょうか?

大規模言語モデル(LLM)は、単語の計算機として捉えるべきです。思考プロセスは大規模モデルに完全に依存するのではなく、思考や表現における補助としてではなく、むしろ大規模モデルを代替するものとして捉えるべきです。

同時に、こうした大規模モデルのパラメータ数が指数関数的に増加するにつれて、私たちはますます圧倒され、無力感に襲われるかもしれません。そこで、一見無関係に見えるアイデアに対して、常に好奇心を持ち続けることをお勧めします。一見無関係、あるいは矛盾しているように見えるアイデアに遭遇することもあります。しかし、観察、知覚、経験、学習、そして他者とのコミュニケーションを通して、これらのアイデアの間に何らかの関連性があるかもしれない、あるいはそれらのアイデアが理にかなっているかもしれないことに気づくことができるのです。(訳注:この関連性は、物事に対する私たちの観察、理解、解釈から生まれる場合もあれば、異なる分野の知識や概念を結びつけることによって得られる新しいアイデアから生まれる場合もあります。私たちは、表面的な直感にとどまらず、観察、知覚、経験、学習、そして他者とのコミュニケーションを通して、より深い意味やつながりを発見するために、常にオープンな心を持ち続けるべきです。)私たちは、既知の領域に留まるのではなく、積極的に新しい領域を探求し、常に認識の境界を広げていくべきです。そして、新たな知識、あるいは既存の知識に対する新たな理解を絶えず追求し、それらを既存の知識と組み合わせることで、新たな洞察やアイデアを生み出すべきです。

上で述べたような考え方と行動に従って行動することができれば、計算機であれ大規模言語モデルであれ、あらゆる技術は、生存を脅かす脅威ではなく、活用できるツールとなるでしょう。

終わり

参考文献

[1] https://www.whipplemuseum.cam.ac.uk/explore-whipplemuseum/calculating-devices/slide-rules#:~:text=スライドルールの起源は、物理的な計測器の対数スケールにあります。

[2] https://en.wikipedia.org/wiki/Large_language_model#:~:text=大規模言語モデル(LLM)は、MassiveText、Wikipedia、GitHubで提供されています。

[3] https://en.wikipedia.org/wiki/チューリングテスト

この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。

オリジナルリンク:

https://medium.com/the-modern-scientist/large-language-models-a-calculator-for-words-7ab4099d0cc9