HUOXIU

生成型AI技術の原理をより深く理解する:生成型AI入門

出典: Mu Feng のテクニカル ノート


人工知能(AI)を単純に用途別に分類すると、意思決定型AIと生成型AIの2種類に分けられます。意思決定型AIは、訓練データに含まれる条件付き確率分布から学習して意思決定を行い、サンプルが特定の対象に属する確率を決定します。顔認識は意思決定型AIの代表的な例です。端末デバイスは、カメラで撮影した顔画像の特徴情報をバックエンドシステムの顔特徴データベースと照合し、現在の顔情報がデータベース内に存在するか、ユーザーが必要な権限を持っているかを判断します。ChatGPTに代表される生成型AIは、大規模データセットの結合確率から学習し、既存のデータと知識を要約し、これにディープラーニング技術を組み合わせることで、新しいコンテンツを自動生成します。生成されるコンテンツは、テキスト、画像、さらには動画を含むマルチモーダルなものになります。本稿では、ディープラーニングと大規模モデルの基礎について簡単に紹介し、後続の記事でこれら2つの分野の技術的原理についてさらに深く掘り下げていきます。

ディープラーニング

ディープラーニングは、生成型AIの中核技術です。 機械学習における重要な最適化手法であり、人工知能の重要な実用化にも不可欠です。したがって、ディープラーニングを理解するには、まず機械学習とは何かを理解し、次にディープラーニングの発展を促した欠点を分析する必要があります。機械学習は以下のように定義されます。

これをどのように理解すればよいのでしょうか?例を挙げてみましょう。中国将棋をプレイできるプログラムを開発するとします。Eは将棋の経験、Tは将棋をプレイする行為、Pは勝率を表します。つまり、プログラムが継続的なゲームプレイを通じて十分な将棋の経験を積み、その積み重ねによって勝率を高めることができる場合、将棋プログラムは機械学習機能を備えていると見なすことができます。では、経験に基づいたプログラムの学習能力の最適化と向上を実現するために、どのような工学技術が用いられているのでしょうか?人工ニューラルネットワークは、工学技術を用いて人間の脳の神経系の構造と機能をシミュレートすることで、機械学習を実現します。

人工ニューラルネットワーク

バイオニクスは常に人類の進歩のためのツールでした。例えば、人類は鳥のように空を飛びたいと願って飛行機を発明し、魚のように水中に潜りたいと願って潜水艦を発明し、機械に人間のように考え、推論させたいと願って、自らの脳の働きを研究し始めました。そして、人間の脳が数千億個のニューロンで構成されていることを発見しました。これらのニューロン自体は構造的に複雑ではありませんが、それらの協調動作によって様々な情報を受信、処理、出力することができ、知覚、記憶、分析、思考といった高次の行動能力を構成しています。さらに、学習能力は加齢とともに継続的に向上します。したがって、学習機能を備えた人間のニューラルネットワークに似たシステムを設計できれば、機械も人間のように学習し、成長することができます。 本質的に、人間の脳は情報処理装置と見なすことができます。視覚、聴覚、触覚はすべて脳への入力信号であり、脳の神経系はこれらの入力信号を処理して対応する行動反応を提供する情報処理装置です。
人間の脳内のニューロンの構造に着想を得た先駆者たちは、人間の神経系を模倣することで、機械が人間と同様の知的な行動を分析・解決できるようにしようと試みました。 実際、1943年には早くも数学者のピッツとマカロックが論文「神経活動に内在するアイデアの論理計算」を発表し、人工ニューラルネットワーク研究の幕開けとなりました。この論文で彼らは、「人工ニューロン」の抽象的な数学モデル(MPモデル)を提案し、ニューロンの挙動と情報伝達の仕組みを記述しました。

MPモデルでは、人工ニューロンは外部から複数の入力信号を受信できます。各入力信号には、ニューロン間に対応する結合重みが与えられます。生物学的なニューロンと同様に、人工ニューロンにも閾値があり、閾値に達した場合にのみニューロンが活性化されます。人工ニューロンをエンドツーエンドで接続することは、脳内の数億個のニューロンからなるネットワークに似ています。そこでは、異なるレベルのニューロン間で情報が伝達、処理、抽象化されます。このプロセスこそが、私たちが思考と呼ぶものです。

MPモデルに続いて、先駆者たちは研究と最適化を行っただけでなくハイブリッド学習規則、パーセプトロン学習、 多層パーセプトロンに適したバックプロパゲーション(BP)アルゴリズムなど、さまざまなアルゴリズムを提案しました。ただし、これらはコンピュータのハードウェア機能などの要因によって制限されていました。 2006年まで、人工知能は、教師なし学習を使用してアルゴリズムを層ごとにトレーニングする方法を採用し、その後、 教師ありバックプロパゲーションを最適化して使用しました。この教師なし学習と教師あり学習の組み合わせは、人工知能の分野でディープラーニング研究の波を引き起こしました。その後、AlexNetなどのディープ畳み込みニューラルネットワークアーキテクチャ、リカレントニューラルネットワーク(RNN)、長短期記憶ネットワーク(LSTM)、敵対的生成ネットワーク( GAN が提案されました。

上の図に示すように、機械学習では分類に必要な特徴を抽出するために人間の介入が必要ですが、ディープラーニングでは人間の介入を必要とせず、独自に特徴を抽出できます。これが両者の最大の違いです。

大型モデル

以前は、大量のラベル付きデータを用いてモデルを学習する必要がありました。その結果得られたモデルは、特定の分野に特化したものでした。例えば、AlphaGoは当初、囲碁の打ち方しか知らず、将棋はできませんでした。将棋のスキルを習得する必要がある場合、新たなモデルを学習する必要がありました。これは、特定のビジネスシナリオに合わせてシステムプラットフォームが構築されていた、初期のサイロ化された技術アーキテクチャに似ています。しかし、ビッグデータ技術の発展、GPUの強力なコンピューティングパワー、そして継続的なモデルの反復と最適化により、ディープラーニング技術は飛躍的な進歩を遂げました。特に大規模モデルの登場により、大量のラベルなしデータを用いて事前学習することで、一般的な知識を備えた大規模モデルを取得できるようになりました。そして、特定の分野知識と学習タスクを組み合わせることで、モデルを微調整し、特定の分野におけるエキスパートモデルへと進化させることができます。例えば、医学知識を組み合わせることで、微調整タスクを通して医学モデルを取得できます。また、法律知識を組み合わせることで、新しいモデルを再学習することなく、法律モデルを取得できます。実際、大規模モデルの学習プロセスは人間の学習プロセスに似ています。私たちは幼い頃、言語、数学、外国語、政治、歴史、地理、物理学、化学、生物学など、あらゆる分野を学びます。しかし、大学に進学すると専門分野を絞り、大学院では特定の分野を深く掘り下げて、最終的にはプロフェッショナルになります。このプロセスは、大規模モデルの学習プロセスと驚くほど似ていると思いませんか?

要約

本稿では、生成AIの2つのコア技術に焦点を当て、その概要を説明します。以降の記事では、ディープラーニングと大規模モデル技術を入り口として、生成AIの根底にある原理をより深く掘り下げていきます。本シリーズの目的は、ChatGPTのような生成AIアプローチへの理解を深めることです。