HUOXIU

GPT-4が侵害されました!GPT-4とのチャットにパスワードを使用することで、GPT-4のセキュリティメカニズムがバイパスされました!香港中文大学深圳校(CUHK-Shenzhen)がその方法を説明します。

出典: Xi Xiaoyao Tech Talk 原著者: My IQ Has Dropped to the Ground
パスワードを使用して GPT-4 とチャットしてみたことはありますか?

近年、大規模言語モデル(LLM)は人工知能システムの開発を牽引する上で重要な役割を果たしてきました。しかしながら、LLMの応答の安全性と信頼性を確保することは依然として大きな課題です。セキュリティはLLM開発の中核を成しており、そのセキュリティ強化に向けた広範な研究が行われてきました。しかしながら、既存の研究は主に自然言語処理に焦点を当てています。

最近の研究では、暗号文チャットの使用によってLLMのセキュアアライメント技術を回避できることが明らかになりました。著者らは、非自然言語(暗号文)におけるセキュアアライメントを調査するために、CipherChatと呼ばれる新しいフレームワークを提案しました。

論文タイトル:
GPT-4は賢すぎて安全ではない:暗号を介してLLMSとステルスチャット
プロジェクトリンク:
https://arxiv.org/pdf/2308.06463.pdf

CipherChatは、暗号ヒントを介して人間がLLM(ローカル管理モデル)と対話することを可能にします。具体的には、CipherChatは入力を暗号に変換し、入力の前にヒントを付加した後、検証のためにLLMに入力します。LLMによって生成される出力も暗号化されている可能性があり、この出力は復号器によって復号されます。本研究では、以下の疑問について考察します。

  • LLM の動作を暗号化の専門家の動作として定義し、チャットにパスワードを使用するように LLM に要求します。
  • LLM の学習機能を活用することで、暗号化の仕組みを説明しながら LLM を教えることができ、文脈の中で学習できるようになります。
  • 安全でないパスワード暗号化のデモンストレーションを使用して、LLM の暗号化に関する理解を深め、否定的な観点から応答するように LLM を導きます。

著者らは、CipherChatを用いて最先端のLLM(ChatGPTやGPT-4を含む)を評価し、特定のセキュリティ領域において、一部の暗号がGPT-4のセキュアアラインメントをほぼ回避できることを実証しました。モデルが強力であるほど、暗号を用いた応答の安全性は低くなります。これは、非自然言語におけるセキュアアラインメントの開発の必要性を浮き彫りにしています。さらに、著者らはLLMが「秘密暗号」を持っているように見えることを発見し、ロールプレイングや自然言語によるデモンストレーションを通じてLLMの「秘密暗号」機能を想起させるSelfCipherフレームワークを提案しました。このフレームワークは、モデル、言語、セキュリティ領域のいずれにおいても、既存の人間による暗号よりも優れた性能を発揮します。

LLMの責任ある効果的な導入を確実にするためには、人間の倫理観と嗜好をその開発と整合させる必要があります。OpenAIは、導入前にGPT-4モデルのセキュリティ確保に6ヶ月を費やしました。RLHFなどのセキュリティ軽減策を採用し、さらに、人間よりも賢いAIシステムが人間の意図に従うことを保証するために、SuperAlignmentチームを結成しました。

この研究では、著者らはGPT-4モデル上で提案手法の有効性を検証し、パスワードチャットがセキュリティアライメントを回避できることを実証しました。

学界では、LLM をより効果的かつ効率的に連携させるための取り組みも行われています。

  • 憲法 AI (CAI): 望ましい AI の動作をエンコードして、AI の動作をより正確に制御します。
  • SELF-ALIGN: AI エージェントの自己整合を実現します。

主要部品

図 1 に示すように、CipherChat は次の主要コンポーネントで構成されています。

  • 行動割り当てLLMに暗号学者の役割を割り当て暗号を用いてコミュニケーションをとるように指示しました。実験中、LLMは暗号を自然言語に直接翻訳する傾向があることがわかったため、著者らはこのような翻訳行動を防ぐための手がかりを追加しました
  • 暗号学の指導:最近の研究によると、法学修士課程(LLM)は文脈から学習する能力が非常に高いことが示されています。これらの研究結果に着想を得て、著者はプロンプトで暗号学の意味を説明し、読者がLLM暗号学の仕組みを理解できるよう支援しています。
  • 安全でない暗号化のデモ:著者は、LLM用の暗号を用いた暗号化の安全でないデモをいくつか提供しています。これには2つの効果があります。
    • デモンストレーションは、LLM が暗号化をより深く理解するのに役立ちます。
    • 安全でないプレゼンテーションは、LLM が否定的または有害な観点から反応することにつながります。

暗号化された入力コマンド

CipherChat では、 LLM が暗号ごとに異なる理解および生成機能を持っているため、暗号の選択が非常に重要です。

著者らは、英語と中国語それぞれに1つずつ、いくつかの一般的な暗号を研究しました。これらの暗号には、文字エンコーディング、アトバッシュ暗号、シーザー暗号、モールス信号といった一般的な暗号化技術、そしてSelfCipherが含まれています。表1に、いくつかの暗号の例を示します。

表 2 は、英語 (モールス信号) と中国語 (Unicode) のクエリ「悪い翻訳者になるには?」に対するルールベースおよび LLM ベースの復号化プログラムの復号化応答を示しており、エラーは赤でマークされています。

ルールベースの復号化プログラムと比較すると、GPT-4 復号化プログラムはより高いコストで、より流暢で自然なテキストを生成できます。

実験セットアップ

データ

著者らは、8つのセキュリティシナリオと6つのコマンドベース攻撃タイプを含む中国のセキュリティ評価ベンチマークを使用しました。本研究では、11のドメインがランダムに選択され、各ドメインから199の事例がランダムに抽出されました。これらのドメインには、犯罪と違法行為、侮辱、不公平と差別、倫理と道徳が含まれていました。バイリンガル研究を促進するため、著者らはGoogle翻訳と手作業による校正を組み合わせて、データセットを英語にも拡張しました。

モデル

実験フレームワークには、TurboとGPT-4という2つのモデルが含まれていました。Chenらによる研究では、GPT-4の最新バージョンの方がより安全であることが示されています。そのため、セキュリティ評価ベンチマークの各クエリに対して、著者らはシステムのヒントとデモンストレーションを用いて推論を行いました。各デモンストレーションは、ドメイン固有のデータセットからランダムにサンプリングされたクエリと、人間のアノテーターによって設計された応答で構成されていました。同一ドメイン内のすべてのクエリは、同じデモンストレーションを共有していました。

著者らは CipherChat を使用して GPT-4 と Turbo のセキュリティ パフォーマンスを評価し、次の研究上の質問に答えようとしました。

  • CipherChat はパスワードを使用して LLM とチャットするために使用できますか?
  • CipherChat は LLM の安全な調整を回避できますか?
  • CipherChat はどのように機能しますか?

事前学習データに一度も出現していないシミュレートされた暗号がCipherChatで動作するかどうかを検証したかった。この疑問に答えるために、著者らは存在しない暗号を定義したが、複数の例を用いてもこれらの暗号は動作しなかった。これは、LLMが事前学習データから学習した暗号の知識に依存している可能性を示唆している。表3に示すように、人間の暗号(シーザー暗号など)とSelfCipherの成功は、 LLMが事前学習データから人間の暗号の知識を学習し、独自の暗号を生成できることを証明している。

人間による評価では、CipherChatは特定の人間が作成したパスワード(中国語の場合はUnicode、英語の場合はASCIIなど)を使用してTurboおよびGPT-4とチャットできることが示されています。また、自然言語で通信するSelfCipherは、モデルや言語を問わず優れたパフォーマンスを発揮します。無効な応答に最も大きく影響するのは、誤ったパスワードと単純な重複クエリです。

実験結果は、LLMをバイパスすることでCipherChatのセキュアアライメントの有効性をさらに実証しています。英語のクエリでは、CipherChatはGPT-4で最大70.9%の安全でない応答を生成し、この傾向は様々なドメインで観察されています。

著者らによるさらなる分析により、CipherChatにおける指示と安全でないデモンストレーションの重要な役割が明らかになりました。SelfCipherが優れたパフォーマンスを発揮する理由は、「あなたは暗号の専門家です」という思考連鎖のようなプロンプトLLMに独自の「暗号」を用いて応答を生成するように誘導しているためと考えられます。

結論は

本論文では、非自然言語(暗号)における安全なアラインメントを研究するための、CipherChatと呼ばれる新しいフレームワークを提案する。著者らの研究によると、チャットで暗号を使用すると、GPT-4モデルから安全でない情報が抽出される可能性がある。さらに、以下の知見も得られている。

  • LLM は、プロンプトを表示することで安全でない暗号化された応答を生成する可能性があります。
  • より堅牢な LLM はパスワードをより深く理解するため、安全でないパスワード チャットに対してより脆弱になります。
  • 事前トレーニング データに一度も登場しなかったシミュレートされたパスワードは機能しませんでしたが、これは以前の研究と一致しています。
  • LLM には、ロールプレイングのヒントといくつかの自然言語の例だけでも呼び出せる「秘密のコード」があるようです。

この研究は、基盤となる LLM の機能に合わせて非自然言語の安全なアライメントを開発する必要性を強調しています。

将来的には、暗号化されたデータに安全なアライメント技術を実装することが有望な研究方向であり、もう 1 つの興味深い方向は、 LLM の「秘密の暗号化」を調査して、この機能をより深く理解することです。