編集者注：大規模言語モデルは、詩や小説など、豊富な創造的コンテンツを提供できます。では、大規模言語モデルによって生成された創造的コンテンツの質は、具体的にどのように評価すべきでしょうか？
本論文では、GPT-2からGPT-4までの創造性を探求し、様々な創造性テストにおけるこれらのモデルのパフォーマンスを分析しています。著者らは、遠隔連想テスト、代替利用課題、発散的連想課題という3つのテストを用いてこれらのモデルの創造性を測定し、新しいモデルがすべての創造性タスクにおいて優れたパフォーマンスを発揮することを発見しました。
しかし、例外もあります。「正解」が1つしかないテストでは、よりシンプルなGPT-2モデルが最新のGPT-4モデルよりも優れた結果を示しました。著者らは、これらの実験はモデル自体の創造性ではなく、モデルが生成する創造的なコンテンツのレベルを測定するために設計されたと主張しています。
翻訳はこちらです。お楽しみください!

著者|イェニー・ジュン

編纂者：岳陽

近年、大規模言語モデル（LLM）を用いて、書籍[1]、マイクロフィクション[2]、ラップバトル[3]、音楽コード[4]など、多くのクリエイティブコンテンツが制作されています。しかし、これらのモデルの創造性をより包括的に測定することは可能でしょうか？

人間の創造性は、長年にわたり多くの心理学者や心理学研究者にとって興味深い研究分野でした。1950年代[5]以降、心理学研究者たちは、個人の創造性と潜在能力を比較できる一連の創造性テストを開発してきました。単一のテストで人間の創造性を完全に定量化できるわけではありませんが、これらのテストは創造性のさまざまな側面を測定します。

本論文では、創造性を測定する2つのテスト、収束性（正解が1つだけ存在する）と発散性（自由形式のテストで、複数の正解が存在する可能性がある）に基づき、2019年から2023年までのGPTモデルのパフォーマンスを分析します。これらのテストには以下が含まれます。

一見無関係な3つの単語を4つ目の単語で繋げる（リモートアソシエイツテスト[6]）
日常のアイテムにできるだけ多くの代替用途を提供する（代替用途課題[7]）
互いにできるだけ異なる10個の用語を列挙する（発散的連想課題[8]）

これらのテスト結果を分析することで、初期のGPT-2モデルから最新のGPT-4モデルへのパフォーマンスの変化に焦点を当てました。これらのモデルの挙動を理解するために、主観的および客観的な視点の両方を用いました。一般的に、後期モデルはすべてのクリエイティブタスクにおいて優れたパフォーマンスを示しました。しかし、いくつかの例外も見つかりました。テストで「正解」が1つしかない場合、よりシンプルなGPT-2モデルは最新のGPT-4モデルよりも優れたパフォーマンスを示しました。また、同じクリエイティブテストにおいて、GPTモデルのパフォーマンスと人間のパフォーマンスを比較しました。

注：これらの実験は、モデルが生成した創造的なコンテンツのレベルを測定することを目的としており、モデル自体の創造性を測定するものではありません。GPTモデルやLLMが一般的に人間のような創造的思考力を備えているとは考えていません。むしろ、これらのモデルが特定の創造性テストにどのように反応するかを示すことが私の目的です。

GPTモデルの開発の歴史

生成的事前学習済みTransformer（GPT）は、膨大なインターネットコンテンツコーパスを用いて学習され、前のトークンに基づいて次のトークンを予測する言語モデルです。ChatGPTはここ数ヶ月で注目を集めていますが、OpenAIのGPTモデル（およびその基盤となる技術）は数年前から存在していました。

GPT-1 (2018, 1億1700万パラメータ)。これはオリジナルのGPTモデルです。HuggingFace [9] のオープンソース版を使用しました。しかし、出力はあまり良くなかったため、本稿ではGPT-1の出力を記録していません。
論文：生成的事前学習による言語理解の向上[10]
GPT-2 (2019, 150億パラメータ)。HuggingFace [11] のオープンソース版を使用しました。一部の実験では、 GPT-2の出力は意味をなさず、その動作を理解するのに役立たなかったため、対応する分析ではそれらを文書化しませんでした。
論文：言語モデルは教師なしマルチタスク学習者である[12]
GPT-3（2020年、1750億パラメータ）。GPT-2の100倍以上の大きさ。OpenAI API[13]のtext-davinci-002を使用。
論文：言語モデルは少数ショット学習者である[14]
GPT-3.5 (2022)。GPT-3.5には複数のバージョンがありますが、強化学習と人間によるフィードバックを用いて学習されたオリジナルのChatGPT[15]と同じモデルを使用しました。OpenAI APIs上のgpt-3.5-turbo [16]を使用しました。
GPT-4（2023、約100Tパラメータ）。OpenAI APIでgpt-4を使用しました。
論文：GPT-4技術レポート[17]

この論文のすべての実験では、特に指定がない限り、主に生成されたコンテンツのランダム性を考慮するために、各プロンプトに対して各 GPT モデルを 5 回呼び出しました。

01.遠隔連想テスト：無関係な単語をつなげる

リモートアソシエイツテスト (RAT) は、1962 年にマーサ・メドニックによって開発された創造性テストです。このテストでは主に収束的思考を測定します。つまり、各質問には「正しい」答えが 1 つだけあります。

一見無関係に見える3つの単語を、参加者は4つ目の単語で繋げなければなりません。例えば、「dream（夢）」「break（休憩）」「light（光）」は「day（日）」で繋げることができます（daydream、daybreak、daylight）。「sense（感覚）」「courtesy（礼儀）」「place（場所）」は「common（一般的な）」で繋げることができます。

Remote Associates Testのウェブサイトから、合計312問の単語3つを組み合わせた膨大な数の単語を集めました。各問題は、「非常に簡単」から「非常に難しい」までの難易度で評価されています。

リモートアソシエイツテストウェブサイトのリモートアソシエイツテストの質問カテゴリ

各モデルと各単語トリプレットに対して、以下のプロンプトテンプレートを使用しました。モデルの応答のランダム性を考慮して、各モデルを5回呼び出しました。

 3つの単語が与えられます。最初の3つの単語それぞれに何らかの関連がある4つ目の単語を考えてください。
まず答え（「回答」）を述べ、次にその理由（「理由」）を説明します。
単語: {Word1}, {Word2}, {Word3}

新しい GPT モデルは、遠隔連合テストでより高いスコアを獲得しました。

GPT モデルの各バージョンによって生成された回答の精度を計算したところ、新しいバージョンの GPT モデルの方が正しい回答が多く生成されていることがわかりましたが、これは驚くことではありません。

問題の難易度別にモデルのパフォーマンスを分析すると、新しいGPTモデルはすべての難易度範囲で古いモデルよりも優れたパフォーマンスを示すことが示されています。新しいGPTモデルは以前のバージョンよりも難しい問題で優れたパフォーマンスを発揮しますが、難しい問題への対応における改善は、簡単な問題への対応における改善よりもはるかに小さいです。つまり、GPT-4でさえ難しい問題には直面する可能性があるということです。

Remote Associates Testのウェブサイトによると、「平均的な人は、簡単な問題のほとんど、中程度の難易度の問題の約半分、そしてごく少数の難しい問題を解くことができます」とのことです。ウェブサイトでは公式の統計情報は公開されていませんが、一見するとGPT-4は確かに「中程度」の難易度の問題の約半分といくつかの「難しい」問題を解くことができ、人間のパフォーマンスに近いモデルであることがわかります。他のGPTモデルのパフォーマンスは人間よりも劣っていました。

いくつかの例外: GPT-2 は正しく応答しますが、GPT-4 は誤って応答します。

頻繁ではありませんが、2019年のGPT-2モデルでは正しい答えを生成できたものの、2023年のGPT-4モデルでは生成できなかった問題がいくつかあります。テストでは、このような問題が8件発生しました（完全なリストは記事末尾の付録に記載されています）。

簡単な質問
単語: コテージ / レンガ / ケーキ
GPT-2: 「チーズ」 [正解]
GPT-4：「レイヤー」
中程度の質問
単語: 猫 / 数字 / 電話
GPT-2: 「呼び出す」
GPT-4：「ダイヤル」
難しい質問
単語: 通って / ディスク / 道
GPT-2: 「ドライブ」 [正解]
GPT-4: 「円」
非常に難しい質問です
単語: 土地 / 手 / 家
GPT-2: 「農場」 [正解]
GPT-4:「プロパティ」

これらの質問に対するGPT-4の回答はどれも不合理ではないことに注意してください。実際、正解を知らなければ、GPT-4の回答はこれらの3つの単語に関連している可能性があると考えるかもしれません。もしそう思うなら、それは間違いではありません。この問題については次のセクションで説明します。

GPT-4 は間違った答えを出したのでしょうか、それとも単に既成概念にとらわれずに考えていたのでしょうか?

GPT-4は質問の半分以上に答え、それぞれの回答にはおそらく十分な理由があったと思われます。GPT-4にそれぞれの回答について説明を求めてみたところ、「非常に難しい」とマークされた質問の一部の説明が間違っていることがわかりました。

言葉: アーティスト / ハッチ / ルート
正解：「脱出」
GPT-4の答え: 「マップ」

 「アーティスト」という言葉を聞くと、何かを創造する、あるいは何かを視覚的に表現するといったイメージを思い浮かべるかもしれません。地図は、ある程度の芸術的スキルを必要とする一般的な視覚表現形式です。
「ハッチ」という言葉は、何かを開けたり、何かを存在させたりする行為を指すことがあります。地図は青写真や計画の一種で、新しい領域を探索したり、行動計画を立てたりするのによく使われます。
「ルート」という言葉は方向や動きに関連し、地図上にプロットして追跡することができます。地図は、旅行時に最適なルートを決定するのに役立つだけでなく、過去に他の人が通ったルートに関する情報も提供します。
全体として、「Map」は芸術的創造、計画と方向、動きとナビゲーションという概念を包含しており、最初の 3 つの単語のそれぞれによく当てはまる言葉であると思われます。

GPT-4 が「マップ」が「アーティスト / ハッチ / ルート」と密接に関連している理由を説明している理由は、私も同意するものです。

次に別の例を示します。

言葉: フォーク / 暗い / 男
正解：「ピッチ」
GPT-4の答え：「影」

 「フォーク」という言葉は、道の分岐のように、分岐や枝分かれを連想させます。影もまた、光の不在を表すため、一種の分岐と捉えることができます。
「暗い」という言葉は、光がないことを意味します。影は光が物体によって遮られたときに生じ、周囲よりも暗く見えることがよくあります。
「男」という言葉は、アイデンティティや個性という概念と関連付けられることがあります。
影は、人の形や大きさについての手がかりとなるため、人の身元を表すためにも使用できます。
したがって、「Shadow」は、分割、不在、同一性という概念を包含しており、最初の 3 つの単語のそれぞれによく当てはまる単語であると思われます。

これらの例は、リモートアソシエイツテストやその他の収束型創造性テストの欠陥を示しています。つまり、 「正しい」答えが唯一の「正しい」答えではない可能性があるということです。これらのケースでは、GPT-4は「間違った」答えを生成しましたが、それはいわゆる「正しい」答えに合致しなかったためです。

実際、3 語のグループの 4 番目の単語に対して複数の回答を出すように GPT-4 に依頼すると、複数の回答を出すことができ、それらはすべて実現可能であるように見えます。

GPT-4 は生成された 3 つの単語のペアにどのように応答するでしょうか?

GPTモデルは、学習データにおいて前述のRemote Associates Test (RAT) 問題に遭遇した可能性があります。では、任意に生成された3つの単語が与えられた場合、GPT-4はどのように反応するでしょうか？このセクションでは、独自の「Remote Association」テストを構築し、その出力を主観的に評価します。

私は「10,000語」リスト[18]で最も頻繁に使用される英語の単語のリストを作成しました。次に、このリストからランダムに3つの単語を選択し、GPT-4にそれらを繋ぐ4つ目の単語を生成させました。3つの単語の組み合わせの中には、かなり奇妙で関連性のないものもありましたが、GPT-4は常にそれらを繋げる方法を見つけることができました。読者の皆様は、GPT-4によって生成された結果を読む前に、これらの例を試してみることをお勧めします。

以下の例を確認することで、GPT-4が独創的な思考を示しているのか、それとも単におざなりな答えを提供しているだけなのかを判断できるはずです。（より詳細な例のリストは、この記事の最後にある付録に記載されています。）

⛑️ 健康

この答えは非常に説得力があるように聞こえます。しかし興味深いことに、「健康監視」の定義は、CDCのウェブサイトに掲載されている公衆衛生監視の説明からほぼ完全にコピーされています。[19]

公衆衛生監視とは、「公衆衛生活動の計画、実施、評価に不可欠な健康関連データの継続的かつ体系的な収集、分析、解釈」です。— フィールド疫学
（CDCウェブサイトより）

単語: 食事 / 監視 / 生まれた
答え：健康
理由：
1. 食事

- 食生活は健康に直接関係しており、全体的な健康状態、エネルギーレベル、特定の病気のリスクに影響を及ぼす可能性があります。
2. 監視

- 健康監視とは、健康活動の計画、実施、評価に不可欠なデータの継続的かつ体系的な収集、分析、解釈です。
3. 生まれた
- 人が生まれたとき、その健康は、その子の発達、成長、そして全体的な生活の質に長期的な影響を及ぼす可能性があるため、最も重要です。

🍀 クローバー

最初はGPT-4の答えに納得しました。実際、GPT-4はかなり賢いように聞こえました。しかし、Googleで検索して「Trifolium duodecim」という用語が存在しないことがわかったとき、少し納得がいかなくなりました。これは大規模モデルにおける「幻覚」の一例かもしれません。LLMは不正確な答えを作り出してしまうのです。

単語: ラッキー / フィールド / 12
答え：クローバー
理由：
1. 幸運 - 四つ葉のクローバーは幸運の象徴と考えられています。
2. 野原 - クローバーは野原でよく見られる植物です。
3. 12 - 「Trifolium duodecim」（十二葉のクローバー）として知られるクローバーの品種があり、これは 12 枚の小葉を持っています。

☕️ スターバックス

これは私のお気に入りの例です。少し型破りな感じがしますが、それでも少し無理があるように思います。少し面白いところもあります（特にパトリックの部分は）。

言葉: グランデ / 認知 / パトリック
答え：スターバックス
理由：
1. グランデ: スターバックスでは、ミディアムサイズのドリンクの 1 つを指すのに「グランデ」という用語を使用しています。
2. 認知: スターバックスは、リラックスしたり、勉強したり、仕事をしたりといった認知機能を必要とする活動を行う人々が集まる人気の場所です。
3. パトリック：テレビ番組「グレイズ・アナトミー」でデレク・シェパード博士を演じた俳優、パトリック・デンプシーはコーヒー好きとして知られ、「マックドリーミー」というニックネームで呼ばれていました。スターバックスは有名なコーヒーショップなので、彼のキャラクターもスターバックスによく通っていた可能性があります。

これらの例とケーススタディは、正解が1つしかない創造性テストには限界があることを示しています。この記事の次のセクションでは、この限界のない他のテストについて考察します。

02代替用途タスクテスト：一般的なアイテムの別の用途を発見する

創造性をテストするためによく使われるもう一つの方法は、代替用途課題（AUT）です。このテストは、人々に日常的な物の様々な用途を探求するよう促すことで、創造性を評価することを目的としています。1967年にJ.P.ギルフォードによって考案されたこのテストは、遠隔連合テストとは異なり、発散的思考を測定するため、正解はありません。

参加者は、身の回りの物について、できるだけ多くの用途を提案する必要があります。例えば、「ノートパソコン」は「お皿」、「ボディシールド」、「ウォールアート」として使えるなどです。これらの回答の独創性と柔軟性は、創造性を測る指標として用いられます。指標には、独創性（用途の多様性）と柔軟性（アイデアの多様性）が含まれます。このテストの目的は、身の回りの物に隠された、より多くの潜在的な用途を発見することです。

しかし、人工知能のリソースと能力には限りがあるため、人間の知能を代替することは困難です。そのため、人工知能を用いて代替利用課題（AUT）テストを実施する場合でも、より正確な結果を得るには人間の介入が必要です。そこで、私は創造性の代理指標を使用しました。これは、アムステルダム大学の研究者がGPT-3の創造性を（代替利用）テストに使用した指標でもあります[20]。

この論文では、研究者らは人間とGPT-3（davinci-002）に、フォーク、ブリキ缶、本という一般的な物体の代替用途を考え出させるよう指示しました。創造性の代替指標として、これらの物体と生成された用途との間の意味的距離、つまり生成された用途が物体自体とどの程度異なっているかを計測しました。

人間のパフォーマンスと比較するために、論文[21]のプロジェクトウェブサイトから人間の回答を入手した。GPTモデルでは、論文で使用されている同様のプロンプトに基づいて、以下のプロンプトを使用した。

次のアイテムについて、賢い、珍しい、興味深い、珍しい、ユーモラス、革新的、または異なっていると人々に思わせるような 10 個の創造的な使用法を考え出してください: {item}

埋め込みコサイン距離に基づく創造性評価の代替案

自然言語処理において、意味的距離（または意味的類似度[22] ）は、2つの単語が類似した文脈で一緒に使用される頻度に基づいて、それらの関連性を測る指標として用いられます。例えば、「コンピュータ」と「スクリーン」という単語は同じ文脈で一緒に使用されることが多いため、意味的距離が短くなる可能性があります。一方、「コンピュータ」と「レンズ豆」という単語は同じ文脈で一緒に使用される頻度が低いため、意味的距離が長くなる可能性があります。

2つの単語間の意味的距離を計算するために、前述の研究論文[23]で説明されている方法を用いた。自然言語処理ライブラリSpacy（en_core_web_lg）を用いて、物体（例：「ラップトップ」）と使用語（例：「プレート」）の単語埋め込みを計算した。そして、 2つの単語埋め込み間のコサイン距離を用いて、それらの意味的距離を計算した。

代替用途タスク（AUT）テストでは、意味的距離が大きいほど、そのアイテムのより「創造的な」使用法を意味します。結果は、3つのアイテム（フォーク、缶、本）について、 GPT-3は人間のパフォーマンスと比較して低いコサイン距離を生成したことを示しています（したがって、人間のパフォーマンスの方が意味的多様性が高い）。しかし、場合によっては、GPT-3.5またはGPT-4の創造性に関する意味的距離スコアが人間のパフォーマンスに匹敵するか、それを上回ることもあります。

人間はGPT-3（創造性の代わりにコサイン距離で計算された意味的距離を使用）よりもアイテムの創造的な使い方を提案する傾向がありますが、GPT-4のパフォーマンスは人間のレベルに近いです。つまり、 GPT-4の回答は元のアイテムからより大きな意味的距離を持ち、そのパフォーマンスは人間のパフォーマンスに似ています。しかし、独創性、柔軟性、有用性といった主観的なカテゴリに関する人間の注釈や意思決定がなければ、コサイン距離を用いた定量化はGPTモデルの創造的な成果のごく一部しか測定できず、限界があります。

人間が生成したアイテムと AI が生成したアイテムの目的を区別できますか?

片方のリストは人間が提案したブリキ缶の代替用途を示しており、もう片方のリストはGPT-4が生成した代替用途を示しています。違いがわかりますか？答えは以下の通りです。

リスト1：ブリキ缶の用途

鏡として
おもちゃを作る
芸術作品として
アンディ・ウォーホルのスタイルを思い出させるものとして。
缶のクリップをキーホルダーとして使います。
宝石として

リスト2：ブリキ缶の用途

ミニチュアドラムセット
風変わりな植木鉢
即席クッキーカッター（臨時クッキーカッター）
自家製キャンプストーブ
気まぐれな風鈴
ミニチュアハーブガーデン

次のセクションのテストでは、拡散的思考力も測定します。

03発散的連想課題: 無関係な単語を 10 個生成します。

3つ目の創造性テストは、2021年に研究者によって作成された発散的連想課題（DAT）です。その名前が示すように、このテストは発散的であり、正解はありません。

このウェブサイトにはテスト版があります。できるだけ関連性のない10個の単語をリストアップするだけで、数分で完了します。ウェブサイトで私がテストした結果は次のとおりです。

DATスコア

スコアの計算方法について疑問に思う読者もいるかもしれません。著者らはここで計算プロセスを説明しています。DATスコアは埋め込みとコサイン距離を用いて計算されます。私はスコア計算プロセスを以下のように変更しました。

各単語のGloVe埋め込みを計算する
各単語のペア間のコサイン距離を計算します。
この値の平均を取る

このプロセスは、代替使用タスク (AUT) で代替案にスコアを付ける際に創造性を評価する方法と似ていますが、唯一の違いは、使用される単語埋め込みモデルです。

モデル間の違いの比較

以下のプロンプトはGPTモデル用であり、DATウェブサイト[24]から取得したものである。

意味や用途のすべてにおいて、できるだけ異なる 10 個の単語を入力してください。
ルール
- 英語の単語のみ。
- 名詞のみ（例：物、オブジェクト、概念）。
- 固有名詞は使用しない（例：特定の人や場所は使用しない）。
- 専門用語などは使用しない。
- 自分で単語を考えます（例：周囲の物体だけを見ない）。

GPT-2は意味不明な文字列を出力するため、以下の結果にはGPT-2は含まれていません。（例は記事末尾の付録に記載されています。）

結果は、新しいモデルの方がDATスコアが高いことを示しています。これは、新しいモデルの方が、意味の異なる10個の単語を生成するというタスクにおいて、より優れたパフォーマンスを発揮することを意味します。

たとえば、GPT-3 によって生成された次の単語リストの DAT スコアは 0.36 です。

夕暮れ、夜、昼、夜明け、朝、午後、夕方、真夜中、薄暮

一方、GPT-4 によって生成された次の単語リストのスコアは 0.95 でした。

象、顕微鏡、砂のお城、銀河、調和、ヘラ、氷河、哲学、タンバリン、干ばつ

DAT テストを紹介する資料によると、スコアは通常 65 ～ 90 の範囲で、平均スコアは 75 ～ 80 の間です。95 点は非常に高いスコアとみなされます。

上の図では、GPT-4のエラーバーがGPT-3よりもはるかに小さいことに注目すべきです。これは次の実験でより顕著になります。「温度」パラメータを調整して、各GPTモデルによって生成される応答のランダム性を変化させます。

「温度」は0から1の間の値で、0に近いほど予測可能性が高く、1に近いほどランダム性が高いとされています。私は0.5から0.9までの温度値を0.1ずつ変化させて実験しました（以前の実験では、「温度」はデフォルト値の0.7のままでした）。「温度」の値が高いほど変動が大きくなり、「温度」の値が低いほど安定すると予想しました。

しかし、結果は、「温度」は意味的距離の違いに比べるとモデル自体ほど重要ではないことを示しています。GPT -3では、10語のリストごとに「温度」が異なるにもかかわらず、DATスコアが大きく変動しました。一方、GPT-4では、「温度」が異なるにもかかわらず、DATスコアは狭い範囲内でほぼ一定であり、ほとんど変動が見られませんでした。

このことは、GPTモデルの3つのバージョンで生成されたテキストを見たときにさらに明確になりました。GPT-3と比較すると、GPT-4で生成されたテキストはばらつきがはるかに少なく、GPT-4は本来正解がないはずのタスクに対して、既に「正解」を知っているかのような印象を与えました。

各「温度」スコアの回答に対し、GPTモデルの各バージョンに10語のリストを50回生成させ、50回の実行全体における各語の出現頻度を調べました。注目すべきは、GPT-3で最も頻繁に生成された単語は「book」で、50回の実行中19回（38%）出現したことです。一方、GPT-4で最も頻繁に生成された単語は「microscope」で、50回の実行中48回（96%）出現しました。

これは、GPT-3 は実際には単語生成においてより変動性が高い一方で、GPT-4 は顕微鏡、火山、象、銀河など、「多様な単語」タスクで高得点になることがわかっている同じ単語を大量に予測することで、安全で信頼性の高い応答を保証していることを確認しています。

この発見は、GPT-4が多様な語彙を生成するためのコードを「解読」した可能性を示唆しています。もしそうだとすれば、GPT-4が「多様な語彙を生成するというゲームをいかにうまくプレイするか」という局所的な最適化を達成しているのではなく、創造性を発揮していると自信を持って言えるかどうかは分かりません。

04結論

「創造プロセスは異なるものの、GPT-3 やその他の生成 LLM の反応が人間と区別できない未来を想像することができます。」
「将来的には、創造プロセスは異なるものの、GPT-3 やその他の生成 LLM の反応は人間のものとほぼ同じになると考えられます。」
— GPT-3の創造性を（代替用途）テストにかける

創造性のように複雑で多面的な要素を、限られたテキストベースのテストセットで正確に測定することは極めて困難です。Visual Remote Associates Testは視覚的な要素を取り入れることでこの課題に対処しようと試みていますが、この評価には依然として固有の限界があります。収束型テスト（Remote Associates Testなど）には「正解」がありますが、それが必ずしも最も創造的または正しい解決策であるとは限りません。一方、発散型テスト（Divergent Association Testなど）には特定の正解はなく、不完全な単語埋め込みに依存しているため、バイアスが含まれる可能性があります。

さらに、これらのテストにおけるGPTモデルのパフォーマンスは、学習中に遭遇したタスクの影響を受ける可能性があり、データの重複につながる可能性があります。例えば、GPT-4は発散連合テストにおいて奇妙な単語の繰り返しを示し、既に正解を知っている可能性を示唆しています。GPT-4がテストデータ、特にコーディングタスクで学習されたという噂があることから、代替テスト手法の開発が今や極めて重要になっています。

これらの限界にもかかわらず、創造性テストは、大規模言語モデルの性能を比較・追跡するためのベンチマークとして依然として役立ちます。将来的には、他の言語でも実験を繰り返し、GPTモデルの創造性を異なる言語領域にわたって評価できる可能性があります。これにより、AI生成コンテンツをより包括的に理解し、これらの言語モデルの能力と限界をさらに探求することが可能になります。

付録05

遠隔連想テスト：GPTモデルによる正解問題の比較

各モデルが正解できる質問の難易度の分布を調べることができます。GPT3、GPT3.5、GPT4は、難しい質問に正解できる割合がほぼ同じであることがわかります。

リモートアソシエーションテストでは、GPT-2 は正しく回答しますが、GPT-4 は誤って回答します。

単語: 猫 / 数字 / 電話
レベル: 中級
答え：電話する
GPT2: 呼び出し
GPT4: ダイヤル


単語: 土地 / 手 / 家
レベル: 非常に難しい
答え：農場
GPT2: 農場
GPT4: プロパティ

単語: 水 / ペン / ソーダ
レベル: 不明
答え：噴水
GPT2: 噴水
GPT4: 液体


単語: measure / worm / video
レベル: 非常に簡単
答え：テープ
GPT2: テープ
GPT4: 長さ


単語: コテージ / レンガ / ケーキ
レベル: 非常に簡単
答え：チーズ
GPT2: チーズ
GPT4: レイヤー


単語: 通って / ディスク / 道
レベル: 難しい
答え：ドライブ
GPT2: ドライブ
GPT4: 円


単語: スカンク / キングス / ボイルド
レベル: 非常に簡単
答え：キャベツ
GPT2: キャベツ
GPT4: 嗅覚


言葉: ジャンプ / キル / 至福
レベル: 難しい
答え：喜び
GPT2: 喜び
GPT4: 高さ

ランダムに生成されたリモートアソシエーションテストの質問に対するGPT-4の回答

以下は、ランダムに生成されたリモートアソシエーションテストの質問に対する GPT-4 の回答です。

リング

この答えはちょっと無理がある気がします。恋愛とか、何かにすごく飽き飽きしているなら、指輪が「特に恋愛関係においては複雑な象徴」であるという部分は納得できますが、最後の部分は無理があるように感じます。

単語: 合併症 | 土星 | 滴
答え：指輪
理由：
1. 複雑さ: 指輪は、特に人間関係においては、複雑さの象徴となることがあります。なぜなら、指輪は、コミットメントとそれに伴う複雑さを表すからです。
2. 土星: 土星は、主に氷の粒子と岩石の破片でできた美しく目立つ環でよく知られています。
3. ドロップ: リングは、金属やプラスチックなどの素材の滴またはループとして見られ、完全な円を形成します。

回転

モンテ・カッシーノ[26]は実際に存在する場所であり、第二次世界大戦中に爆撃を受けました。

言葉: ベルファスト | ムーブメント | モンテ
答え：革命
理由：
1. ベルファストは、アイルランド共和主義運動により大きな政治的、社会的変化を経験した北アイルランドの都市です。
2. 運動とは、多くの場合革命によって引き起こされる政治的および社会的変化を説明できる一般的な用語です。
3. Monte は、世界的な革命と変化の時代であった第二次世界大戦中に重要な戦闘が起こったイタリアの史跡、モンテ・カッシーノを指していると思われます。
したがって、「革命」という言葉は、大きな変化と大変動を表すため、最初の 3 つの単語のそれぞれに関連しています。

ヘルプ

ヘルプセンターを通じてサウサンプトン市と「支援」を結び付ける興味深い方法です...

言葉: 保証 | アシスタント | サウサンプトン
回答: ヘルプ
理由：
1. 保証する: 「Help」は、タスクの成功または完了を保証できるアクションであるため、「ensures」に関連しています。
2. アシスタント: アシスタントはさまざまなタスクやアクティビティで支援を提供するため、「Help」は「assistant」と関連しています。
3. サウサンプトン：「Help」は「サウサンプトン」と関連があります。サウサンプトンは、コミュニティに支援を提供するサウサンプトンボランティアサービスなどのさまざまなヘルプセンターやサービスがあるイギリスの都市です。

インターネット

その視点は非常に正しいと思います。

単語: ウルグアイ | アクセス可能 | 要件
答え：インターネット
理由：
ウルグアイには「プラン・セイバル」と呼ばれる政府の取り組みがあり、国民全員がインターネットを利用できるようにすることで、デジタル包摂の要件を満たし、デジタル格差を縮小することを目指している。

言語

少し一般的かもしれませんが、効果があると思います。

単語: 補償 | アトラス | 接頭辞
答え：言語
理由：
1. 補償 - 言語学では、補償とは、単語の一部の音の変化が単語の別の部分の変化によって「補償」され、単語の全体的な構造が維持される現象です。
2. 地図帳 - 地図帳は地図のコレクションであり、多くの場合、特定の言語でのラベルと説明が含まれています。
3. 接頭辞 - 接頭辞は、異なる意味を持つ新しい単語を作成するために単語の先頭に追加される形態素または言語要素であり、言語と文法の概念です。

健康

健康監視セクションは少し暗いですが、その回答は有効だと思います。

単語: 食事 | 監視 | 生まれた
答え：健康
理由：
1. 食事 - 食事は健康に直接関係しており、全体的な健康状態、エネルギーレベル、特定の病気のリスクに影響を与える可能性があります。
2. 監視 - 健康監視とは、健康実践の計画、実施、評価に不可欠なデータの継続的かつ体系的な収集、分析、解釈です。
3. 誕生 - 人が生まれたとき、その健康は発達、成長、そして全体的な生活の質に長期的な影響を及ぼす可能性があるため、最も重要です。

エリック

この答えは実は非常に興味深いです。

言葉: eric | 数字 | 購入
答え：会計士
         Reason: An accountant is a professional who can be named Eric, works with figures (numbers), and is often involved in purchasing decisions for businesses.

Divergent Association Test 中GPT-2的输出

我在发散性测试的分析中排除了GPT-2，因为它的输出完全是无意义的。即使我尽可能地简化Prompt，它的输出也没有什么意义。我在这里提供一个样例，因为我认为它们实际上还是非常有趣的。

    List 10 words that are as different from each other as possible:
メリークリスマス
         "I'm not a robot, we're the robots"
         "It's a good thing we're all robots"
         "I'm just a robot"
         "I'm just a robot"
         "I'm just a robot"
         "I'm just a robot"
         "I'm not a robot"
         "I'm just a robot"
         "I'm just a robot"

終わり

参考文献

2. https://blog.yenniejun.com/p/creative-writing-with-gpt-3-from

10.

11.

12.

13.

14.

15.

16.

17.

18.

19.

20.

21。

22。

23。

24。

25.

26.

この記事は、原著者の許可を得てBaihai IDPによって翻訳されました。翻訳の転載をご希望の場合は、お問い合わせください。

オリジナルリンク:

https://blog.yenniejun.com/p/exploring-creativity-in-large-language

HUOXIU

大規模言語モデルはどれほど創造的か？GPT-2からGPT-4への進化を探る。