WizardCoder のオープンソース大規模モデルは、73% の初回通過率を誇り、最新の GPT-4 を除くすべてのクローズド/オープンソースモデルを上回っています。

出典: マシンハート

編集：デュ・ウェイ、ジウェン

オープンソースに関して言えば、Meta はまさに業界の模範と呼ぶにふさわしい存在です。

ここ数日、大規模コードモデルの分野が再び活気づいています。

まず、Meta上のオープンソースコード向けに特別に設計された大規模モデルであるCode Llamaがあります。商用利用は無料です。結果も非常に優れています。Code Llamaは、HumanEvalとMBPPコードデータセットにおける第一世代のパス率（pass@1）においてGPT-3.5をはるかに上回り、「Unnatural」バージョンのpass@1はオリジナルのGPT-4に迫っています（OpenAIの今年3月のGPT-4技術レポートのデータより）。

リリースからわずか翌日、Phind組織のCode Llama研究者たちは、微調整されたCode Llama-34Bを用いて、HumanEval評価でGPT-4を上回る成績を達成しました。彼らの2つのモデル、Phind-CodeLlama-34B-v1とPhind-CodeLlama-34B-Python-v1は、HumanEvalでそれぞれ67.6%と69.5%のpass@1スコアを達成し、オリジナルのGPT-4の67%を大きく上回りました。

しかし、わずか 1 日後、Phind の調整された Code Llama バージョンは、別の強力な競争相手、WizardLM チームの大規模プログラミングモデルである WizardCoder に直面しました。

チームは、Evol-Instruct を使用して細かく調整された Code Llama に基づくモデルの最新バージョンである WizardCoder 34B をリリースしました。

結果によると、 WizardCoderはHumanEvalで驚異的な73.2%のパス率を達成し、オリジナルのGPT-4、ChatGPT-3.5、Claude 2、Bardを上回りました。さらに、WizardCoderバージョン13Bと7Bがまもなくリリースされる予定です。

GitHub アドレス: https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder
ハギングフェイス: https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0

使用したバージョンはWizardCoder-Python-34B-V1.0です。下の画像は、主流のクローズドソースおよびオープンソースモデル、具体的にはHumanEval pass@1と比較したものです。最新APIのGPT-4（チームがテストし、82.0%を達成）を除き、このモデルは最新APIのChatGPT（72.5%）やオリジナルのGPT-4（67%）を含む、すべてのクローズドソースおよびオープンソースモデルを上回りました。

したがって、WizardCoder-Python-34B-V1.0 は、最新の最先端のオープンソースコードモデルになりました。

WizardLM チームは、WizardCoder-Python-34B-V1.0 のパフォーマンスは 100% 再現可能であるとも述べています。

WizardCoder-Python-34B-V1.0 を体験したい方は、以下のデモをお試しください。

デモアドレス: http://47.103.63.15:50085/

デモを試した後、正確なコードが提供される前から COT (マインドチェーン) が機能しているようだと分かったという人もいました。これは素晴らしいことです。

WizardCoder-Python-34B-V1.0 は GPT-4 よりも間違いが少ないと言う人もいます。

ただし、WizardCoder-Python-34B-V1.0 を実行するには、少なくとも 32GB の RAM を搭載した Mac が必要です。

WizardLM チームはさらなるサプライズをもたらすでしょう。

WizardCoder がコードファミリーの一部となることは目新しいことではありませんが、WizardLM チームは常にさまざまな驚きをもたらしてくれます。

スタンフォード大学の大規模言語モデル向けAlpacaEvalリーダーボードは、LLM（言語モデリング）に基づく完全自動評価ベンチマークであり、より高速で信頼性の高いものです。GPT-4やChatGPTなど、多くの著名なモデルがリーダーボードで上位にランクインしています。その中で、WizardLM 13B V1.2は6位を維持しています。

WizardLMは、2023年4月にCan Xuらによって提案された、複雑な命令からテキストを生成できる大規模言語モデルです。Evol-Instructと呼ばれるアルゴリズムを用いて命令データの生成と書き換えを行うことで、命令の複雑性と多様性を高めています。WizardLMには、7B、13B、30Bの3つのバージョンがあります。

WizardLM の命令微調整コードモデルである WizardCoder は、クローズドソースモデルの独占を打ち破り、HumanEval および HumanEval+ において Anthropic の Claude および Google の Bard を上回りました。

さらに注目すべきは、WizardCoder がオープンソースモデルの最先端 (SOTA) レベルを大幅に向上させ、22.3% のパフォーマンス向上という目覚ましい進歩を達成し、オープンソース分野の「リーダー」として台頭していることです。

以下は、WizardLM チームが GitHub でリリースしたモデルの一部であり、チームの継続的な革新と改善を表しています。

WizardLMとWizardCoderに続き、WizardLMチームは今年8月中旬にWizardMathを発表しました。チームはまた、様々な分野にまたがる複雑な問題の解決に取り組んでいるとツイートしました。

WizardLMチームは今後どんなサプライズを私たちにもたらしてくれるのでしょうか？楽しみに待ちましょう。

HUOXIU

WizardCoder のオープンソース大規模モデルは、73% の初回通過率を誇り、最新の GPT-4 を除くすべてのクローズド/オープンソースモデルを上回っています。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ