HUOXIU

データが王様である時代に、NLP データ業界は次のブルーオーシャンとなるでしょう。

データがNLPを席巻するにつれ、多くのビジネスチャンスが生まれています。しかし、客観的に見て高い要件が、参入障壁の低い多くのプレーヤーを阻んでいます。コンピュータービジョンと比較すると、NLPデータはブルーオーシャンと言えるでしょう。

スタッフは整然と並んで座り、それぞれが熱心にパソコンに向かい、次々と「アイテム」が目の前を通り過ぎ、標準化された処理を経て次のステップへと移っていく……。ここは、実は人工知能業界のデータラベリングオフィスエリアの一角。

ディープラーニングの研究の焦点により、労働集約的なデータ注釈付けは、人工知能技術の応用を促進する上で重要なリンクの 1 つです。

長らく、AIの発展において、データ収集とラベリングの分野はあまり注目されてきませんでした。結局のところ、アルゴリズムや計算能力といったハイエンドなものと比較すると、AIデータの生成は、AI技術の「技術的感覚」とは常に多少異なるイメージを帯びているからです。

しかし、AIがより深く発展するにつれて、これが誤解であったことに気づく人が増え、AIデータ業界はより専門化、より質の高い方向へと活況を呈しています。

2018年にZhiyanが発表した「2019-2025年中国データラベリングおよびレビュー産業市場専門分析および投資展望予測レポート」によると、この産業の市場規模は2018年に52億5,500万元に達し、2020年には100億元を超えると予想されています。業界関係者の中には、AIプロジェクトへの資金の10%がデータ収集とラベリングに使用され、データラベリング産業の最終的な市場規模は2020年に150億元に達すると予測する人もいます。

この市場に参加している企業には、BATやJD.comなどのインターネット大手や、高品質な配信に重点を置くYunCe Dataなどの専門データプラットフォームなどがある。

膨大な可能性を秘めたデータ収集とアノテーションは、NLP(自然言語処理)やCV(コンピュータービジョン)など、いくつかの分野に分けることができます。データ需要の増加とデータ品質への要求の向上に伴い、NLPの扱いはますます困難になっています。AIデータ業界は、いずれNLPがもたらす課題に直面し、これらの課題によって生み出された市場空間も引き継ぐことになるでしょう。

チップ製造プロセスと大規模並列コンピューティング技術の発展により、コンピューティング能力は急速に向上しました。その結果、AI機能の向上は主にアルゴリズムとデータに重点​​が置かれるようになりました(コンピューティング能力の向上は依然として価値がありますが、その相対的な価値は必ずしも明確ではありません。例えば、IoT端末デバイスに過剰なコンピューティング能力要件を設定することは不可能です)。

この点において、人工知能技術は長年にわたり、「支配を交代する」というスパイラル関係を示してきました。

アルゴリズムのブレイクスルー後、処理できるデータ量が膨大になることが多く、データ需要が急増します。AIデータが何らかの手段によって新たなレベルに達すると、元のアルゴリズムは「不十分」となり、改善が必要になります。

2018 年 11 月、Google AI チームは画期的な BERT モデルを発表しました。このモデルは NLP 業界で大きな反響を呼び、以前の時代に ResNet がコンピューター ビジョンにもたらした価値と同様に、NLP 分野におけるマイルストーンと見なされました。

BERTベースのアルゴリズムシステムはAI分野で輝き始め、それ以来、NLPではデータの重要性が第一に挙げられるようになりました。

これら 2 つの要因が組み合わさって、NLP データの収集と注釈付けはさらに困難になっています。

1 つの要因は、NLP 自体が CV と比較して AI データに対してより複雑な要件を持っていることです。

CVは「知覚ベース」AIの略称です。データに関しては、Ground Truth(標準的な回答と大まかに理解できるもの)を備えています。例えば、画像内の車、人、車線などが、まさにその通りの形で認識されます。データ収集やアノテーションの際に「知覚エラー」が発生する可能性は低いです(画像出典:CloudTest Data)。

一方、NLPは「認知型」AIであり、人間の様々な理解に基づいて異なる意味を生み出し、推測を必要とする様々な意図を表現します。グラウンドトゥルースは主観的です。

例えば、「この部屋はオーブンだ」と言う場合、部屋のレイアウトが悪いという意味かもしれませんが、実際には部屋が暑すぎるという意味である可能性が高いでしょう。人間の言語の魅力的な特性である「言葉は有限であるにもかかわらず、意味は無限である」という特性は、AIに適用する際には多面的かつ深く探求する必要があります。

もう 1 つの要因は、AI データの全体的な価値が「飼料」から「粉ミルク」に移行し、NLP にとってより困難なものになったことです。

ほとんどのアルゴリズムは、従来のラベル付きデータが十分にあれば、認識精度を95%まで向上させることができます。しかし、商用化には明らかにそれ以上のニーズがあります。洗練されたシナリオベースの高品質なデータが鍵となっています。95%から99%、さらには99.9%に向上させるには、大量の高品質なラベル付きデータが必要であり、これがモデルやアルゴリズムの飛躍的進歩を阻む重要な指標となっています。

しかし、CloudTest DataのゼネラルマネージャーであるJia Yuhang氏は、「画像のラベル付けには厳格なルールがあり、標準化されたガイダンス文書に従って行うことができますが、NLPデータは言語の豊かさに対応しており、コンテキストなどの背景情報と併せて理解・処理する必要があります」と述べています。高いレベルでのパフォーマンス向上という点では、NLPデータはより困難です。

例えば、飛行機の予約という一見単純なAI対話シナリオでは、チケットを予約したい人は、「上海行きの飛行機はありますか?」「出張に行くのですが、飛行機を調べてもらえますか?」「飛行機を調べてください。来週の火曜日に上海に出発します」など、さまざまな方法で表現します。自然言語には、この意図を表現するための無限の組み合わせがあり、AIがそれらを「認識」するには、大量の高品質データでトレーニングする必要があります。

そこで、ビジネスチャンスについてさらに理解を深めていきましょう。

データ収集とラベリングに携わる企業は数多く存在し、テクノロジー大手の「サイドビジネス」からAIに特化したデータプラットフォームまで多岐にわたります。主なプレーヤーを下図に示します。

さらに、中小規模の事業者も無数に存在し、数十人規模の小規模事業者も存在します。中国では現在、全国で数百社がデータラベリングサービスを提供しており、専従のデータラベリング従事者は約20万人、パートタイムのデータラベリング従事者は約100万人に上ります。

習得は簡単だが、習得は難しい、という上記の 2 つの要因により、NLP データは大きな課題に直面しており、それをうまく実行できる人はさらに少なくなっています。

データ主導のNLPによって、多くのビジネスチャンスが創出されています。しかし、客観的に見て高い要件が、参入障壁の低い多くのプレーヤーを阻んでいます。NLPデータは、CVと比較するとブルーオーシャンと言えるでしょう。

チャンスがあれば、必ず参入する人が出てきます。つい先日、中国人工知能サミットで中国のAI技術サービスプロバイダー上位50社が発表されました。このリストには、SenseTimeやMegviiといったスター企業に加え、唯一AIデータサービスプロバイダーとしてCloudTest Dataも名を連ねていました。これは、AIデータが「主流」に入り込み、ブルーオーシャンでユニコーン企業を生み出そうとしていることを示しています。

もちろん、これはプラットフォームが NLP データの問題点を解決できるという前提です。

実際、CV の「認識」要件は、「肉体労働」でほとんどのデータ生成作業を処理できることを意味します (車や人を認識できない人はいますか?)。ただし、「認知」NLP データが突破するには、「肉体労働」だけではもはや不十分です。

少なくとも現時点では、業界関係者は 4 つの分野で対策を講じており、NLP データの問題点に対処しています。

1. ビジネス モデル: 商業化段階で NLP に対応するために「カスタマイズ」を使用します。

メディアが M-Turk について Google のエンジニアに話したところ、収集されたデータの品質が不均一であるため、「アノテーションにはあえて Turk を使用しない」とエンジニアは答えました。

クラウドソーシング(公開プラットフォームにタスクを投稿し、自由に受託する)はかつてAIデータ業界の主流モデルであり、データの豊富さと多様性に強みを誇っていました。しかし、データ品質の管理は比較的困難でした。今日では、データ要件がますます高度化する中で、多くのクライアントが「カスタマイズ」(マンツーマン、プロジェクトベースのデータタスク完了)サービスモデルに移行しています。

例えば、CloudTestの「カスタマイズ」サービスモデルは、クライアントの複雑で高度な、パーソナライズされたデータ要件に対応します。具体的には、NLPにおけるデータ収集は、特定の個人(高齢者、女性、子供)、特定のシナリオ(家庭、オフィス、職場など)、そして音声/テキストデータ収集における様々な方言のニーズに対応します。データアノテーションにおいては、クライアントのニーズに紐付け、シナリオベースの要件を明確に理解した上で、可能な限り具体的かつ標準化されたガイダンスとともにデータを配信します(同じ文でも、コミュニケーションの目的によって異なるアノテーションが必要になる場合があります。例えば、「お金がない」は、クレジットサービスでは潜在顧客を意味しますが、金融サービスでは拒否を表します)。

もちろん、クラウドソーシングモデルにも利点があります。比較的単純なデータニーズを大量に、かつ軽量に処理できるのに対し、シナリオベースのカスタマイズモデルはより専門的で、主に自社の従業員と拠点に依存しています。例えば、CloudTest Dataは華東、華南、華北に自社構築のアノテーション拠点を有しています。このアプローチは、シナリオベースとカスタマイズニーズをマッチングさせ、平均受注額の高いものにするのに適しています。NLPはその典型的な例です。

2. 経営プロセス:「大規模生産」から「リーン生産」へ

データの収集とラベル付けは工場の組立ラインによく似ているため、データの精度を向上させることは製造業のアップグレードに似ており、主に管理プロセスの最適化に反映される「大規模製造」から「リーン製造」への移行が必要です。

プラットフォームからタスクを引き受けるクラウドソーシング チームであれ、クライアントと直接つながるカスタマイズされたサービス プラットフォームであれ、少なくともその場しのぎのアプローチは、NLP のデータ要件にはもはや適していません。

高精度と高効率はどちらも管理プロセスの最適化に依存します。クラウドテストデータを例にとると、具体的なアプローチには主に以下の方向性が挙げられます。

このプロセスには複数の段階的なチェックが含まれます。ラベラーの検査結果は別のグループによってレビューされ、不適格と判断されたものは不合格となります。最後に、品質管理部門がランダムチェックを実施します。これが一般的なプロセスですが、手順はより複雑になる場合があります。

人材タイプの基本的な分類: テキスト、音声、および画像の注釈担当者は互換的に使用しないでください。

関連するシナリオの専門知識に基づいてタスクの割り当てを優先順位付けします。同じ条件下では、対応するシナリオに精通しているユーザーに最初にタスクが割り当てられます。

定期的な会議システム: 洗練された管理体制を持つ製造業と同様に、朝会、夕会、週会、月会があり、問題点をまとめ、改善を促す会議が行われます。

...

管理プロセスについてどれだけ話しても、最も重要なのはそれを日常業務に実装することです。

3. 「低レベルの反復」から脱却するための職業スキルと専門訓練

「参入障壁がない」ということは、価値が低いことを意味します。個々の能力という点では、NLPは、特に特定のシナリオ要件において、「参入障壁がない」という理由でこの分野に参入する人々を徐々に見捨てつつあります。

たとえば、NLP データ注釈の非常に簡単な例を次に示します。

その要件は中学校の中国語レベルに相当するかもしれない。しかし、NLPのデータ要件は、そのようなアノテーションをはるかに超えている。

たとえば、カスタマー サービスがユーザーに製品を購入するかどうかを尋ねた場合、スタッフは「家族と相談する必要があります」「検討します」「ただいま対応できませんので、後ほどかけ直してください」など、さまざまな意図を正確に示す必要があります。

一方で、これはプラットフォームの詳細なシナリオ分析に依存しています。そのため、CloudTestのインテリジェントカスタマーサービスでは、1つのシナリオのインテントラベリングを10~20の主要カテゴリと数百のサブカテゴリに分割しています。ビジネスニーズに応じて、ラベリングはさらに細分化される可能性があります。これにより、データのラベリングをより洗練させ、ニーズに直接対応することができます。

一方で、これは人材能力の継続的な育成と切り離すことはできません。肉体労働者を専門知識を備えたビジネスパーソンへと育成していくのです。その好例が、YunCe Dataが金融サービス分野における数ヶ月にわたる専門研修を通じて、営業の視点からユーザーの言葉の意図を推測できる営業担当者を育成したことです。

例えば、カスタマーサービスのコミュニケーションにおいて、ユーザーの「運転中です」という短い返答に対して、NLPアルゴリズムは「車の所有者」「運転手」「明らかな拒否反応なし」「興味があるかもしれない」といった複数のタグを付与する必要があるかもしれません。CloudTestによると、トレーニングの目標は、ラベリング担当者が専門スタッフのレベルに到達できるようにすることです。

明らかに、NLPラベル付きデータのトレーニングの初期段階で、大手金融機関のAIカスタマーサービスロボットをほぼ同等の基本認知知能レベルまでトレーニングした後、販売コンバージョンやサービス満足度の向上などのさらなる改善には、特定のニーズにさらに合わせた、より高品質のNLPラベル付きデータが必要です。

NLP分野におけるアノテーションのすべてが人材育成で解決できるわけではないことに注意が必要です。医学や法律といったより専門的な分野では、専門家によるアノテーション(医師や弁護士などをアノテーションに参加させるなど)が依然として必要となる場合があり、これはより複雑な問題です。

4. ツールの使いやすさを継続的に改善します。

良い仕事をするには、まず適切なツールが必要です。NLPアノテーションはCVのような空間データ要件を必要としませんが、利便性を向上させ、標準の効率と精度を高めるツールの価値は過小評価されるべきではありません。

この点では、業界の大手企業が先行しています。海外では、Google Fluid AnnotationがかつてNLPアノテーションの「最高」ツールとされていました。中国では、大手企業や専門プラットフォームのツールも広く利用されています。CloudTest Dataはツールの革新において明確な優位性を持っています。

結局のところ、最適なアノテーションツールとは、ニーズに合ったツールです。特定の要件に合わせてカスタマイズされたデータツールの開発は、文脈化されたデータの作成において重要な役割を果たします。

いずれにせよ、「より便利に」するための努力を継続的に増やしていくことは、決して止まることのないプロセスです。

AI分野では、大企業が最前線に立っていますが、市場が巨大企業に独占されているわけではなく、中規模のAIプラットフォームが重要なプレーヤーとして台頭するケースが多く見られます。AIデータサービス分野を例に挙げると、エンタープライズサービスに注力するCloudTest Dataのような独立系サードパーティプラットフォームは、データ配信プロセス全体を通して顧客中心の企業DNAを貫いています。

典型的な例として、高精度なNLPデータを得るには、ビジネスサービスの視点から顧客のニーズを綿密に把握する必要があります。例えば、ユーザーのシナリオは何でしょうか?チケット予約であれば、AI Q&Aは主にチケット予約に焦点を当てるべきであり、対応するNLPデータにはその方向のラベル付けを行う必要があります。

このプロセスでは、データサービス担当者がニーズを分析・予測し、事前に提案を行う必要があります。顧客とのコミュニケーションと確認を何度も重ねた上で、初めて実際の作業に着手できます。大企業は技術アーキテクチャの構築、最先端技術の開発、クラウドサーバーセンターの大規模並列処理能力などに注力する傾向があり、この作業に時間を割くことが困難です。このような状況では、特化したAIデータプラットフォームがより大きなメリットを発揮します。

さらに、データ サービスのセキュリティも競争環境に影響を与えます。

データ収集・ラベリング業界では、データのコピーは技術的に非常に簡単で、人件費や運用コストを大幅に削減できますが、顧客に大きな損失をもたらす可能性があります(特に競合他社に取得された場合)。競争の激しいAI環境において、データのプライバシーとセキュリティの確保は、一部の顧客にとって主要な意思決定基準となっています。

結論として、AIデータ顧客、特にNLPデータ顧客を獲得するには、高い専門性、高い精度、高い効率性、そして強固なセキュリティが不可欠です。業界の巨大企業と専門AIデータプラットフォームは、爆発的な成長を遂げているこの時期に、懸命に努力し、数多くの取り組みを行っています。NLPデータ業界は現在、ブルーオーシャン市場にあります。つまり、巨大企業が独占することのないブルーオーシャンです。


http://www.woshipm.com/ai/3832573.html