|
想像してみてください。もしあなたの世界から突然電気が消えてしまったら、どうなるでしょうか?目覚まし時計も携帯電話も、照明もインターネットも、コンピューターも地下鉄も飛行機も… 現代生活のあらゆる便利さは、1752 年 6 月の雷雨から生まれました。フランクリンが凧を揚げ、当時最も神秘的で危険な力の 1 つと考えられていた電気を世界に「見せる」ことができたのです。 近年、街中に増え続けるスマートカメラへの警戒心はますます強くなり、雷に打たれたような不安感を抱く人も少なくありません。コンピューターが私たちの足跡を記録し、いつでも移動経路を監視できるという状況は、数え切れないほどのSF映画で描かれてきました…。 これは明らかに、人工知能(顔認識)技術が強力すぎるからではなく、少なくとも大規模応用レベルでは、その強力さが不十分だからである。例えば、正確な識別と個人のプライバシーのバランスをとる上で、人物再識別(ReID)は非常に有用なコンピュータービジョン技術である。 比較的低品質の顔画像を使用して、異なるカメラから同じターゲットタスクをすばやく取得できるためです。 これによりどのような変化がもたらされるでしょうか? まず、人の顔は指紋と同じように固有のものであり、ReID 技術は高精度の顔画像に依存しないため、公共の場所で個人情報が収集されるという懸念を回避できます。同時に、ReID は顔認識が失敗した場合に代替手段として機能できるほど十分に高い解像度を備えています。 そのため、ReIDはコンピュータービジョンテクノロジー企業にとって重要な焦点となっています。最近、Yitu TechnologyはReID分野において画期的な進歩を遂げ、3つの権威あるグローバル産業データセットにおいて最先端技術(SOTA)の新記録を樹立しました。そのアルゴリズム性能は、業界最高水準に達しています。 この規格は何を意味し、ReID の産業化にとって重要な機会となるのでしょうか? 産業の新たな推進力:ReIDの価値と障壁 ベンジャミン・フランクリンと彼の凧揚げ実験は、人類が近代文明へと歩み始めた第一歩でした。それ以前は、電気のある生活を想像できる人は誰もいませんでした。しかし今日では、何十億もの人々が電気のない生活を想像できません。 時代のニーズや社会慣習(しばしば障害となる)の影響を受けて、テクノロジーの進歩に貢献する人々は常に存在します。ReIDはその好例です。 顔認識/コンピュータービジョンを都市に応用することで、私たちの生活はますます便利になっていることに、ほとんどの人が同意するでしょう。 例えば、インテリジェントカメラは交通の流れやナンバープレートを識別し、効率的で低コストのセキュリティを実現できます。また、AIは駅や空港などの公共の場所に配備して犯罪者を検出・逮捕したり、無人スーパーマーケットや店舗のユーザーエクスペリエンスを向上させることができます。 例えば、誰もがよく知っている携帯電話のフォトアルバムでは、プライバシーを侵害することなく写真をクラスタリングするシステムを実現するためにReIDは欠かせない技術となっています。 2018年、トランプ政権がメキシコ南部国境で不法移民を追跡することを決定した際、移民税関捜査局(ICE)などの機関が顔認証技術を使用することで、誤った身元確認や拘留につながる可能性があるという懸念がありました。当時、顔認証技術は有色人種や女性の身元確認において依然として高いエラー率を誇っていました。 ReIDテクノロジーはスマートな暮らしをより正確かつ秩序あるものにできるにもかかわらず、なぜ習得がこれほど難しいのでしょうか?おそらく、3つの技術的な課題が関係していると考えられます。 1. データが見つかりません。 ほとんどのカメラの画質、解像度、そして環境条件は大きく異なることが知られています。交通機関、工業製造、都市計画といった現実世界のシナリオでは、画像の99%に顔が写っていないか、顔が数ピクセル程度と非常にぼやけています。そのため、顔認識アルゴリズムは多くのタスクで失敗し、ReIDによる処理が必要になります。 高精度なReIDモデルは、複数のカメラから撮影された画像から同一人物を認識する必要があるため、その学習には十分に大規模で連続的な行動データのデータセットが必要となります。しかし、他のコンピュータービジョンタスクと比較して、公開されているReIDデータセットに含まれるIDの数は比較的少なく、同一人物の外観はカメラによって大きく異なる可能性があります。これらの要因はアルゴリズムの分析を妨げ、アルゴリズム設計において多大な革新と研究を必要とします。 2. 圧力を計算します。 前述の通り、ReIDは大規模な集団の行動軌跡分析によく利用されるため、システムが処理する必要があるデータ量は指数関数的に増加します。行方不明者の捜索に使用される1:Nレベル(単一特徴と複数特徴)の顔認識であっても、角度や照明といった要素の複雑さにより、特徴抽出、比較、そして判断のすべてに膨大な計算能力が必要になります。 しかし、既存のスマートカメラはローカル端末に十分な計算能力を配備できないため、多くの場合、認識と処理のためにデータをクラウドにアップロードします。これは一定の遅延を引き起こし、多くの重要なタスクを遅らせるだけでなく、都市脳における「データ混雑」を引き起こし、システム全体の効率を低下させる可能性があります。 3. コストの制約。 では、カメラなどのエッジデバイスにチップを追加することを検討してみてはどうでしょうか?答えは単純に、高価だからです。高スループットのコンピューティングチップは、多くの場合、より高い性能と安定性を意味し、必然的に製造プロセスにおいてより微細なナノメートル単位の精度が求められます。ReIDは幅広い産業シナリオに導入する必要があり、街や工場のすべてのカメラにこのような高性能ReIDチップを搭載するには莫大な費用がかかることは間違いありません。そのため、ReIDアルゴリズムの大規模な商用応用は制限されます。 ReIDを技術的なビジョンから現実のものとするには、明らかに大きな課題と障害が伴います。だからこそ私たちは、ReIDを活用したユーザーエクスペリエンスの向上に尽力する企業を綿密に追跡してきました。 エレクトロニクスで現実を織り込む:YituがReIDをどう変えるか フランクリンの凧が人類と電気の繋がりの始まりであったとすれば、電気における規模の経済の真の始まりはジョージ・ウェスティングハウスに遡ります。彼は交流(AC)によってエジソンの直流システムを破り、発電所と遠方の需要者を繋ぎました。 この歴史的な対決と同様に、ReID における Yitu のパフォーマンスは、ReID の実際の実装において重要な役割を果たしました。 なぜそんなことを言うのでしょうか? まず、YituはReIDアルゴリズムの開発プロセスをアップグレードしました。AutoMLなどの最先端技術を組み合わせることで、モデルパラメータの自動探索と反復処理を革新的に実現し、研究者が手作業でアルゴリズムを設計・最適化していた従来の開発プロセスを変革しました。これにより、モデルの学習コストが削減されただけでなく、アルゴリズムの汎用性も向上しました。 第二に、ReIDアルゴリズムの認識性能がさらに向上しました。Yituが独自に開発したアルゴリズムは、業界で最も影響力のある3つのReIDデータセット(Market1501、DukeMTMC-ReID、CUHK03)において、「ランク1精度」と「平均精度(mAP)」という2つの主要指標の6つのデータポイントすべてを向上させました。mAPはさらに向上し、現在業界1位にランクインしています。これにより、このタスクにおける中国のAIにおけるリーダーシップはさらに強化されました。 さらに、ReIDアルゴリズムの実用化の可能性はますます高まっています。実世界での応用において、Yituは自社開発のAIチップQuestCoreを活用し、2017年から2018年にかけて、服装と歩き方の特徴のみに基づいて、顔認証に匹敵するReIDの精度を達成しました。当時、顔認証は空港や駅などの公共の場でのセキュリティ対策に既に広く利用されていました。つまり、ReIDは低コストのソリューションとして、できるだけ早く実世界のシナリオに実装され、人々がコンピュータービジョンがもたらすシームレスな体験を安心して享受できるようになると期待されています。 Yitu のイノベーションにより、ReID アルゴリズムのコストパフォーマンスが向上し、アプリケーション エクスペリエンスがスムーズになり、理想的なテクノロジーと現実世界の課題との関係がバランスされると思われます。 課題と機会:ReIDの将来 都市に歩行者に対する見方を変えさせることは容易なことではないことを認めなければなりません。 一方で、カメラシステムの建設基準、密度、進捗状況は都市ごとに異なり、ReIDの「スキルツリー」を統合的に解放し、包括的な置き換えを実現するには、技術の成熟度とは無関係な課題が依然として多く残っています。 さらに、複雑な現実世界のシナリオという課題にも直面しています。ReIDアルゴリズムが高い一次ヒット率を達成したとしても、それはアルゴリズムが特定のシーンデータセットの中で、識別または照合が最も容易な画像を正確に見つけられるということを意味するに過ぎません。しかし、現実世界のシナリオは、これらの限られたデータセットよりもはるかに複雑です。データのぼやけ、建物の遮蔽、天候の変化など、さまざまな要因がモデルの実際のパフォーマンスに影響を与える可能性があります。したがって、ReIDモデルが現実世界のタスクに対応できると結論付けるのは時期尚早です。 このため、Yitu Technology は SOTA チャートでトップに立ち、業界最高のパフォーマンスを達成したにもかかわらず、Yitu の R&D 担当者は、これら 3 つの学術データセットは業界最高レベルを示すものではなく、実際のアプリケーションではさらに印象的なパフォーマンスが達成されるだろうと率直に述べています。 コンテストで使用されるデータセットはサイズと分布が固定されており、一種の「試験課題」となっています。一方、Yitu が実際に実施する ReID プロジェクトでは、より複雑なデータ、環境、パラメータに遭遇し、「オリンピックレベル」の課題となります。 もう一つ認識しなければならない点は、研究開発におけるブレークスルーだけでは、端末カメラが高スループットのリアルタイムコンピューティングを実現するには到底不十分であるということです。都市環境に十分なエッジコンピューティングノードが存在するかどうか、そして強力なコンピューティングサポートを提供するエッジコンピューティングデータセンターが存在するかどうかは、業界チェーン全体、さらには都市の意思決定者による共同の協力が不可欠です。 ReID の産業化の過程でテクノロジー企業がどのような役割を果たしてきたかは簡単にわかります。 Yitu を例に挙げると、同社は一方では自社の科学的研究の優位性と新興アルゴリズムを組み合わせることで、AI アルゴリズムの実装を加速しています。 例えば、Yituはチップ研究開発におけるハードウェア能力と汎用アルゴリズムを組み合わせ、ソフトウェアとハードウェアの協業開発を実現しました。これは、ランキング上位の獲得に繋がっただけでなく、さらに重要な点として、ReIDをチップに統合する可能性を活性化し、コンピューティングパワーの需要を解放し、チップ業界、ひいては社会全体のインテリジェンスの進歩を促進しました。 顔認識が社会の隅々にまで浸透しつつあるように、ReIDアルゴリズムもスマートライフに欠かせない要素となるでしょう。YituはQuestCore™ AIチップとReIDモデルアプリケーションを活用することで、膨大な商業的可能性を解き放ち、ReIDを基盤とした新たな産業チェーンを構築します。 ベンジャミン・フランクリンが1752年に凧揚げをするために屋根の上に登ったとき、彼はおそらく、それが科学技術とその生産インフラに対する世界の理解を変えることになるとは思っていなかったでしょう。 都市コンピューター ビジョン アプリケーション向けの ReID の反復は、人類に新たな視点と輝きをもたらし、近い将来、私たちの生活に不可欠な一部となるでしょう。 権力の高い場所と社会の片隅の組み合わせが、Yitu と AI 業界全体が根付く広大な土壌を形成しています。 |