|
はじめに<br/>地図サービスにおいて、地図データの精度とカバレッジはサービス品質の重要な要素です。地図データの更新は、軌跡ヒートマップ、実世界画像、衛星画像など、様々な情報源に依存しています。近年、リモートセンシング衛星の増加や高解像度スペクトルカメラの登場、そして衛星画像が持つ広いカバレッジ、良好な視野角、豊富な情報量により、衛星画像は地図データ更新の情報源としてますます重要な役割を果たしています。 衛星画像の活用において、AutoNaviはフロントエンドのユーザー向け表示から、手動によるデータ処理・参照、そして地図データのプロアクティブな発見と更新へと進化してきました。これは、画像データの価値を探求し続ける私たちの継続的なプロセスでもあります。本稿では、AutoNaviのビジョンチームが衛星画像を受動的な参照からプロアクティブな発見へと進化させてきた探求と実践についてご紹介します。 衛星画像の主な要素 画像要素は、幾何学的構造に基づいて、道路要素、地域要素、建物要素の 3 つの主なカテゴリに分類できます。 道路要素には、一般道路、優良道路(幹線道路・補助道路・一般車線、右折車線)、接続点(通過道路、出入口、Uターン地点、交差点など)が含まれます。 地理的特徴には、建築地域、解体地域、水域、農地、山、森林、温室などが含まれます。 構成要素: ビルディングブロック。 データ更新における衛星画像の利点 道路網は地図データの基盤であり、あらゆる道路属性、動的なイベント、そしてPOIガイダンスは、正確な道路網データに依存しています。衛星画像は鳥瞰図のような視点から、地域内の道路網の接続性、複雑な交差点関係、立体交差を評価するための包括的かつ豊富な情報を提供します。さらに、広範囲をカバーし低コストであることから、衛星画像は、サーマルマッピングが疎な地域や移動式データ収集車両が到達困難な地域において、道路網データを効果的に補完することができます。 道路網の 3 つの主要な情報源: 熱画像、衛星画像、リアルタイム データ収集。 ユーザーナビゲーションの目的地であるPOI(Point of Interestの略で、地図データでは建物、店舗、バス停などを指す)座標の精度は非常に重要です。Gaode MapsのTop 1000w POIの統計によると、POIの70%は建物にリンクされている必要があり、POIの目的地と道路沿いの建物の間に強い依存関係があることを示しています。 POI はビルディング ブロックと強い相関関係があります。 衛星画像認識技術の探究と実践 衛星画像のきめ細かなセマンティックセグメンテーション セマンティックセグメンテーションでは、アルゴリズムの精度向上のため、U-Net、ASPP、Non-localといった情報集約に効果的な構造を用いて、主にコンテキスト情報の統合に重点を置きました。また、画像内の顕著な領域、つまり現在のセグメンテーションタスクに関連するカテゴリへのネットワークの焦点を強化するAttentionを導入し、パフォーマンスをさらに向上させました。
画像の意味は比較的単純で構造も比較的固定されているため、高レベルの意味情報と低レベルの特徴の両方が重要です。そのため、基本ネットワーク構造としてU-Netを選択しました。エンコーダとデコーダはそれぞれ4倍のダウンサンプリングと4倍のアップサンプリングを行い、エンコーダによって得られた高レベルの意味特徴マップを元の画像の解像度に復元します。 FCNやDeepLabと比較して、U-Netは4回のアップサンプリング演算を実行し、高レベルのセマンティック特徴量を直接教師あり学習して損失を逆伝播する代わりに、同じステージ内でスキップ接続を使用します。これにより、最終的に復元された特徴マップにはより多くの低レベル特徴量が組み込まれ、異なるスケールの特徴量が融合されるため、マルチスケール予測とDeep Supervisionが可能になります。4回のアップサンプリング演算により、セグメンテーションマップからのエッジ情報などの復元精度も向上します。
異なる膨張率を持つ膨張畳み込みを使用し、特徴を組み合わせることで、マルチスケールの特徴が得られ、グローバル情報とローカル情報を同時に取得します。
画像の顕著な領域に焦点を当て、U-Net の浅い層と対応する深い層からの情報を組み合わせて Attention パラメータを取得し、それを現在の深い層に適用することで、最終的な Attention 結果が得られます。
元画像上の特定の層における畳み込みカーネルの受容野(局所的)は限られています。非局所的手法は、空間内の異なるピクセル間の関係性を現在の層の出力にエンコードすることで、局所的な操作では全体像を把握できないという問題を効果的に解決します。これにより、出力結果に全体情報が追加され、後続の層に豊富な情報をもたらすことができます。 U-Netアーキテクチャ(左上)、アテンション(左下)、非局所(右上)、ASPP(右下) 画像ビルディングブロックインスタンスセグメンテーション(インスタンス) インスタンスセグメンテーションには主に2つの手法があります。1つ目はオブジェクト検出に基づく手法で、オブジェクト検出ボックスを取得した後、バウンディングボックス内の前景と背景をセマンティックにセグメンテーションします。この手法では、オブジェクト検出において領域提案を使用する必要があるため、提案ベース手法と呼ばれます。 もう一つのアプローチは、セマンティックセグメンテーションマップに基づいてピクセルを異なるインスタンスにクラスタリングすることです。これはProposal-Free法として知られています。私たちは2つの主流の手法を比較実験し、構成要素の多様性と「短く幅広い」構造により、Proposal-Based法はProposal-Free法よりも優れたパフォーマンスを示しました。 建物ブロックデータでは、建物の土台の位置と形状が重要な情報となります。しかし、画像の角度により、一部の高層ビルは斜めから撮影されているように見え、また一部の土台の端が不明瞭なため、識別が非常に困難です。 データ分析と計算の結果、ほとんどの建物の土台の形状は屋根の形状と一致していることがわかりました。そこで、屋根のセグメンテーション+屋根から土台へのオフセットというマルチタスク学習スキームを採用しました。セグメンテーションされた屋根の形状に、屋根から土台へのオフセットベクトルを追加することで、土台の形状と位置を比較的理想的な形で復元することができました。 多要素認識効果のデモンストレーション 衛星画像内のさまざまな要素の画像特徴と位相関係に基づいて、一般道路認識、微細道路網認識、地物分類認識、ビルディングブロック認識など、Gaode Maps のさまざまなカテゴリのデータ更新に使用される複数の認識モデルを設計しました。 通常の道路認識(左上) 細粒度道路認識(右上) 地形分類(左下) 建物ブロック認識(右下) 将来の展望と課題
ユーザーはナビゲーションの使用中に、様々なシナリオに遭遇する可能性があります。例えば、新しい道路があるのに、なぜナビゲーションはより長いルートを案内するのでしょうか?なぜ通行不能な道路を案内するのでしょうか?Uターンできる場所があるのに、なぜ数キロも遠くまで運転してUターンしなければならないのでしょうか?道路網データのエラーによって引き起こされるこれらのナビゲーションの逸脱は、今後解決すべき中核的な問題であり、業界全体の課題でもあります。今後は、視覚アルゴリズムの最適化、複数のデータソースからの融合と予測、建設中の道路の積極的な特定など、一連の手法を通じて、現実世界の道路網の変化を迅速に把握できるようにしたいと考えています。
デジタル都市にとって、ビルディングブロックと関心エリア(AOI)は重要な要素です。例えば、ユーザーが店舗に行きたい場合、実際のナビゲーション目的地はその店舗のあるビルディングブロックであり、ユーザーが住宅団地内の特定の建物に行きたい場合、実際のナビゲーション目的地はその団地の入り口です。したがって、ビルディングブロックとAOIの正確性と完全性は、ナビゲーションの最後の数百メートルにおけるユーザーエクスペリエンスに直接影響します。さらに、近年のパンデミック対策の取り組みと相まって、デジタル都市におけるビルディングブロックとAOI情報は、オフィスビル、住宅地、その他の地域におけるパンデミックの予防と制御のための強力なデータサポートを提供できます。今後は、衛星画像の発見機能を活用し、現実世界とつながり、より良い移動を実現することで、デジタル都市のデータインフラストラクチャをさらに改善したいと考えています。 |