画像が示す意味や事柄をAIが精度よく認識するための新規な深層学習モデルの開発
2021年6月21日
株式会社日立製作所
日立は、画像から人の動作と物体の関係性を検出するAI(人工知能)技術において新規なアルゴリズムを開発し、世界最高の検出精度*1を達成しました。本技術の特徴は、画像内で離れた位置に存在する人と物体の特徴を表す量(以後、特徴量)や、その物体に関連する別の物体の領域を動的に選択し、その特徴量をAIが画像から抽出・集積し、それを用いて人の動きと物体の関係性を高速・高精度に検出できることです。本技術は、画像認識分野で高い水準の提案がなされる国際学会CVPR*2で発表する予定です。従来は多様な情報が含まれる画像から、人と物体の特徴量をAIが精度よく抽出できず、画像が示す意味や事柄を正確に認識することが困難でした。今後、本技術を、安心安全な社会の実現に向けた広範なサービスに適用していきます。
図1 深層学習モデル(物体検出器)を利用した人の動作と物体の関係性を高精度に検出する技術
画像からさまざまな物体の位置や種類を、相互の関係性に基づいて総合的に判断し、認識できる深層学習モデル(以後、物体検出器)を利用した、人の動作と物体の関係性を高精度に検出する技術
上記技術により、画像内の離れた位置に存在する人と物体や、その物体に関連する別の物体について、AIが総合的に特徴量を抽出・収集することが可能になり、人の動作と物体の関係性を自動で検出する技術の検出精度を競う人・物体インタラクション検出タスクにおいて世界最高精度を達成。
本成果の一部を2021年6月19日から25日にかけて開催されるCVPR2021で発表予定。
AIが画像から人の動作と物体の関係性を検出するためには、多様な情報が含まれる画像データから、人と、関連する物体の特徴量を精度よく抽出することが必要です。日立は、膨大な画像から候補者を高速で検索できるAI技術開発の長年の実績に基づき、画像からさまざまな物体の位置や種類を、相互の関係性に基づき総合的に判断し、認識できる深層学習モデル(物体検出器)を利用することが、人と物体の特徴量の抽出に有効と判断しました。そこで、このような物体検出器の公開された技術をベースに、近くに存在する人と物体の特徴量(従来方法)に加え、離れた位置に存在する人と物体の特徴量や、その物体に関連する別の物体の特徴量をAIが高速で抽出できる深層学習モデルを構築しました。本技術を用いれば、例えば人がバスケットボールをシュートする画像の意味をAIが問われた場合、図1に示すように、人のシュート動作だけでなく、ボールやバスケットゴールも考慮することで、精度よく推定することができます。
本技術を用いることで、人の動作と物体の関係性を検出する技術の検出精度を競うために用意されたベンチマークデータセットHICO-DETにおいて検出精度29.9%と、従来の世界水準より約2割高い値が得られました。また図2に示すように、同じくベンチマークデータセットとして用意されたV-COCOにおいて検出精度58.8%と、世界最高の精度を達成しました(2021/4/7時点)。
図2 人の動作と物体の関係性を検出する技術のベンチ―マークデータセットV-COCOにおける検出精度の推移※1
(Paper With Codeの情報を用いて日立が作成)
今回開発した画像認識技術は今後、防犯など生活環境の安心・安全サービスだけでなく、マーケティング分析や、スポーツ鑑賞など広範な分野で活用されることが期待されます。
日立では、社会イノベーション事業におけるAI倫理原則*3に沿った研究開発を進めており、本技術も、開発や社会実装に内在する倫理的なリスクを考慮して開発されました。