多関節体の姿勢推定: コンピュータービジョンで人間の動きを解き放つ
By Fouad Sabry
()
About this ebook
多関節体のポーズ推定とは
コンピュータ ビジョンの分野において、関節で構成される多関節体の姿勢を復元する技術とシステムの研究。 画像ベースの観察を使用した剛部品の評価は、多関節体の姿勢推定と呼ばれます。 これは、観測と位置を関連付けるモデルの複雑さと、それが役立つシナリオの範囲の広さのため、コンピューター ビジョンにおいて最も長く続く課題の 1 つです。
方法 メリット
(I) 次のトピックに関する洞察と検証:
第 1 章: 関節による身体姿勢の推定
第 2 章: 画像セグメンテーション
第 3 章: 同時ローカリゼーションとマッピング
第 4 章: ジェスチャ認識
第 5 章: ビデオ追跡
第 6 章: 基本マトリックス (コンピューター ビジョン)
第 7 章: 動きからの構造
第 8 章: コンピューター ビジョンにおけるバッグオブワード モデル
第 9 章: ポイント セットの登録
第 10 章: マイケル・J・ブラック
(II) 多関節体の姿勢推定に関する一般のよくある質問に答える。
(III) 実際の例
本書の対象者
専門家、大学生、大学院生、愛好家、愛好家、 あらゆる種類の多関節体のポーズ推定に関する基本的な知識や情報を超えたいと考えている人。
Read more from Fouad Sabry
コンピュータビジョン [Japanese]
Related to 多関節体の姿勢推定
Titles in the series (100)
修復: コンピュータビジョンにおけるギャップを埋める Rating: 0 out of 5 stars0 ratingsコンピュータビジョン: コンピュータービジョンの深部を探る Rating: 0 out of 5 stars0 ratingsコンピュータステレオビジョン: コンピュータービジョンにおける奥行き知覚の探求 Rating: 0 out of 5 stars0 ratings画像ヒストグラム: 視覚的な洞察を明らかにし、コンピューター ビジョンの画像ヒストグラムの深さを探る Rating: 0 out of 5 stars0 ratings画像圧縮: ビジュアルデータ最適化のための効率的なテクニック Rating: 0 out of 5 stars0 ratingsノイズ減少: 明瞭度の向上、コンピュータ ビジョンのノイズ低減のための高度な技術 Rating: 0 out of 5 stars0 ratingsヒストグラム均等化: 画像のコントラストを強化して視覚認識を強化 Rating: 0 out of 5 stars0 ratings視覚: 計算による視覚処理に関する洞察 Rating: 0 out of 5 stars0 ratingsガンマ補正: コンピューター ビジョンの視覚的な鮮明さを高める: ガンマ補正技術 Rating: 0 out of 5 stars0 ratingsトーンマッピング: トーン マッピング: コンピューター ビジョンにおける視点を照らす Rating: 0 out of 5 stars0 ratings水中コンピュータビジョン: 波の下でコンピューター ビジョンの深さを探索する Rating: 0 out of 5 stars0 ratingsホモグラフィー: ホモグラフィー: コンピューター ビジョンの変換 Rating: 0 out of 5 stars0 ratings色空間: コンピューター ビジョンのスペクトルを探索する Rating: 0 out of 5 stars0 ratingsアフィン変換: 視覚的な視点を解き放つ: コンピューター ビジョンにおけるアフィン変換の探索 Rating: 0 out of 5 stars0 ratingsレティネックス: レティネックスでコンピュテーショナル ビジョンの秘密を明らかにする Rating: 0 out of 5 stars0 ratings適応フィルタ: 適応フィルタリングによるコンピュータビジョンの強化 Rating: 0 out of 5 stars0 ratingsコンピュータビジョンの基本マトリックス: 「コンピュータ ビジョン」の範囲内で、「コンピュータ ビジョン 基本マトリックス」というタイトルの本のサブタイトルを提案してください。提案されたサブタイトルには「:」を含めないでください。 Rating: 0 out of 5 stars0 ratingsバンドル調整: 正確な再構築のためのビジュアルデータの最適化 Rating: 0 out of 5 stars0 ratingsハフ変換: コンピューター ビジョンにおけるハフ変換の魔法を明らかにする Rating: 0 out of 5 stars0 ratingsラドン変換: ビジュアルデータに隠されたパターンを明らかにする Rating: 0 out of 5 stars0 ratingsフィルターバンク: コンピューター ビジョンのフィルター バンク技術に関する洞察 Rating: 0 out of 5 stars0 ratings異方性拡散: 異方性拡散による画像解析の強化 Rating: 0 out of 5 stars0 ratingsカラーマネジメントシステム: デジタル環境における視覚認識の最適化 Rating: 0 out of 5 stars0 ratings共同写真専門家グループ: 共同写真専門家グループ規格でビジュアルデータの力を解き放つ Rating: 0 out of 5 stars0 ratingsランダムサンプルのコンセンサス: コンピュータビジョンにおけるロバスト推定 Rating: 0 out of 5 stars0 ratings射影幾何学: コンピューター ビジョンにおける射影幾何学の探索 Rating: 0 out of 5 stars0 ratingsアダマール変換: コンピューター ビジョンにおけるアダマール変換の力を明らかにする Rating: 0 out of 5 stars0 ratings幾何学的ハッシュ: 画像の認識とマッチングのための効率的なアルゴリズム Rating: 0 out of 5 stars0 ratingsブロブの検出: ビジュアルデータのパターンを明らかにする Rating: 0 out of 5 stars0 ratings人間の視覚系モデル: 知覚と処理を理解する Rating: 0 out of 5 stars0 ratings
Related ebooks
人間の視覚系モデル: 知覚と処理を理解する Rating: 0 out of 5 stars0 ratingsオプティカル フロー: コンピュータビジョンにおける動的視覚パターンの探索 Rating: 0 out of 5 stars0 ratings動きの推定: コンピュータビジョンの進歩と応用 Rating: 0 out of 5 stars0 ratingsマシンビジョン: コンピューター ビジョンの世界についての洞察 Rating: 0 out of 5 stars0 ratingsプロスペクト理論: 選択を解読する、プロスペクト理論への旅 Rating: 0 out of 5 stars0 ratings方向性のある勾配ヒストグラム: 視覚的領域の解明: コンピューター ビジョンでの指向性勾配ヒストグラムの探索 Rating: 0 out of 5 stars0 ratingsシェーディング: コンピューター ビジョンにおける画像シェーディングの探求 Rating: 0 out of 5 stars0 ratingsオペレーションズ・リサーチ: 意思決定科学をマスターし、オペレーショナル エクセレンスへの道 Rating: 0 out of 5 stars0 ratings逆視点: コンピュータビジョンにおける視覚認識の再考 Rating: 0 out of 5 stars0 ratings道徳感情理論: 倫理と人間性をナビゲートする Rating: 0 out of 5 stars0 ratingsスクロール: コンピューター ビジョンの視覚的世界を解き放つ Rating: 0 out of 5 stars0 ratings衝突検知: コンピュータビジョンにおける視覚的交差を理解する Rating: 0 out of 5 stars0 ratings拡張現実: 拡張現実におけるコンピュータ ビジョンの最前線を探索する Rating: 0 out of 5 stars0 ratingsコンピュータグラフィックスのレンダリング: 視覚的リアリズムの探求: コンピューター グラフィックスへの洞察 Rating: 0 out of 5 stars0 ratings視覚: 計算による視覚処理に関する洞察 Rating: 0 out of 5 stars0 ratingsピープルカウンター: ビジュアル分析を通じて洞察を引き出す Rating: 0 out of 5 stars0 ratingsコンピュータビジョン: コンピュータービジョンの深部を探る Rating: 0 out of 5 stars0 ratings顔認識システム: 視覚的知性の力を解き放つ Rating: 0 out of 5 stars0 ratingsモーションブラー: コンピューター ビジョンのダイナミクスを探る: モーション ブラーの解明 Rating: 0 out of 5 stars0 ratings人間開発指数: 人間開発指数の力を解き放つ、世界的な進歩へのロードマップ Rating: 0 out of 5 stars0 ratingsコンピュータステレオビジョン: コンピュータービジョンにおける奥行き知覚の探求 Rating: 0 out of 5 stars0 ratingsボリュームレンダリング: コンピュータービジョンにおける視覚的リアリズムの探求 Rating: 0 out of 5 stars0 ratings移動ロボット: モバイルロボットの先見の明のある可能性を解き放つ Rating: 0 out of 5 stars0 ratings交通標識の認識: コンピュータービジョンの力を解き放つ Rating: 0 out of 5 stars0 ratingsコンピュータアニメーション: コンピューター アニメーションとコンピューター ビジョンの交差点を探る Rating: 0 out of 5 stars0 ratingsインフラストラクチャベースの開発: 未来を構築し、インフラベースの開発の力を明らかにする Rating: 0 out of 5 stars0 ratings輪郭検出: コンピュータービジョンにおける視覚認識の技術を明らかにする Rating: 0 out of 5 stars0 ratingsエピポーラ幾何学: コンピュータービジョンにおける奥行き知覚のロックを解除する Rating: 0 out of 5 stars0 ratingsグラフィカルな視点: コンピューター ビジョンにおける視覚認識の探求 Rating: 0 out of 5 stars0 ratingsソフトウェアスイート: 究極のソフトウェア スイートでコンピューター ビジョンに革命を起こす Rating: 0 out of 5 stars0 ratings
Reviews for 多関節体の姿勢推定
0 ratings0 reviews
Book preview
多関節体の姿勢推定 - Fouad Sabry
第1章:関節姿勢推定
「関節姿勢推定」として知られるコンピュータビジョンの分野は、関節や剛体部分の一連の画像から動く物体の位置を決定できる技術やシステムに焦点を当てています。観察と姿勢を関連付けるモデルの難しさと、幅広い応用により、これはコンピュータビジョンにおける永続的な課題となっています。
ロボットには、すぐ近くにいる人の存在を検知して理解する能力が必要です。対話型マシンは、人間がジェスチャーを使用して特定のオブジェクトを指す場合、シナリオの現実世界のコンテキストを理解する必要があります。その重要性と難しさから、コンピュータビジョンにおける姿勢推定の問題に対処するために、過去20年間にいくつかの手法が開発され、実装されてきました。膨大なデータセットを持つ複雑なモデルをトレーニングすることは、一般的なアプローチです。
人体には244の自由度と230の関節があるため、姿勢推定は現在の研究では難しい問題です。人体には10の主要な部分と20の自由度がありますが、関節間のすべての動きが見えるわけではありません。服装、体型、サイズ、髪型の違いなど、アルゴリズムが考慮する必要がある外観には多くのバリエーションがあります。さらに、人が手で顔を覆うなどの自己関節閉塞や外部咬合により、結果が不明瞭になる場合があります。最後に、ほとんどのアルゴリズムは、標準カメラの単眼(2次元)画像からポーズを計算します。カメラと照明条件が一貫していないことが、問題の一因となる可能性があります。パフォーマンスの向上は、複雑さを増すだけです。これらの写真は、実際の身体の姿勢の奥行き情報が不足しているため、解釈ミスの余地がたくさんあります。最近では、RGBDカメラで撮影した色や奥行きの情報を活用した取り組みが行われています。
ほとんどの関節姿勢推定システムで使用されているモデルベースの手法では、観測値(入力)とテンプレートモデルの間の最大/最小の類似性/相違点を使用して、推定された姿勢を決定します。観測には、以下のような様々なセンサーの使用が検討されています。
可視波長での撮影、長波赤外スペクトルで撮影した写真、飛行時間撮影、
レーザー距離計で撮影した写真。
このモデルでは、これらのセンサーによって生成された中間表現を直接利用します。これらはいくつかの描写です::
画像の外観、ボクセル(ボリューム要素)に基づく再構成、合計ガウスカーネルを使用した3次元
3 次元サーフェス メッシュ。
人間の骨格は、「パーツベースモデル」の概念が最初に登場した場所です。オブジェクトに関節機能がある場合は、さまざまな構成に再配置できるコンポーネントパーツに分解できます。主オブジェクトのスケールと向きは、ピースのスケールと向きに合わせて表現されます。スプリングは、モデルの多くのコンポーネントを接続する役割を果たし、数学的に記述できるようにします。バネに似ていることからそう呼ばれていますが、このモデルには別の名前があります。ばねの圧縮と膨張は、さまざまなコンポーネントの相対的な近接性を考慮します。ばねの方向はジオメトリによって制限されます。たとえば、脚には、完全に円を描くように回転できる腕がありません。したがって、コンポーネントをそのような方法で方向付けすることはできません。したがって、実行可能な組み合わせの数は減少します。
ばねモデルでは、節点(V)はコンポーネントを表し、エッジ(E)はそれらを結合するばねを表します。
画像内の各位置は、 x ピクセル位置の y and 座標によって到達できます。
位置をポイント {\displaystyle \mathbf {p} _{i}(x,\,y)} にしましょう {\displaystyle \mathbf {i} ^{th}} 。
次に、スプリングとポイントの間の結合に関連するコスト {\displaystyle \mathbf {i} ^{th}} {\displaystyle \mathbf {j} ^{th}} は、 で表すことができます {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} 。
したがって、コンポーネントをある場所に配置する l ことに関連する総コスト {\displaystyle \mathbf {P} _{l}} は、次の式で与えられます。
{\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}前述の式は、体の姿勢を記述するために一般的に使用されるばねモデルを単純化したものです。コストまたはエネルギー関数の最小化は、写真から姿勢を推定するために使用されます。このエネルギー関数には2つの項があります。前者は各パーツが画像データとどの程度一致しているかを考慮し、後者は配向(変形)部分がどれだけ一致しているかを考慮し、関節と物体検出を考慮に入れます。
階層チェーンは、キネマティックスケルトンを構築するために使用されます。
各剛体セグメントには、4×4 変換行列 を使用してワールド座標系に変換できるローカル座標系があります {\displaystyle T_{l}} 。 {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}
ここで {\displaystyle R_{l}} 、 はボディ セグメントから S_{l} その親へのローカル変換を示します {\displaystyle \operatorname {par} (S_{l})} 。
人間の各関節には、3つの動きの自由度(DoF)があります。
変換行列 T_l が与えられた場合、T ポーズのジョイント位置はワールドの座標系に変換できます。
多くの作品では、3Dジョイントの回転は、 {\displaystyle [x,y,z,w]} パラメータ推定における勾配ベースの最適化を容易にする連続性のために、正規化された四元数として表されます。
関節の姿勢を正確に推定するために、2016年頃からディープラーニングが標準技術になりました。関節の外観と身体の関節間の関係は、上記のようにパーツの明示的なモデルを開発するのとは対照的に、膨大なトレーニングセットを通じて学習されます。1枚または複数の写真から2D関節位置(キーポイント)、3D関節位置、または3D体型形状を抽出することが、通常、モデルの主な重点です。
開発された初期のディープラーニングモデルは、主に特定の画像から人間の関節の2D位置を決定することに関係していました。関節を検出するために、これらのモデルは入力画像を畳み込みニューラルネットワークに送り、畳み込みニューラルネットワークは、それらの領域で高い値を持つ一連のヒートマップ(関節ごとに1つ)を生成します。
さまざまな角度からの人間のポーズアノテーションを含むデータセットの急増に伴い、前述の研究と並行して、科学者は2D写真のコレクションから人や動物の3D形状を再構築しようとしています。スキン付き複数人物線形 (SMPL) モデルの正しい姿勢を推定することが主な焦点です。画像内の各動物について、キーポイントとシルエットが検出されることがよくあります。3D形状モデルのパラメータは、検出後、通常、その位置に対応するように調整されます。
注釈付きの写真は前述のアルゴリズムに不可欠ですが、その作成は面倒な場合があります。この問題を解決するために、コンピュータビジョン分野の研究者は、注釈なしで映画のキーポイントを認識するか、1つのビューから注釈付きの2D画像のみで3Dキーポイントを学習できる新しいアルゴリズムを作成しました。
そう遠くない将来、介護施設でパーソナルケアロボットが活用されるようになるかもしれません。これらのロボットが転倒検知など幅広い業務を行うためには、高精度な人物識別と姿勢推定が求められます。さらに、このアプリケーションには他のパフォーマンス要件があります。
アニメーションキャラクターの作成は、常に手作業で行われてきました。ただし、正確な姿勢推定技術を使用することで、ポーズを生身の俳優と同期させることができます。マーカーや特殊な衣服は、以前のシステムで使用されていました。マーカーレスアプリケーションは、位置推定とモーションキャプチャーの開発により、多くの場合リアルタイムで可能になりました。
年間死亡事故の約2%が自動車事故によるものです。そのため、緊急時にドライバーの姿勢を監視するスマートシステムがあると便利です。自律走行車は、歩行者検出アルゴリズムを利用して意思決定を改善しています。
姿勢推定は、ビデオゲームの分野で商業的に成功を収めており、特にMicrosoft Kinectセンサー(深度カメラ)が有名です。これらのシステムは、ゲーム内でプレイヤーを正確に表現するためにプレイヤーを追いかけるだけでなく、ジェスチャー認識などの機能も実行して、アバターを制御できるようにします。したがって、このアプリケーションには高度なリアルタイムパフォーマンスが必要です。
姿勢推定は、患者の姿勢の不規則性を分析し、脊柱側弯症などの姿勢障害を診断するために使用され、マーカーレスモーションキャプチャ、高度なヒューマンコンピュータインタラクション、動物の追跡と行動分析、手話検出、ビデオ監視などがさらに使用されています。
光学式モーションキャプチャは、商業的には実現可能ですが、関節を持つ身体の姿勢を推定するための高度に専門化されたコンピュータービジョンベースの技術です。この方法を使用すると、マーカーが特定の場所に配置され、各手足または関節の6自由度が記録されます。
ブラウン大学、カーネギーメロン大学、MPIザールブリュッケン、スタンフォード大学、カリフォルニア州立大学、ロングビーチ、サンディエゴ、トロント大学、エコール・サントラル・パリ、ETHチューリッヒ、国立科学技術大学(NUST)、カリフォルニア州立大学ロングビーチ校、カタルーニャ工科大学、アーバイン大学など、複数の組織や企業が姿勢推定の研究に投資しています。
関節ボディの姿勢の推定に着目したビジネスはすでに数多くあります。
ニューヨーク市を拠点とするソフトウェア会社Bodylabsは、人間と対話できるAIシステムの開発を専門としています。
{チャプター1終了}
第2章:画像セグメンテーション
画像セグメンテーションは、画像領域またはオブジェクトセグメンテーションとも呼ばれ、コンピュータービジョンや画像処理で使用される手法で、デジタル画像をより小さく、より管理しやすい部分(ピクセルのセット)に分割します。セグメンテーションの目的は、画像の表現をより消化しやすく有益なものに変換することです。イメージのセグメント化は、ピクチャ内の線、曲線、その他の境界などの特徴を見つけるための一般的な手法です。画像セグメンテーションとは、より具体的には、画像内の各ピクセルにラベルを付けて、同じラベルを持つピクセルが共通のプロパティを共有するようにするプロセスです。
画像をセグメント化すると、元の画像を構成するサブ画像(輪郭)のコレクションが生成されます(エッジ検出を参照)。特定の領域内のすべてのピクセルは、色相、彩度、テクスチャなど、少なくとも 1 つの計算されたプロパティで類似性を共有しています。同じ特徴(複数可)の隣接領域間の色分け。
画像セグメンテーションには、次のような多くの実際の用途があります。
コンテンツに基づく画像検索
マシンビジョン
コンピュータ断層撮影(CT)や磁気共鳴画像法(MRI)などの画像診断技術とボリュームレンダリング。
がんやその他の病状を診断する
組織体積の測定
解剖学と診断学の研究
手術計画
バーチャル手術シミュレーション
操作不能な誘導システム
放射線 療法
物体検出
歩行者検知
顔検出
ブレーキランプ検出
宇宙画像(道路、森林、農作物など)の物体を認識する
認識タスク
顔認識
指紋認証
虹彩認識
交通管制システム
ビデオ監視
動画でのアクション検出と共同セグメンテーション
画像セグメンテーションのための多数の汎用アルゴリズムおよび手法が開発されている。これらの手法では、通常、特定のドメイン内のセグメンテーションの問題に効果的に適用するために、ドメイン固有の知識が必要です。
セグメンテーション方法には 2 つのタイプがあります。
コンピュータビジョンにおける従来の技術
AIベースの技術
セマンティック セグメンテーションは、オブジェクトのピクセルの 1 つ 1 つにクラスを割り当てる方法です。人物や背景などの構成要素に人物をセグメント化すると、2 つの異なるオブジェクトになります。
インスタンスセグメンテーションは、各ピクセルを正しいオブジェクトインスタンスに割り当てる方法です。画像内の個々のオブジェクトをすべて検索します。セグメンテーションは、たとえば、図の個々の部分が個別のエンティティとして扱われる場合に使用されます。
セマンティック セグメンテーションとインスタンス