Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

多関節体の姿勢推定: コンピュータービジョンで人間の動きを解き放つ
多関節体の姿勢推定: コンピュータービジョンで人間の動きを解き放つ
多関節体の姿勢推定: コンピュータービジョンで人間の動きを解き放つ
Ebook77 pages8 minutes

多関節体の姿勢推定: コンピュータービジョンで人間の動きを解き放つ

Rating: 0 out of 5 stars

()

Read preview

About this ebook

多関節体のポーズ推定とは


コンピュータ ビジョンの分野において、関節で構成される多関節体の姿勢を復元する技術とシステムの研究。 画像ベースの観察を使用した剛部品の評価は、多関節体の姿勢推定と呼ばれます。 これは、観測と位置を関連付けるモデルの複雑さと、それが役立つシナリオの範囲の広さのため、コンピューター ビジョンにおいて最も長く続く課題の 1 つです。


方法 メリット


(I) 次のトピックに関する洞察と検証:


第 1 章: 関節による身体姿勢の推定


第 2 章: 画像セグメンテーション


第 3 章: 同時ローカリゼーションとマッピング


第 4 章: ジェスチャ認識


第 5 章: ビデオ追跡


第 6 章: 基本マトリックス (コンピューター ビジョン)


第 7 章: 動きからの構造


第 8 章: コンピューター ビジョンにおけるバッグオブワード モデル


第 9 章: ポイント セットの登録


第 10 章: マイケル・J・ブラック


(II) 多関節体の姿勢推定に関する一般のよくある質問に答える。


(III) 実際の例


本書の対象者


専門家、大学生、大学院生、愛好家、愛好家、 あらゆる種類の多関節体のポーズ推定に関する基本的な知識や情報を超えたいと考えている人。

Language日本語
Release dateApr 29, 2024
多関節体の姿勢推定: コンピュータービジョンで人間の動きを解き放つ

Read more from Fouad Sabry

Related to 多関節体の姿勢推定

Titles in the series (100)

View More

Related ebooks

Related articles

Reviews for 多関節体の姿勢推定

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    多関節体の姿勢推定 - Fouad Sabry

    第1章:関節姿勢推定

    「関節姿勢推定」として知られるコンピュータビジョンの分野は、関節や剛体部分の一連の画像から動く物体の位置を決定できる技術やシステムに焦点を当てています。観察と姿勢を関連付けるモデルの難しさと、幅広い応用により、これはコンピュータビジョンにおける永続的な課題となっています。

    ロボットには、すぐ近くにいる人の存在を検知して理解する能力が必要です。対話型マシンは、人間がジェスチャーを使用して特定のオブジェクトを指す場合、シナリオの現実世界のコンテキストを理解する必要があります。その重要性と難しさから、コンピュータビジョンにおける姿勢推定の問題に対処するために、過去20年間にいくつかの手法が開発され、実装されてきました。膨大なデータセットを持つ複雑なモデルをトレーニングすることは、一般的なアプローチです。

    人体には244の自由度と230の関節があるため、姿勢推定は現在の研究では難しい問題です。人体には10の主要な部分と20の自由度がありますが、関節間のすべての動きが見えるわけではありません。服装、体型、サイズ、髪型の違いなど、アルゴリズムが考慮する必要がある外観には多くのバリエーションがあります。さらに、人が手で顔を覆うなどの自己関節閉塞や外部咬合により、結果が不明瞭になる場合があります。最後に、ほとんどのアルゴリズムは、標準カメラの単眼(2次元)画像からポーズを計算します。カメラと照明条件が一貫していないことが、問題の一因となる可能性があります。パフォーマンスの向上は、複雑さを増すだけです。これらの写真は、実際の身体の姿勢の奥行き情報が不足しているため、解釈ミスの余地がたくさんあります。最近では、RGBDカメラで撮影した色や奥行きの情報を活用した取り組みが行われています。

    ほとんどの関節姿勢推定システムで使用されているモデルベースの手法では、観測値(入力)とテンプレートモデルの間の最大/最小の類似性/相違点を使用して、推定された姿勢を決定します。観測には、以下のような様々なセンサーの使用が検討されています。

    可視波長での撮影、長波赤外スペクトルで撮影した写真、飛行時間撮影、

    レーザー距離計で撮影した写真。

    このモデルでは、これらのセンサーによって生成された中間表現を直接利用します。これらはいくつかの描写です::

    画像の外観、ボクセル(ボリューム要素)に基づく再構成、合計ガウスカーネルを使用した3次元

    3 次元サーフェス メッシュ。

    人間の骨格は、「パーツベースモデル」の概念が最初に登場した場所です。オブジェクトに関節機能がある場合は、さまざまな構成に再配置できるコンポーネントパーツに分解できます。主オブジェクトのスケールと向きは、ピースのスケールと向きに合わせて表現されます。スプリングは、モデルの多くのコンポーネントを接続する役割を果たし、数学的に記述できるようにします。バネに似ていることからそう呼ばれていますが、このモデルには別の名前があります。ばねの圧縮と膨張は、さまざまなコンポーネントの相対的な近接性を考慮します。ばねの方向はジオメトリによって制限されます。たとえば、脚には、完全に円を描くように回転できる腕がありません。したがって、コンポーネントをそのような方法で方向付けすることはできません。したがって、実行可能な組み合わせの数は減少します。

    ばねモデルでは、節点(V)はコンポーネントを表し、エッジ(E)はそれらを結合するばねを表します。

    画像内の各位置は、 x ピクセル位置の y and  座標によって到達できます。

    位置をポイント {\displaystyle \mathbf {p} _{i}(x,\,y)} にしましょう {\displaystyle \mathbf {i} ^{th}} 。

    次に、スプリングとポイントの間の結合に関連するコスト {\displaystyle \mathbf {i} ^{th}} {\displaystyle \mathbf {j} ^{th}} は、 で表すことができます {\displaystyle S(\mathbf {p} _{i},\,\mathbf {p} _{j})=S(\mathbf {p} _{i}-\mathbf {p} _{j})} 。

    したがって、コンポーネントをある場所に配置する l ことに関連する総コスト {\displaystyle \mathbf {P} _{l}} は、次の式で与えられます。

    {\displaystyle S(\mathbf {P} _{l})=\displaystyle \sum _{i=1}^{l}\;\displaystyle \sum _{j=1}^{i}\;\mathbf {s} _{ij}(\mathbf {p} _{i},\,\mathbf {p} _{j})}

    前述の式は、体の姿勢を記述するために一般的に使用されるばねモデルを単純化したものです。コストまたはエネルギー関数の最小化は、写真から姿勢を推定するために使用されます。このエネルギー関数には2つの項があります。前者は各パーツが画像データとどの程度一致しているかを考慮し、後者は配向(変形)部分がどれだけ一致しているかを考慮し、関節と物体検出を考慮に入れます。

    階層チェーンは、キネマティックスケルトンを構築するために使用されます。

    各剛体セグメントには、4×4 変換行列 を使用してワールド座標系に変換できるローカル座標系があります {\displaystyle T_{l}} 。 {\displaystyle T_{l}=T_{\operatorname {par} (l)}R_{l},}

    ここで {\displaystyle R_{l}} 、 はボディ セグメントから S_{l} その親へのローカル変換を示します {\displaystyle \operatorname {par} (S_{l})} 。

    人間の各関節には、3つの動きの自由度(DoF)があります。

    変換行列 T_l が与えられた場合、T ポーズのジョイント位置はワールドの座標系に変換できます。

    多くの作品では、3Dジョイントの回転は、 {\displaystyle [x,y,z,w]} パラメータ推定における勾配ベースの最適化を容易にする連続性のために、正規化された四元数として表されます。

    関節の姿勢を正確に推定するために、2016年頃からディープラーニングが標準技術になりました。関節の外観と身体の関節間の関係は、上記のようにパーツの明示的なモデルを開発するのとは対照的に、膨大なトレーニングセットを通じて学習されます。1枚または複数の写真から2D関節位置(キーポイント)、3D関節位置、または3D体型形状を抽出することが、通常、モデルの主な重点です。

    開発された初期のディープラーニングモデルは、主に特定の画像から人間の関節の2D位置を決定することに関係していました。関節を検出するために、これらのモデルは入力画像を畳み込みニューラルネットワークに送り、畳み込みニューラルネットワークは、それらの領域で高い値を持つ一連のヒートマップ(関節ごとに1つ)を生成します。

    さまざまな角度からの人間のポーズアノテーションを含むデータセットの急増に伴い、前述の研究と並行して、科学者は2D写真のコレクションから人や動物の3D形状を再構築しようとしています。スキン付き複数人物線形 (SMPL) モデルの正しい姿勢を推定することが主な焦点です。画像内の各動物について、キーポイントとシルエットが検出されることがよくあります。3D形状モデルのパラメータは、検出後、通常、その位置に対応するように調整されます。

    注釈付きの写真は前述のアルゴリズムに不可欠ですが、その作成は面倒な場合があります。この問題を解決するために、コンピュータビジョン分野の研究者は、注釈なしで映画のキーポイントを認識するか、1つのビューから注釈付きの2D画像のみで3Dキーポイントを学習できる新しいアルゴリズムを作成しました。

    そう遠くない将来、介護施設でパーソナルケアロボットが活用されるようになるかもしれません。これらのロボットが転倒検知など幅広い業務を行うためには、高精度な人物識別と姿勢推定が求められます。さらに、このアプリケーションには他のパフォーマンス要件があります。

    アニメーションキャラクターの作成は、常に手作業で行われてきました。ただし、正確な姿勢推定技術を使用することで、ポーズを生身の俳優と同期させることができます。マーカーや特殊な衣服は、以前のシステムで使用されていました。マーカーレスアプリケーションは、位置推定とモーションキャプチャーの開発により、多くの場合リアルタイムで可能になりました。

    年間死亡事故の約2%が自動車事故によるものです。そのため、緊急時にドライバーの姿勢を監視するスマートシステムがあると便利です。自律走行車は、歩行者検出アルゴリズムを利用して意思決定を改善しています。

    姿勢推定は、ビデオゲームの分野で商業的に成功を収めており、特にMicrosoft Kinectセンサー(深度カメラ)が有名です。これらのシステムは、ゲーム内でプレイヤーを正確に表現するためにプレイヤーを追いかけるだけでなく、ジェスチャー認識などの機能も実行して、アバターを制御できるようにします。したがって、このアプリケーションには高度なリアルタイムパフォーマンスが必要です。

    姿勢推定は、患者の姿勢の不規則性を分析し、脊柱側弯症などの姿勢障害を診断するために使用され、マーカーレスモーションキャプチャ、高度なヒューマンコンピュータインタラクション、動物の追跡と行動分析、手話検出、ビデオ監視などがさらに使用されています。

    光学式モーションキャプチャは、商業的には実現可能ですが、関節を持つ身体の姿勢を推定するための高度に専門化されたコンピュータービジョンベースの技術です。この方法を使用すると、マーカーが特定の場所に配置され、各手足または関節の6自由度が記録されます。

    ブラウン大学、カーネギーメロン大学、MPIザールブリュッケン、スタンフォード大学、カリフォルニア州立大学、ロングビーチ、サンディエゴ、トロント大学、エコール・サントラル・パリ、ETHチューリッヒ、国立科学技術大学(NUST)、カリフォルニア州立大学ロングビーチ校、カタルーニャ工科大学、アーバイン大学など、複数の組織や企業が姿勢推定の研究に投資しています。

    関節ボディの姿勢の推定に着目したビジネスはすでに数多くあります。

    ニューヨーク市を拠点とするソフトウェア会社Bodylabsは、人間と対話できるAIシステムの開発を専門としています。

    {チャプター1終了}

    第2章:画像セグメンテーション

    画像セグメンテーションは、画像領域またはオブジェクトセグメンテーションとも呼ばれ、コンピュータービジョンや画像処理で使用される手法で、デジタル画像をより小さく、より管理しやすい部分(ピクセルのセット)に分割します。セグメンテーションの目的は、画像の表現をより消化しやすく有益なものに変換することです。イメージのセグメント化は、ピクチャ内の線、曲線、その他の境界などの特徴を見つけるための一般的な手法です。画像セグメンテーションとは、より具体的には、画像内の各ピクセルにラベルを付けて、同じラベルを持つピクセルが共通のプロパティを共有するようにするプロセスです。

    画像をセグメント化すると、元の画像を構成するサブ画像(輪郭)のコレクションが生成されます(エッジ検出を参照)。特定の領域内のすべてのピクセルは、色相、彩度、テクスチャなど、少なくとも 1 つの計算されたプロパティで類似性を共有しています。同じ特徴(複数可)の隣接領域間の色分け。

    画像セグメンテーションには、次のような多くの実際の用途があります。

    コンテンツに基づく画像検索

    マシンビジョン

    コンピュータ断層撮影(CT)や磁気共鳴画像法(MRI)などの画像診断技術とボリュームレンダリング。

    がんやその他の病状を診断する

    組織体積の測定

    解剖学と診断学の研究

    手術計画

    バーチャル手術シミュレーション

    操作不能な誘導システム

    放射線 療法

    物体検出

    歩行者検知

    顔検出

    ブレーキランプ検出

    宇宙画像(道路、森林、農作物など)の物体を認識する

    認識タスク

    顔認識

    指紋認証

    虹彩認識

    交通管制システム

    ビデオ監視

    動画でのアクション検出と共同セグメンテーション

    画像セグメンテーションのための多数の汎用アルゴリズムおよび手法が開発されている。これらの手法では、通常、特定のドメイン内のセグメンテーションの問題に効果的に適用するために、ドメイン固有の知識が必要です。

    セグメンテーション方法には 2 つのタイプがあります。

    コンピュータビジョンにおける従来の技術

    AIベースの技術

    セマンティック セグメンテーションは、オブジェクトのピクセルの 1 つ 1 つにクラスを割り当てる方法です。人物や背景などの構成要素に人物をセグメント化すると、2 つの異なるオブジェクトになります。

    インスタンスセグメンテーションは、各ピクセルを正しいオブジェクトインスタンスに割り当てる方法です。画像内の個々のオブジェクトをすべて検索します。セグメンテーションは、たとえば、図の個々の部分が個別のエンティティとして扱われる場合に使用されます。

    セマンティック セグメンテーションとインスタンス

    Enjoying the preview?
    Page 1 of 1