Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

단어 가방 모델: 단어 가방 로 시각적 지능 잠금 해제
단어 가방 모델: 단어 가방 로 시각적 지능 잠금 해제
단어 가방 모델: 단어 가방 로 시각적 지능 잠금 해제
Ebook97 pages51 minutes

단어 가방 모델: 단어 가방 로 시각적 지능 잠금 해제

Rating: 0 out of 5 stars

()

Read preview

About this ebook

단어 가방 모델이란?


컴퓨터 비전에서는 시각적 단어 가방 모델이라고도 하는 단어 가방 모델이 이미지 특징을 단어로 처리하여 이미지 분류 또는 검색에 적용될 수 있습니다. 문서 분류에서 단어 백은 단어 발생 횟수의 희소 벡터입니다. 즉, 어휘에 대한 희박한 히스토그램입니다. 컴퓨터 비전에서 시각적 단어 백은 로컬 이미지 특징 어휘의 발생 횟수 벡터입니다.


당신이 얻을 수 있는 혜택


(I) 다음 주제에 대한 통찰력 및 검증:


1장: 컴퓨터 비전의 단어 가방 모델


2장: 이미지 분할


3장: 척도 불변 특성 변환


4장: 척도 공간


5장: 자동 이미지 주석


6장: 모션의 구조


7장: 하위 픽셀 해상도


8장: 평균 이동


9장: 관절형 신체 자세 추정


10장: 부품 기반 모델


(II) 단어 가방 모델에 관한 대중의 주요 질문에 답변합니다.


(III) 다양한 분야에서 단어주머니 모델을 사용한 실제 사례.


이 책은 누구를 위한 책인가


전문가, 학부 및 대학원생, 열성팬, 취미생활자, 모든 종류의 단어 가방 모델에 대한 기본 지식이나 정보를 넘어서고 싶은 사람들.

Language한국어
Release dateMay 14, 2024
단어 가방 모델: 단어 가방 로 시각적 지능 잠금 해제

Read more from Fouad Sabry

Related to 단어 가방 모델

Titles in the series (100)

View More

Related ebooks

Reviews for 단어 가방 모델

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    단어 가방 모델 - Fouad Sabry

    1장: 컴퓨터 비전의 Bag-of-words 모델

    bag-of-visual-words 모델이라고도 하는 bag-of-words 모델(BoW 모델)은 컴퓨터 비전에서 이미지의 특징을 단어로 해석하여 이미지를 분류하고 검색하는 데 사용되는 기술입니다. 단어 모음은 단어 발생 횟수의 희소 벡터 또는 문서 분류에 사용되는 어휘에 대한 희소 히스토그램입니다. 컴퓨터 비전에서 시각적 단어 모음은 발생 횟수의 벡터로 표현되는 로컬 이미지 기능의 어휘입니다.

    BoW 모델을 사용하면 이미지를 문서와 같은 방식으로 표현할 수 있습니다. 단어가 포함된 이미지도 설명이 필요합니다. 이를 위해 세 가지 일반적인 절차(기능 감지, 기능 설명 및 코드북 생성)가 사용됩니다. 독립 특징에 기반한 히스토그램 표현은 BoW 모델을 특성화하는 한 가지 방법입니다.

    그런 다음 각 이미지는 특징 감지 후 여러 이웃 패치에 의해 추상화됩니다. 패치를 수치 벡터로 표현하는 방법은 기능 표현 기술의 초점입니다. 특징 설명자는 이러한 숫자 벡터의 이름입니다. 좋은 설명자는 밝기, 회전, 배율 및 상관 변환의 변형을 설명할 수 있을 만큼 유연해야 합니다. 배율 불변 기능 변환은 가장 잘 알려진 식별자(SIFT) 중 하나입니다. 각 패치는 SIFT에 의해 128차원 벡터로 변환됩니다. 이 시점에서 이미지의 개별 벡터의 순서는 모두 동일한 크기(SIFT의 경우 128)이므로 관련이 없습니다.

    마지막으로, BoW 모델은 벡터로 표현된 패치를 코드워드(예: 텍스트 문서의 단어)로 변환하여 코드북을 생성합니다(단어 사전과 유사). 코드워드는 본질적으로 모두 동일한 패치 그룹을 나타낼 수 있습니다. K-평균 클러스터링은 빠르고 쉬운 솔루션을 위해 모든 벡터에서 수행할 수 있습니다. 이렇게 새로 배운 집단의 허브는 암호어가 된다. 코드북의 용량은 총 클러스터 수와 같습니다(단어 사전의 크기와 유사).

    클러스터링 절차의 결과로, 각 이미지 패치는 고유한 코드워드와 연결되며, 이미지 자체는 코드워드의 히스토그램으로 표현될 수 있습니다.

    컴퓨터 비전 연구 커뮤니티에서는 개체 분류와 같은 이미지 관련 작업에 BoW 모델을 활용하기 위해 몇 가지 학습 방법을 개발했습니다. 비지도 모델과 지도 모델은 이러한 기술을 대략적으로 분류합니다. 여러 레이블과 관련된 문제에 대한 해를 평가할 때 혼동행렬은 유용한 도구입니다.

    이 부분에 대한 동봉된 참고 사항을 참조하십시오.

    코드북의 크기가 라고 가정합니다 V .

    w : 각 패치 w 는 단일 성분이 1이고 다른 모든 성분이 0인 V차원 벡터입니다(k-평균 군집화 설정의 경우 단일 성분 1은 속한 군집을 나타냄 w ).

    v 코드북의 th 코드워드는 w^{v}=1 및 w^{u}=0 for u\neq v 로 나타낼 수 있습니다.

    \mathbf {w} : 각 이미지는 로 표현됩니다 \mathbf {w} =[w_{1},w_{2},\cdots ,w_{N}] . 사진을 구성하는 모든 점

    d_{j} : j 이미지 컬렉션의 번째 이미지

    c : 이미지의 카테고리

    z : 패치의 테마 또는 주제

    \pi : 혼합 비율

    NLP에 대응하는 BoW 모델은 비유이기 때문에 컴퓨터 비전은 원래 텍스트 도메인용으로 만들어진 생성 모델의 이점을 누릴 수 있습니다.

    단순 Naïve Bayes 모델과 계층적 Bayesian 모델에 대해 설명합니다.

    가장 간단한 것은 Naïve Bayes 분류자입니다.

    그래픽 모델 표기법을 사용하는 Naïve Bayes 분류기는 아래 방정식으로 설명됩니다.

    각 분류는 이 모델의 다양한 코드북에 걸쳐 고유한 분포를 가지며 다양한 그룹의 분포 간에 명확한 차이가 있다고 가정합니다.

    얼굴과 자동차의 범주를 고려하십시오.

    에 대한 코드는 얼굴 분류에서 강조될 수 있고, 은 모두 강조될 수 있으며, 바퀴와 창은 자동차 하위 범주에서 코드워드로 강조 표시될 수 있습니다.

    학습 데이터 라이브러리가 제공되면 분류자는 각 범주에 대한 새 분포를 생성하도록 학습됩니다.

    분류의 결정은 다음과 같이 이루어집니다.

    c^{*}=\arg \max _{c}p(c|\mathbf {w} )=\arg \max _{c}p(c)p(\mathbf {w} |c)=\arg \max _{c}p(c)\prod _{n=1}^{N}p(w_{n}|c)

    Naïve Bayes 분류자는 간단하면서도 효과적이기 때문에 다른 모든 비교가 이루어지는 표준입니다.

    Naïve Bayes 모델의 기본 가정은 때때로 성립하지 않습니다.

    예를 들어, 자연 환경의 사진 한 장에 여러 개념을 묘사할 수 있습니다.

    관련된 다중 테마 문제를 다루는 텍스트 도메인에서 잘 알려진 두 가지 주제 모델은 확률적 잠재 의미 분석(pLSA)과 주제 모델링입니다.

    예를 들어, LDA를 고려해 보겠습니다.

    자연 장면에 대한 LDA 이미지 모델링, 문서 연구와 비교:

    이미지와 문서의 범주 사이에는 대응이 있습니다. 주제의 무작위 샘플링이 테마의 무작위 샘플링에 매핑되는 방식과 유사합니다. 색인 주제는 주제 색인의 주제와 일치합니다. 비밀 단어는 단어와 동일합니다.

    13가지 유형의 자연 장면에서 이 방법은 매우 효과적인 것으로 입증되었습니다.

    BoW 모델은 이미지 표현에 사용되기 때문에 텍스트 문서 분류는 모든 판별 모델로 시도할 수 있으며, 예를 들어 SVM(Support Vector Machine)이 있습니다. 커널을 기반으로 하는 분류자를 사용하는 경우에도 커널 트릭인 SVM 시스템을 사용할 수 있습니다.

    피라미드 매치 커널은 BoW 알고리즘의 최첨단 구현입니다.

    다양한 커널(예: 의사 결정 트리)을 가진 기계 학습 분류자에 의해 학습된 BoW 모델 표현을 사용하는 것은 로컬 기능 접근 방식의 한 예이며, EMD-커널 및 X^{2} 커널)은 텍스처 및 객체 인식 영역에서 광범위하게 테스트되었습니다.

    다양한 데이터 세트에서 매우 고무적인 성능에 대한 보고가 나왔습니다.

    PASCAL Visual Object Classes Challenge에서 이 방법은 매우 우수한 성능을 보였습니다.

    피라미드 일치 커널

    BoW가 패치 간의 공간 관계를 설명할 수 없다는 것은 이미지를 묘사할 때 매우 중요하기 때문에 큰 단점입니다. 연구자들은 공간 데이터를 통합하기 위해 몇 가지 접근 방식을 제안했습니다. Correlogram 기능은 특징의 공간적 동시 발생을 식별하여 특징 품질을 향상시킬 수 있습니다. 위치 세부 정보를 BoW 프레임워크에 통합하는 방법입니다.

    BoW 모델의 성능은 시점 불변성 및 스케일 불변성에 대한 엄격한 테스트를 거치지 않았기 때문에 불분명합니다. BoW 모델을 사용한 객체 분할 및 위치 파악도 잘 알려져 있지 않습니다. 예를 들어, Oxford Flower

    Enjoying the preview?
    Page 1 of 1