Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

시청각 음성 인식: 발전, 애플리케이션 및 통찰력
시청각 음성 인식: 발전, 애플리케이션 및 통찰력
시청각 음성 인식: 발전, 애플리케이션 및 통찰력
Ebook121 pages1 hour

시청각 음성 인식: 발전, 애플리케이션 및 통찰력

Rating: 0 out of 5 stars

()

Read preview

About this ebook

시청각 음성 인식이란 무엇인가요?


AVSR(시청각 음성 인식)은 입술 읽기의 이미지 처리 기능을 사용하여 음성 인식 시스템이 불확정적인 전화를 인식하는 데 도움을 주는 기술입니다. 또는 거의 확률이 높은 결정 중에서 우위를 점합니다.


혜택을 받는 방법


(I) 다음 주제에 대한 통찰력 및 검증:


1장: 시청각 음성 인식


2장: 데이터 압축


3장: 음성 인식


4장: 음성 합성


5장: 감성 컴퓨팅


6장: 스펙트로그램


7장: 입술 읽기


8장: 얼굴 인식


9장: 기능(기계 학습)


10장: 통계적 분류


(II) 시청각 음성 인식에 관한 대중의 주요 질문에 답변합니다.


(III) ) 다양한 분야에서 시청각 음성 인식을 사용하는 실제 사례입니다.


책은 누구를 위한 책인가요?


전문가, 학부 및 대학원생, 열성팬 , 취미생활자, 모든 종류의 시청각 음성 인식에 대한 기본 지식이나 정보를 넘어서고 싶은 사람들.


 


 

Language한국어
Release dateMay 15, 2024
시청각 음성 인식: 발전, 애플리케이션 및 통찰력

Related to 시청각 음성 인식

Titles in the series (100)

View More

Related ebooks

Reviews for 시청각 음성 인식

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    시청각 음성 인식 - Fouad Sabry

    1장: 시청각 음성 인식

    AVSR(시청각 음성 인식)은 입술 읽기에 이미지 처리 기능을 사용하여 음성 인식 시스템이 비결정적 음소를 인식하거나 거의 확률에 가까운 결정 중에서 우위를 제공하는 데 도움이 되는 기술입니다.

    입술 읽기 및 음성 인식의 각 시스템의 출력은 특징 융합 단계에서 결합됩니다. 이름에서 알 수 있듯이 두 개의 섹션으로 구성됩니다. 첫 번째는 오디오 부분이고 두 번째는 시각적 부분입니다. 오디오 구성 요소에서 로그 멜 스펙트로그램, mfcc 등과 같은 특징은 원시 오디오 샘플에서 추출되어 특징 벡터가 추출되는 모델을 구성하는 데 사용됩니다. 시각적 부분의 경우 일반적으로 컨볼루션 신경망의 한 형태를 사용하여 그림을 특징 벡터로 압축합니다. 그런 다음 오디오 및 시각적 벡터를 연결하고 대상 개체를 예측하려고 시도합니다.

    {챕터 1 종료}

    제 2 장: 데이터 압축

    정보 이론, 데이터 압축, 소스 코딩 및 기타 관련 분야: 일반적으로 데이터 압축 프로세스에 참여하는 장치를 인코더라고 하는 반면, 프로세스의 역(즉, 압축 해제)에 참여하는 장치를 디코더라고 합니다.

    데이터 압축은 데이터 파일의 크기를 줄이는 프로세스이며 자주 사용되는 용어입니다. 소스 코딩은 데이터가 저장되거나 전송되기 전에 원래 데이터 소스에서 수행되는 인코딩 프로세스입니다. 이 프로세스를 데이터 전송의 맥락에서 참조합니다. 소스 코딩을 오류 감지 및 수정에 사용되는 채널 코딩 또는 데이터를 신호에 매핑하는 방법인 라인 코딩과 같은 다른 유형의 코딩과 혼동하지 않는 것이 중요합니다.

    데이터 압축은 정보를 저장하고 전송하는 데 필요한 공간과 대역폭의 양을 줄이기 때문에 유용합니다. 압축 및 압축 해제 절차에는 모두 상당한 양의 계산 리소스가 필요합니다. 시공간 복잡성 트레이드 오프는 데이터를 압축하는 동안 고려해야 할 사항입니다. 예를 들어, 비디오 압축 방법은 비디오가 압축 해제되는 동안 볼 수 있을 만큼 빠르게 압축을 풀기 위해 고가의 하드웨어가 필요할 수 있습니다. 또한 비디오를 시청하기 전에 완전히 압축을 푸는 옵션은 불편하거나 추가 저장 공간이 필요할 수 있습니다. 데이터 압축 체계를 설계할 때 설계자는 여러 가지 요인 간에 균형을 맞춰야 합니다. 이러한 요소에는 달성된 압축 수준, 발생하는 왜곡의 양(손실 데이터 압축을 사용할 때) 및 데이터를 압축 및 압축 해제하는 데 필요한 계산 리소스의 양이 포함됩니다.

    프로세스에서 정보를 잃지 않고 데이터를 표현하기 위해 무손실 데이터 압축 방법은 종종 통계적 중복성을 사용합니다. 이렇게 하면 프로세스가 역전될 수 있습니다. 실제 세계의 대다수 데이터에는 통계적 중복성이 있기 때문에 무손실 압축이 가능합니다. 예를 들어, 사진에는 여러 픽셀이 진행되는 동안 변하지 않는 색상 패치가 포함될 수 있습니다. 이 경우, 데이터는 적색 화소, 적색 화소라는 종래의 표기법이 아닌 279 적색 화소로 기록될 수 있다,..." 이것은 실행 길이 인코딩의 기본 그림입니다. 중복 정보를 제거하여 파일 크기를 줄이는 더 많은 방법이 있습니다.

    LZ(Lempel-Ziv)와 같은 압축 기술은 현재 무손실 데이터 저장에 가장 널리 사용되는 알고리즘 중 하나입니다. 테이블 항목은 테이블 기반 압축 모델인 LZ 압축 기술에서 반복되는 데이터 문자열로 대체됩니다. 이 테이블은 입력의 이전 단계에서 얻은 데이터를 사용하여 대부분의 LZ 알고리즘에 대해 동적으로 작성됩니다. 대부분의 경우 테이블 자체는 Huffman으로 인코딩됩니다. 이와 같은 문법 기반 코드는 동일하거나 거의 관련된 종의 생물학적 데이터 수집, 버전이 지정된 대규모 문서 모음, 인터넷 아카이브 등과 같이 실질적으로 반복적인 입력을 성공적으로 압축할 수 있습니다. 단일 문자열을 파생하는 문맥 없는 문법을 구성하는 것은 문법 기반 코딩 시스템의 기본 작업입니다. Sequitur와 Re-Pair는 실제 적용이 가능한 문법을 압축하는 두 가지 추가 기술입니다.

    부분 매칭에 의한 예측과 같은 확률적 모델은 최근에 개발된 가장 강력한 무손실 압축기에 사용됩니다. 간접 통계 모델링은 Burrows-Wheeler 변환에 대해 생각할 수 있는 또 다른 방법이며, 이 방법도 고려할 수 있습니다.

    1980년대 후반 디지털 사진이 널리 보급되면서 무손실 이미지 압축에 대한 최초의 표준이 개발되었습니다. 1990년대 초, 손실 압축 기술이 보편화되기 시작했습니다. 이러한 지각적 구분은 소리, 사진 및 비디오의 압축을 위해 각각 심리 음향학 및 심리 시각과 같은 다양한 잘 알려진 압축 형식에 의해 사용됩니다.

    변환 코딩은 대부분의 손실 압축 방법, 특히 이산 코사인 변환(DCT)의 기초입니다. 1972년 나시르 아메드(Nasir Ahmed)가 처음 고안했으며, 1973년 T. 나타라잔(T. Natarajan)과 K. R. 라오(K. R. Rao)의 도움을 받아 작동하는 알고리즘을 구축했습니다. 나시르 아흐메드(Nasir Ahmed)는 1974년 1월에 처음으로 이 아이디어를 제시했다. 오디오 및 비디오(MPEG, AVC 및 HEVC와 같은 형식)(예: MP3, AAC 및 Vorbis).

    저장 기능을 향상시키기 위해 디지털 카메라는 손실로 알려진 일종의 사진 압축을 사용합니다. DVD, Blu-ray 및 스트리밍 비디오는 모두 손실 비디오 코딩을 사용하는 비디오 형식의 예입니다. 손실 압축은 비디오 산업에서 널리 사용됩니다.

    손실 오디오 압축 과정에서 심리 음향학 분야의 기술을 사용하여 들리지 않거나 덜 들을 수 있는 구성 요소의 오디오 신호를 제거합니다. 음성 코딩은 인간의 음성을 압축하려면 훨씬 더 전문화된 방법을 사용해야 하는 경우가 많기 때문에 범용 오디오 압축과는 다른 분야로 간주됩니다. 예를 들어, 음성 코딩은 인터넷 전화 통신에 활용됩니다. 오디오 압축은 CD 리핑에 사용되며 오디오 플레이어는 압축 파일을 디코딩하는 역할을 합니다.

    손실 압축으로 인해 생성 손실이 발생할 수 있습니다.

    정보 이론, 더 구체적으로 Shannon의 소스 코딩 정리는 압축의 이론적 기초 역할을 합니다. 도메인별 이론에는 무손실 압축을 위한 알고리즘 정보 이론과 손실 압축을 위한 속도-왜곡 이론이 포함됩니다. 클로드 섀넌 (Claude Shannon)은 1940 년대 후반과 1950 년대 초반에 걸쳐 주제에 관한 많은 중요한 기사를 발표했을 때 이러한 하위 연구 분야를 시작한 것으로 알려져 있습니다. 코딩 이론과 통계적 추론은 서로 관련이 있지만 압축과 관련된 별개의 주제입니다.

    기계 학습과 압축의 개념은 서로 복잡하게 관련되어 있습니다. 가능한 최고 수준의 데이터 압축을 달성하려면 전체 기록에 비추어 시퀀스의 사후 확률을 예측할 수 있는 시스템이 이상적입니다(출력 분포에 산술 코딩 사용). 반면에 완벽한 압축기는 예측 목적으로 사용될 수 있습니다(이전 기록이 주어지면 가장 잘 압축되는 기호를 찾음으로써). 이 비교 가능성은 보편적 지능의 표준으로 데이터 압축을 활용하기위한 논거로 사용되었습니다.

    후터 프라이즈(Hutter Prize)에서 더 명확하게 표현된 관계인 AIXI 이론에 따르면, x를 생성하는 가능한 가장 작은 소프트웨어는 생각할 수 있는 x의 가능한 가장 큰 압축입니다. 예를 들어, 해당 모델에 따르면 zip 파일의 압축 크기는 zip 파일과 압축을 푸는 데 필요한 소프트웨어를 모두 고려합니다., 훨씬 더 컴팩트한 결합 형식이 있을 수 있지만 둘 다 없으면 압축을 풀 수 없다는 점을 감안할 때.

    VP9, NVIDIA Maxine, AIVC 및 AccMPEG와 같은 소프트웨어는 모두 AI로 구동되는 오디오 및 비디오 압축 프로그램의 예입니다.

    데이터 압축 프로세스는 데이터 차분 프로세스의 하위 집합으로 간주될 수 있습니다. 데이터 패치는 원본과 차이가 있는 경우 대상을 다시 만드는 프로세스인 반면, 데이터 차이점 보관은 차이만 주어지면 원본과 대상 간에 차이를 만드는 프로세스입니다. 데이터 압축에는 뚜렷한 원본과 대상 같은 것이 없기 때문에 빈 원본 데이터와의 데이터 차이점 보관용으로 생각할 수 있습니다. 즉, 압축 파일은 nothing의 차이와 동일합니다. 이는 데이터 차분에 해당하는 상대 엔트로피를 데이터 압축에 해당하지만 시작 데이터가 없는 절대 엔트로피의 특정 사례로 간주하는 것과 같습니다.

    데이터 차분 관계는 차등 압축이라는 문구를 사용하여 강조됩니다.

    Shannon-Fano 코딩 알고리즘은 1940년대에 개발된 엔트로피 코딩의 선구자였으며, 오디오 데이터의 압축은 동적 범위의 압축과 혼동하지 말아야 하며, 오디오 데이터 전송에 필요한 대역폭과 오디오 데이터의 저장 요구 사항을 줄일 수 있습니다.

    Enjoying the preview?
    Page 1 of 1