프로세싱 립모션 예제

팀의 이전 작업은 컴퓨터 비전 분야의 많은 발전 중 일부를 자세히 설명했습니다. 실제로 연구는 고립된 분야로 격리되지 않으며 이를 염두에 두고 컴퓨터 비전(CV)과 자연어 처리(NLP) 사이의 교차점에 대한 짧은 탐색을 제시합니다. 읽기. 그러나 입이 중요해하는 것은 어떨까요? 단순히 특정 위치가 아닌 모션이 중요한지 확인하기 위해 다음 실험에서는 학생들에게 비디오가 아닌 스틸 프레임을 제시했습니다. 실험 2에서 McGill 대학의 자원 봉사자들은 동일한 스피커의 스틸 이미지를 사용하여 „oo”연설을 구별하려고 했습니다. 움직임의 단서없이, 결과는 보여 주었다, 프랑스어 – 영어 또는 영어 – 프랑스어 주문의 비대칭은 더 이상 발생하지, 모션이 모음 인식의 이 본능의 핵심 구성 요소임을 시사. 립 기반 접근법은 입술에 기반한 기하학적 모델을 사용합니다. 기하학적 모델은 일반적으로 랜드마크에 의해 형성된 유연한 메쉬 또는 입술을 둘러싼 연결된 fiducial 포인트, 립 영역에 자동으로 장착되는 유연한 활성 윤곽으로 구성됩니다. 다음은 입술 기반 접근법의 세 가지 예와 VVAD를 수행하기 위해 추출된 기능에 대해 설명합니다. 입술의 움직임과 구성은 사람들이 연설에서 모음을 구별 할 때 정보를 수집하는 방법의 핵심, 새로운 연구는 제안한다. Sodoyer 등.[36] 연구는 (영화에 사용되는 크로마 키 기술과 같은) 얼굴의 나머지 부분에서 추출 할 수 있도록 하기 위해 기록 된 스피커의 입술을 페인팅하여 얻은 분할 된 입술에 의존했다. 그들의 연구에서, 그들은 크로마 키 기술을 사용하여 두 명의 스피커로 구성된 40 분 길이의 시청각 모음을 각각 별도의 방에 만들어 자발적인 대화를 나눴습니다.

자발적인 대화 연설 이벤트는 일반적으로 웃음과 기침과 같은 침묵 또는 비 음성 가청 이벤트에 의해 뒤따릅니다. 이러한 이벤트는 특정 입술 모션 (심지어 침묵 부분에서)이 특징입니다. 이 연구의 목적은 연설 중 입술 움직임과 비 음성 가청 이벤트 사이의 관계를 발견하는 것이었습니다. 두 개의 표준 기하학적 특징은 두 스피커의 분할된 입술에서 추출되었으며 절대 부분 미분의 합계를 기반으로 단일 동적 피쳐를 정의하는 데 사용되었습니다. Masapollo의 가설은 얼굴이 실제로 표현되지 않더라도 위치와 움직임이 함께 중요할 수 있다는 것이었습니다. 이 실험에서 사람들은 그가 올바른 길에 있음을 암시하는 비대칭을 보여주기 위해 돌아왔습니다. 시공간적 가버 필터는 공간적 필터의 동적 변형입니다. 공간 가버 필터는 특정 방향과 두께의 시각적 윤곽또는 막대에 반응하는 반면, Spatiotemporal Gabor 필터는 움직이는 시각적 윤곽또는 막대에 반응합니다.

Comment is closed.