Seminar on Speaker verification & GMM

For more info :  Seminar on Speaker verification and GMM_141024

This seminar is about Speaker verification, which tells whether the speaker’s voice is same as the registered voice, and GMM (Gaussian Mixture Model) which is one of the theories used in speaker modeling.

Basically, Speech recognition includes processes of Background modeling, Feature Extraction and Speaker modeling, which check on whether the input voice is same as the existing one.

In each stage, it proceeds the modeling with the characteristics, such as frequency, extracted from the vocal data. There are two ways to do this:

1. Generative Model – measures the similarity between the samples from each model.

2. Discriminative Model – discriminates each model with their characteristics and defines in which part they each belong to.

and GMM (Gaussian Mixture Model) is one of the Generative Model.

 

 

입력받은 음성이 이미 등록되어 있는 어떤 한명의 화자와 동일한 음성인지 확인하는 Speaker verification의 과정의 소개와 speaker의 모델링에서 사용되는 이론 중 Gaussian mixture model (GMM)에 대한 설명을 담았다.

일반적으로 화자 인식은 백그라운드 모델(비교모델), 특정 화자 모델을 순차적으로 생성하는 등록단계와 등록된 모델과 입력된 음성이 동일한 화자인지 확인하는 확인단계로 구성된다.

각 단계에서 모델링을 하기 위해 음성 데이터로부터 주파수등의 특징을 추출하는 과정을 거치고, 특징들을 가지고 모델링을 하게된다.
모델링의 방법은 다음의 두가지가 있다.
1. 각각의 모델에 입력받은 샘플을 1:1로 비교하여 비슷한 정도를 측정하는 방식
2. 각 모델간의 특징이 되는 영역을 구분하고 입력받은 샘플이 어떤 영역으로 속하는지 확인하는 방식
GMM은 전자의 방법 중 하나이다.