Professional Documents
Culture Documents
2.1
2.2
2.1. Trích chọn đặc trưng
Tiền xử lí
Phân khung
Hàm cửa sổ
Phương pháp trích chọn đặc trưng MFCC
2.1.1 Tiền xử lí
Lọc hiệu chỉnh:
H(z)=1-az-1 với 0.95 ≤ a < 0.97
Loại bỏ khoảng lặng:
Ngưỡng năng lượng của các khung
Threshold = MinValue + Ratio * (MeanValue – MinValue)
(Ratio ~ 0.3)
Phát hiện tiếng nói (Voice activation detection).
Dựa trên các thông số của tín hiệu:
Hàm năng lượng ngắn hạn
if ((log10(SP) - log10(NP))>g_dblNoiseThreshold)
bSpeechFlag = TRUE;
2.1.2 Phân khung
Tín hiệu tiếng nói được chia thành các khung có
kích thước bằng nhau.
2.1.3 Hàm cửa sổ
Cửa sổ Hamming :
w(k)=0.54 – 0.46cos(2πk/(k+1))
Cửa sổ Hanning:
w(k)=0.5 – 0.5cos(2πk/(k+1))
Cửa sổ Hamming
2.1.4 Trích chọn vector đặc trưng
Các đặc trưng được sử dụng hiện nay:
Dùng hệ số LPC (LPC- Linear Prediction
Coding)
Dùng các hệ số LPL (Perceptional Linear
Prediction).
Dùng hệ số MFCC (Mel Frequency Cepstral
Coefficients)
2.1.4 Trích chọn vector đặc trưng
Khung tiếng nói Khung cửa sổ
Tiền xử lý
+ cửa sổ hoá
|FFT|
Lọc phổ
DCT
Vector MFCC
Kết quả
View sourcecode
2.2.Mô hình hỗn hợp Gauss - GMM
2.2.Mô hình hỗn hợp Gauss - GMM
Mô hình hỗn hợp Gauss là tổ hợp của nhiều
thành phần, mỗi thành phần là một phân bố
chuẩn hay phân bố Gauss.
Mật độ hỗn hợp Gauss
M
p ( x | λ) =∑ pi bi ( x )
i=1
Trong đó
1 1
bi ( x ) = exp − ( x −µi )' Σi−1 ( x −µi )
( 2π) D
1 2
Σi 2
2
x là vector D chiều i là ma trận hiệp biến
i là vector trung bình pi là trọng số của thành phần trong hỗn hợp
2.2.Mô hình hỗn hợp Gauss - GMM
Một mô hình hỗn hợp Gauss được biểu diễn
bằng các tham số
(a) số thành phần Gauss
(b) vector trung bình và ma trận hiệp biến của
từng thành phần
(c) trọng số của từng thành phần
MBM29LV160 AM79C973
CPU
SH7751R
EPROM PC Card
2x16Mb Controller
M27C160F1 MR-SHPC
USB
Driver
SDRAM Controller RS232
4x16MB
M1543C Keyboard
uPD45128841 Mouse
4. Thiết kế phần mềm nhận dạng người nói
Start
Recognition
Training
Training or
Recognition?
Yes
End
Training
Recognition
Model creation
and add to DB No Recognition Yes
ending?
End
Huấn luyện mô hình
Start
Người huấn
Train model luyện đọc vào
câu huấn luyện
Input speech
Create model
từ 3 đến 5 lần
Remove Silence
Add speaker to
database
Extract Features
End
Nhận dạng người nói – từ nói bất kỳ
Việc nhận dạng
được thực hiện ở
hai chế độ:
Nhận dạng thời
gian thực
Nhận dạng xác
thực người nói
Các giải thuật cải thiện chất
lượng nhận dạng
Xác lập ngưỡng điểm số nhận dạng cho
từng người nói
Sinh từ ngẫu nhiên cho huấn luyện
Nhận dạng với nhiều từ khác nhau trong
nhiều lần
5. Kết quả đạt được
Xây dựng thành công
hệ thống nhúng nhận
dạng người nói với từ
nói bất kỳ
Độ chính xác nhận
dạng đạt được 97%
Một số giao diện chương trình