Professional Documents
Culture Documents
TiӂNG NÓI
Lӟp : D07DTMT
Nhóm 13 : Lê Dương Ngӑc
Lê Văn Trӑng
HӋ thӕng nhұn dҥng tiӃng nói
MFCC (Mel frequency cepstral coefficient)
MFCC là phương pháp trích chӑn đһc trưng dӵa
trên các hӋ sӕ cepstral
- Tín hiӋu tiӃng nói sӁ đưӧc trích chӑn các đһc
trưng sau khi thu âm
- KӃt quҧ sau quá trình này là tұp các vecto đһc
trưng âm hӑc
- Là tiӅn đӅ cho quá trình huҩn luyӋn hӋ thӕng sau
này
3ơ đӗ khӕi quá trình phân tích MFCC
auá trình phân tích MFCC
- Tín hiӋu tiӃng nói s (n) đưӧc cho qua mӝt bӝ lӑc thông cao
s2(n) = s(n) - a*s(n-1)
vӟi hӋ sӕ cӕ đӏnh a thưӡng chӑn là 0.95
- Hàm truyӅn đҥt:
H(z)=1-a*z-1
- ĐiӅu này làm cho phҷng phә tín hiӋu, ít bӏ ҧnh hưӣng bӣi các phép
biӃn đәi.
Tín hiӋu tiӃng nói đҫu vào đưӧc chia nhӓ thành các khung
hình tӯ 20 ~ 30 ms
Gӗm các khung có N mүu
Các khung cҥnh nhau cách biӋt M mүu
a
m
!m"#$%&'#(
)
*+,
-./01.2 0 3.45.6 200Öأأ6 2
a
(bӝ lӑc dҧi tam giác)
HӋ lӑc này gӗm 23 băng con(subbands)
Thành phҫn FFT phә đưӧc nhân vӟi mӝt tam giác và đưӧc
tích lũy vào mӝt vùng tҫn sӕ xác đӏnh
-> Đó là thành phҫn phә Mel
Công thӭc tính tҫn sӕ Mel:
mel (f) = 1.125 * ln (1 + f/700)
Ô
(DCT)
ĐӇ trích chӑn thành phҫn đһc trưng
Ta áp dөng phép biӃn đәi Cosine rӡi rҥc(DCT) cho logarit
phә Mel
-> Các đһc trưng đӝc lұp này sӁ tҥo thuұn lӧi cho viӋc mô
hình tiӃng nói và so sánh đӕi chiӃu mүu
Công thӭc thưӡng dùng tính hӋ sӕ DCTi
Cm=3k=1Ncos[m*(k-0.5)*p/N]*Ek, m=1,2, ..., L
¬
[1] https://ccrma.stanford.edu/~unjung/mylec/mfcc.html
[2] ³Bài giҧng xӱ lý tiӃng nói ´ Lê xuân Thành
[3]
http://vi.wikipedia.org/wiki/Nh%E1%BA%ADn_d%E1%BA%A1ng
_ti%E1%BA%BFng_n%C3%B3i
`