Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói

Tiểu luận môn học:Truyền thông đa phương tiện NHD:TS.
Nguyễn Hoàng Lan
LỜI NÓI ĐẦU
Mục đích của báo cáo này là Tìm hiểu phương pháp phân tích đặc trưng tiếng nói.
Phân tích và thử nghiệm một ứng dụng liên quan nhận dạng tiếng nói.
Trích chọn các tham số đặc trưng là bước có ý nghĩa quyết định tới kết quả
của các chương trình nhận dạng tiếng nói. Có nhiều phương pháp trích chọn các tham
số đặc trưng nhưng nhìn chung các phương pháp này dựa trên hai cơ chế:
Mô phỏng lại quá trình cảm nhận âm thanh của tai người. Mô phỏng lại quá trình tạo
âm của cơ quan phát âm.
Dưới sự hướng dẫn tận tình của Cô Nguyễn Hoàng Lan em đã cố gắn hoàn thành tốt
bài tiểu luận. Nhưng trong quá trình thực hiện không tránh khỏi nhữnh sai sót, mong
thày góp ý để bài tiểu luận được hoàn thiện hơn.
Em xin chân thành cảm ơn !
Hà Nội, tháng 6 năm 2010.
HV: Nguyễn Ngọc Đăng
Học Viên: Nguyễn Ngọc Đăng 1

Tiểu luận môn học: Truyền thông đa phương tiện NHD:TS. Nguyễn Hoàng Lan
PHẦN I: NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI
I. Bộ máy phát âm của con người
i. Cơ chế phát âm
Sơ đồ hệ thống phát âm của người được minh họa như hình vẽ:
Hình 1: Bộ máy phát âm
(1) Khoang mũi, (2) Vòm miệng cứng, (3) Ổ răng, (4) Vòm miệng mềm, (5)-(6)-(8)
Lưỡi, (7) Lưỡi gà, (9) Họng, (10) Nắp thanh quản, (11)-(12) Dây thanh âm, (13)
Thanh quản, (14) Thực quản, (15) Khí quản.
Hệ thống phát âm ở người bao gồm: phổi (lung), khí quản (trachea), thanh quản
(thanh quản), khoang miệng (oral cavity) và khoang mũi (nasal cavity). Thanh quản chứa
hai nếp gấp gọi là dây thanh âm (vocal cords), sẽ kéo căng khi phát ra tiếng nói. Khoang
miệng gồm một ống âm thanh (acoustic tube) dài khoảng 17 cm ở người nam, phần trước
kết thúc ở môi và phần sau kết thúc ở dây thanh âm hoặc thanh quản. Khoang miệng

Tiểu luận môn học:Truyền thông đa phương tiện NHD:TS. Nguyễn Hoàng Lan
đóng vai trò là một hộp cộng hưởng động, thể tích của nó có thể được điều khiển bởi bộ
máy phát âm ( môi, lưỡi, quai hàm, và vòm miệng mềm). Khoang mũi là một ống dài
khoảng 12 cm ở người nam, kết thúc ở lỗ mũi và vòm miệng mềm. Vòm miệng mềm
(velum) sẽ điều khiển hơi phát ra theo đường miệng hoặc đường mũi. Đối với những âm
không theo giọng mũi (non-nasalised), vòm miệng mềm sẽ đóng khoang mũi và hơi chỉ
phát ra theo đường miệng. Đối với những âm có giọng mũi, vòm miệng mềm sẽ dịch
chuyển xuống phía dưới, đóng đường miệng và hơi chỉ phát ra theo đường mũi. Trường
hợp thứ ba là hơi được phát ra theo cả hai đường.
Quá trình phát âm: khi nói, phổi chứa đầy không khí. Lượng không khí này sẽ được
đẩy qua khí quản và thanh môn (glottis). Luồng không khí qua thanh môn sẽ kích thích
dây thanh âm dao động tạo ra sự phát âm. Âm thanh này được truyền ra ngoài qua
khoang miệng và khoang mũi. Các khoang này có tác dụng như bộ lọc làm suy hao một
vài tần số trong khi cho các tần số khác đi qua.
ii. Đặc trưng vật lý

- Độ cao:
Là mức độ cao thấp của âm, phụ thuộc vào sự chấn động nhanh hay chậm của không
khí trong một khoảng thời gian nhất định, được gọi là tần số dao động. Tần số dao động
càng lớn thì âm thanh càng cao.
- Độ mạnh:
Thường được gọi là cường độ, do biên độ dao động quyết định. Trong ngôn ngữ, phụ
âm thường mạnh hơn nguyên âm, đây chính là một trong những đặc điểm góp phần nhận
diện sự khác biệt giữa phụ âm và nguyên âm trong âm thanh tiếng nói.
- Độ dài:
Là trường độ của âm, phụ thuộc vào sự chấn động lâu hay mau của các phần tử không
khí. Độ dài được sử dụng để phân biệt các nguyên âm dài và ngắn, như phân biệt “a” với
“ă”, “ơ” với “â” trong tiếng Việt.
- Âm sắc:
Là sắc thái riêng của một âm do các cá thể khác nhau tạo ra. Âm sắc là nguyên nhân
gây ra sự khác biệt giữa giọng nói của người này với người khác. Âm sắc có được là do
hiện tượng cộng hưởng.
- Tiếng ồn và tiếng thanh:

Tiếng ồn là do sự chuyển động không nhịp nhàng (không có chu kỳ ổn định) của các
phần tử không khí gây ra. Tiếng thanh là do sự chuyển động nhịp nhàng (có chu kỳ ổn
định) của các phần tử không khí gây ra.
iii. Phân loại tiếng nói

- Âm hữu thanh:

Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho
thanh môn mở ra rồi đóng lại khi luồng không khí đi qua. Bộ phận phát âm hoạt động
giống như hộp cộng hưởng, khuyếch đại những thành phần hài này và làm suy giảm
những thành phần hài khác để tạo ra âm hữu thanh. Mức độ rung của dây thanh âm tùy
thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm. Người nói có thể điều
khiển 2 yếu tố trên để thày đổi chu kì cơ bản (được gọi là pitch) của âm thanh. Ở người
đàn ông, tần số cơ bản khoảng từ 50÷250 Hz, trong khi ở phụ nữ là thường rơi vào
khoảng 120÷500 Hz.
Trong ngôn ngữ, các nguyên âm về bản chất âm học là những âm hữu thanh.
- Âm vô thanh:
Được tạo ra khi dây thanh âm không rung. Có hai loại âm vô thanh cơ bản: âm xát và
âm bật hơi.
• Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị co
lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu
nhiên. Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ
phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát.
• Đối với âm bật hơi, như khi ta nói ‘h’ trong ₡hùng?, hỗn loạn xảy ra ở gần
thanh môn khi dây thanh âm bị giữ nhẹ một phần. Trường hợp này, cộng hưởng
của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên. Hiệu ứng này có
thể nghe rõ khi nói thì thầm.
Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh.
Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất
nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm. Ví
dụ như âm ‘i’ và ‘u’ trong những từ ‘ai’, ‘âu’.
- Âm bật hơi:
Khi phát các âm này, bộ máy phát âm sẽ được đóng lại hoàn toàn tại một điểm nào đó
trong bộ máy phát âm. Ap suất không khí trong bộ máy phát âm sẽ tăng lên tức thời và
được giải phóng một cách đột ngột. Sự giải thoát nhanh chóng của áp suất này sẽ tạo nên
một sự kích thích tạm thời của bộ máy phát âm.
iv. Mô hình lọc nguồn tạo tiếng nói

(Hình 2) minh họa mô hình rất đơn giản của bộ phận phát ra nguyên âm “e” là một ống
đều có chiều dài L, một đầu nguồn âm thanh(dây thanh âm) và đầu kia được mở ra(môi).
Ống này cộng hưởng ở các tần số lẻ f0, 3f0, 5f0… với f0=c/4L với c là vận tốc âm thanh
trong không khí. Ví dụ, L=17cm, c=300m/s, thì sẽ cộng hưởng ở các tần số: 500Hz,
1500Hz, 2500Hz,… những đỉnh cộng hưởng này được gọi là các Formant. Bộ phận phát
âm có thể nhiều dạng khác nhau và tạo ra những đỉnh cộng hưởng khác nhau hay các giá

trị Formant khác nhau nên âm thanh phát ra khác nhau. Trong tiếng nói, các tần số
Formant luôn thay đổi từ âm này sang âm khác.
Hình 2: Mô hình ống đều của bộ phận phát âm
Quá trình hình thành tiếng nói được biểu diễn bằng mô hình Source-filter:
Hình 3: Tạo tiếng nói theo mô hình lọc nguồn
Tín hiệu vào là tín hiệu từ nguồn âm thanh(cũng có thể là có chu kì hay nhiễu) được
lọc bằng bộ lọc có tính chất cộng hưởng tương tự với bộ phận phát âm. Phổ của tín hiệu
tiếng nói thu được bằng cách nhân phổ của bộ lọc với phổ của tín hiệu. AV, AN là các độ
lợi biểu thị cường độ của âm thanh và cường độ nhiễu.
Một bộ phận phát âm có một số hữu hạn Formant, nhưng chỉ cần quan tâm đến 3 hay 4
Formant đầu tiên trên băng tần từ 100Hz đến 3.5kHz do biên độ của các Formant cao hơn
bị suy giảm gần như hoàn toàn với độ suy giảm -12dB/octave. Trường hợp tiếng nói vô
thanh, phổ tương đối bằng phẳng, số lượng các Formant như vậy vẫn đủ mặc dù tiếng nói
vô thanh có băng tần mở rộng lên đến 7-8kHz. Ngoài ra, do ảnh hưởng bức xạ của miệng
nên biên độ được tăng lên chừng 6dB/octave trong băng tần 0-3kHz. Chình vì vậy mà
đến phần tiền xử lý tín hiệu ta phải dùng bộ lọc tiền nhấn để bù thêm +6dB/octave.

II. Cơ quan thính giác của con người:

1. Cấu tạo
Hình 4: Cấu tạo cơ quan thính giác
Tai ngoài:
Bao gồm có vành tai và lỗ tai, chính lỗ tai sẽ dẫn tín hiệu âm thanh đến màng nhĩ và
làm cho màng nhĩ rung lên. Độ lệch của màng nhĩ khoảng chừng vài nanomet và một
tiếng nói thầm có thể tạo ra một độ lệch chỉ bằng một phần mười bán kính nguyên tử
hydro.
Tai giữa:
Có một xương nhỏ gọi là xương búa áp sát vào màng nhĩ. Trong lúc màng nhĩ rung
lên, vì xương búa liên kết với các xương khác, gọi là xương đe, làm xương này có thể
quay. Trong lúc quay, xương đe lại liên kết với một xương khác, gọi là xương bàn đạp,
nó áp sát vào cửa sổ hình ovan của vùng trong tai. Ba xương này (búa, đe, bàn đạp) là
những xương nhỏ nhất trong cơ thể con người và được gọi chung là xương nhỏ. Chức
năng của nó là truyền tải sự rung động của màng nhĩ đến cửa sổ hình oval ở trong tai.
Tai trong:
Cửa sổ hình oval là một màng phủ nhầy, mở rộng trong bức tường xương có cấu trúc
xoắn ốc, được gọi là ốc tai. Chất lỏng trong ốc tai được chia theo chiều dài của nó thành
hai màng nhầy, gọi là màng nhầy Reissner và màng nhầy cơ bản(màng đáy). Sự rung
động của cửa sổ oval gây nên sóng áp suất truyền đến chất lỏng ở trong xương nhỏ và áp
suất của sóng gây trên màng nhầy cơ bản một độ lệch tại những điểm khác nhau dọc theo
chiều dài của nó. Áp chặt vào màng nhầy cơ bản là cơ quan vỏ não. Cơ quan này chứa
khoảng 30000 tế bào hình sợi. Mỗi tế bào này có nhiều sợi nhỏ li ti nhô ra. Các sợi dây
này uốn cong nhờ sự vận động của màng nhầy cơ bản và nhờ đó các tế bào hình sợi hoạt

động. Các tế bào hình sợi này liên kết với các đầu cuối của nơron của hệ thần kinh để
truyền tín hiệu về não.
ii. Cơ chế nghe

Khi ta nghe một sóng âm thuần tuý tức âm đơn (sóng sine), những điểm khác nhau
trên màng đáy sẽ rung động thao tần số của âm đơn đi vào tai. Điểm lệch lớn nhất trên
màng đáy phụ thuộc tần số âm đơn. Tần số càng cao tạo ra điểm lệch lớn nhất ở phía đáy
và tần số thấp tạo ra điểm lệch lớn nhất phía đỉnh. Như vậy màng đáy đóng vai trò phân
tích tần số tín hiệu vào phức tạp, bằng cách tách những tần số khác nhau ở những điểm
khác nhau dọc theo chiều dài của nó. Mỗi điểm như vậy có thể xem là một bộ lọc thông
dải có tần số trung tâm và băng thông xác định. Những đáp ứng này không đối xứng
quanh tần số trung tâm, vùng tần số cao có tốc độ suy giảm dốc hơn nhiều so với vùng
tần số thấp. Vị trí của độ lệch cực đại dọc theo màng nhày biến thiên phi tuyến theo tần
số (theo hàm logarit).
Những nghiên cứu chỉ ra rằng ngưỡng nghe của một âm đơn tăng lên khi có sự hiện
diện của những âm đơn lân cận khác (âm mặt nạ) và chỉ có băng tần hẹp xung quanh
âm đơn mới tham gia vào hiệu ứng mặ nạ, băng tần này thường gọi là băng tần tới hạn.
Giá trị của băng tần tới hạn phụ thuộc vào tan số của âm đơn cần thử. Với âm đơn
100Hz, băng tần tới hạn xấp xỉ 90Hz, với âm đơn 5kHz là xấp xỉ 1kHz.
Có thể xem quá trình nghe của hệ thính giác là một dãy cac bộ lọc băng thông, có đáp
ứng phủ lấp lên nhau và băng thông hiệu quả của chúng xấp xỉ băng thông tới hạn. Đây
là cơ sở cho việc thiết kế dãy băng lọc sau này
III. Ngữ âm tiếng Việt

1. Âm vị
Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm
vị. Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu
tiếng nói. Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó để tạo ra những âm
thanh khác nhau.
ii. Nguyên âm
Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng và hốc yết hầu-nguồn
gốc của các Formant. Khoang miệng và khoang yết hầu được tách biệt ra bởi lưỡi. Do đó,
sự thay đổi của khoang này đồng nghĩa với sự thay đổi của khoang kia. Việc xác định thể
tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức xác định khả
năng cộng hưởng của chúng, chính là mô tả độ mở của miệng, vị trí của lưỡi và hình
dáng của môi.

1. Phụ âm
Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở, sự cản trở
này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ phận khác
nhau của cơ quan phát âm. Phụ âm đuợc chia ra phụ âm tắc (như ‘p’, ‘t’, ‘đ’, ‘b’) và phụ
âm xát(như ‘v’, ‘s’, ‘x’)
• Phụ âm tắc: Đặc trưng là một tiếng nổ, do luồng không khí bị cản trở hoàn toàn,
phải phá vỡ sự cản trở để thoát ra ngoài. Phụ âm tắc được chia làm phụ âm bật
hơi (như ‘th’)và phụ âm mũi (như ‘m’, ‘n’, ‘ng’, ‘nh’).
• Phụ âm xát: Đặc trưng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị cản
trở không hoàn toàn(chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi
thoát ra ngoài cọ xát vào thành của bộ phận phát âm.
2. Thanh điệu
Thanh điệu là sự nâng cao hay hạ thấp “giọng nói” trong một âm tiết. Âm tiết là đơn
vị phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ. Thanh điệu là sự thay đổi cao độ
của giọng nói, điều đó có nghĩa thay đổi biên độ tần số cơ bản trong âm hữu thanh.
Thanh điệu được xác định bằng tần số cơ bản.

PHẦN II: CÁC PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC TRƯNG
CỦA TIẾNG NÓI
Qua phần phân tích ngữ âm, ta thấy rằng, khi phát âm một từ (tổng quát gồm phụ âm,
nguyên âm, thanh điệu), dây thanh âm rung tạo ra dạng sóng của luồng không khí, đến
lượt bộ phận cấu âm và mũi biến đổi chậm làm thay đổi dạng sóng phát ra bên ngoài để
tạo ra những từ khác nhau. Như vậy tín hiệu tiếng nói là do xung bước sóng chập với tín
hiệu biến thiên chậm của bộ phận cấu âm. Điều này dẫn tới việc trích tham số tiếng nói
rất hiệu quả là phân tích cepstral, trong phương pháp này người ta muốn lấy phần tín
hiệu có tần số thấp do bộ phận cấu âm tạo ra.
I. Phân tích cepstral theo thang đo mel

Phương pháp tính các hệ số MFCC là phương pháp trích chọn tham số tiếng nói
được sử dụng rộng rãi bởi tính hiệu quả của nó thông qua phân tích cepstral theo thang
đo mel.
Phương pháp được xây dựng dựa trên sự cảm nhận của tai người đối với các dải tần số
khác nhau. Với các tần số thấp (dưới 1000 Hz), độ cảm nhận của tai người là tuyến
tính. Đối với các tần số cao, độ biến thiên tuân theo hàm logarit. Các băng lọc tuyến
tính ở tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để trích
chọn các đặc trưng âm học quan trọng của tiếng nói. Mô hình tính toán các hệ số MFCC
được mô tả như (Hình 5).
Hình 5: Sơ đồ tính toán các hệ số MFCC
Ý nghĩa và phương pháp xác định tham số ở các khối trong sơ đồ trên mô tả như sau:
Khối 1: Bộ lọc hiệu chỉnh (Preemphasis)

Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn, giảm
ảnh hưởng gây ra cho các xử lý tín hiệu sau này. Thường bộ lọc này cố định bậc một, có
dạng:

H(z) = 1 – az-1 0.9 ≤ a ≤ 1.0
Quan hệ giữa tín hiệu ra với tín hiệu vào tuân theo phương trình
~
s (n) = s(n)-a.s(n-1)
Giá trị a thường được chọn là 0.97.
Khối 2: Phân khung (Frame Blocking)

Trong khối này tín hiệu hiệu chỉnh được phân thành các khung, mỗi
khung có N mẫu; hai khung kề lệch nhau M mẫu. Khung đầu tiên chứa N mẫu, khung
thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫu.
Tương tự, khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai M
mẫu) và chờm lên khung thứ nhất N-2M mẫu. Quá trình này tiếp tục cho đến khi tất cả
các mẫu tiếng nói cần phân tích thuộc về một hoặc nhiều khung.
Khối 3: Lấy cửa sổ (Windowing)

Bước tiếp theo là lấy cửa sổ cho mỗi khung riêng rẽ nhằm giảm sự gián đoạn của tín
hiệu tiếng nói tại đầu và cuối mỗi khung. Nếu w (n), 0 ≤ n ≤ N-1
Thông thường, của sổ Hamming được sử dụng. Cửa sổ này có dạng:
Khối 4: Biến đổi Fourier rời rạc (FFT)

Tác dụng của FFT là chuyển đổi mỗi khung với N mẫu từ miền thời gian sang miền
tần số. FFT là thuật toán tính DFT nhanh. DFT được xác định
Khối 5: Biến đổi sang thang đo Mel trên miền tần số

Như đã nói ở trên, tai người không cảm nhận sự thay đổi tần số của tiếng nói tuyến
tínhmà theo thang Mel. Người ta chọn tấn số 1kHz, 40 dB trên ngưỡng nghe là 1000
Mel. Do đó, công thức gần đúng biểu diễn quan hệ tần số ở thang mel và thang tuyến
tính như sau:

Hình 6: Các băng lọc tam giác theo tần số Mel
Một phương pháp để chuyển đổi sang thang mel là sử dụng băng lọc (Hình 6), trong
đó mỗi bộ lọc có đáp ứng tần số dạng tam giác. Số băng lọc sử dụng thường trên 20
băng. Thông thường, người ta chọn tần số từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếng
nói). Nhưng cũng có thể một dải tần giới hạn từ LOFREQ đến HIFREQ sẽ được dùng
để lọc đi các tần số không cần thiết cho xử lý. Chẳng hạn, trong xử lý tiếng nói qua
đường điện thoại có thể lấy giới hạn dải tần từ LOFREQ=300 đến HIFREQ=3400.
Sau khi tính FFT ta thu được phổ tín hiệu S(fn) . Thực chất đây là một dãy năng lượng
W(m)=|s(fn)|2. Cho W(m) đi qua một dãy K băng lọc dạng tam giác, ta được một dãy các
. Tính tổng của các dãy trong từng băng lọc, ta thu được một dãy các hệ số
mk(k=1,2,3…,K).
Khối 6: Biến đổi Cosine rời rạc (DCT)Trong bước này ta sẽ chuyển log của các giá
trị mk về miền thời gian bằng cách biến đổi Cosine rời rạc (DCT). Kết quả của phép biến
đổi này ta thu được các hệ số MFCC.
Thông thường, chỉ có một số giá trị đầu tiên của ci được sử dụng. Trong các ứng dụng
nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng của
khung sau khi đã được chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như vậy
tổng cộng có Q=13 hệ số).
Khối 7: Cepstral có trọng số

Vì độ nhạy của các hệ số cepstral bậc thấp làm cho phổ toàn bộ bị đổ dốc, độ nhạy của
các cepstral bậc cao gây ra nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểu
hóa độ nhạy này. Công thức biểu diễn các hệ số cepstral có trọng số:

Khối 8: Lấy đạo hàm các hệ số MFCC theo thời gian
Để nâng cao chất lượng nhận dạng, người ta đưa thêm các giá trị đạo hàm theo thời
gian của các giá trị hệ số MFCC vào vector hệ số tiếng nói. Các giá trị đó được tính theo:
Trong đó; θ: là độ dài cửa sổ tính delta (thường chọn là 2 hoặc 3).
Kết thúc các bước trên với mỗi khung ta thu được một vector có 2Q thành phần biểu
diễn tham số đặc trưng của tiếng nói.
II. Phương pháp mã dự đoán tuyến tính LPC(Linear Predictive Coding)

Mô hình LPC được sử dụng để trích lọc các tham số đặc trưng của tín hiệu tiếng nói.
Kết quả của quá trình phân tích tín hiệu thu được một chuỗi gồm các khung tiếng nói.
Các khung này được biến đổi nhằm sử dụng cho việc phân tích âm học.
Nội dung phân tích dự báo tuyến tính là: một mẫu tiếng nói được xấp xỉ bởi tổ hợp
tuyến tính của các mẫu trước đó. Thông qua việc tối thiểu hóa tổng bình phương sai số
giữa các mẫu hiện tại với các mẫu dự đoán có thể xác định được một tập duy nhất các hệ
số dự báo. Các hệ số dự báo này là các trọng số được sử dụng trong tổ hợp tuyến tính.
Với dãy tín hiệu tiếng nói s(n) giá trị dự báo được xác định bởi:
Trong đó; ak : là các hệ số đặc trưng cho hệ thống.
Hình 7: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói
Sơ đồ khối bộ phân tích LPC dùng cho trích chọn các tham số đặc trưng của tín hiệu
tiếng nói (Hình 7). Hàm sai số dự báo được tính theo công thức:
Để cực tiểu hóa lỗi cần tìm tập giá trị { α k } phù hợp nhất.
Do tín hiệu tiếng nói thay đổi theo thời gian nên các hệ số dự báo phải được ước

lượng từ các đoạn tín hiệu ngắn. Vấn đề đặt ra là tìm một tập các hệ số dự báo để tối
thiểu hóa sai số trung bình trên một đoạn ngắn.
Hàm lỗi dự báo trong một thời gian ngắn xác định bởi:
Trong đó; s n (m) : là một đoạn tín hiệu tiếng nói lân cận mẫu thứ n;
Tìm tập giá trị αk để tối thiểu hóa En bằng cách đặt ∂ E n / ∂α i = 0 với: i = 1,2,...,p
Từ đó nhận được phương trình:
Đặt:
Phương trình trên có thể viết:
Giải hệ p phương trình này tìm được p ẩn cuả {αk}. Tập các hệ số {αk} sẽ tối thiểu sai
số trung bình bình phương dự đoán cho đoạn tín hiệu sn (m). Sai số dự đoán được xác
định:

Sử dụng phép thế ta có:
Theo nguyên tắc, phân tích dự doán tuyến tính rất đơn giản nhưng việc tính toán θ n
(i, k ) và tìm nghiệm của hệ phương trình rất phức tạp. Phương pháp khắc phục là sử
dụng hàm tự tương quan để giải các phương trình này.
Giả sử đoạn tín hiệu sn (m)=0 nếu chúng nằm ngoài khoảng 0 ≤ m ≤ N - 1. Điều đó có
nghĩa là có thể biểu diễn đoạn tín hiệu đó dưới dạng: s n(m) = s(n + m)w(m), trong
đó: w(m) là cửa sổ có chiều dài hữu hạn (thường dùng cửa sổ Hamming). Sai số dự đoán
Em (m) :
Khi đó (2-24) trở thành:
Gọi Rn(k ) là hàm tự tương quan dạng:
Do Rn (k ) là hàm chẵn nên:
Do đó:
Hệ phương trình này có thể viết dưới dạng ma trận:

Trong đó:
Chú ý: R là ma trận đối xứng. Tất cả các phần tử thuộc đường chéo của ma trận này
đều có giá trị bằng nhau, điều đó có nghĩa là nghịch đảo của nó luôn tồn tại và có nghiệm.
III. Phương pháp PLP

Phương pháp này là sự kết hợp của hai phương pháp đã trình bày ở trên. Hình 8 mô
tả các bước xác định hệ số PLP.
Hình 8: Sơ đồ các bước xác định hệ số PLP
Các khối xử lý
Khối 1: Biến đổi Fourier nhanh (FFT)
Tương tự như phương pháp MFCC, tín hiệu tiếng nói được chia thành các khung
và được chuyển sang miền tần số bằng thuật toán FFT.

Khối 2: Lọc theo thang tần số Bark
Tín hiệu tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến,
trong trường hợp này là thang tần số Bark:
Khối 3: Nhấn mạnh tín hiệu dùng hàm cân bằng độ ồn (equal-loudnes)
Bước này tương tự bước nhấn mạnh (preemphais) của phương pháp MFCC. Hàm này
mô phỏng đường cong cân bằng độ ồn (Equal-Loudnes Curve)
Khối 4: Dùng luật cường độ nghe (Power Law of Hearing)

Bước xử lý này giống như bước lấy giá trị logarit trong phương pháp MFCC.
Hàm căn lập phương được dùng có dạng:
Φ ( f ) = ψ ( f ) 0.33
Khối 5: Biến đổi Fourier ngược (Inverse DFT)
Các hệ số tự tương quan được biến đổi Fourier ngược là giá trị đầu vào cho LPC.
Khối 6: Thuật toán Durbin

Thuật toán Durbin được sử dụng để tính các hệ số dự báo tuyến tính như phương pháp
LPC
Khối 7: Tính các giá trị delta

Phương pháp tính tương tự như phương pháp hệ số MFCC.

PHẦN III: ỨNG DỤNG PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC
TRƯNG CỦA TIẾNG NÓI VÀO NHẬN DẠNG
I. Tổng quan về nhận dạng tiếng nói

Nhận dạng tiếng nói là một hệ thống tạo khả năng để máy nhận biết ngữ nghĩa của lời
nói.
Về bản chất, đây là quá trình biến đổi tín hiệu âm thanh thu được của người nói qua
Micro, đường dây điện thoại hoặc các thiết bị khác thành một chuỗi các từ. Kết quả của
quá trình nhận dạng có thể được ứng dụng trong điều khiển thiết bị, nhập dữ liệu, soạn
thảo văn bản bằng lời, quay số điện thoại tự động hoặc đưa tới một quá trình xử lý ngôn
ngữ ở mức cao hơn.
Hình 9: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói
Các hệ thống nhận dạng tiếng nói có thể được phân loại như sau:
• Nhận dạng từ phát âm rời rạc/liên tục;

• Nhận dạng tiếng nói phụ thuộc người nói/không phụ thuộc người nói;
• Hệ thống nhận dạng từ điển cỡ nhỏ (dưới 20 từ)/từ điển cỡ lớn (hàng nghìn từ);
• Nhận dạng tiếng nói trong môi trường có nhiễu thấp/cao;
• Nhận dạng người nói.
Trong hệ nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng giữa các từ
trong câu. Trong hệ nhận dạng tiếng nói liên tục không đòi hỏi điều này. Tùy thuộc
vào quy mô và phương pháp nhận dạng, ta có các mô hình nhận dạng tiếng nói khác
nhau. (Hình 9) là mô hình tổng quát của một hệ nhận dạng tiếng nói điển hình.
Tín hiệu tiếng nói sau khi thu nhận được lượng tử hóa sẽ biến đổi thành một tập các
vector tham số đặc trưng với các phân đoạn có độ dài trong khoảng 10-30 ms. Các đặc

trưng này được dùng cho đối sánh hoặc tìm kiếm các từ gần nhất với một số ràng buộc
về âm học, từ vựng và ngữ pháp. Cơ sở dữ liệu tiếng nói được sử dụng trong quá trình
huấn luyện (mô hình hóa/phân lớp) để xác định các tham số hệ thống.
II. Các phương pháp tiếp cận trong nhận dạng tiếng nói
Có ba phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói hiện nay là:
• Phương pháp Âm học-Ngữ âm học;
• Phương pháp nhận dạng mẫu;
• Phương pháp ứng dụng trí tuệ nhân tạo.
Các phương pháp được trình bày tóm tắt như dưới đây.
1. Phương pháp Âm học-Ngữ âm học

Phương pháp này dựa trên lý thuyết về Âm học-Ngữ âm học. Lý thuyết đó cho biết:
tồn tại các đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ âm
đó được đặc trưng bởi một tập các tín hiệu tiếng nói. Các bước nhận dang của phương
pháp gồm:
Bước 1: Phân đoạn và gán nhãn. Bước này chia tín hiệu tiếng nói thành các đoạn có
đặc tính âm học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán cho
mỗi đoạn âm thanh đó một hay nhiều nhãn ngữ âm phù hợp.
Bước 2: Nhận dạng. Bước này dựa trên một số điều kiện ràng buộc về từ vựng, ngữ
pháp v.v… để xác định một hoặc một chuỗi từ đúng trong các chuỗi nhãn ngữ âm được
tạo ra sau bước:
Sơ đồ khối của phương pháp này được biểu diễn ở (Hình 9). Nguyên lý hoạt động
của phương pháp có thể mô tả như sau:
Trích chọn đặc trưng: Tín hiệu tiếng sau khi số hóa được đưa tới khối trích
chọn đặc trưng nhằm xác định các phổ tín hiệu. Các kỹ thuật trích chọn đặc trưng tiếng
nói phổ biến là sử dụng băng lọc (filter bank), mã hóa dự đoán tuyến tính (LPC)… Tách
tín hiệu tiếng nói nhằm biến đổi phổ tín hiệu thành một tập các đặc tính mô tả các tính
chất âm học của các đơn vị ngữ âm khác nhau. Các đặc tính đó có thể là: tính chất các
âm mũi, âm xát; vị trí các formant; âm hữu thanh, vô thanh; tỷ số mức năng lượng tín
hiệu…
Phân đoạn và gán nhãn: Ở bước này hệ thống nhận dạng tiếng xác định các vùng âm
thanh ổn định (vùng có đặc tính thay đổi rất ít) và gán cho mỗi vùng này một nhãn phù
hợp với đặc tính của đơn vị ngữ âm. Đây là bước quan trọng của hệ nhận dạng tiếng
nói theo khuynh hướng Âm học-Ngữ âm học và là bước khó đảm bảo độ tin cậy nhất.

Nhận dạng: Chọn lựa để kết hợp chính xác các khối ngữ âm tạo thành các từ nhận
dạng.
Đặc điểm của phương pháp nhận dạng tiếng nói theo hướng tiếp cận Âm học-Ngữ âm
học:
• Người thiết kế phải có kiến thức khá sâu rộng về Âm học-Ngữ âm học;
• Phân tích các khối ngữ âm mang tính trực giác, thiếu chính xác;
• Phân loại tiếng nói theo các khối ngữ âm thường không tối ưu do khó sử dụng các
công cụ toán học để phân tích.
Hình 10: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học
ii. Phương pháp nhận dạng mẫu
Hình 11: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp mẫu
Phương pháp nhận dạng mẫu không cần xác định đặc tính âm học hay phân đoạn tiếng
nói mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng. Các hệ
thống nhận dạng tiếng nói theo phương pháp này được phát triển theo hai bước (Hình 11),
cụ thể là.

Bước 1: Sử dụng tập mẫu tiếng nói (cơ sở dữ liệu mẫu tiếng nói) để đào tạo các mẫu
tiếng nói đặc trưng (mẫu tham chiếu) hoặc các tham số hệ thống.
Bước 2: Đối sánh mẫu tiếng nói từ ngoài với các mẫu đặc trưng để ra quyết định.
Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói cho đào tạo có đủ các phiên bản
mẫu cấn nhận dạng thì quá trình đào tạo có thể xác định chính xác các đặc tính âm học
của mẫu (các mẫu ở đây có thể là âm vị, từ, cụm từ…). Hiện nay, một số kỹ thuật nhận
dạng mẫu được áp dụng thành công trong nhận dạng tiếng nói là lượng tử hóa vector, so
sánh thời gian động (DTW), mô hình Markov ẩn (HMM), mạng nơron nhân tạo (ANN).
Hệ thống bao gồm các hoạt động sau:

Trích chọn đặc trưng: Tín hiệu tiếng nói được phân tích thành chuỗi các số đo để xác
định mẫu nhận dạng. Các số đo đặc trưng là kết quả xử lý của các kỹ thuật phân tích
phổ như: lọc thông dải, phân tích mã hóa dự đoán tuyến tính (LPC), biến đổi Fourier rời
rạc (DFT).
Huấn luyện mẫu: Nhiều mẫu tiếng nói ứng với các đơn vị âm thanh cùng loại dùng để
đào tạo các mẫu hoặc các mô hình đại diện, được gọi là mẫu tham chiếu hay mẫu chuẩn.
Nhận dạng: Các mẫu tiếng nói được đưa tới khối phân loại mẫu. Khối này đối sánh
mẫu đầu vào với các mẫu tham chiếu. Kối nhận dạng căn cứ vào các tiêu chuẩn đánh giá
để quyết định mẫu tham chiếu nào giống mẫu đầu vào.
Một số đặc điểm của phương pháp nhận dạng mẫu:

• Hiệu năng của hệ phụ thuộc vào số mẫu đưa vào. Nếu số lượng mẫu càng
nhiều thì độ
• Chính xác của hệ càng cao; tuy nhiên, dung lượng nhớ và thời gian luyện mẫu
tăng.
• Các mẫu tham chiếu phụ thuộc vào môi trường thu âm và môi trường truyền dẫn.
• Không đòi hỏi kiến thức sâu về ngôn ngữ.
iii. Phương pháp ứng dụng trí tuệ nhân tạo

Phương pháp ứng dụng trí tuệ nhân tạo kết hợp các phương pháp trên nhằm tận dụng
tối đa các ưu điểm của chúng, đồng thời bắt chước các khả năng của con người trong
phân tích và cảm nhận các sự kiện bên ngoài để áp dụng vào nhận dạng tiếng nói. Sơ đồ
khối của phương pháp trí tuệ nhân tạo theo mô hình từ dưới lên (bottom-up) (Hình 12).
Đặc điểm của các hệ thống nhận dạng theo phương pháp này là:
Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn giản hóa
hệ thống so với phương pháp nhận dạng ngữ âm.
Sử dụng mạng nơron nhân tạo để học mối quan hệ giữa các ngữ âm, sau đó dùng nó
để nhận dạng tiếng nói.

Hình 12: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên
Việc sử dụng hệ chuyên gia nhằm tận dụng kiến thức con người vào hệ nhận dạng:
Kiến thức về âm học: Để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng
nói.
Kiến thức về từ vựng: sử dụng để kết hợp các khối ngữ âm thành các từ cần nhận dạng.
Kiến thức về cú pháp: nhằm kết hợp các từ thành các câu cần nhận dạng.
Kiến thức về ngữ nghĩa: nhằm xác định tính logic của các câu đã được nhận dạng.
Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào bộ nhận dạng tiếng
nói. Phương pháp thông dụng nhất là xử lý ”từ dưới lên”. Theo cách này, tiến trình xử lý
của hệ thống được triển khai tuần tự từ thấp lên cao. Trong (Hình 12), các bước xử lý ở
mức thấp (phân tích tín hiệu, tìm đặc tính, phân đoạn, gán nhãn) được triển khai trước
khi thực hiện các bước xử lý ở mức cao (phân lớp âm thanh, xác định từ, xác định
câu). Mỗi bước xử lý đòi hỏi một hoặc một số nguồn kiến thức nhất định. Ví dụ: bước
phân đoạn tiếng nói cần hiểu biết sâu sắc về đặc tính Âm học-Ngữ âm học của các đơn
vị ngữ âm; bước xác định từ đòi hỏi kiến thức về từ vựng; bước xác định câu đòi hỏi
kiến thức về mô hình ngôn ngữ (nguyên tắc ngữ pháp).
Phương pháp này đã và đang được áp dụng thành công trong các ứng dụng nhận
dạng tiếng nói thực tế. Bước đầu tiên của quá trình nhận dạng là trích chọn các tham
số tín hiệu tiếng nói.
a. Phân tích tham số tiếng nói
Trong nhận dạng, tổng hợp, mã hóa tiếng nói đều cần phân tích các tham số. Dưới

đây, mô tả phương pháp phân tích cepstral theo thang đo mel để tính các hệ số MFCC
thông qua việc sử dụng dãy các băng lọc.
Khái niệm cơ bản trong phân tích tín hiệu tiếng nói là phân tích thời gian ngắn
(Short- Time Analysis). Trong khoảng thời gian dài, tín hiệu tiếng nói là không
dừng, nhưng trong khoảng thời gian đủ ngắn (10-30 ms) tiếng nói được coi là dừng. Do
đó, trong các ứng dụng xử lý tiếng nói người ta thường chia tiếng nói thành nhiều
đoạn có thời gian bằng nhau được gọi là khung (frame), mỗi khung có độ dài từ 10
đến 30 ms.
2. Phát hiện tiếng nói
Phát hiện thời điểm bắt đầu, điểm kết thúc của tiếng nói (tách tiếng nói ra khỏi
khoảng lặng) là phần cần thiết trong chương trình nhận dạng tiếng nói, đặc biệt trong
chế độ thời gian thực. Phần này trình bày ba phương pháp phát hiện tiếng nói dựa trên
hàm năng lượng thời gian ngắn SE (Short Energy) và tỷ lệ vượt quá điểm không ZCR
(Zero Crossing).
Phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được tính bằng cách chia tín
hiệu tiếng nói thành các khung, mỗi khung dài N mẫu. Mỗi khung được nhân với
một hàm cửa sổ W (n) . Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì hàm năng lượng
Em
thời gian ngắn được xác định như sau:
Trong đó:
n: là biến rời rạc;
m: là số mẫu thử thứ m;
N: là tổng số mẫu tiếng nói
Hàm cửa sổ W(n) thường dùng là hàm cửa sổ chữ nhật được xác định như sau:

Thuật toán xác định điểm đầu và điểm cuối tiếng nói theo phương pháp này:
Bước 1: Với mỗi khung của tín hiệu, xác định hàm năng lượng thời gian ngắn Em.
Nếu Em > Ethreshold(giá trị ngưỡng năng lượng cho trước) thì đánh dấu là điểm bắt đầu
khung (kí hiệu là khung B). Ngược lại, xét khung kế tiếp cho đến khi xác định được
khung B. Nếu không xác định được B, kết luận: đó không là tín hiệu tiếng nói.
Bước 2: Tính Em của khung kế tiếp khung B cho đến khi E m < Ethreshold thì dừng và
đánh dấu khung đó là điểm kết thúc của một từ (kí hiệu khung E). Sau khi xác định điểm
bắt đầu và kết thúc, dựa vào độ dài thời gian đoạn âm thanh đó để thêm bước kiểm tra: tín
hiệu đó có chắc là tiếng nói không? (một từ tiếng Việt nếu phát âm rõ ràng thường dài
hơn 200 ms).
Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt quá điểm không
Thuật toán này xác định điểm bắt đầu, điểm kết thúc của tín hiệu tiếng nói dựa trên hai
đại lượng tĩnh của tín hiệu tiếng nói là: hàm giả năng lượng E (Pseudo-Energy) và tỷ lệ
vượt quá điểm không ZCR (Zero Crossing Rate) .
Trong một dãy giá trị tín hiệu tiếng nói được rời rạc hóa, điểm không là điểm tại đó
diễn ra sự đổi dấu cường độ tín hiệu và được mô tả bởi:
Trong đó, sgn(.) là hàm dấu .
Năng lượng là đại lượng được dùng để xác định vùng chứa âm hữu thanh, vô thanh.
Nhưng hàm năng lượng thường rất nhạy cảm với nhiễu. Do vậy, người ta thường sử dụng
hàm giả năng lượng trong tính toán. Hàm giả năng lượng được xác định bởi:
Trong đó;
E^(n) : là hàm giả năng lượng,

N : là kích thước khung cửa sổ.
Tỷ lệ vượt quá điểm không ZCR
Ta thấy, khung có năng lượng càng cao thì tỷ lệ vượt quá điểm không càng thấp và
ngược lại. Như vậy, tỷ lệ vượt quá điểm không là đại lượng đặc trưng cho tần số tín hiệu
tiếng nói. Ở đây, chúng ta cần xác định các tham số ngưỡng cho hàm giả năng lượng với
hai ngưỡng trên và dưới và một ngưỡng tỷ lệ vượt quá điểm không.

Kí hiệu:
EUp : ngưỡng năng lượng trên (cao);

EDown : ngưỡng năng lượng dưới (thấp);
ZCR_T : ngưỡng tỷ lệ vượt quá điểm không.
Thuật toán này được mô tả như sau :

Bước 1: Chia chuỗi tín hiệu tiếng nói thành các khung. Tính giá trị hàm giả năng
lượng E^(n) và tỷ lệ vượt quá điểm không theo ZCR tương ứng trên mỗi khung.
Bước 2: Xét từ khung đầu tiên. Đánh dấu khung thứ i là điểm bắt đầu nếu tại khung i
tỷ lệ vượt quá điểm không của ZCR vượt ngưỡng (ZCR> ZCR_T ), và giá trị hàm giả
năng lượng vượt ngưỡng dưới (E^(n) > EDown ) theo hướng tăng của của hàm giả năng
lượng.
Bước 3: Xét các khung kế tiếp. Đánh dấu khung kế tiếp thuộc từ. Nếu hàm giả năng
lượng vượt ngưỡng trên (E^(n) > EUp ) theo hướng tăng của năng lượng.
Bước 4: Điểm bắt đầu của từ được xác định lại khi hàm giả năng lượng trên khung đó
nhỏ hơn ngưỡng dưới (E^(n) < EDown), và đồng thời tỷ lệ vượt quá điểm không trên
khung lớn hơn ngưỡng (ZCR > ZCR_T ).
Bước 5: Điểm kết thúc từ được xác định nếu tại đó; tỷ lệ vượt quá điểm không nhỏ
hơn ngưỡng (ZCR < ZCR_T ), và hàm giả năng lượng tương ứng nhỏ hơn ngưỡng dưới
(E^(n) < EDown ) theo xu hướng đi xuống của hàm giả năng lượng.
Phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn
Ý tưởng chính của phương pháp này là sử dụng bộ điều khiển dò biên tiếng nói VAD
(Voice Activity Detector) dựa trên việc xác định năng lượng phổ ngắn hạn Ef trên các
khung tín hiệu tiếng nói. VAD dùng để xác định một khung chứa tín hiệu tiếng nói hay
nhiễu. Hàm đầu ra của VAD trên khung thứ m là v [m]. Với khung chứa tiếng nói (có
thể cả nhiễu) v [m]=1, ngược lại khung chỉ chứa nhiễu v [m]=0.
Thuật toán được mô tả như sau:

Bước 1: Tính năng lượng phổ ngắn hạn Ef cho mỗi khung theo:
Trong đó;
NumChan : số kênh của băng lọc tam giác

: các phần tử đầu ra của NumChan (chuẩn hoá bằng hàm logarit)
Bước 2: Xác định năng lượng phổ trung bình dài hạn Em trên mỗi khung dựa trên E f
Nếu : ( )
Thì : (4-2)
Còn không thì : (4-3)

trong đó, α : ngưỡng của phổ trung bình dài hạn
Bước 3: Kiểm tra khung chứa tiếng nói hay không:

Nếu:
Thì: v[m]=1
Còn không thì: v[m]=0
Trong đó β : là tham số xác định nhờ thực nghiệm.
Phương pháp này ngăn việc phân loại sai của phụ âm sát và tiếng nói ở cuối tín hiệu
tiếng nói.

KẾT LUẬN
Qua bài tiểu luận ta đã phần nào tìm hiểu được các phương pháp phân tích đặc trưng
tiếng nói. Bài tiểu luận đã đưa ra những vấn đề cơ bản của tiếng nói như bộ máy phát âm
của con người và cơ quan thính giác. Qua các đặc điểm đó ta đi vào phân tích các phương
pháp trích chọn đặc trưng của tiếng nói. Dựa vào các phương pháp trích chọn đặc trưng
này đưa ra các phương pháp nhận dạng tiếng nói.
Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (Speech
recognition) trên cơ sở sử dụng các phương pháp trích chọn đặc trưng của tiếng nói,
nhiều kết quả đã trở thành sản phẩm thương mại như ViaVoice, Dragon..., các hệ thống
bảo mật thông qua nhận dạng tiếng nói các hệ quay số điện thoại bằng giọng nói... Triển
khai những công trình nghiên cứu và đưa vào thực tế ứng dụng vấn đề này là một việc
làm hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá hiện nay
của nước nhà.
Tài liệu tham khảo
[1] Ben J. Shannon, Kuldip K. Paliwal A Comparative Study of Filter Bank Spacing for
Speech Recognition.
[2] http://en.wikipedia.org
[3] http://www.lsv.uni-
saarland.de/Vorlesung/Digital_Signal_Processing/Summer06/dsp06_chap12.pdf
[4] Nguyễn Quang Hoan, Nhập môn trí tuệ nhân tao. 2007, Học viện công nghệ Bưu
Chính Viễn Thông.
[5] Nguyễn Phú Bình, “Bài giảng Xử lý tiếng nói”, Đại học Bách khoa Hà Nội.

MỤC LỤC
LỜI NÓI ĐẦU..............................................................................................................1
PHẦN I: NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI..........................................2
I. Bộ máy phát âm của con người..............................................................................2
i. Cơ chế phát âm..................................................................................................2
ii. Đặc trưng vật lý................................................................................................3
iii. Phân loại tiếng nói...........................................................................................3
iv. Mô hình lọc nguồn tạo tiếng nói......................................................................4
II. Cơ quan thính giác của con người:.......................................................................6
1. Cấu tạo..............................................................................................................6
ii. Cơ chế nghe......................................................................................................7
III. Ngữ âm tiếng Việt...............................................................................................7
1. Âm vị ...............................................................................................................7
ii. Nguyên âm .......................................................................................................7
PHẦN II: CÁC PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC TRƯNG CỦA
TIẾNG NÓI......................................................................................................................9
I. Phân tích cepstral theo thang đo mel......................................................................9
II. Phương pháp mã dự đoán tuyến tính LPC(Linear Predictive Coding)...............12
III. Phương pháp PLP.............................................................................................15
PHẦN III: ỨNG DỤNG PHƯƠNG PHÁP TRÍCH CHỌN THAM SỐ ĐẶC TRƯNG
CỦA TIẾNG NÓI VÀO NHẬN DẠNG.........................................................................17
I. Tổng quan về nhận dạng tiếng nói.......................................................................17
II. Các phương pháp tiếp cận trong nhận dạng tiếng nói.........................................18
1. Phương pháp Âm học-Ngữ âm học.................................................................18
ii. Phương pháp nhận dạng mẫu..........................................................................19
iii. Phương pháp ứng dụng trí tuệ nhân tạo.........................................................20
KẾT LUẬN................................................................................................................26

Tài liệu tham khảo......................................................................................................26

Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói

Uploaded by

Copyright:

Available Formats

Tiểu luận môn học:Truyền thông đa phương tiện NHD:TS.

Nguyễn Hoàng Lan

LỜI NÓI ĐẦU

Em xin chân thành cảm ơn !

Hà Nội, tháng 6 năm 2010.

HV: Nguyễn Ngọc Đăng

Học Viên: Nguyễn Ngọc Đăng 1

PHẦN I: NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI

I. Bộ máy phát âm của con người

Hình 1: Bộ máy phát âm

Thanh quản, (14) Thực quản, (15) Khí quản.

Học Viên: Nguyễn Ngọc Đăng 2

ii. Đặc trưng vật lý

- Tiếng ồn và tiếng thanh:

iii. Phân loại tiếng nói

Học Viên: Nguyễn Ngọc Đăng 3

iv. Mô hình lọc nguồn tạo tiếng nói

Học Viên: Nguyễn Ngọc Đăng 4

Hình 2: Mô hình ống đều của bộ phận phát âm

Hình 3: Tạo tiếng nói theo mô hình lọc nguồn

Học Viên: Nguyễn Ngọc Đăng 5

II. Cơ quan thính giác của con người:

Hình 4: Cấu tạo cơ quan thính giác

Học Viên: Nguyễn Ngọc Đăng 6

ii. Cơ chế nghe

III. Ngữ âm tiếng Việt

Học Viên: Nguyễn Ngọc Đăng 7

Học Viên: Nguyễn Ngọc Đăng 8

I. Phân tích cepstral theo thang đo mel

Hình 5: Sơ đồ tính toán các hệ số MFCC

Khối 1: Bộ lọc hiệu chỉnh (Preemphasis)

Học Viên: Nguyễn Ngọc Đăng 9

H(z) = 1 – az-1 0.9 ≤ a ≤ 1.0

Khối 2: Phân khung (Frame Blocking)

Khối 3: Lấy cửa sổ (Windowing)

Thông thường, của sổ Hamming được sử dụng. Cửa sổ này có dạng:

Khối 4: Biến đổi Fourier rời rạc (FFT)

Khối 5: Biến đổi sang thang đo Mel trên miền tần số

Học Viên: Nguyễn Ngọc Đăng 10

Khối 7: Cepstral có trọng số

Học Viên: Nguyễn Ngọc Đăng 11

II. Phương pháp mã dự đoán tuyến tính LPC(Linear Predictive Coding)

Trong đó; ak : là các hệ số đặc trưng cho hệ thống.

Hình 7: Sơ đồ xử lý LPC dùng trích chọn đặc trưng tiếng nói

Học Viên: Nguyễn Ngọc Đăng 12

Từ đó nhận được phương trình:

Phương trình trên có thể viết:

Học Viên: Nguyễn Ngọc Đăng 13

Khi đó (2-24) trở thành:

Gọi Rn(k ) là hàm tự tương quan dạng:

Do Rn (k ) là hàm chẵn nên:

Hệ phương trình này có thể viết dưới dạng ma trận:

Học Viên: Nguyễn Ngọc Đăng 14

III. Phương pháp PLP

Hình 8: Sơ đồ các bước xác định hệ số PLP

Học Viên: Nguyễn Ngọc Đăng 15

Khối 4: Dùng luật cường độ nghe (Power Law of Hearing)

Khối 6: Thuật toán Durbin

Khối 7: Tính các giá trị delta

Học Viên: Nguyễn Ngọc Đăng 16

I. Tổng quan về nhận dạng tiếng nói

• Nhận dạng từ phát âm rời rạc/liên tục;

Học Viên: Nguyễn Ngọc Đăng 17

1. Phương pháp Âm học-Ngữ âm học