Wavelet 1

Luận văn tốt nghiệp cao học - Chuyên nghành CNTT
Kết luận..............................................................................................................................74
Tài liệu tham khảo.............................................................................................................75
DANH MỤC CÁC HÌNH
Hình 2.1 Sơ đồ bộ khái quát hệ thống nén ảnh.........................................9

Hình 2.2. Sơ đồ minh hoạ kỹ thuật mã hoá băng con – M băng con
12
Hình 2.3 Minh hoạ quá trình phân ly băng con cây bát phân..........13
Hình 2.4. Phân ly hai ảnh mẫu thành bốn băng con.............................14
Hình 2.5. Sơ đồ bộ mã hoá theo chuẩn JPEG............................................19
Hình 2.6. Sắp xếp Zigzag các hệ số DCT ở bộ mã hoá. Error: Reference
source not found
Hình 2.7. Sơ đồ khối bộ giải mã theo chuẩn JPEG..................................20
Hình 2.8. Bank lọc khôi phục lý thuyết sử dụng DWT 1D...................24
Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 1

Hình 2.9. Minh hoạ DWT hai chiều cho ảnh......Error: Reference source not
found
Hình 2.10(a). Minh hoạ DWT kiểu dyadic mức 3 để nén ảnh.....Error:
Reference source not found
Hình 2.10(b). Minh hoạ DWT kiểu dyadic mức 3 để nén ảnh....Error:
Reference source not found
Hình 2.11. Các mẫu trong MPEG-1......................................................................31
Hình 2.12. Sơ đồ khối MPEG layer III.................................................................32
Hình 2.13. Chuẩn MPEG-2 m ã hoá mono/stereo ................................................35
Hình 2.14. Mã hoá và giải mã MPEG-2................................................................36
Hình 3.1. Minh hoạ lưới nhị tố dyadic với các giá trị của m và n..........................40
Hình 3.2. Phân tích đa phân giải áp dụng cho biểu diễn tín hiệu ..........................44
Hình 3.3. Hàm ψ (t ) của biến đổi Haar ................................................................45
Hình 3.4: Hàm ψ (t ) của biến đổi Meyer .............................................................46
Hình 3.5. Hàm ψ (t ) của họ biến đổi Daubechies n với n=2, 3, 7, 8.....................47
Hình 4.1. Trình tự mã hoá (a) và giải mã JPEG2000 (b).......................................50
Hình 4.2. Minh hoạ ảnh với RGB và YCrCb .......................................................51
Hình 4.3. Phương pháp Lifting 1D dùng tính toán biến đổi Wavelet ...................52
Hình 4.4. Minh hoạ cây tứ phân (a) và sự phân mức (b .......................................56
Hình 4.5. Hai cách sắp xếp thứ tự các hệ số biến đổi ...........................................57
Hình 4.6. So sánh JPEG và JPEG2000.................................................................59
Hình 4.7. Minh hoạ tính năng ROI .......................................................................61
Hình 5.1. Sơ đồ khối quá trình nén ảnh bằng Wavelet .........................................64
Hình 5.2. biến đổi wavelet rời rạc bốn mức và dãy lọc tương đương của nó........65
Hình 5.3. Ảnh được phân tích với wavelet 4 mức.................................................66
Hình 5.4. Ảnh mã hoá bằng DWT ........................................................................66
Hình 5.5-Sự phân tích của mặt phẳng tần số bằng biến đổi wavelet hai chiều bình
phương..................................................................................................................66
Lời nói đầu
Trong những năm gần đây, nhu cầu dịch vụ dữ liệu trên mạng, đặc
biệt là Internet là rất lớn. Cùng với nhu cầu đó, vấn đề đặt ra là làm thế nào
để tìm được một kỹ thuật mã hoá dữ liệu then chốt, có hiệu quả để truyền
các dữ liệu này trên mạng.

Mục đích của luận văn này là trình bày một kỹ thuật nén dữ liệu sử
dụng phương pháp biến đổi Wavelet, đặc biệt các dữ liệu lớn trong các dịch
vụ cần truyền qua mạng Internet với điều kiện đường truyền có tốc độ hạn
chế. So sánh với các kỹ thuật nén sử dụng phép biến đổi trước đây như phép
biến đổi Fourier (FT), biến đổi Causin rời rạc (DCT), biến đổi xếp chồng
(FT)…v v, biến đổi Wavelet (DWT) có nhiều ưu điểm trong xử lý ảnh và
âm thanh mà còn có nhiều ứng dụng khác. Bằng chứng là sự ra đời của
chuẩn nén JPEG2000 (dựa trên DWT) có tính năng vượt trội so với JPEG
(DCT). Hiện nay Wavelet đang chính là một chủ đề nóng về cả hai lĩnh vực
lý thuyết và ứng dụng. Wavelet là một cây cầu nối liền các lĩnh vực riêng
biệt của toán học, thống kê, xử lý tín hiệu và các khoa học vật lý khác. Càng
ngày người ta càng quan tâm nghiên cứu về wavelet nhiều ehơn.
Trong luận văn đã trình bày một phương pháp nén dữ liệu sử dụng kỹ
thuật biến đổi Wavelet không chỉ đem lại hiệu quả nén, chất lượng hình ảnh
mà còn tiết kiệm năng lượng xử lý của hệ thống. Điều này hứa hẹn có thể
xây dựng một mã hoá ảnh và âm thanh tiết kiệm năng lượng xử lý, thời gian
truyền mà vẫn phù hợp với điều kiện băng thông thấp, ràng buộc về chất
lượng dữ liệu trong các mạng thông tin.
CHƯƠNG I: MỞ ĐẦU.
1.1. CƠ SỞ NGHIÊN CỨU VÀ MỤC ĐÍCH CỦA LUẬN VĂN:
Để có thể sử dụng các dịchu vụ dữ liệu âm thanh hình ảnh cũng như
dịch vụ dữ liệu khác trên nền dịch vụ mạng cần có một kỹ thuật then chốt để

có thể hỗ trợ truyền thông nhiều dạng dữ liệu thông tin tế bào gồm: âm
thanh, hình ảnh, văn bản, video. Tuy nhiên vấn đề truyền thông đa phương
tiện gặp một số khó khăn như: băng thông của mạng, tính ổn định của mạng,
tính tương thích dữ liệu…v v. Trong khi việc cải thiện băng thông, tính ổn
định cho mạng internet cần có thời gian trong tương lai, thì phương pháp
giảm kích thước của dữ liệu bằng các kỹ thuật nén là một cách tiếp cận hiệu
quả giải quyết cho các khó khăn trên.
Mặc dù cho đến nay có rất nhiều kỹ thuật nén, tuy nhiên những kỹ thuật này
chủ yếu tập trung vào hiệu quả nén và đánh mất chất lượng hình ảnh vì thế
chúng bỏ qua vấn đề tiêu hao năng lượng trong quá trình nén và truyền.
Luận văn này trình bày một kỹ thuật hiệu quả để khắc phục những khó khăn
trên cho các loại dữ liệu âm thanh và hình ảnh. Đó là kỹ thuật nén hình ảnh
và nén âm thanh sử dụng phương pháp biến đổi Wavelet cho dữ liệu trong
mạng thông tin, truyền thông.
1.2. TỔ CHỨC LUẬN VĂN:
Luận văn được trình bày trong 5 chương. Chương 1 tác giả trình bày
tóm tắt cơ sở nghiên cứu và mục đích cũng như tổ chức của luận văn.
Chương 2 trình bày khái quát các kỹ thuật nén ảnh, phân loại các
nguyên lý nén và định nghĩa một số thuật ngữ được sử dụng rộng rãi.
Chương này cũng trình bày cơ sở lý thuyết của các nguyên lý nén có tổn hao
điển hình.
Chương 3 trình bày cơ sở toán học, tính chất biến đổi Wavelet. Nội
dung của chương này là lý thuyết nền tảng cho các ứng dụng Wavelet.
Chương này cũng đưa ra một số họ Wavelet phổ biến và giới thiệu một số
ứng dụng nổi bật của Wavelet ngoài ứng dụng nén ảnh, nén âm thanh.

Chương 4 giới thiệu tổng quan về chuẩn nén JPEG2000 dựa trên biến
đổi Wavelet. Mục đích không chỉ là giới thiệu một chuẩn nén vượt trội so
với chuẩn JPEG dựa trên biến đổi DCT mà còn đưa ra một lựa chọn giải
quyết bài toán đặt ra trong luận văn. JPEG2000 đang từng bước được tổ
chức ISO công nhận nên chắc chắn sẽ trở thành một chuẩn nén phổ biến
trong các ứng dụng di động tương lai. Cũng trong chương này, tác giả trình
bầy tóm tắt các bước thực hiện nén ảnh theo JPEG200 và so sánh nó với
chuẩn JPEG và các chuẩn nén ảnh tĩnh khác.
Chương 5 là chương quan trong nhất. Dựa trên cơ sở toán học, các
tính chất biến đổi Wavelet, đưa vào xây dựng các ứng dụng trong thực tế
như nén ảnh số, âm thanh số.
CHƯƠNG 2: TỔNG QUAN CÁC KỸ THUẬT NÉN

TRONG MÃ HOÁ ÂM THANH, HÌNH ẢNH.
2.1. GIỚI THIỆU CHUNG VỀ NÉN ẢNH SỐ, ÂM THANH SỐ.

Nén ảnh số, âm thanh số là một đề tài nghiên cứu khá phổ biến trong
lĩnh vực xử lý dữ liệu. Mục đích là làm thế nào để lưu trữ bức ảnh hay một

đoạn âm thanh, dưới dạng có kích thước nhỏ hơn hay dưới dạng biểu diễn
mà chỉ yêu cầu số bit mã hoá ít hơn so với dữ liệu gốc. Nén dữ liệu ở đây
thực hiện được do một thực tế: thông tin trong đó không phải ngẫu nhiên mà
có trật tự, cấu trúc đó thì sẽ biết được phần thông tin nào quan trọng nhất
trong phân đoạn dữ liệu để biểu diễn và truyền đi với số lượng bit ít hơn so
với dữ liệu gốc mà vẫn đảm bảo tính đầy đủ của thông tin. Ở phía thu, quá
trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh, đoạn âm thanh xấp xỉ gần
chính xác so với gốc của nó nhưng vẫn thoả mãn chất lượng yêu cầu, đảm
bảo thông tin cần thiết.
Tóm lại, tín hiệu ảnh, video hay audio đều có thể nén lại bởi chúng có
những tính chất như sau:
+ Có sự tương quan (dư thừa) thông tin về không gian: Trong phạm
vi một bức ảnh hay một khung video tồn tại sự tương quan đáng kể
(dư thừa) giữa các điểm ảnh lân cận.
+ Có sự tương quan (dư thừa) thông tin về phổ: Các dữ liệu thu được
từ các bộ cảm biến của thiết bị thu nhận ảnh tồn tại sự tương quan
đáng kể giữa các mẫu thu, đây chính là sự tương quan về phổ.
+ Có sự tương quan (dư thừa) thông tin về thời gian. Trong một chuỗi
video, tồn tại sự tương quan giữa các điểm ảnh của các khung video
(frame)
Sơ đồ của một hệ thống nén dữ liễu tổng quát như sau:

Trong hình 2.1, bộ mã hoá dữ liệu thực hiện quá trình nén bằng cách giảm
kích thước dữ liệu ảnh gốc đến một mức phù hợp với việc lưu trữ và truyền
dẫn trên kênh. Tốc độ bit đầu ra của bộ mã hoá được tính là số bit cho một
mẫu (điểm ảnh). Bộ mã hoá kênh thực hiện việc chuyển đổi luồng bit đã
được nén thành dạng tín hiệu phù hợp cả cho việc lưu trữ và truyền dẫn,
thường bộ mã hoá kênh sử dụng các kỹ thuật: mã hoá có dộ dài thay đổi-
RLC (Run Length Coding), mã hoá Hufman, mã hoá số học. Bộ giải mã thực
hiện quá trình ngược lại so với bộ mã hoá.
Trong các hệ thống nén, tỷ số nén chính là tham số quan trọng đánh giá khả
năng nén của hệ thống, công thức được tính như sau:
Tỷ số nén= Kích thước dữ liệu gốc/Kích thước dữ liệu nén.
Đối với ảnh tĩnh, kích thước chính là số bit để biểu diễn toàn bộ bức ảnh.
Đối với video, kích thước chính là số bit để biểu diễn một khung hình video
(video frame).

2.2. PHÂN LOẠI CÁC KỸ THUẬT NÉN.

Các kỹ thuật nén chủ yếu được phân loại như sau:
2.2.1. Nén tổn hao và không tổn hao.

Trong các kỹ thuật nén không tổn hao (Losses compression), ảnh khôi
phục giống hoàn toàn so với ảnh gốc. Tuy nhiên, nén không tổn hao chỉ đạt
được hiệu quả nén rất nhỏ. Trái lại, các kỹ thuật nén có tổn hao (losy
compression) có thể đạt được hiệu quả nén cao hơn rất nhiều mà ở điều kiện
cảm nhận thông thường sự mất mát thông tin không cảm nhận được và vì
thế vẫn đảm bảo chất lượng hình ảnh. Một số kỹ thuật nén có tổn hao bao
gồm: điều xung mã vi sai-DPCM, điều xung mã – PCM, lượng tử hoá vectơ-
VQ, mã hoá biến đổi và băng con. Ảnh khôi phục trong hệ thống nén có tổn
hao luôn có sự suy giảm thông tin so với ảnh gốc bởi vì: phương pháp nén
này đã loại bỏ những thông tin dư thừa không cần thiết.
2.2.2. Mã hoá dự đoán và mã hoá dựa trên phép biến đổi.

Đối với mã hoá dự đoán (predictive coding) các giá trị mang thông tin
đã được gửi hay đang sẵn có sẽ được sử dụng để đoán các giá trị khác, và
chỉ mã hoá sự sai lệch giữa chúng. Phương pháp này đơn giản rất phù hợp
với công việc khai thác các đặc tính cục bộ của bức ảnh. Kỹ thuật DPCM
chính là một ví dụ điển hình của phương pháp này. Trong khi đó, mã hoá
dựa trên phép biến đổi (transform based coding) thì lại thực hiện như sau:
trước tiên thực hiện phép biến đổi với ảnh để chuyển sự biểu diễn ảnh từ
miền không gian sang một miền biểu diễn khac. Các phép biến đổi thường
dung là: DCT - biến đổi Causin rời rạc, DWT- biến đổi Wavelet rời rạc, LT
- biến đổi trồng (lapped), tiếp đó thực hiện mã hoá đối với các hệ số biến
đổi. Phương pháp này có hiệu suất nén cao hơn rất nhiều so với các phương

pháp nén dự đoán bỏi vì chính các phép biến đổi (sử dụng các thuộc tính nén
năng lượng của mình) đã gói gọn toàn bộ năng lượng bức ảnh chỉ bằng một
số ít các hệ số, số lớn các hệ số còn lại ít có ý nghĩa hơn sẽ bị loại bỏ sau khi
lượng tử hoá và như vậy dữ liệu phải truyền nhỏ đi rất nhiều. Trong phương
pháp mã hoá dự đoán, sai lệch giữa ảnh gốc và ảnh dự đoán vẫn có ý nghĩa
(còn sử dụng ở bước tiếp theo) sau khi lượng tử hoá,chính điều này làm cho
phương pháp mã hoá dự đoán có nhiều dữ liệu được truyền đi hơn so với
phương pháp mã hoá biến đổi.
2.2.3. Mã hoá băng con.

Bản chất của mã hoá băng con (subband coding) là chia băng tần của
tín hiệu (ảnh) thành nhiều băng con (subband). Để mã hoá cho mỗi băng
con, chúng ta sử dụng một bộ mã và một tốc độ bit tương ứng với tính chất
thống kê của băng con.
2.3. TIÊU CHUẨN CHẤT LƯỢNG ĐÁNH GIÁ MÃ HOÁ.

Để đánh giá chất lượng của bức ảnh (hay khung ảnh video) ở đầu ra
của bộ mã hoá, người ta sử dụng hai tham số: sai số bình phương trung bình
– MSE (mean square error) và tỉ số tín hiệu trên nhiễu đỉnh – PSNR (peak
to signal to noise ratio). MSE thường được gọi là phương sai lượng tử- σ2q
(squantization eror variance). MSE giữa ảnh gốc và khôi phục được tính
như sau:
1
MSE = σ q =
2
( f [ j, k ] − g [ j, k ]) 2 ( 2.1)
N
Trong đó tổng lấy theo j, k tính cho tổng tất cả các điểm ảnh trong ảnh và N
là số điểm ảnh trong ảnh. Còn PSNR giữa hai ảnh ( b bit cho mỗi điểm ảnh,
RMSE là căn bậc hai của MSE) được tính theo công thức dB như sau:

RMSE
PSNR = −20 log 10 ( 2.2)
2 b −1
Thông thường nếu PSNR ≥ 40dB thì hệ thống mắt người gần như không
phân được giữa ảnh gốc và ảnh khôi phục.
Một tham số khác hay sử dụng trong các hệ thông viễn thông đó là tỉ
số tín hiệu trên nhiễu – SNR, tuy vậy SNR sử dụng cho một hệ thống nén
ảnh cũng có công thức dB như sau:
2.4. CÁC KỸ THUẬT NÉN CÓ TỔN HAO.

Trong phần này, tác giả lựa chọn trình bày hai kỹ thuật nén tổn hao
cho nén ảnh tĩnh và ảnh động, đó là: mã hoá băng con (subband coding) và
mã hoá sử dụng phép biến đổi (transform coding). Đây là hai kỹ thuật nén
điển hình và cho hiệu quả nén cũng như chất lượng ảnh cao.
2.4.1. Kỹ thuật mã hoá băng con.

Tư tưởng chính của kỹ thuật mã hoá băng con là: các ảnh được lấy
mẫu ở đầu vào được phân ly thành các băng tần khác nhau (gọi là các tín
hiệu băng con). Yêu cầu của kỹ thuật này là làm thế nào các băng con không
bị chồng chéo lên nhau. Để có thể phân ly tín hiệu ở bộ mã hoá (encoder)
thành các băng con, ảnh được cho qua một bank lọc (filter bank) gọi là các
bank lọc phân tích và mỗi đầu ra của bank lọc băng con được lấy mẫu xuống
hệ số 2. Các đầu ra băng con rần số được lấy mẫu xuống sẽ lần lượt được:
lượng tử hoá độc lập bằng các bộ lọc vô hướng khác nhau, mã hoá entropy,
lưu trữ và truyền đi. Ở phía bộ giải mã (decoder), quá trình được thực hiện
ngược lại: giải lượng tử băng con tần số, lấy mẫu lên với hệ số 2, cho đi qua
bank lọc băng con tổng hợp rồi cộng tất cả các đầu ra của bộ lọc để khôi
phục lại ảnh.

Các bộ lọc băng con thường được thiết kế xấp xỉ thoả mãn tiêu chuẩn của
các đáp ứng tần số không chồng chéo. Mục đích của vấn đề là để giải tương
quan các hệ số tần số kết quả. Đây chính là tính chất quan trọng mà quá
trình lọc băng con cố gắng đạt được. Các bộ lọc băng con được thiết kết để
là các xấp xỉ với các bộ lọc chọn tần số lý tưởng, trong đó đáp ứng tổng hợp
từ tất cả các bộ lọc bao trùn tất cả băng tần của dải. Tuy nhiên trong thực tế,
sự tương quan tổng không bao giờ đạt được do những bộ lọc này chỉ xấp xỉ
với các bộ lọc lý tưởng.
HÌnh 2.2 dưới đây là sơ đồ tổng quát giải thích kỹ thuật mã hoá băng con.
Các bộ lọc sử dụng trong mã hoá băng con là các bộ lọc gương tứ
phương – QMF (quardrature mirror filters), do vậy chúng ta chỉ cần thiết kế
các bộ lọc thông thấp có đáp ứng H(ω) còn đáp ứng của các bộ lọc thông

cao là H(ω+π) chỉ là sự dịch pha 180o so với bộ lọc thông thấp. Sự chính
xác của bộ lọc phụ thuộc vào số các hệ số của bộ lọc.
Một trong các phương pháp mã hoá băng con đó là áp dụng sự phân
ly cây bát phân để phân ly dữ liệu ảnh thành các băng tần khác nhau. Ý
tưởng của phương pháp này là: trước tiên lọc và lược bỏ ảnh để phân ly
nhưng chỉ áp dụng cho băng con tần số thấp để tạo thành các băng con tần
số cao và thấp để tiếp tục lược bỏ. Kỹ thuật này rất phổ biến và cũng được
áp dụng trong các bộ mã sử dụng biến đổi Wavelet. Đầu ra của các băng con
sau khi đã giản lược sẽ được lượng tử hoá và mã hoá độc lập. Mỗi băng con
sẽ sử dụng bộ lượng tử hoá riêng và mỗi bộ lượng tử hoá này có tốc độ lấy
mẫu riêng (bit/mẫu)
Như vậy rõ rang mã hoá băng con không đạt được sự nén, mà nó chỉ
thực hiện việc giải tương quan dữ liệu ảnh gốc và tập trung năng lượng của
ảnh vào một số băng con. Nén chỉ đạt được là do sự lược bỏ ảnh
(decimation) và do sự lượng tử hoá (quantization).
Trong các hệ thống mã hoá băng con hai chiều thực tế, người ta chia
miền tần số - không gian hai chiều của ảnh gốc thành các băng khác nhau ở
bất kỳ mức nào. Hình 2.4 dưới đây minh hoạ việc phân ly 2 ảnh mẫu thành 4
băng con LL, HL, LH và HH ở mức đầu tiên.

Nhược điểm của kỹ thuật mã hoá băng con:

Một trong những vấn đề chủ yếu của kỹ thuật mã hoá băng con đó là
giải quyết bài toán cấp phát bit (là số bit cấp cho mỗi băng con) để đạt được
hiệu suất cao nhất. Một trong những cách thực hiện là sử dụng ý tưởng cấp
phát bit tối ưu cho mỗi đầu ra băng con đã được lượng tử hoá. Tuy nhiên
cách này chủ yếu thích hợp cho trường hợp tốc độ cao (≥1 bit/mẫu).
Trước khi đi vào nghiên cứu kỹ thuật mã hoá dựa trên phép biến đổi, chúng
ta sẽ tổng kết một số nhược điểm của kỹ thuật mã hoá băng con như sau:
+ Kỹ thuật mã hoá băng con không xác định được hệ thống mã hoá tối
ưu cho các ứng dụng tốc độ bit thấp. Việc cấp phát bit tối ưu sẽ thay
đổi khi tốc độ bit tổng thay đổi, điều này làm quá trình mã hoá phải lặp
lại hoàn toàn cho mỗi tốc độ bit xác định.

+ Không hoàn toàn giải tương quan cho tất cả các băng tần, đấy là do
các bộ lọc không phải là lý tưởng và có sự chồng chéo nhỏ giữa các
băng tần liền kề. Do vậy luôn luôn tồn tại một sự tương quan nhỏ giữa
các băng tần kề nhau và dữ liệu sẽ không được nén hoàn toàn.
+ Kỹ thuật mã hoá băng con không hiệu quả khi thực hiện bù chuyển
động trong video vì rất khó để thực hiện đánh giá chuyển động ở các
băng con (sai số dự đoán là rất lớn).
2.4.2. Kỹ thuật mã hoá dựa trên phép biến đổi

Một phép biến đổi là một hàm toán học được sử dụng để biến đổi một
tập các giá trị này thành một tập các giá trị khác và tạo ra một cách biểu diễn
mới cho cùng một nguồn tin. Tất cả các phép biến đổi mà chúng ta định
trình bày dưới đây đều là không tổn hao (lossless); với sự chính xác của các
phép toán số học thì các phép biến đổi vẫn bảo tồn được độ chính xác ở bất
kỳ mức độ nào. Nhưng hầu hết các kỹ thuật mã hoá đều có tổn hao ở các
bước lượng tử hoá do có sự làm tròn giá trị cho các hệ số phép biến đổi.
Phần này chúng ta sẽ trình bày các kỹ thuật mã hoá dựa trên phép biến đổi
được sử dụng trong nén ảnh.
(a) Kỹ thuật mã hoá dựa trên phép biến đổi Causin rời rạc – DCT
(b)Kỹ thuật mã hoá dựa trên phép biến đổi chồng – LT
(c) Kỹ thuật mã hoá dựa trên phép biến đổi DWT
2.4.2.1. Kỹ thuật mã hoá dựa trên phép biến đổi DCT

Phép biến đổi Causin rời rạc DCT ( Disctrete Cosine Transform) biến
đổi thông tin ảnh từ miền không gian sang miền tần số để có thể biểu diễn
dưới dạng gọn hơn. Tính chất của nó tương tự như biến đổi Fourier, coi ảnh

đầu vào (tín hiệu audio hoặc video) là các tín hiệu ổn đinh bất biến theo thời
gian. Để hiểu rõ kỹ thuật này trước hết ta cần tìm hiểu biến đổi Fourier.
Biến đổi Fourier- FT:

Biến đổi Fourier – FT (Fourier Transform) là một phép biến đổi
thuận nghịch, nó cho phép sự chuyển đổi thuận - nghịch giữa thông tin gốc
(miền không gian hoặc thời gian) và tín hiệu được xử lý (được biến đổi).
Tuy nhiên ở một thời điểm bất kỳ chỉ tồn tại một miền thông tin được thể
hiện. Nghĩa là tín hiệu trong miền không gian không có sự xuất hiện thông
tin về tần số và tín hiệu sau biến đổi Fourier không có sự xuất hiện thông tin
về thời gian.
Ft cho biết thông tin tần số của tín hiệu, cho biết những tần số nào có
trong tín hiệu, tuy nhiên nó không cho biết tần số nào đó xuất hiện khi nào
trong tín hiệu. Nếu như tín hiệu là ổn định (stationary- có các thành phần
tần số không thay đổi theo thời gian) thì việc xác định các thành phần tần số
xuất hiện khi nào trong tín hiệu là không cần thiết.
Phép biến đổi FT thuận và nghịch được định nghĩa như sau:
∞
X ( f ) = ∫ x(t )e − 2 jπ ft d t (2.4)
−∞
∞
X (t ) = ∫ X (t )e − 2 jπ ft df (2.5)
−∞
Phép biến đổi FT cũng có thể được áp dụng cho tín hiệu không ổn
định (non-stationary) nếu như chúng ta chỉ quan tâm đến thành phần phổ
nào có trong tín hiệu mà không quan tâm đến nó xuất hiện khi nào trong tín
hiệu. Tuy nhiên, nếu thông tin về thời gian xuất hiện của phổ trong tín hiệu
là cần thiết, thì phép biến đổi FT không có khả năng đáp ứng được yêu cầu
này, đây cũng là hạn chế của phép biến đổi này.

Để có biến đổi Fourierr rời rạc – DFT (Discrete Fourier Transform)

thì ở phép tích phân trong biểu thức toán học của biến đổi FT, ta thay bằng
phép tổng và tính toán nó với các mẫu hữu hạn.
Hệ số phép biến đổi DFT thứ k của một chuỗi gồm N mẫu {x(n)} được định
nghĩa:
N −1
X (k ) = ∑ x(n) kn
N , k = 0,......., N −1 (2.6)
n =0
Trong đó WN= e-2jπ/N = cos( 2π/N) – j sin(2π/N), còn chuỗi {x(n)} có thể khôi
phục bằng DFT ngược như sau:
N −1
x(n) = ∑ X (k ) -Nkn , k = 0,......., N −1 (2.7)
n =0
Định nghĩa và các tính chất của biến đổi DCT

Biến đổi DCT thuận và ngược một chiều gồm N mẫu được định nghĩa như
sau:
2 N −1  ( 2n + 1)kπ 
DCT = X ( k ) = ck ∑ x(n)cos   , k = 0,1,...., N −1 ( 2.8)
N n =0  2N
2 N −1  ( 2n + 1) kπ 
IDCT = x(n) = ck ∑ X ( k )cos   , n = 0,1,...., N −1 ( 2.9)
N k =0  2N
Trong đó :
 1/ 2, k = 0
ck = 
 1, k ≠ 0
Cả DCT và IDCT đều là biến đổi trực giao, tách biệt và thực. Tính
chất phân tách (separable) ở đây nghĩa là biến đổi nhiều chiều của nó có thể
phân tách thành các biến đổi một chiều. Tính chất trực giao ở đây nghĩa là
nếu các ma trận của DCT và IDCT là không bất thường (non-singular) và

thực thì biến đổi ngược của chúng có thể đạt được bằng cách áp dụng hoán
tử hoán vị. Cũng như biến đổi FT, DCT cũng coi dữ liệu đầu vào là tín hiệu
ổn định (bất biến).
Trong các chuẩn nén ảnh tĩnh vào video, người ta thường sử dụng DCT và
IDCT có kích thước 8 mẫu. Bức ảnh hoặc khung ảnh video kích thước NxN
được chia thành các khối không chồng chéo nhau hai chiều gọi là các ảnh
con kích thước 8x8 rồi áp dụng biến đổi DCT hai chiều ở bộ mã hoá và áp
dụng biến đổi IDCT ở bộ mã.
Biến đổi DCT và IDCT 8 mẫu tạo thành các ma trậnh 8x8 theo công thức:
c( k )c(l ) 7 7  ( 2m +1) kπ   ( 2n +1)lπ 

2 − D DCT = X k, l =
4
∑∑
m =0 n =0
xm ,n cos 
 16
 cos 
  16


( 2.10 )
k , l = 0,1,.... 7
7 7
c (k )c(l )  ( 2m +1)kπ   (2n +1)lπ 
2 − D IDCT = x m, n = ∑∑ X k ,l cos   cos   ( 2.11)
k =0 l =0 4  16   16 
m, n = 0,1,.... 7
 1/ 2, k & l = 0
Và c(k ) c, (l ) = 
 1, k 2 + l 2 ≠ 0
Thuật toán để tính 2-D DCT và IDCT là: thực hiện phép biến đổi 1-D lần
lượt cho hàng rồi đến cột của ma trận.
So sánh DCT và KLT:

Hiệu quả của biến đổi DCT trong việc giải tương quan tín hiệu ảnh
tương đương với biến đổi Karhunen-Loeve (KLT). KLT là phép biến đổi
theo khối tối ưu nhất cho nén dữ liệu ở khía cạnh thống kể bởi: nó có thể
giải tương quan bằng một cách tối ưu tín hiệu ảnh trong miền phép biến đổi
(bằng cách tập trung hầu hết thông tin ảnh vào một hệ số của phép biến đổi)

và so với các phép biến đổi khác nó có thể tối thiểu hoá MSE giữa ảnh khôi
phục và ảnh gốc.
Nén và giải nén dựa theo phép biến đổi DCT trong JPEG:
JPEG là chuẩn nén số quốc tế đầu tiên cho các ảnh tĩnh có tông màu liên tục
gồm cả ảnh đơn sắc và ảnh màu. Trong kỹ thuật này các khối ảnh kích thước
8x8 được áp dụng để thực hiện DCT, sau đó lượng tử hoá các hệ số rồi mã
hoá entropy sau lượng tử.
Đối với những ảnh màu RGB, để áp dụng kỹ thuật nén này, trước hết
phải chuyển sang chế độ màu YUV (Y là thành phần chói, U và V là hai
thành phần màu). Thành phần độ chói là ảnh đơn sắc xám. Hai thành phần
màu còn lại chứa thông tin về màu. Việc mã hoá và giải mã ảnh trong JPEG
ở được thực hiện cho thành phần chói rồi màu.
Sơ đồ khối bộ mã hoá và giải mã của JPEG như sau:

Quá trình xử lý thành phần độ chói ở phía mã hoá được giải thích như sau:
(a). Ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8
không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi
khối ảnh sẽ được trừ đi 128. Lý do là do giá trị các điểm ảnh có giá trị trừ
0 đến 255 (được mã hoá bởi 8 bit không dấu), áp dụng biến đổi DCT sẽ
tạo ra các hệ số AC có dải giá trị từ -1023 đến +1023 (có thể được mã
hoá bởi 11 bit có dấu). Nhưng hệ số DC lại có giải giá trị từ 0 đến 2040
(được mã hoá bởi 11 bit không dấu) và cần cách xử lý khác ở phần cứng
hoặc phần mềm so với các hệ số AC. Chính vì thế việc trừ mỗi điểm ảnh
đi 128 là để sau khi biến đổi DCT cả các hệ số DCT cả các hệ số DC và
AC có cùng dải giá trịo thuận lợi cho việc xử lý và biểu diễn.

(b). Ở mỗi khối ảnh hai chiều kích thước 8x8, áp cụng biến đổi DCT để tạo
ra mảng hai chiều các hệ số biến đổi. Hệ số có tương ưng với tần số
không gian thấp nhấp nhưng lại có giá trị lớn nhất được gọi là hệ số DC (
một chiều), nó tỷ lệ với độ chói trung bình của cả khối ảnh 8x8. Các hệ
số còn lại gọi là các hệ số AC (xoay chiều). Theo lý thuyết, biến đổi DCT
không đem lại sự mất mát thông tin ảnh, mà đơn giản nó chỉ chuyển
thông tin ảnh sang miền không gian mới thuận lợi hơn cho mã hoá ở
bước tiếp theo.
(c). Mảng hai chiều các hệ số biến đổi được lượng tử hoá sử dụng bộ lượng
tử hoá đồng nhất. nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc
lập. Quá trình lượng tử hoá là dựa trên sinh lý của hệ thống mắt người:
cảm nhận hình ảnh có độ nhạy kém hơn ở các hệ số tần số cao và có độ
nhạy tốt hơn ở các hệ số có tần số thấp. Vì thế các hệ số được chọn sao
cho thực hiện lượng tử hoá thô đối với các hệ số tần số cao và lượng tử
hoá tinh đối với các hệ số có tần số thấp. Bảng lượng tử hoá được lấy tỉ
lệ để tạo ra các mức nén thay đổi tuỳ theo tốc độ bit và chất lượng ảnh.
Việc lượng tử hoá sẽ tạo ra rất nhiều giá trị 0, đặt biệt là ở tần số cao.
Quá trình làm tròn trong khi lượng tử hoá chính là nguyên nhân chính
gây ra sự tổn hao nhưng lại là nhân tố chính đem lại hiệu suất nén.
(d). Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng
0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình
Zigzag tạo thành mảng một chiều. Cách sắp xếp này cho phép giảm thiểu
năng lượng tổn hao trung bình và tạo ra các giá trị bằng 0 liên tiếp. Cũng
theo cách sắp xếp này, các hệ số DC được tách khỏi các hệ số AC và sử
dụng kỹ thuật mã hoá điều xung mã vi sai – DPCM.

(e). Bước cuối cùng của bộ mã hoá là sử dụng mã hoá entropy chẳng hạn mã
hoá Huffman cho các AC và DC ( sau khi đã mã hoá DPCM) để tăng
thêm hiệu quả nén cũng như giảm thiểu lỗi.
Ở phía giải mã, luồng bit mã hoá được giải mã entropy, sau đó mảng
hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và
giải lượng tử. Mảng hai chiều các hệ số DCT kết quả sẽ được biến đổi IDCT
rồi cộng mỗi giá trị với 128 để xấp xỉ tạo thành các khối ảnh con kích thước
8x8. Chú ý là bảng lượng tử hoá và mã hoá entropy ở các phia mã hoá và
giải mã đồng nhất.
Hai thành phần màu cũng được mã hoá tương tự như thành phần chói ngoại
trừ khác biệt là chúng được lấy mẫu xuống hệ số 2 hay 4 ở cả chiều ngang
hay chiều dọc trước khi biến đổi DCT. Ở phía giải mã, thành phần màu sẽ
được nội suy thành kích thước gốc.
2.4.2.2. Kỹ thuật mã hoá dựa trên phép biến đổi DWT

Mối quan hệ giữa biến đổi Wavelet và Fourier:
Không giống như biến đổi Fourier chỉ thích hợp khi phân tích những
tín hiệu ổn định (stationary), Wavelet là phép biến đổi được sử dụng để
phân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có
đáp ứng tần số thay đổi theo thời gian.
Để khắc phục những hạn chế của phép biến đổi FT, phép biến đổi Fourier
thời gian ngắn – STFT được đề xuất. Chỉ có một sự khác biệt nhỏ giữa
STFT và FT: trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ
và trong khoảng tín hiệu được giả định là tín hiệu không ổn định. Để thực
hiện kỹ thuật này cần chọn một hàm cửa sổ w sao cho độ dài của cửa sổ
đúng bằng các khoảng tín hiệu phân chia. Với phép biến đổi STFT, chúng ta

có thể thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà với
phép biến đổi FT ta không thực biện được.
Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:
∞
X ( f , t ) = ∫[ x (t ) w(t −τ )* ]e −2 jπft dt ( 2.12 )
−∞
Trong đó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị
trí của cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số
khác nhau của đoạn tín hiệu ta thay đổi giá trị τ.
Giải thích biến đổi STFT bằng nguyên lý bất định Heisender, nguyên lý này
phát biểu là: “ không thể biết chính xác được biểu diễn thời gian - tần số
của một tín hiệu (hay không thể biết các thành phần phổ của tín hiệu ở một
thời điểm nhất định)”. Cái mà ta có thể biết là một trong một khoảng thời
gian ngắn nhất định tín hiệu có những băng tần nào. Đây được gọi là bài
toán phân giải. Vấn đề này liên quan đến độ rộng của hàm cửa sổ mà chúng
ta sử dụng. Nếu hàm cửa số càng hẹp thì độ phân giải càng tốt hơn và giả
định tín hiệu là ổn định càng có độ chính xác nhưng độ phân giải tần số lại
kém đi. Ta có các hệ quả sau:
Cửa sổ hẹp -> phân giải thời gian tốt, phân giải tần số kém.
Cửa sổ rộng -> phân giải tần số tốt, phân giải thời gian kém.
Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để
giải quyết các vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số)
mà STFT vẫn còn hạn chế. Biến đổi Wavelet được thực hiện theo cách: tín
hiệu được nhân với hàm Wavelet (tương tự nhân với hàm cửa sổ trong biến
đổi STFT), rồi thực hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác nhau
trong miền thời gian tại các tần số khác nhau. Cách tiếp cận như vậy còn
được gọi là: phân tích đa phân giải – MRA (Multi Resolution Analysis):
phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác
nhau.

Biến đổi Wavelet rời rạc – DWT:

Bước này có thể hiểu phép biến đổi DWT như là áp dụng một tâp các
bộ lọc: thông cao và thông thấp. Thiết kế cac bộ lọc này tương đương như
kỹ thuật mã hoá băng con (Subband coding) nghĩa là: chỉ cần thiết kế các bộ
lọc băng thấp, còn các bộ lọc thông cao chính là các bộ lọc thông thấp dịch
pha đi một góc 1800. Tuy nhiên khác với mã hoá băng con, các bộ lọc trong
DWT được thiết kế phải có đáp ứng phổ phẳng, trơn và trực giao.
HÌnh 2.11 dưới đây minh hoạ dạng tổng quát của biến đổi DWT một chiều.
Theo đó tín hiệu đựoc cho đi qua các bộ lọc thông cao và thông thấp H và G
mức 1. Biến đổi ngược thì thực hiện ngược lại: lấy mẫu lên (up sampling) hệ
số 2 rồi sử dụng các bộ lọc khôi phục H’, G’ ( lý tưởng là H’ và G’ chính là
H, G)
Từ biến đổi DWT một chiều có thể mở rộng định nghĩa biến đổi DWT hai
chiều theo cách: Sử dụng các bộ lọc riêng biệt, thực hiện biến đổi DWT một
chiều dữ liệu vào (ảnh) theo hàng rồi thực hiện theo cột. Theo cách này nếu
thực hiện biến đổi DWT ở mức 1, sẽ tạo ra 4 nhóm hệ số biến đổi. Quá trình
biến đổi DWT hai chiều có thể minh hoạ như hình 2.12 dưới đây, trong đó 4
nhóm hệ số là: LL, HL, LH, HH ( chữ cái đầu tiên tương ứng đã thực hiện
lọc theo hang, chữ cái thứ hai tương ứng đã thực hiện lọc theo cột)


Hai thuật toán nén sử dụng DWT điển hình:

So với phép biến đổi DCT sử dụng trong chuẩn nén JPEG ra đời năm
1992, nén ảnh dựa trên biến đổi DWT đã có những cải tiến đáng kể. Tuy
nhiên cải tiến mang tính đột phá sử dụng DWT để nén ảnh bắt đầu là kỹ
thuật mã hoá – EZW (embedded zero-tree wavelet).
Thuật toán EZW dựa trên khả năng khai thác các thuộc tính đa phân giải của
biến đổi Wavelet để đưa ra một thuật toán ít phức tạp trong tính toán mà vẫn
cho hiệu quả nén cao. Những cải tiến và nâng cấp của EZW về sau đã ra đời
một số thuật toán tương tự như: SPIHT (set partitationing in hierarchical
tree-cây phân cấp phân tập) và ZTE (zero-tree entropy coding-mã hoá
entropy cây zero).
Gần đây còn có thêm một thuật toán nữa được đề xuất đó là LS (lifting
scheme) sử dụng để tạo các biến đổi Wavelet số nguyên. Kỹ thuật này sử
dụng các bộ lọc Wavelet trực giao đem lại hiệu quả rất cao cho các ứng
dụng nén ảnh có tổn hao. Chúng ta sẽ trình bày 3 thuật toán điển hình này ở
chương 3.
2.5. TỔNG QUAN ÂM THANH SỐ

Âm thanh là một dạng lan truyền của sóng trong không gian, khi đến
tai người nghe đập vào màng nhĩ, làm cho người đó cảm nhận được sự rung
động này và có khả năng phân biệt được với các âm thanh khác dựa vào một
số đặc tính như tần số, nhịp điệu, mức áp lực.
Mục đích của các hệ thống audio là: xử lý, tạo hiệu ứng, nén tín hiệu
audio từ tín hiệu thu được từ nguồn. Với hệ thống audio tương tự, việc xử lý
tín hiệu gặp phải một số vấn đề như khả năng của linh kiện (về mặt tần số),
lưu trữ, phức tạp…

Đối với các hệ thống audio số, việc thu nhận, hiệu chỉnh, và phát lại
trở lên dễ dàng hơn rất nhiều. Các kỹ thuật tổng hợp và nhận dạng phát triển
một cách nhanh chóng, tương tác giữa máy tính và con người trở lên phong
phú hơn.
Audio số là một chuỗi các giá trị số được biểu diễn bằng mức âm thanh theo
thời gian.
2.5.1. Một số phương pháp mã hoá audio

Các phương pháp mã hoá chuyển đổi
 FFT (Fast Fourier Tranform)
 DFT (Discrete Fourier Transform)
 DCT (Discrete Consine Transform)
 MDCT (Modified DCT)
 Wavelets
2.5.2. Một số kỹ thuật nén audio

Cơ sở: âm thanh trung thực và chất lượng dịch vụ thoả mãn thì tốc độ
dòng dữ liệu phải lớn.
Ví dụ: Hệ thống âm thanh đa kênh mã hoá 16 bit thì tần số lấy mẫu 48khz (6
kênh) sẽ có tốc độ: 48x16x6=4.5Mbps.
Tốc độ cao-> khó khăn lưu trữa , truyền dẫn và giá thành thiết bị -> nén
A. Nén không tổn hao:

Khôi phục đúng thông tin ban đầu khi giải nén
Cơ sở: loại bỏ dư thừa thống kê, các thông tin xuất hiện trong tín hiệu mà có
thể dự báo trước.

Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào mức độ phức tạp của tín hiệu
nguồn.
Thường sử dụng kỹ thuật mã hoá dự đoán trong miền thời gian.
(a) Thuật toán vi sai
(b) Mã hoá Entropy
B. Nén tổn hao:

Hệ thống tính giác của con người không thể phân biệt được các thành
phần phổ có biên độ nhỏ giưa các thành phần phổ có biên độ lớn.
Hệ số nén lớn, khoảng 20:1, phụ thuộc vào quá trình nén và giải nén và chất
lượng audio yêu cầu.
+ các kỹ thuật được sử dụng:
- Kỹ thuật che (masking) đối với các thành phần tín hiệu trong miền
thời gian và miền tần số.
- Che mức tạp âm và lượng tử cho từng âm độ của tín hiệu âm thanh
bằng cách chỉ định số bit vừa đủ để chắc chắn rằng mức nhiễu lượng
tử luôn nằm dưới mức giá trị cần che.
- Mã hoá ghép: khai thác độ dư thừa trong hệ thống audio đa kênh với
các thành phần số liệu trong các kênh giống nhau. Mã hoá một phần số
liệu chung trên một kênh và chỉ đinh cho bộ giải mã lặp lại tín hiệu đó
trên các kênh còn lại.
Một số chuẩn nén audio:

MPEG1 :
Được phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172. Sử dụng
tần số lấy mẫu của CD-DA, với fs=32;44.1;48khz, mã hoá 16 bit/mẫu tín
hiệu. Tốc độ bit 32 – 768 kbps/channel. Các kiểu: Mono, dual-mono, dual-

stereo, joint-stereo. Xác định các tham số khác nhau về tốc độ, dòng số sau
khi nén, số mẫu header cho một kênh, cấu trúc thời gian khung, phương
pháp mã hoá dự đoán và các chế độ làm việc.

Hình 2.11. Các mẫu trong MPEG-1

Hình 2.12. Sơ đồ khối MPEG layer III
Với mỗi băng con, xác định mức biên độ và mức nhiễu bằng mô hình tâm
sinh lý nghe. SMR (signal-mask-rate) được sử dụng để xác định số bit cho
quá trình lượng tử hoá đối với mỗi băng con với mục đích giảm thiểu dung
lượng.
Ví dụ: Sau khi phân tích, mức của 16 băng con đầu là:
Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 16
5
Level(db) 0 8 1 10 6 2 10 6 35 20 15 2 3 5 3 1
2 0
Nếu mức của băng con thứ 2 là 60 thì nó che 12dB ở băng con thứ 7 và
15dB ở băng con thứ 9.

Băng con 7 có 10dB<12dB:loại. Băng con thứ 9 có mức 35dB>15dB: gửi đi.
 chỉ có các mức lớn hơn che là được gửi đi thay vì dung 6 bit để
mã hoá, ta dùng 4 bit.

MPEG-Layer I: Bộ lọc DCT 1 khung và tần số bằng phẳng trong mỗi
băng con. Mô hình tâm sinh lý nghe sử dụng che tần số.
MPEG-Layer II: Có 3 khung trong bộ lọc (trước, hiện tại và kế), tổng
là 1125 mẫu. Sử dụng vài bits để che thời gian.
MPEG-Layer III: Sử dụng bộ lọc tới hạn để đáp ứng tốt hơn. Mô hình
tâm sinh lý nghe sử dụng che thời gian, che tần số, tính toán độ dư thừa
stereo và mã hoá Hufman.
MPEG2:
Mở rộng MPEG-1 cho các ứng dụng mới.
- Có khả năng áp dụng nhiều tốc độ khác nhau, từ 32 đến 1066kbps.
- Chất lượng âm thanh tuỳ thuộc ứng dụng.
- Tần số lấy mẫu có thể giảm 1 nửa so với MPEG-1 (16; 22,05; 24kHz).
- Khả năng đa kênh, tốc độ bits mở rộng có thể lên đến 1 Mbps cho các ứng
dụng tốc độ cao.
- Cho phép nén đồng thời nhiều kênh.
- Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn ngữ trong phần bits mở
rộng.
- MPEG-2 sử dụng mã hoá cường độ cao, giảm xuyên âm, mã hoá dự đoán
liên kênh và mã hoá ảo ảnh kênh trung tâm để nhận được tốc độ bit kết hợp
384 kbps.
- Khung MPEG-2 được chia thành 2 phần, phần đầu là MPEG-1stereo tương

hợp lớp I với tốc độ tối đa 448kbps, lớp II tốc độ tối đa 384kbps và lớp III
tối đa 320kbps; phần mở rộng MPEG-2 chứa tất cả những dữ liệu surround
khác.
Hình 2.13. Chuẩn MPEG-2 mã hoá mono/stereo

H ình 2.14. Mã hoá và giải mã MPEG-2
AC--33 ((DOLBY DIIGIITAL)):

- Chuyển tải âm thanh đa kênh trong các ứng dụng như DVD-Video, DTV
và DBS.
- Phát triển từ AC-1 và AC-2.
- Mã hoá âm thanh từ 1 đến 6 kênh, thông thường cung cấp âm thanh 5.1
kênh: trái, phải, trung tâm, trái vòm, phải vòm và 1 kênh hiệu ứng tần số
thấp.
- 6 kênh yêu cầu 6x48kHzx18bits=5.184Mbps chưa nén có thể được mã hoá
tối thiểu với tốc độ 384kbps (tỷ lệ 13:1).Tuy nhiên, AC-3 hỗ trợ tốc độ từ 32
đến 640kbps.
- Cung cấp khả năng tự chọn mức âm thanh cho thính giả.
- Cho phép giảm dữ liệu bằng quá trình lượng tử biểu diễn trong miền tần số
của tín hiệu âm thanh.

- Bộ mã hoá sử dụng băng lọc phân tích chuyển các mẫu PCM thành các hệ
số trong miền tần số. Mỗi hệ số biểu diễn ký hiệu mũ nhị phân gồm phần mũ
nhị phân và phần định trị. Các tập mũ nhị phân được mã hoá thô qua phổ tín
hiệu và được xem như đường bao phổ. Sử dụng phân phối bít xác định số
bits cần mã hoá mỗi định trị. Đường bao phổ và các định trị được lượng tử
cho 6 khối âm thanh (1536 mẫu âm thanh) được định dạng thành khung rồi
chuyển đi.
Hình 2.15. Bộ mã hoá AC-3
APT--X110000:
- APT-X100 cho tỷ lệ nén 4:1.
- Sử dụng để truyền dẫn, lưu trữ các tín hiệu audio mono, stereo hay đa kênh
chất lượng cao.

- Không hẳn dựa vào mô hình tâm sinh lý nghe, cũng không trực tiếp loại
các thành phần không thích hợp trong tín hiệu audio, mà nó ngầm hiểu một
mô hình đáp ứng nghe bằng việc phân phối ít bit ở tần số cao.
- Thuật toán hoàn toàn trong miền thời gian sử dụng mã hoá dự đoán tuyến
tính trong các băng con.
- Hoạt động với bất kỳ tần số lấy mẫu với ngõ ra 16 bits/từ mẫu.
- Tín hiệu audio được chia thành 4 băng con với băng thông đều nhau sử
dụng các bộ lọc QMF.
- Tín hiệu được phân tích trong miền thời gian: sử dụng mã hoá dự đoán
tuyến tính ADPCM để lượng tử mỗi băng theo nội dung và loại bỏ độ dư
thừa trong các băng con.
- Mã hoá sự khác biệt của mẫu hiện thời và mẫu trước.
- Giải mã được tiến hành một cách ngược lại.

CHƯƠNG 3:CƠ SỞ LÝ THUYẾT BIẾN ĐỔI

WAVELET
3.1. CƠ SỞ TOÁN HỌC

3.1.1. Biến đổi Wavelet liên tục
Biến đổi Wavelet liên tục (Continuous Wavelet Transform - CWT) của
một t hàm f(t) được bắt đầu từ một hàm Wavelet mẹ (mother Wavelet) ψ (t ) .
Hàm Wavelet mẹ ψ(t ) có thể là bất kỳ một hàm số thực hoặc phức liên tục
nào thoả mãn các tính chất sau đây:
Tích phân suy rộng trên toàn bộ trục t của hàm ψ (t ) là bằng 0. Tức là:
∞
∫ψ (t )dt
−∞
=0 (3.1)
Tích phân năng lượng của hàm trên toàn bộ trục t là một số hữu hạn, tức là:
∞
∫ ψ (t )
2
dt = 0 (3.2)
−∞
Điều kiện (3.2) có nghĩa là hàm ψ (t ) phải là một hàm bình phương khả tích
nghĩa là hàm ψ (t ) thuộc không gian L2 (R) các hàm bình phương khả tích.
Sau khi hàm Wavelet ψ (t ) được lựa chọn, biến đổi Wavelet liên tục của một
hàm bình phương khả tích f (t ) được tính theo công thức:
∞
1  t −b 
W(a, b) = ∫ f(t)
−∞ a
ψ* 
 a 
dt (3.3)
Biến đổi này là một hàm của hai tham số thực a và b. Dấu * ký hiệu là liên
hiệp phức của ψ (t ) . Nếu chúng ta định nghĩa một hàm ψa,b(t) theo biểu
thức:
t −b 
ψ
1
ψa ,b (t ) =   (3.4)
a  a 

chúng ta có thể viết được:
∞
W(a, b) = ∫ f (t )ψ
−∞
a ,b (t )dt (3.5)
Theo toán học ta gọi đây là tích vô hướng của hai hàm f (t ) và ψa,b (t) .
1
Giá trị a là hệ số chuẩn hoá để đảm bảo rằng tích phân năng lượng của
hàm ψa,b(t) sẽ độc lập với a và b :

∞ ∞
2
∫ψa ,b (t ) dt = ∫ψ (t ) dt
2
(3.6)
−∞ −∞
Với mỗi giá trị của a thì ψa,b(t) là một bản sao của ψa,b(t) được dịch đi b đơn
vị trên trục thời gian. Do đó b được gọi là tham số dịch.
Đặt tham số dịch b = 0 ta thu được:
1 t 
ψa , 0 (t ) = ψ  (3.7)
a a 
điều đó cho thấy rằng a là tham số tỷ lệ.

Khi a >1 thì hàm Wavelet sẽ được trải rộng còn khi 0< a <1 thì hàm sẽ được
co lại. Sau đây chúng ta sẽ định nghĩa phép biến đổi ngược của biến đổi
Wavelet liên tục. Gọi Ψ (ω ) là biến đổi Fourier của ψ(t):
∞
Ψ(ω) = ∫ψ (t )e − jωt dt (3.8)
−∞
Nếu W(a,b) là biến đổi CWT của f (t ) bằng hàm Wavelet ψ (t ) , thì biến đổi
ngược của biến đổi CWT sẽ được tính như sau:
∞ ∞
1 1
f (t ) =
C ∫∫a
−∞−∞
2
W(a, b)ψa, b (t ) dadb (3.9)
với giá trị của C được định nghĩa là:

2
∞
Ψ(ω)
C= ∫
−∞
ω
dω (3.10 )

Biến đổi CWT chỉ tồn tại nếu C dương và hữu hạn. Do đó C được gọi là
điều kiện tồn tại của biến đổi Wavelet. Cùng với hai điều kiện đã nêu ở trên,
đây là điều kiện thứ 3 mà một hàm cần phải thoả mãn để có thể được lựa
chọn làm hàm Wavelet. Chúng ta có thể xem biến đổi CWT như là một ma
trận hai chiều các kết quả của phép tính tích vô hướng giữa hai hàm f(t) và
ψa,b(t) . Các hàng của ma trận tương ứng với các giá trị của a và các cột
tương ứng với các giá trị của b do cách tính biến đổi Wavelet theo tích vô
hướng đã trình bày ở trên:
∞ ∞
f (t ), g (t ) = ∫ f (t ) g (t )dt ⇒ f (t )ψ a ,b (t ) = ∫ f (t )ψ
*
a ,b (t )dt (3.11)
−∞ −∞
3.1.2. Biến đổi Wavelet rời rạc

Việc tính toán các hệ số Wavelet tại tất cả các tỉ lệ là một công việc
hết sức phức tạp. Nếu tính toán như vậy sẽ tạo ra một lượng dữ liệu khổng
lồ. Để giảm thiểu công việc tính toán người ta chỉ chọn ra một tập nhỏ các
giá trị tỉ lệ và các vị trí để tiến hành tính toán. Hơn nữa nếu việc tính toán
được tiến hành tại các tỷ lệ và các vị trí trên cơ sở luỹ thừa cơ số 2 thì kết
quả thu được sẽ hiệu quả và chính xác hơn rất nhiều. Quá trình chọn các tỷ
lệ và các vị trí để tính toán như trên tạo thành lưới nhị tố (dyadic). Một phân
tích như trên hoàn toàn có thể thực hiện được nhờ biến đổi Wavelet rời rạc
(DWT). Do đó, việc tính toán biến đổi DWT thực chất là sự rời rạc hoá biến
đổi Wavelet liên tục (CWT); việc rời rạc hoá được thực hiện với sự lựa chọn
các hệ số a và b như sau:
a = 2 m ; b = 2 m n; m, n ∈ Z (3.12 )
Việc tính toán hệ số của biến đổi Wavelet có thể dễ dàng thực hiện bằng các
băng lọc số nhiều nhịp đa kênh, một lý thuyết rất quen thuộc trong xử lý tín
hiệu.

3.2. TÍNH CHẤT CỦA BIẾN ĐỔI WAVELET

Tất cả chúng ta đều biết rằng biến đổi Fourier là một biến đổi đã và
đang được áp dụng rộng rãi trong nhiều ngành khoa học và kỹ thuật khác
nhau. Biến đổi Fourier chuyển một hàm tín hiệu từ miền thời gian sang
miền tần số. Sử dụng biến đổi Fourier ta có thể biết được trong tín hiệu f(t)
có các thành phần tần số nào. Tuy nhiên biến đổi Fourier có một nhược
điểm cơ bản là với một tín hiệu f(t) ta không thể biết được rằng tại một thời
điểm t thì tín hiệu có các thành phần tần số nào. Một phép biến đổi tốt hơn
biến đổi Fourier phải là phép biến đổi có đầy đủ tính năng của biến đổi
Fourier và có khả năng xác định xem tại một thời điểm t bất kỳ trong tín
hiệu f(t) có thành phần tần số nào. Phép biến đổi Wavelet ra đời đã khắc
phục được các nhược điểm của biến đổi Fourier trong phân tích tín hiệu.
Biến đổi Wavelet dù chỉ làm việc với các tín hiệu một chiều (liên tục hoặc
rời rạc) nhưng sau khi biến đổi xong ta thu được một hàm số hai biến hoặc
một tập các cặp giá trị W(a,b) minh họa các thành phần tần số khác nhau của
tín hiệu xảy ra tại thời điểm t . Các giá trị W( ai b) tạo thành một cột (i=1,
2,...., n) cho biết một thành phần tần số có trong những thời điểm t nào và

các giá trị W(ai,b) tạo thành hàng cho biết tại một thời điểm t của tín hiệu
f(t) có các thành phần tần số nào. Được nghiên cứu từ trước những năm 80
của thế kỷ trước và cũng đã được ứng dụng trong một số ngành khoa học và
công nghệ khác nhau nhưng biến đổi Wavelet vẫn là một lĩnh vực đang và sẽ
tiếp tục được nghiên cứu và phát triển cũng như ứng dụng rộng rãi hơn nữa.
Tham số b trong biến đổi Wavelet cho biết khoảng dịch của hàm Wavelet mẹ
và độ phân giải các tần số khác nhau của f(t) được minh họa bởi hệ số tỷ lệ
chính là a. Biến đổi Wavelet ngày càng được áp dụng rộng rãi đặc biệt là
trong xử lý tiếng nói, xử lý ảnh số. Tín hiệu tiếng nói là tín hiệu một chiều
nhưng do đặc điểm của tiếng nói là tín hiệu không dừng nên việc sử dụng
Fourier là không đủ để phân tích một cách đầy đủ các đặc trưng của tiếng
nói. Khác với tín hiệu tiếng nói, xử lý tín hiệu ảnh số là xử lý tín hiệu hai
chiều và do đặc điểm của ảnh số là bao giờ cũng có tính định hướng và tính
định vị. Tính định hướng của một ảnh nghĩa là trong ảnh bao giờ cũng có
một số ít các thành phần tần số nhưng các thành phần tần số này trải rộng
trên toàn bộ không gian ảnh còn tính định vị của ảnh chính là tính chất biểu
thị rằng tại một vùng của ảnh có thể có rất nhiều thành phần tần số. Ảnh
biểu thị tính định vị rõ nhất chính là ảnh có nhiều biên vùng phân tách rõ rệt,
tại các đường biên bao giờ cũng có nhiều thành phần tần số khác nhau, còn
hầu hết các ảnh có tông liên tục đều là những ảnh có tính định hướng.
Ngoài ra người ta thường áp dụng một cách kết hợp biến đổi Wavelet
với các hàm Wavelet thích hợp với dạng tín hiệu cần khảo sát và phép phân
tích đa phân giải để việc xử lý tín hiệu tiếng nói và hình ảnh đạt hiệu quả
cao hơn. Trước khi xem xét ứng dụng của phân tích đa phân giải trong nén
ảnh, chúng ta xem xét lý thuyết về đa phân giải trong phân tích tín hiệu. Giả
sử chúng ta cần xấp xỉ hoá một tín hiệu liên tục có dạng một hàm bình
phương khả tích f(x) bằng một tập các giá trị rời rạc (ví dụ hàm f(t) là hàm

cường độ sáng của ảnh). Phép xấp xỉ đơn giản thực hiện dựa trên lý thuyết
phép lấy trung bình và dựa vào hàm xấp xỉ là hàm ϕ(x) có dạng:
 1 x ∈ [0,1)
ϕ ( x) =  ( .3 1 ) 3
 0 g t i rk a ih a c
Việc tính toán các giá trị xấp xỉ của hàm f(x) theo hàm ϕ(x) sẽ được viết như
sau:
A[ f ( x)] = ∑ f nϕ( x − n) (3.14 )
n
với fn là chính là giá trị xấp xỉ của hàm f(x) trong khoảng [n;n+1). Đây
chính là giá trị trung bình của hàm f(x) trong khoảng [n;n+1) được cho bởi
biểu thức:
n +1
fn = ∫ f ( x)
n
(3.15 )
Như vậy chúng ta có thể xấp xỉ hoá hàm f(x) bằng một tập các hàm tương tự
như hàm ϕ(x) và phép xấp xỉ hoá hàm f(x) cho bởi:
A[ f ( x) ] = ∑ ϕ
~ ( x − n), f ( x) ϕ( x − n) (3.16 )
n
~
Ở đây ϕ (x) được gọi là hàm trọng và ϕ(x) là hàm nội suy, để xấp xỉ ϕ(x)
thoả mãn:
~ ( x −n) =δ( n)
ϕ( x)ϕ (3.17 )
Việc phải thoả mãn điều kiện 3.17 là để đảm bảo rằng hàm f ( x) có thể được
xấp xỉ hoá bằng một tổ hợp tuyến tính của các hàm ϕ(x − n) . Ngoài ra hai
~
hàm ϕ (x) và ϕ(x) phải được chuẩn hoá để thoả mãn:
~ ( x ) dx =1
∫ϕ( x) dx =∫ϕ
2 2
(3.18 )
Trong thực tế, hàm f ( x) thường được giả thiết là có chu kỳ nguyên và
chúng ta chỉ cần một số hữu hạn các tổ hợp tuyến tính để xấp xỉ hoá hàm f
(x) . Chúng ta có thể thay đổi độ phân giải của phép xấp xỉ bằng cách thay

j
~
đổi hệ số tỷ lệ của các hàm ϕ (x) và ϕ(x) . Cho ϕ j ( x) = 2 2 ϕ(2 j x) và
j
~ (2 j x) , chúng ta có xấp xỉ:
~ j ( x) = 2 2 ϕ
ϕ
A j [ f ( x) ] = ∑ f ( x), ϕ
~ j ( x −2− j k ) ϕ j ( x −2− j k ) (3.19 )
k
của hàm f(x) là các phép chiếu trực giao của hàm f(x) lên không gian lấy
{ϕ j
(x −2−j k ) } k∈Z làm cơ sở. Việc thay đổi giá trị của j sẽ làm thay đổi mức
độ chính xác của phép xấp xỉ hàm f(x) của chúng ta như trên hình 3.2
Hàm ϕ(x) được gọi là hàm tỷ lệ và chúng ta thấy hàm này có một tính chất
đặc biệt là các hàm ứng với độ phân giải thứ j (tức là có chiều rộng 2-j ) là
trường hợp đặc biệt của các hàm có độ phân giải thứ j +1 (chiều rộng 2-j-1)
bởi vì các hàm có độ phân giải j có thể dễ dàng biểu diễn từ các hàm có độ
phân giải j +1. Điều đó dẫn tới:
V j ⊂V j +1
Vì vậy chúng ta có thể biểu diễn hàm f(x) theo các mức phân giải khác nhau
dựa trên các phép chiếu trực giao của hàm f(x) lên các không gian Vj . Chính
vì thế người ta định nghĩa một phép phân tích đa phân giải như sau:
*. Một phân tích đa phân giải bao gồm một chuỗi không gian bao hàm nhau:
...V2 ⊂ V1 ⊂ V0 ⊂ V−1 ⊂ V−2 ... (3.20 )

thoả mãn:
−−−
V j = L2 ( R ) (3.21 )
j∈Z
V j =0 (3.22 )
j∈Z
Tính bất biến tỷ lệ:

f ( x ) ∈V j ⇔ f ( 2 j x ) ∈V0 (3.23 )
Tính bất biến dịch:

f ( x ) ∈V0 ⇔ f ( x − n) ∈V0 ∀n ∈Z (3.23 )
Tính tồn tại của cơ sở:

Tồn tại φ Є V0 với {φ(x-n) | n Є Z} (3.25) là một cơ sở trực chuẩn của V0
Nếu chúng ta gọi A[ f ( x)] = proj v [ f ( x)] là hình chiếu trực giao của f ( x) lên
m
m V , thì ta có: lim m→−∞ proj v [ f ( x)] = f ( x) (3.26 )

m
Trên đây là cơ sở lý thuyết của phép phân tích đa phân giải với tín hiệu
1D tổng quát. Việc áp dụng trong tín hiệu ảnh (tín hiệu 2D) có thể dễ dàng
mở rộng từ việc phân tích đa phân giải 1D, chúng ta sẽ xét tới ở phần áp
dụng trong JPEG2000 ở phần sau
3.3. GIỚI THIỆU MỘT SỐ HỌ WAVELET

3.3.1. Biến đổi Wavelet Haar
Biến đổi Haar Wavelet là biến đổi đơn giản nhất trong các phép biến đổi
Wavelet. Hình vẽ 3.2 cho thấy dạng của hàm ψ(t) với biến đổi Haar. Do tính
chất đơn giản của biến đổi Haar mà nó được ứng dụng tương đối nhiều
trong nén ảnh, khi áp dụng biến đổi này để nén ảnh thì thuật toán nén ảnh
trên máy tính có một số điểm khác với công thức toán học của biến đổi
Haar.

3.3.2. Biến đổi Wavelet Meyer

Yves Meyer là một trong những nhà khoa học đã đặt nền móng cho
phép biến đổi Wavelet. Phép biến đổi Wavelet mang tên Meyer cũng là một
phép biến đổi thông dụng, biến đổi này có khả năng phân tích tín hiệu tốt
hơn nhiều so với biến đổi Haar. Dạng của hàm ψ(t) với biến đổi Meyer cho
ở hình vẽ:
3.3.3. Biến đổi Wavelet Daubechies

Giống như Meyer, Daubechies cũng là một nhà khoa học có công lao
to lớn trong việc nghiên cứu phát triển phép biến đổi Wavelet. Biến đổi
Daubechies là một trong những phép biến đổi phức tạp nhất trong biến đổi
Wavelet. Họ biến đổi này được ứng dụng hết sức rộng rãi, biến đổi Wavelet
áp dụng trong JPEG2000 là một biến đổi trong họ biến đổi Wavelet
Daubechies. Dưới đây là một số hàm ψ(t) trong họ biến đổi Wavelet
Daubechies:
3.4. MỘT SỐ ỨNG DỤNG NỔI BẬT CỦA WAVELET

Phần này chỉ nêu ra các lĩnh vực mang tính chất tổng quát các ứng
dụng của Wavelet với tính chất giới thiệu và gợi mở.
3.4.1. Nén tín hiệu

Do đặc điểm của mình, Wavelet đặc biệt tốt khi sử dụng để nén hay
phân tích các tín hiệu không dừng; đặc biệt là tín hiệu ảnh số và các ứng

dụng nén tiếng nói, nén dữ liệu. Việc sử dụng các phép mã hoá băng con,
băng lọc số nhiều nhịp và biến đổi Wavelet rời rạc tương ứng với loại tín
hiệu cần phân tích có thể mang lại những hiệu quả rất rõ rệt trong nén tín
hiệu. Do tính chất chỉ tồn tại trong các khoảng thời gian rất ngắn (khi phân
tích tín hiệu trong miền thời gian tần số) mà các hệ số của biến đổi Wavelet
có khả năng tập trung năng lượng rất tốt vào các hệ số biến đổi. Các hệ số
mang thông tin chi tiết của biến đổi Wavelet thường rất nhỏ và có thể bỏ qua
mà không ảnh hưởng tới việc mã hoá dữ liệu (trong phương pháp mã hoá
ảnh hay tiếng nói là những tín hiệu cho phép mã hoá có tổn
thất thông tin).
3.4.2. Khử nhiễu

Tính chất của biến đổi Wavelet mà chúng ta đã xét tới trong phần ứng
dụng cho nén tín hiệu được mở rộng bởi Iain Johnstone và David Donohos
trong các ứng dụng khủ nhiễu cho tín hiệu. Phương pháp khử nhiễu này
được gọi là Wavelet Shrinkage Denoising (WSD). Ý tưởng cơ bản của WSD
dựa trên việc tín hiệu nhiễu sẽ lộ rõ khi phân tích bằng biến đổi Wavelet ở
các hệ số biến đổi bậc cao. Việc áp dụng các ngưỡng loại bỏ tương ứng với
các bậc cao hơn của hệ số Wavelet sẽ có thể dễ dàng loại bỏ nhiễu trong tín
hiệu.
3.4.3. Mã hoá nguồn và mã hoá kênh

Sở dĩ Wavelet được ứng dụng trong mã hoá nguồn và mã hoá kênh vì
trong mã hoá nguồn thì chúng ta cần khả năng nén với tỷ lệ nén cao còn
trong mã hoá kênh thì cần khả năng chống nhiễu tốt. Biến đổi Wavelet kết
hợp với một số phương pháp mã hoá như mã hoá Huffman hay mã hoá số

học có thể thực hiện được cả hai điều trên. Vì thế sự sử dụng biến đổi
Wavelet trong mã hoá nguồn và mã hoá kênh là rất thích hợp.
CHƯƠNG 4: CHUẨN NÉN ẢNH TĨNH DỰA TRÊN

BIẾN ĐỔI WAVELET – JPEG2000
4.1. LỊCH SỬ RA ĐỜI VÀ PHÁT TRIỂN CỦA CHUẨN JPEG2000

Như chúng ta đã biết, sự ra đời của JPEG mang lại nhiều lợi ích to
lớn về nhiều mặt. JPEG có thể giảm nhỏ kích thước ảnh, giảm thời gian
truyền và làm giảm chi phí xử lý ảnh trong khi chất lượng ảnh là khá tốt.
Tuy nhiên cho đến nay người ta mới chỉ ứng dụng dạng thức nén có tổn thất
thông tin của JPEG vì mã hoá không tổn thất của JPEG là khá phức tạp. Để
việc nén ảnh có hiệu quả hơn, Ủy ban JPEG đã đưa ra một chuẩn nén ảnh
mới là JPEG2000. JPEG2000 sử dụng biến đổi Wavelet và các phương pháp
mã hoá đặc biệt để có được ảnh nén ưu việt hơn hẳn JPEG. JPEG2000 hiện
vẫn đang tiếp tục được phát triển, nhưng phần I đã được tổ chức ISO chấp
nhận là chuẩn nén ảnh quốc tế áp dụng cho ảnh tĩnh. Chuẩn nén ảnh
JPEG2000 mà xương sống là biến đổi Wavelet với tính năng vượt trội so
với JPEG chắc chắn sẽ được sử dụng trong các server nội dung để chuyển
đổi định dạng ảnh trong mạng di động. Chính vì thế, mục đích của chương
này không chỉ giới thiệu một chuẩn nén ảnh dựa trên biến đổi Wavelet phổ

biến mà còn đưa ra một lựa chọn nhằm giải quyết toàn cục bài toán đặt ra ơ
phần mở đầu.
4.2. CÁC TÍNH NĂNG CỦA JPEG2000

JPEG2000 có nhiều chức năng đặc biệt hơn mọi chuẩn nén ảnh tĩnh
khác như JPEG hay GIF. Dưới đây là các chức năng ưu việt của JPEG2000
so với các chuẩn nén ảnh tĩnh khác
 Cho chất lượng ảnh tốt nhất khi áp dụng nén ảnh tĩnh có tổn thất.
 Sử dụng được với truyền dẫn và hiển thị luỹ tiến về chất lượng, độ
phân giải, các thành phần màu và có tính định vị không gian.
 Sử dụng cùng một cơ chế nén ảnh cho cả hai dạng thức nén.
 Truy nhập và giải nén tại mọi thời điểm trong khi nhận dữ liệu.
 Giải nén từng vùng trong ảnh mà không cần giải nén toàn bộ ảnh
 Có khả năng mã hoá ảnh với tỷ lệ nén theo từng vùng khác nhau
 Nén một lần nhưng có thể giải nén với nhiều cấp chất lượng tuỳ theo
yêu cầu của người sử dụng
Hiện tại, ISO và uỷ ban JPEG đã đưa ra khuyến nghị thay thế JPEG bằng
JPEG2000.
4.3. CÁC BƯỚC THỰC HIỆN NÉN ẢNH THEO CHUẨN

JPEG2000

4.3.1. Xử lý trước biến đổi

Do sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào
ở dạng đối xứng qua 0. Xử lý trước biến đổi chính là giai đoạn đảm bảo dữ
liệu đưa vào nén ảnh có dạng trên. Ở phía giải mã, giai đoạn xử lý sau biến
đổi sẽ trả lại giá trị gốc ban đầu cho dữ liệu ảnh.
4.3.2. Biến đổi liên thành phần

Giai đoạn này sẽ loại bỏ tính tương quan giữa các thành phần của ảnh.
JPEG2000 sử dụng hai loại biến đổi liên thành phần là biến đổi màu thuận
nghịch (Reversible Color Transform - RCT) và biến đổi màu không thuận
nghịch (Irreversible Color Transform - ICT) trong đó biến đổi thuận nghịch
làm việc với các giá trị nguyên, còn biến đổi không thuận nghịch làm việc
với các giá trị thực. ICT và RCT chuyển dữ liệu ảnh từ không gian màu RGB
sang YCrCb. RCT được áp dụng trong cả hai dạng thức nén có tổn thất và
không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất. Công thức của biến
đổi thuận và ngược của hai phép biến đổi ICT và RCT cho ở phần phụ lục.
Việc áp dụng các biến đổi này trước khi nén ảnh không nằm ngoài mục đích
làm tăng hiệu quả nén. Các thành phần Cr, Cb có ảnh hưởng rất ít tới sự cảm
nhận hình ảnh của mắt trong khi thành phần độ chói Y có ảnh hưởng rất lớn
tới ảnh. Chúng ta có thể thấy rõ hơn điều này trên hình vẽ 4.3:

4.3.3. Biến đổi riêng thành phần (biến đổi Wavelet)

Biến đổi riêng thành phần được áp dụng trong JPEG2000 chính là
biến đổi Wavelet. Để đảm bảo tính toàn vẹn thông tin cũng phải áp dụng các
phép biến đổi thuận nghịch hoặc không thuận nghịch. Do phép biến đổi
Wavelet không phải là một phép biến đổi trực giao như biến đổi DCT mà là
một phép biến đổi băng con nên các thành phần sẽ được phân chia thành các
băng tần số khác nhau và mỗi băng sẽ được mã hóa riêng rẽ. JPEG2000 áp
dụng biến đổi Wavelet nguyên thuận nghịch 5/3 (IWT) và biến đổi thực
không thuận nghịch Daubechies 9/7. Việc tính toán biến đổi trong
JPEG2000 này sẽ được thực hiện theo phương pháp Lifting (Công thức cụ
thể của phương pháp Lifting và biến đổi Wavelet trong JPEG2000 cho ở
phần phụ lục). Sơ đồ của phương pháp Lifting 1D áp dụng trong JPEG2000
trên hình 4.3.Việc tính toán biến đổi Wavelet 2D suy ra từ biến đổi Wavelet
1D theo các phương pháp phân giải ảnh tuỳ chọn. Trong JPEG2000 có 3
phương pháp phân giải ảnh nhưng phương pháp được sử dụng nhiều nhất
chính là phương pháp kim tự tháp.

Do biến đổi Wavelet 5/3 là biến đổi thuận nghịch nên có thể áp dụng
cho nén ảnh theo cả hai phương pháp, có tổn thất và không tổn thất trong khi
biến đổi 9/7 chỉ áp dụng cho nén ảnh theo phương pháp có tổn thất thông
tin.
4.3.4. Lượng tử hoá - Giải lượng tử hoá

Các hệ số của phép biến đổi sẽ được tiến hành lượng tử hoá. Quá trình
lượng tử hoá cho phép đạt tỷ lệ nén cao hơn bằng cách thể hiện các giá trị
biến đổi với độ chính xác tương ứng cần thiết với mức chi tiết của ảnh cần
nén. Các hệ số biến đổi sẽ được lượng tử hoá theo phép lượng tử hoá vô
hướng. Các hàm lượng tử hoá khác nhau sẽ được áp dụng cho các băng con
khác nhau và được thực theo biểu thức:
V ( x, y ) =[U ( x, y ) / ∆]sgn U ( x, y ) ( 4.1)
, sgn ,với Δ là bước lượng tử, U(x,y) là giá trị băng con đầu vào; V(x,y) là giá
trị sau lượng tử hoá. Trong dạng biến đổi nguyên, đặt bước lượng tử bằng

1.Với dạng biến đổi thực thì bước lượng tử sẽ được chọn tương ứng cho
từng băng con riêng rẽ. Bước lượng tử của mỗi băng do đó phải có ở trong
dòng bít truyền đi để phía thu có thể giải lượng tử cho ảnh. Công thức giải
lượng tử hoá là:
U ( x, y ) = [V ( x, y ) + r sgn V ( x, y )]∆ ( 4.2)
r là một tham số xác định dấu và làm tròn, các giá trị U(x,y);V(x,y) tương
ứng là các giá trị khôi phục và giá trị lượng tử hoá nhận được. JPEG2000
không cho trước r tuy nhiên thường chọn r=1/2.
4.3.5. Mã hoá và kết hợp dòng dữ liệu sau mã hoá

JPEG2000 theo khuyến nghị của uỷ ban JPEG quốc tế có thể sử dụng
nhiều phương pháp mã hoá khác nhau cũng như nhiều cách biến đổi
Wavelet khác nhau để có thể thu được chất lượng ảnh tương ứng với ứng
dụng cần xử lý. Điều này giúp cho JPEG2000 mềm dẻo hơn nhiều so với
JPEG. Việc áp dụng các phương pháp mã hoá khác nhau cũng được mở
rộng sang lĩnh vực nén ảnh động bằng biến đổi Wavelet. Trong thực tế các
phương pháp mã hoá ảnh được áp dụng khi nén ảnh bằng biến đổi Wavelet
cũng như JPEG2000 thì có hai phương pháp được coi là cơ sở và được áp
dụng nhiều nhất: phương pháp SPIHT và phương pháp EZW.
Hiện nay JPEG2000 vẫn được áp dụng mã hoá bằng hai phương pháp này
và một phương pháp phát triển từ hai phương pháp này là phương pháp mã
hoá mặt phẳng bít. Vì thế ở đây chúng ta sẽ xem xét hai phương pháp này.
Việc kết hợp dòng dữ liệu sau mã hoá của JPEG2000 thực chất là để thực
hiện các tính năng đặc biệt của JPEG2000 như tính năng ROI
v.v...
4.3.6. Phương pháp mã hoá SPIHT

Có thể thấy rằng dù áp dụng biến đổi Wavelet nào hay cùng với nó là
một phép phân giải ảnh nào thì trong các băng con có số thứ tự thấp cũng là
những thành phần tần số cao (mang thông tin chi tiết của ảnh) trong khi
những băng con có số thứ tự cao hơn thì sẽ chứa những thành phần tần số
thấp (mang thông tin chính về ảnh). Điều đó nghĩa là các hệ số chi tiết sẽ
giảm dần từ băng con mức thấp (HH1 chẳng hạn) (ứng với thành phần tần số
cao) xuống băng con mức cao (ứng với thành phần tần số thấp) và có tính
tương tự về không gian giữa các băng con, ví dụ như một đường biên của
hình vẽ trong ảnh sẽ tồn tại ở cùng một vị trí trên các băng con đó (tương
ứng với mức độ phân giải của băng con ấy). Điều này đã dẫn tới sự ra đời
của phương pháp SPIHT (Set partitioning in hierarchical trees- phương
pháp mã hoá phân cấp theo phân vùng). Phương pháp SPIHT được thiết kế
tối ưu cho truyền dẫn luỹ tiến. Điều này có nghĩa là tại mọi thời điểm trong
quá trình giải nén ảnh theo phương pháp mã hoá này thì chất lượng ảnh hiển
thị tại thời điểm ấy là tốt nhất có thể đạt được với một số lượng bít đưa vào
giải mã tính cho tới thời điểm ấy. Ngoài ra, phương pháp này sử dụng kỹ
thuật embedded coding; điều đó có nghĩa là một ảnh sau nén với kích cỡ
(lưu trữ) lớn (tỷ lệ nén thấp) sẽ chứa chính dữ liệu sau nén của ảnh có kích
cỡ (lưu trữ) nhỏ (tỷ lệ nén cao). Bộ mã hoá chỉ cần nén một lần nhưng có thể
giải nén ra nhiều mức chất lượng khác nhau. Giả sử gọi các pixel trong một
ảnh p cần mã hoá là pi, j. Áp dụng một phép biến đổi Wavelet T nào đó cho
các pixel trong ảnh để tạo ra các hệ số của phép biến đổi Wavelet là ci,j. Các
hệ số này tạo ra một ảnh biến đổi là C. Phép biến đổi này được viết dưới
dạng toán tử như sau: C=T(p). Trong phương pháp truyền dẫn luỹ tiến với
ảnh thì bộ mã hoá sẽ bắt đầu quá trình khôi phục (giải nén) ảnh bằng cách
đặt các giá trị của ảnh khôi phục từ các hệ số biến đổi là ĉ . Sử dụng các giá
trị giải mã của các hệ số biến đổi để tạo ra một ảnh khôi phục (vẫn chưa áp

dụng biến đổi ngược Wavelet) là ĉ và sau đó áp dụng biến đổi ngược
Wavelet để tạo ra ảnh cuối cùng là ˆp . Chúng ta có thể viết dướidạng toán tử
như sau: pˆ =T −1 (cˆ) . Nguyên tắc quan trọng của phương pháp truyền dẫn
ảnh theo kiểu luỹ tiến chính là phương pháp này luôn truyền đi các giá trị
mang thông tin quan trọng hơn của ảnh đi trước. Sở dĩ làm như vậy là do
các thông tin đó chính là các thông tin sẽ làm giảm thiểu nhiều nhất độ méo
dạng của ảnh (sự sai khác giữa ảnh gốc và ảnh khôi phục). Đây chính là lý
do tại sao phương pháp SPIHT luôn truyền đi các hệ số lớn trước và cũng là
một nguyên tắc quan trọng của phương pháp này. Một nguyên tắc nữa là các
bít có trọng số lớn bao giờ cũng mang thông tin quan trọng nhất trong dữ
liệu nhị phân. Phương pháp SPIHT sử dụng cả hai nguyên tắc này; nó sắp
xếp các hệ số biến đổi và truyền đi các bít có trọng số lớn nhất. Quá trình
giải mã có thể dừng lại ở bất kỳ một bước nào ứng với giá trị ảnh cần mã
hoá yêu cầu. Đây chính là cách mà phương pháp mã hoá SPIHT làm tổn thất
thông tin.
4.3.7. Phương pháp mã hoá EZW

Phương pháp mã hoá EZW (Embedded Zerotree Wavelet Encoder)
cũng dựa trên cơ sở phép mã hoá luỹ tiến (progressive coding) giống như
phương pháp mã hoá SPIHT. Phương pháp này chủ yếu dựa trên khái niệm
về cây zero (zerotree). Về cơ bản, thuật toán này dựa trên hai nguyên tắc
như đã trình bày ở phần phương pháp mã hoá SPIHT. Sau đây chúng ta sẽ
xem xét các khái niệm cơ bản của thuật toán:
Cây tứ phân: Sau khi áp dụng biến đổi Wavelet ứng với các mức phân giải
khác nhau chúng ta có thể biểu diễn các hệ số biến đổi dưới dạng một cây.
Ta thấy rằng với cây biểu diễn này cứ mỗi nút cha thì có 4 nút con. Sở dĩ có
được điều này là do quá trình biến đổi Wavelet ở các tỷ lệ khác nhau. Ta gọi

đây là các cây tứ phân (quadtree). Sơ đồ cây tứ phân được minh hoạ ở hình
4.5.
Cây zero (zerotree): Cây zero là một cây tứ phân, trong đó tất cả các nút của
nó đều nhỏ hơn nút gốc. Một cây như vậy khi mã hoá sẽ được mã hoá bằng
một đối tượng duy nhất và khi giải mã thì chúng ta cho tất cả các giá trị bằng
không. Ngoài ra để có thể mã hoá được các hệ số Wavelet trong trường hợp
này, giá trị của nút gốc phải nhỏ hơn giá trị ngưỡng đang được xem xét ứng
với hệ số Wavelet đó
Sau khi có đủ các khái niệm cần thiết về cây tứ phân và cây zero, chúng ta
có thể trình bày nguyên lý hoạt động của thuật toán. Thuật toán sẽ mã hoá
các hệ số theo thứ tự giảm dần. Chúng ta sẽ dùng một giá trị gọi là ngưỡng
(threshold) và sử dụng ngưỡng này để tiến hành mã hoá các hệ số biến đổi.
Các hệ số được mã hoá theo thứ tự từ vùng tần số thấp đến vùng tần số cao.
Và chỉ những hệ số có giá trị tuyệt đối lớn hơn hoặc bằng ngưỡng thì mới
được mã hoá. Tiếp theo giảm ngưỡng và tiếp tục làm như vậy cho tới khi
ngưỡng đạt tới một giá trị nhỏ hơn giá trị của hệ số nhỏ nhất. Cách giảm giá
trị ngưỡng ở đây thực hiện tương đối đặc biệt, giá trị của ngưỡng giảm
xuống một nửa so với trước đó. Bộ giải mã phải biết các mức ngưỡng này

thì mới có thể giải mã ảnh thành công. Nhưng khi ta đi từ nút cha đến nút
con trong cây tứ phân thì nó vẫn có 3 nút con. Vậy ta phải đi theo nhánh có
nút con nào trước. Hay nói một cách đầy đủ hơn ta di chuyển từ hệ số này
đến hệ số khác theo thứ tự như thế nào. Có nhiều cách di chuyển khác nhau,
tuy nhiên hai cách di chuyển trên hình 4.6 được sử dụng nhiều nhất.
Việc sắp xếp này còn phải được quy ước thống nhất giữa quá trình mã
hoá và quá trình giải mã để việc giải mã ảnh được thành công. Trên đây chỉ
là nguyên lý cơ bản của phương pháp mã hoá EZW. Chi tiết về thuật toán mã
hoá có thể xem ở phần chương trình. Hiện nay phương pháp mã hoá này
được áp dụng ngày càng nhiều nén ảnh động. Phương pháp này cho tỉ lệ nén
và độ tin cậy giải mã cao. Ngoài ra phương pháp EZW rất dễ triển khai trên
máy tính bởi phương pháp này không yêu cầu việc lập trình quá phức tạp.
4.4. SO SÁNH CHUẨN JPEG2000 VỚI JPEG VÀ CÁC CHUẨN

NÉN ẢNH TĨNH KHÁC

Một tính năng quan trọng và là ưu điểm rõ nét nhất của JPEG2000 so
với JPEG cũng như các chuẩn nén ảnh khác như MPEG 4 VTC hay JPEG -
LS v. v.... là JPEG2000 đưa ra cả hai kỹ thuật nén có tổn thất và không tổn
thất theo cùng một cơ chế mã hoá nghĩa là JPEG2000 thực hiện tất cả các
dạng thức của JPEG chỉ bằng một cơ chế mã hoá duy nhất. Nếu xét về sự
tồn tại của hai kỹ thuật này thì JPEG cũng có khả năng nén ảnh có tổn thất
và không tổn thất thông tin. Tuy nhiên với JPEG thì cơ chế mã hoá với hai
dạng này là khác nhau và rất khó để sử dụng cả hai dạng này cùng lúc cho
cùng một ứng dụng. Do đó, có thể thấy rằng JPEG có tính mềm dẻo hơn bất
kỳ chuẩn nén ảnh tĩnh nào trước đây. Hơn thế, chúng ta đã thấy rằng tất cả
các phương pháp thiết kế cho chuẩn JPEG2000 đều ưu việt và có nhiều tính
năng hơn so với JPEG; ngoài ra những thống kê về thực tế cho thấy với
cùng một tỷ lệ nén và một loại ảnh thì ảnh được nén bởi JPEG2000 hầu như
luôn có chất lượng tốt hơn so với JPEG. Chúng ta xem xét hai ảnh trên hình
4.7 để thấy rõ điều này, ảnh bên trái được nén theo JPEG còn ảnh bên phải
được nén theo JPEG2000

Tính năng ưu việt thứ hai của JPEG2000 so với JPEG chính là trong
dạng thức nén có tổn thất thông tin, JPEG2000 có thể đưa ra tỷ lệ nén cao
hơn nhiều so với JPEG. Các phần mềm nén ảnh JPEG hiện tại (kể cả
Photoshop) cũng chỉ thiết kế để có thể nén được tới tỷ lệ 40:1 nhưng với
JPEG2000 thì tỷ lệ nén có thể lên tới 200:1. Theo công thức tính PSNR
trong đơn vị dB, chúng ta có: (b là số bít dùng biểu diễn một pixel trên ảnh
gốc)
 RMSE 
PSNR (dB ) = −20 log  b 
 2 −1 
Với hai ảnh ở hình 4.6, sự so sánh về tham số PSNR cho trên bảng
4.1. Để có thể so sánh dễ dàng hơn, ta xét ảnh được nén với các tỷ lệ khác
nhau (đo lường bởi hệ số bít/pixel hay bpp). Tất cả các số liệu trên bảng đều

cho thấy JPEG2000 nén ảnh tốt hơn là JPEG; hơn thế hệ số PSNR mà
chúng ta xét trong bảng được đo trong hệ đơn vị logarit.
Tính năng ưu việt thứ 3 của JPEG2000 so với JPEG là chuẩn nén ảnh
này có thể hiển thị được các ảnh với độ phân giải và kích thước khác nhau từ
cùng một ảnh nén. Với JPEG thì điều này là không thể thực hiện được. Sở
dĩ có điều này là do JPEG2000 sử dụng kỹ thuật phân giải ảnh và mã hoá
đính kèm mà chúng ta đã nói tới ở phần mã hoá ảnh theo JPEG2000. Tính
năng này là một lợi thế đặc biệt quan trọng của JPEG2000, trong khi JPEG
cũng như các chuẩn nén ảnh tĩnh trước đây phải nén nhiều lần để thu được
chất lượng với từng lần nén khác nhau thì với JPEG2000 ta chỉ cần nén một
lần còn chất lượng ảnh thì sẽ được quyết định tuỳ theo người sử dụng trong
quá trình giải nén ảnh theo JPEG2000. Một tính năng ưu việt nữa của
JPEG2000 là tính năng mã hoá ảnh quan trọng theo vùng (ROI - Region of
Interest) mà chúng ta đã đề cập trongphần mã hoá ảnh theo JPEG2000. Chất
lượng của toàn bộ ảnh cũng được thấy rõ trên hình 4.7.

Như chúng ta thấy trên hình 4.7, chất lượng của vùng ảnh được lựa
chọn tăng cao hơn khi vùng đó được áp dụng phương pháp nén ảnh ROI.
JPEG2000 còn có một khả năng đặc biệt ưu việt hơn so với JPEG, đó chính
là khả năng vượt trội trong khôi phục lỗi. Đó là khi một ảnh được truyền
trên mạng viễn thông thì thông tin có thể bị nhiễu; với các huẩn nén ảnh như
JPEG thì nhiễu này sẽ được thu vào và iển thị, tuy hiên với JPEG2000, do
đặc trưng của phép mã hoá có thể chống lỗi, JPEG2000 có thể giảm thiểu
các lỗi này tới mức hầu như không có. Sau khi xem xét các tính năng vượt
trội của JPEG2000 so với JPEG (chuẩn nén ảnh thông dụng nhất hiện nay)
chúng ta so sánh chức năng của JPEG2000 với một số chuẩn nén ảnh như là
JPEG - LS; PNG; MPEG 4 VTC qua bảng 4.2 (Dấu + biểu thị chuẩn đó có
chức năng tương ứng, số dấu + càng nhiều thì chuẩn đó thực hiện chức năng
tương ứng càng tốt) dấu - biểu thị chuẩn tương ứng không hỗ trợ tính năng
đó)

Từ bảng trên chúng ta có thể thấy các tính năng vượt trội và khả năng ưu
việt của JPEG2000 so với các chuẩn nén ảnh tĩnh trước đây.
CHƯƠNG 5: ỨNG DỤNG CỦA WAVELET TRONG

NÉN ẢNH SỐ VÀ ÂM THANH SỐ
Lý thuyết và công nghệ wavelet đang trong giai đoạn phát triển quan
trọng và có nhiều ưu điểm hơn so với các phương pháp truyền thống đang
tồn tại. Wavelet và phép biến đổi wavelet được ứng dụng trong nhiều lĩnh

vực, trong xử lý tín hiệu, nén tín hiệu trong cả các ứng dụng xử lý ảnh và âm
thanh, là công cụ phân tích các hệ thống động. Các phương pháp xử lý tín
hiệu như là các bộ lọc gương cầu phương (Quadrature Mirror Filter-QMF)
kết hợp với kỹ thuật wavelet đang được nghiên cứu trong nhiều ứng dụng
của viễn thông. Các lĩnh vực ứng dụng khác của lý thuyết wavelet như là vật
lý lý thuyết, thăm dò dầu khí, ứng dụng trong y học, trong các dự đoán,
trong việc xây dựng các giải thuật nhanh, các toán tử tích phân đều, ....
5.1. NÉN ẢNH (IMAGE COMPRESSION).

“Một bức tranh có giá trị bằng hàng ngàn lời nói”. Câu ngạn ngữ Anh
đã nhắc nhở chúng ta về tầm quan trọng của các bức ảnh. Điều này cũng đặc
biệt đúng trong thời đại thông tin và đa phương tiện như hiện nay. Khối
lượng số liệu vô cùng to lớn và việc nén thì làm tăng khả thông của mạng và
dung lượng của bộ nhớ. Một bức ảnh màu 24 bit với 256 × 256 điểm ảnh thì
cần hơn 0,2 MByte để lưu. Một chiếc đĩa dung lượng 1,4 Mbyte có thể chứa
được 7 bức ảnh. Nhưng nếu bức ảnh được nén lại với tỷ lệ 50:1 thì lúc đó
cũng với chiếc đĩa trên lại chứa được 350 bức ảnh.
Có nhiều kỹ thuật mã hoá ảnh, ngày nay mã hoá băng con (subband
coding) đang là phương pháp thành công nhất. Mã hoá băng con sử dụng
các wavelet (nghĩa là các bank lọc cấu trúc cây) tránh được hiệu ứng
blocking ở tốc độ bit trung bình, bởi vì các hàm cơ sở của nó có chiều dài
thay đổi. Các hàm cơ sở dài biểu diễn tín hiệu tần số thấp, còn các hàm cơ
sở ngắn thì biểu diễn tín hiệu ở tần số cao.
Mã hoá
Khối tín hiệu Biến đổi Bộ lượng tử Thiết bị lưu
Entropy
Dự đoán
phổ

Hình 5.1-Các bước của bộ mã hoá ảnh biến đổi
Một tính chất rất hấp dẫn của các wavelet là khả năng điều chỉnh
chiều dài của các hàm cơ sở. Một phân tích bốn mức và dãy lọc tương
đương của nó có thể minh hoạ như sau:
H0 ↓2
H0 ↓2
H0 ↓2 H1 ↓2
H0 ↓2 H1 ↓2
H1 ↓2
H1 ↓2
H0 ↓16
H1 ↓16
H2 ↓8
H3 ↓4
H4 ↓2
Hình 5.2-biến đổi wavelet rời rạc bốn mức và dãy lọc tương
đương của nó
Hàm cơ sở tần số thấp là một chuỗi các bản ảnh nội suy của bộ lọc
thông thấp H0. Chiều dài của nó rất lớn. Các tần số cao hơn ít được lặp hơn,
các hàm cơ sở trở nên ngắn hơn. Tín hiệu được xấp xỉ bởi một số hàm cơ sở,
khi đó hầu hết năng lượng tập trung ở băng con thấp.

Hình 5.3-ảnh được phân tích với wavelet 4 mức
Hình 5.4- ảnh mã hoá bằng DWT

5.2. NÉN THOẠI VÀ NÉN AUDIO (SPEECH AND AUDIO

COMPRESSION).
Trong một hệ thống nén thoại / audio, tín hiệu được biến đổi bằng một
dãy lọc cấu trúc cây. Sự định vị tần số xấp xỉ các băng tới hạn của tai người.
Các tần số fm với công suất đáng dể được tìm ra và tính toán được T(fm, f).
Nén thoại:
Nén thoại có một tầm quan trọng lớn để giảm thời gian truyền trong
thông tin di động. Thoại được phân chia thành hai loại có thanh (voiced) và
không thanh (unvoiced). Thoại có thanh chủ yếu là ở tần số thấp. Trong
CELP (Code Excitation Linear Predictor) thoại có thanh được mô hình như
là đầu ra của một bộ lọc IIR all-pole với đầu vào là nhiễu trắng. Các hệ số
lọc được tìm ra nhờ việc dự đoán tuyến tính. Bộ lọc này biểu diễn hàm
truyền của vùng âm thanh (vocal tract). Thoại không thanh có các thành
phần ở tất cả các dải tần số và tương đồng với nhiễu trắng.
Nén audio:
Xét một tín hiệu âm thanh CD lấy mẫu ở tốc độ 44,1 kHz với độ phân
giải là 16 bit. Tốc độ bít tổng cộng là 705,6 kbit/s. Đối với các ứng dụng đa
phương tiện thì cần phải nén lại trong phạm vi từ 64 đến 192 kbit/s (11:1
đến 4:1). Từ việc nén audio cho thấy không có hiện tượng suy hao trong tín
hiệu được khôi phục. Điều này đóng vai trò quyết định trong quảng bá
audio số và truyền hình vệ tinh vì ở đó chất lượng âm thanh là đặc tính quan
trọng nhất. Ứng dụng của các hệ thống nén audio là:
Quảng bá audio số
Truyền hình vệ tinh, HDTV
Các đường liên kết phân phối và tập trung
Các thiết bị lưu trữ

Các ứng dụng đa phương tiện
5.3. PHƯƠNG PHÁP LOẠI NHIỄU ẢNH BẰNG WAVELET.

Phân tích Wavelet là một kỹ thuật toán học hiện đại mở rộng cho việc
phân tích Furier. Sau đây chúng ta sẽ nghiên cứu việc loại bỏ nhiễu khỏi tín
hiệu và ảnh thông qua biến đổi Wavelet. Đầu tiên sẽ thuận về lý thuyết
wavelet và sau đó tập trung vào các phương pháp cơ sở wavelet để giảm
nhiều nhất là kỹ thuật do Mallat đề xuất.
5.3.1. Giới thiệu :

Việc triệt nhiễu ở ảnh thực rất có lợi, giúp cho việc kiểm tra và hiểu
giải thích hoặc làm tăng kết quả của việc xử lý máy tính một cách dễ dàng.
Lý thuyết wavelet được nghiên cứu nhiều và thấy rằng nó có ứng dụng rất
hiệu quả trong việc giảm nhiễu. Phương pháp loại nhiễu sử dụng biến đổi
wavelet có nhiều ưu điểm hơn các phương pháp cũ bởi vì nó phân chia các
thành phần tham số của tín hiệu thành các dải con, được biến đổi bằng nhiều
mức, trong khi duy trì sự định vị của tín hiệu.
5.3.2. Wavelet:
Trong phần này sẽ xét một số tính chất của wavelet ứng dụng trong
các ứng dụng loại nhiễu :
5.3.2.1. Định vị theo không gian và tham số :
Biến đổi wavelet được coi là một sự thay thế cho biến đổi Furier vì cả
hai phương pháp đều được sử dụng để nghiên cứu các tham số của tín hiệu
vào. Sự khác nhau chủ yếu giữa biến đổi Wavelet và biến đổi Furier là biến
đổi wavelet có thể định vị trong cùng miền như tín hiệu vào. Sự định vị ở
đây là định vị theo thời gian đối với tín hiệu một chiều và theo không gian

điểm (pixel space) đối với một ảnh. Điều này được minh hoạ trong hình vẽ
dưới đây, ở đó biểu diễn một tín hiệu và biến đổi Furier và biến đổi wavelet
của nó. Tín hiệu là rời rạc và do đó đều là hai biến đổi : chúng gồm các
chuỗi hệ số, các giá trị của chúng được minh hoạ trong hình. Mỗi mức của
biến đổi wavelet có chứa thông tin biểu diễn trong một khoảng của miền
tham số biến đổi Furier, được gọi là một giải tần số. Mức và giải tần số cao
nhất biểu diễn các tham số cao nhất của tín hiệu : ở đó biến đổi wavelet có
các thành phần khác 0, tín hiệu gốc có một sự phân bố trong một giải tham
số tương ứng. Nó cũng cho thấy sự định vị xấp xỉ của sự phân bố tham số
này, đây là một ưu điểm của biến đổi wavelet so với biến đổi Furier.
Đối với biến đổi wavelet
Biểu diễn sự phân bố tín hiệu theo các giải tần số như các hệ số trong
nhiều mức và
Biểu diễn sự định vị của sự phân bố này trong cùng miền như tín hiệu
gốc.
Các phương pháp cơ sở wavelet để khử nhiễu thường có ưu điểm về
cả hai tính chất trên.
Các hệ số của biến đổi Wavelet là các hệ số trong một cơ sở của các
hàm tỷ lệ được gọi là các Wavelet và ký hiệu là ψ các wavelet ở các mức
cao hơn thì có giá nhỏ hơn so với các mức thấp hơn. Các wavelet ở một mức
thì có cùng tỷ lệ, gọi là characteristic scale (tỷ lệ đặc trưng). Mức càng cao
thì tỷ lệ đặc trưng càng nhỏ và tham số càng cao.
Cũng có một loại hàm cơ sở khác bao gồm sự phân tích Wavelet. Các
hàm này ký hiệu là φ , gọi là các hàm tỷ lệ. Trong đó các hệ số Wavelet
biểu diễn sự phân bố tín hiệu theo một dải tần, các hệ số hàm tỷ lệ biểu diễn
tất cả các phân bố tham số thấp hơn.

5.3.2.2. Tính chất đều:

Tính đều của một tín hiệu có thể được mô tả bằng hàm mũ Lipschitz
địa phương của nó: tín hiệu càng đều thì số mũ Lipschitz của nó càng cao.
Ví dụ : một xung Dirac có số mũ Lipschitz là -1, một hàm không liên tục bị
giới hạn có số mũ bằng 0, một hàm liên tục không khả vi có số mũ nằm
trong khoảng 0 đến 1 và một hàm khả vi liên tục có số mũ lớn hơn 1.
Số điểm của một Wavelet ψ được định nghĩa :
∞
mk = ∫ x ψ( x ) dx
k
−∞
Số điểm triệt tiêu N là:

mk = 0 với 0≤ k < N và mN ≠ 0.
Số điểm triệt tiêu N được liên hệ với sự bằng phẳng của hàm wavelet.
Tính chất 1: giả sử một wavelet có N điểm triệt tiêu. Một hàm f(x) có
số mũ Lipschitz đơn α trên một khoảng nếu và chỉ nếu biến đổi Wavelet
với N > α thoả mãn:
( )
d j,l = O s α khi s →0
Trong đó s là tỷ lệ đặc trưng và dj,l là các hệ số của Wavelet có giá

nằm trong khoảng đó.
Một ví dụ thực tế của tính chất này là: nếu số mũ Lipschitz âm thì các
hệ số wavelet có xu hướng tăng khi tỷ lệ đặc trưng giảm. Cách xử lý các hệ
số wavelet ở các tỷ lệ khác nhau có thể đặc trưng tính chất đều của một tín
hiệu. Tuy nhiên việc phân tích hàm wavelet phải có đủ số điểm triệt tiêu.
5.3.2.3. Biến đổi wavelet hai chiều:

Một phương pháp để có thể tiến tới biến đổi wavelet hai chiều là dựa
trên các hàm cơ sở hai chiều, là tích tensor của các wavelet và các hàm tỷ lệ
theo biến thứ nhất và biến thứ hai là x và y. Các hệ số được tính phù hợp. Ví

dụ các hệ số của các hàm cơ sở ψ (x) và φ (y) biểu diễn sự phân bố mà có

các tần số cao thưo phương x và các tần số thấp theo phương y. Khi trục x là
trục hoành và trục y là trục tung thì các hệ số này bộc lộ các đặc trưng ảnh
như là các step edge theo phương thẳng đứng. Một tập hợp các hệ số như thế
được gọi là một thành phần dọc của biến đổi. Tương tự, các thành phần dọc
và ngang được kết hợp tương ứng với các hàm cơ sở φ (x)× ψ (y) và
ψ (x)× ψ (y). Ba thành phần này có thể minh hoạ như các bức ảnh trong
cùng miền với ảnh gốc. Chúng được tính toán với một số mức, mỗi mức
biểu diễn một dải tần. Do đó sẽ thu được biến đổi wavelet bình phương
(square wavelet transform).
b bc
b
b c
a
b c
a
a
Hình-Sự phân tích của mặt phẳng tần số bằng

biến đổi wavelet hai chiều bình phương.
a, b, c là các thành phần theo phương ngang,
phương thẳng đứng và phương chéo.
5.3.2.4. Thực hiện biến đổi wavelet rời rạc:

Các giải thuật thực tế để tính toán biến đổi wavelet rời rạc một chiều,
bao gồm các tích chập đượclặp lại của một tín hiệu với các chuỗi rời rạc
hoặc các bộ lọc, tạo ra các hệ số wavelet. Các hệ số hàm tỷ lệ được tính toán
tương tự như các trung gian. Các bộ lọc được liên hệ với loại wavelet và
hàm tỷ lệ được sử dụng. Chúng có nhiều tính chất như tính đối xứng, bằng
phẳng, giá và suy giảm. Đối với biến đổi hai chiều, sự thay thế các tích chập
theo các hướng khác nhau được thực hiện để tạo ra các hệ số của các thành
phần theo phương ngang, chéo và phương thẳng đứng.
5.3.2.5. Đối xứng và phản đối xứng:

Khi một tín hiệu có một step edge với một bộ lọc đối xứng thì tích
chập có một điểm không ở vị trí edge. Tích chập với bộ lọc phản đối xứng
có giá trị là vô cùng ở vị trí edge. Vì các edge rất quan trọng trong việc loại
nhiễu, vì vậy rất dễ làm việc với các giá trị vô cùng hơn là với các điểm
không, bởi vậy thường sử dụng các wavelet phản đối xứng hơn.
5.3.2.6. Sự bằng phẳng (smoothness):

Bằng phẳng là một tính chất rất quan trọng vì nó là sự liên kết giữa
tính bằng phẳng và các điểm triệt tiêu. Trong ứng dụng loại nhiễu wavelet,
yếu tố giới hạn các hệ số Wavelet là phải giảm nhiễu và giữ lại các tín hiệu
khác. Vì các tiêu chuẩn để quy định sự loại bỏ trên không bao giờ hoàn hảo,
nên có thể xảy ra trường hợp mà một hệ số có nghĩa bị loại bỏ . Ảnh hưởng
của loại lỗi này là trong tín hiệu được khôi phục lại thì phân bố của một
phần tín hiệu có bóng (dạng) của một Wavelet bị mất. Nếu Wavelet không
bằng phẳng thì ảnh hường này có thể làm xáo trộn sự quan sát của con
người.

Khối lượng tính toán biến đổi Wavelet cần có giá compact hoặc ít
nhất có sự suy giảm đủ nhanh.
5.3.3. Nhiễu và loại nhiễu Wavelet.

Trong nhiều phương pháp loại nhiễu cơ sở Wavelet, biến đổi Wavelet
của ảnh nhiễu được thực hiện các hệ số Wavelet được xử lý và các hệ số đã
được xử lý lại được biến đổi trở lại ảnh kết quả. Việc xử lý các hệ số bao
gồm việc giảm các hệ số nhiễu. Một số tiêu chuẩn để phân biệt các hệ số có
nhiễu và các hệ số không có nhiễu ảnh được giới thiệu ngắn gọn dưới đây.
Trong kỹ thuật “Wavelet shrinkage ” của Donoho sử dụng một tiêu
chí chung cho các lớp. Phương pháp sử dụng một sự không tuyến tính
ngưỡng mềm (soft-threshold nonlinearity) sao cho các hệ số wavelet nằm
dưới mức ngưỡng bị loại bỏ. Mức ngưỡng không đổi trong một mức và cùng
một giá trị đối với tất cả các mức trong trường hợp nhiễu trắng. Phương
pháp này không biểu thị mọi ưu điểm mà biến đổi Wavelet có được nhưng
nó có một cơ sở lý thuyết tốt. Trong phương pháp của Mallat và các đồng sự
của ông thì tiêu chí được điều chỉnh phù hợp với từng hệ số. Do đó chúng ta
gọi nó là phương pháp thích nghi (adaptive method). Tiêu chí dựa trên sự
giả định là ảnh không nhiễu là đều và nhiễu không đều. Phương pháp của
Healy, Weaver là một sự biến đổi của phương pháp Mallat, trong đó tiêu chí
được dựa trên sự quan sát các hệ số wavelet của một ảnh không nhiễu.
Coifman phát triển một phương pháp không dựa vào sự điều chỉnh các hệ số
wavelet nhiễu, nhưng dựa vào việc sử dụng thư viện các dạng sóng trực
giao. Tín hiệu được phân chia thành mỗi phần được loại nhiễu mà được biểu
diễn bằng một dạng sóng đã chọn và một phầnkhông thể biểu diễn được.
Các phương pháp loại nhiễu được miêu tả xử lý nhiễu trắng Gaussian
có trung bình bằng không. Để đánh giá hiệu suất của việc loại nhiễu, ta sử

dụng tỷ số tín hiệu trên nhiễu để đo chất lượng. Tỷ số tín hiệu trên nhiễu
được biểu diễn bằng dB và được định nghĩa như sau:
Psignal
SNR = 10 lg
Pnoise
Trong đó Psignal là công suất của tín hiệu hay của ảnh.
Pnoise là công suất của nhiễu.
5.3.4. Dự đoán đều từ các hệ số Wavelet.

Trong giải thuật loại nhiễu wavelet do Mallat và Hwang phát triển thì
sự khác biệt giữa các hệ số wavelet originating từ nhiễu và các hệ số wavelet
originating từ tín hiệu được thực hiện bằng cách kiểm tra tính chất đều. Tính
chất một ở trong phần trên cho thấy là số mũ Lipschitz đặc treng cho tính
chất đều địa phương của một hàm có thể được dự đoán từ biến đổi wavelet.
Dựa vào các thông tin này và vào các tính chất bằng phẳng, Mallat và các
đồng sự của ông đã suy ra một tiêu chí báo hiệu có nhiễu. Các hệ số tương
ứng với nhiễu được giả thiết và có số mũ Lipschitz âm sau đó được giới hạn
từ phép biến đổi. Phương pháp có thể đạt được tỷ số S/N cao và chất lượng
hiển thị của ảnh thu được cũng rất tốt, vừa ý. Tuy nhiên cũng rất phức tạp và
đắt bởi vì việc khôi phục từ các hệ số wavelet yêu cầu một phép chiếu tương
tác.
5.3.5. Tương quan hệ số giữa các lớp Wavelet.

Xu, Healy, Weaver và một số người khác đã đề xuất một kỹ thuật mới
để loại nhiễu mà nhiễu được phân biệt rõ ràng từ tín hiệu có ích bằng một kỹ
thuật tương quan. Sự phân bố tham số của nhiều đặc tính tín hiệu đáng kể
được tương quan giữa các mức kế cận. Tỷ lệ tương quan chéo được sử dụng
để phân biệt sự phân bố tham số nhiễu cao từ các đặc tính tín hiệu. Kết quả
là các hàm giải thuật như một bộ lọc thông tháp được điều chỉnh : các tham

số cao bị triệt trừ khi ở đó một đặc tính tín hiệu có một số phân bố tham số
được tách. Việc tách này được thực hiện bằng cách tính toán sự tương quan
giữa một số có tỷ lệ liên tiếp. Xu đề xuất tính toán sự tương quan này là tính
của các hệ số wavelet trong các mức liên tiếp của cùng sự định vị. Nó được
kiểm nghiệm từ sự thực nhưng các hệ số nhiễu không được tương quan và
các hệ số có ích được tương quan, khi sử dụng phân tích wavelet.
Giải thuật :
Algorithm Tương quan giữa các mức

For j = 0 to số mức do
Dự đoán công_suất_nhiễuj
End for
Biến đổi = { di,j i=1(1)n , j =1(1)số_mức}
For j = 0 to số_mức - độ_sâu_tương_quan do
Tương_quan = Tính_toán_tương_quan(biến_đổi, j,
độ_sâu_tương_quan)
Công_suất_trước = Tính_toán_công_suất(biến_đổi, j)
Repeat
For j = 1(1)n do
If di,j ≠ 0 và tương_quanj nhỏ then
di,j = 0
endif
endfor
công_suất_sau =Tính_toán_công_suất(biến_đổi,
j)
until công_suất_trước - công_suất_sau ≈
công_suất_nhiễuj

endfor
end algorithm.
Biến đổi wavelet đang dần trở thành một công cụ mạnh và thiết thực
để loại bỏ nhiễu trong tín hiệu. Phép biến đổi đưa ra một sự phân tích các
tần số của tín hiêu, được biểu diễn trong miền tín hiệu gốc. Các phương
pháp loại nhiễu có thể hiện rõ hai cơ sở lập luận trên. Chúng được xây dựng
và áp dụng cho các cơ sở lý thuyết xấp xỉ của các Wavelet.
Kết luận
Kết quả đạt được :

Trong luận văn tốt nghiệp này, tác giả đã được tìm hiểu về lý thuyết
Wavelet và phép biến đổi Wavelet. Đây là một lĩnh vực mới nhất đang được
nghiên cứu và đưa vào ứng dụng trên thế giới.
Trong luận văn tốt nghiệp của mình, đầu tiên tác giả đã trình bày tổng
quan về một số phương pháp biến đổi tín hiệu vẫn đang được sử dụng. Tiếp
đó là phần giới thiệu về Wavelet, cách xây dựng Wavelet và các phương
pháp biến đổi Wavelet như biến đổi Wavelet liên tục, biến đổi Wavelet rời
rạc và biến đổi Wavelet hai chiều đồng. Đồng thời luận văn cũng nêu ra một
số ứng dụng điển hình của Wavelet trong xử lý tín hiệu như các ứng dụng về
nén ảnh số, âm thanh số.
Wavelet và phép biến đổi Wavelet có nhiều ưu điểm và khắc phục
được những hạn chế của các phương pháp xử lý tín hiệu trước đây vẫn được
sử dụng. Với sự giới hạn của một luận văn tốt nghiệp tác giả cũng mới chỉ
trình bày được một phần lý thuyết và ứng dụng của Wavelet. Là một công
cụ mạnh nhất hiện nay Wavelet còn có nhiều ứng dụng trong nhiều lĩnh vực
khác nhau, nhất là trong xử lý tín hiệu.

Hướng nghiên cứu tiếp theo :

• Luận văn mới đưa ra ứng dụng Wavelet cho ảnh số, âm thanh số.
Những ưu điểm của Wavelet khiến nó có thể áp dụng cho âm thanh,
video, khử nhiễu, bảo mật,…
• Nghiên cứu khả năng ứng dụng chuẩn JPEG2000 cho dữ liệu đa
phương tiện trong thông tin di động.
• Nghiên cứu thêm về các giải thuật SPIHT, EWZ ứng dụng trong
thông tin di động.
Trên đây là toàn bộ nội dung luận văn tốt nghiệp với đề tài “Tìm hiểu
phép biến đổi wavelet xây dựng ứng dụng phục vụ cho nén ảnh và nén âm
thanh.”. Chắc chắn là trong quá trình thực hiện tác giả không thể tránh khỏi
những sai sót, rất mong các thầy cô và bạn bè, đồng nghiệp xem xét và góp
ý cho tác giả.
Cuối cùng xin bày tỏ lòng cảm ơn sâu sắc của mình tới PGS-TS
Nguyễn Văn Xuất đã tận tình giúp đỡ và hướng dẫn tôi hoàn thành luận văn
tốt nghiệp này.
Tài liệu tham khảo
1- Wavelet and Operators, Cambridge University Press 1992.

2- Wavelet Basis, Jonathan Allen, Kluwer Academic Publishers 1995
3- Wavelets and Their Applications, J.S. Byrnes-Jennifer L. Byrnes-
Kathryn A. Hargreaves-Karl Berry, Kluwer Academic Publishers
1992
4- Orthonormal Bases of Compactly Supported Wavelets, Ingrid
Daubechies, 1988
5- Wavelets and Filter Banks, Gilbert Strang and Truong Nguyen,
Wellesley-Cambridge Press, 1996
6- Approximation Theory, Wavelets and Applications, S.P.Singh,
Kluwer Academic Publishers 1994

7- Wavelet Based Approximation in the Optimal Control of

Distributed Parameter Systems, Chris Brislawn and I.G.Rosen,
1991.
8- Wavelet with Convolution-Type Orthogonality Conditions, Koichi
Niijima and Koichi Kuzume, IEEE .

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự
hướng dẫn khoa học của PGS.TS Nguyễn Văn Xuất.
Các số liệu kết quả trong luận văn là trung thực và chưa được ai công
bố trong bất kỳ công trình nào.
Tác giả
Phạm Anh Dũng

Wavelet 1

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wavelet 1

Uploaded by

Copyright:

Available Formats

Luận văn tốt nghiệp cao học - Chuyên nghành CNTT

DANH MỤC CÁC HÌNH

Hình 2.1 Sơ đồ bộ khái quát hệ thống nén ảnh.........................................9

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 1

Lời nói đầu

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 2

1.1. CƠ SỞ NGHIÊN CỨU VÀ MỤC ĐÍCH CỦA LUẬN VĂN:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 3

1.2. TỔ CHỨC LUẬN VĂN:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 4

CHƯƠNG 2: TỔNG QUAN CÁC KỸ THUẬT NÉN

2.1. GIỚI THIỆU CHUNG VỀ NÉN ẢNH SỐ, ÂM THANH SỐ.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 5

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 6

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 7

2.2. PHÂN LOẠI CÁC KỸ THUẬT NÉN.

2.2.1. Nén tổn hao và không tổn hao.

2.2.2. Mã hoá dự đoán và mã hoá dựa trên phép biến đổi.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 8

2.2.3. Mã hoá băng con.

2.3. TIÊU CHUẨN CHẤT LƯỢNG ĐÁNH GIÁ MÃ HOÁ.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 9

2.4. CÁC KỸ THUẬT NÉN CÓ TỔN HAO.

2.4.1. Kỹ thuật mã hoá băng con.

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 10

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 11

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 12

Nhược điểm của kỹ thuật mã hoá băng con:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 13

2.4.2. Kỹ thuật mã hoá dựa trên phép biến đổi

2.4.2.1. Kỹ thuật mã hoá dựa trên phép biến đổi DCT

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 14

Biến đổi Fourier- FT:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 15

Để có biến đổi Fourierr rời rạc – DFT (Discrete Fourier Transform)

Định nghĩa và các tính chất của biến đổi DCT

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 16

c( k )c(l ) 7 7  ( 2m +1) kπ   ( 2n +1)lπ 

So sánh DCT và KLT:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 17

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 18

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 19

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 20

2.4.2.2. Kỹ thuật mã hoá dựa trên phép biến đổi DWT

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 21

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 22

Biến đổi Wavelet rời rạc – DWT:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 23

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 24

Hai thuật toán nén sử dụng DWT điển hình:

2.5. TỔNG QUAN ÂM THANH SỐ

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 25

2.5.1. Một số phương pháp mã hoá audio

2.5.2. Một số kỹ thuật nén audio

A. Nén không tổn hao:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 26

B. Nén tổn hao:

Một số chuẩn nén audio:

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 27

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 28

Hình 2.11. Các mẫu trong MPEG-1

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 29

Hình 2.12. Sơ đồ khối MPEG layer III

Phạm Anh Dũng - Lớp Hệ Thống Thông Tin – K19 30