Professional Documents
Culture Documents
Kết luận..............................................................................................................................74
Tài liệu tham khảo.............................................................................................................75
Hình 2.9. Minh hoạ DWT hai chiều cho ảnh......Error: Reference source not
found
Hình 2.10(a). Minh hoạ DWT kiểu dyadic mức 3 để nén ảnh.....Error:
Reference source not found
Hình 2.10(b). Minh hoạ DWT kiểu dyadic mức 3 để nén ảnh....Error:
Reference source not found
Hình 2.11. Các mẫu trong MPEG-1......................................................................31
Hình 2.12. Sơ đồ khối MPEG layer III.................................................................32
Hình 2.13. Chuẩn MPEG-2 m ã hoá mono/stereo ................................................35
Hình 2.14. Mã hoá và giải mã MPEG-2................................................................36
Hình 3.1. Minh hoạ lưới nhị tố dyadic với các giá trị của m và n..........................40
Hình 3.2. Phân tích đa phân giải áp dụng cho biểu diễn tín hiệu ..........................44
Hình 3.3. Hàm ψ (t ) của biến đổi Haar ................................................................45
Hình 3.4: Hàm ψ (t ) của biến đổi Meyer .............................................................46
Hình 3.5. Hàm ψ (t ) của họ biến đổi Daubechies n với n=2, 3, 7, 8.....................47
Hình 4.1. Trình tự mã hoá (a) và giải mã JPEG2000 (b).......................................50
Hình 4.2. Minh hoạ ảnh với RGB và YCrCb .......................................................51
Hình 4.3. Phương pháp Lifting 1D dùng tính toán biến đổi Wavelet ...................52
Hình 4.4. Minh hoạ cây tứ phân (a) và sự phân mức (b .......................................56
Hình 4.5. Hai cách sắp xếp thứ tự các hệ số biến đổi ...........................................57
Hình 4.6. So sánh JPEG và JPEG2000.................................................................59
Hình 4.7. Minh hoạ tính năng ROI .......................................................................61
Hình 5.1. Sơ đồ khối quá trình nén ảnh bằng Wavelet .........................................64
Hình 5.2. biến đổi wavelet rời rạc bốn mức và dãy lọc tương đương của nó........65
Hình 5.3. Ảnh được phân tích với wavelet 4 mức.................................................66
Hình 5.4. Ảnh mã hoá bằng DWT ........................................................................66
Hình 5.5-Sự phân tích của mặt phẳng tần số bằng biến đổi wavelet hai chiều bình
phương..................................................................................................................66
Trong những năm gần đây, nhu cầu dịch vụ dữ liệu trên mạng, đặc
biệt là Internet là rất lớn. Cùng với nhu cầu đó, vấn đề đặt ra là làm thế nào
để tìm được một kỹ thuật mã hoá dữ liệu then chốt, có hiệu quả để truyền
các dữ liệu này trên mạng.
Mục đích của luận văn này là trình bày một kỹ thuật nén dữ liệu sử
dụng phương pháp biến đổi Wavelet, đặc biệt các dữ liệu lớn trong các dịch
vụ cần truyền qua mạng Internet với điều kiện đường truyền có tốc độ hạn
chế. So sánh với các kỹ thuật nén sử dụng phép biến đổi trước đây như phép
biến đổi Fourier (FT), biến đổi Causin rời rạc (DCT), biến đổi xếp chồng
(FT)…v v, biến đổi Wavelet (DWT) có nhiều ưu điểm trong xử lý ảnh và
âm thanh mà còn có nhiều ứng dụng khác. Bằng chứng là sự ra đời của
chuẩn nén JPEG2000 (dựa trên DWT) có tính năng vượt trội so với JPEG
(DCT). Hiện nay Wavelet đang chính là một chủ đề nóng về cả hai lĩnh vực
lý thuyết và ứng dụng. Wavelet là một cây cầu nối liền các lĩnh vực riêng
biệt của toán học, thống kê, xử lý tín hiệu và các khoa học vật lý khác. Càng
ngày người ta càng quan tâm nghiên cứu về wavelet nhiều ehơn.
Trong luận văn đã trình bày một phương pháp nén dữ liệu sử dụng kỹ
thuật biến đổi Wavelet không chỉ đem lại hiệu quả nén, chất lượng hình ảnh
mà còn tiết kiệm năng lượng xử lý của hệ thống. Điều này hứa hẹn có thể
xây dựng một mã hoá ảnh và âm thanh tiết kiệm năng lượng xử lý, thời gian
truyền mà vẫn phù hợp với điều kiện băng thông thấp, ràng buộc về chất
lượng dữ liệu trong các mạng thông tin.
CHƯƠNG I: MỞ ĐẦU.
Để có thể sử dụng các dịchu vụ dữ liệu âm thanh hình ảnh cũng như
dịch vụ dữ liệu khác trên nền dịch vụ mạng cần có một kỹ thuật then chốt để
có thể hỗ trợ truyền thông nhiều dạng dữ liệu thông tin tế bào gồm: âm
thanh, hình ảnh, văn bản, video. Tuy nhiên vấn đề truyền thông đa phương
tiện gặp một số khó khăn như: băng thông của mạng, tính ổn định của mạng,
tính tương thích dữ liệu…v v. Trong khi việc cải thiện băng thông, tính ổn
định cho mạng internet cần có thời gian trong tương lai, thì phương pháp
giảm kích thước của dữ liệu bằng các kỹ thuật nén là một cách tiếp cận hiệu
quả giải quyết cho các khó khăn trên.
Mặc dù cho đến nay có rất nhiều kỹ thuật nén, tuy nhiên những kỹ thuật này
chủ yếu tập trung vào hiệu quả nén và đánh mất chất lượng hình ảnh vì thế
chúng bỏ qua vấn đề tiêu hao năng lượng trong quá trình nén và truyền.
Luận văn này trình bày một kỹ thuật hiệu quả để khắc phục những khó khăn
trên cho các loại dữ liệu âm thanh và hình ảnh. Đó là kỹ thuật nén hình ảnh
và nén âm thanh sử dụng phương pháp biến đổi Wavelet cho dữ liệu trong
mạng thông tin, truyền thông.
Luận văn được trình bày trong 5 chương. Chương 1 tác giả trình bày
tóm tắt cơ sở nghiên cứu và mục đích cũng như tổ chức của luận văn.
Chương 2 trình bày khái quát các kỹ thuật nén ảnh, phân loại các
nguyên lý nén và định nghĩa một số thuật ngữ được sử dụng rộng rãi.
Chương này cũng trình bày cơ sở lý thuyết của các nguyên lý nén có tổn hao
điển hình.
Chương 3 trình bày cơ sở toán học, tính chất biến đổi Wavelet. Nội
dung của chương này là lý thuyết nền tảng cho các ứng dụng Wavelet.
Chương này cũng đưa ra một số họ Wavelet phổ biến và giới thiệu một số
ứng dụng nổi bật của Wavelet ngoài ứng dụng nén ảnh, nén âm thanh.
Chương 4 giới thiệu tổng quan về chuẩn nén JPEG2000 dựa trên biến
đổi Wavelet. Mục đích không chỉ là giới thiệu một chuẩn nén vượt trội so
với chuẩn JPEG dựa trên biến đổi DCT mà còn đưa ra một lựa chọn giải
quyết bài toán đặt ra trong luận văn. JPEG2000 đang từng bước được tổ
chức ISO công nhận nên chắc chắn sẽ trở thành một chuẩn nén phổ biến
trong các ứng dụng di động tương lai. Cũng trong chương này, tác giả trình
bầy tóm tắt các bước thực hiện nén ảnh theo JPEG200 và so sánh nó với
chuẩn JPEG và các chuẩn nén ảnh tĩnh khác.
Chương 5 là chương quan trong nhất. Dựa trên cơ sở toán học, các
tính chất biến đổi Wavelet, đưa vào xây dựng các ứng dụng trong thực tế
như nén ảnh số, âm thanh số.
đoạn âm thanh, dưới dạng có kích thước nhỏ hơn hay dưới dạng biểu diễn
mà chỉ yêu cầu số bit mã hoá ít hơn so với dữ liệu gốc. Nén dữ liệu ở đây
thực hiện được do một thực tế: thông tin trong đó không phải ngẫu nhiên mà
có trật tự, cấu trúc đó thì sẽ biết được phần thông tin nào quan trọng nhất
trong phân đoạn dữ liệu để biểu diễn và truyền đi với số lượng bit ít hơn so
với dữ liệu gốc mà vẫn đảm bảo tính đầy đủ của thông tin. Ở phía thu, quá
trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh, đoạn âm thanh xấp xỉ gần
chính xác so với gốc của nó nhưng vẫn thoả mãn chất lượng yêu cầu, đảm
bảo thông tin cần thiết.
Tóm lại, tín hiệu ảnh, video hay audio đều có thể nén lại bởi chúng có
những tính chất như sau:
+ Có sự tương quan (dư thừa) thông tin về không gian: Trong phạm
vi một bức ảnh hay một khung video tồn tại sự tương quan đáng kể
(dư thừa) giữa các điểm ảnh lân cận.
+ Có sự tương quan (dư thừa) thông tin về phổ: Các dữ liệu thu được
từ các bộ cảm biến của thiết bị thu nhận ảnh tồn tại sự tương quan
đáng kể giữa các mẫu thu, đây chính là sự tương quan về phổ.
+ Có sự tương quan (dư thừa) thông tin về thời gian. Trong một chuỗi
video, tồn tại sự tương quan giữa các điểm ảnh của các khung video
(frame)
Sơ đồ của một hệ thống nén dữ liễu tổng quát như sau:
Trong hình 2.1, bộ mã hoá dữ liệu thực hiện quá trình nén bằng cách giảm
kích thước dữ liệu ảnh gốc đến một mức phù hợp với việc lưu trữ và truyền
dẫn trên kênh. Tốc độ bit đầu ra của bộ mã hoá được tính là số bit cho một
mẫu (điểm ảnh). Bộ mã hoá kênh thực hiện việc chuyển đổi luồng bit đã
được nén thành dạng tín hiệu phù hợp cả cho việc lưu trữ và truyền dẫn,
thường bộ mã hoá kênh sử dụng các kỹ thuật: mã hoá có dộ dài thay đổi-
RLC (Run Length Coding), mã hoá Hufman, mã hoá số học. Bộ giải mã thực
hiện quá trình ngược lại so với bộ mã hoá.
Trong các hệ thống nén, tỷ số nén chính là tham số quan trọng đánh giá khả
năng nén của hệ thống, công thức được tính như sau:
Tỷ số nén= Kích thước dữ liệu gốc/Kích thước dữ liệu nén.
Đối với ảnh tĩnh, kích thước chính là số bit để biểu diễn toàn bộ bức ảnh.
Đối với video, kích thước chính là số bit để biểu diễn một khung hình video
(video frame).
pháp nén dự đoán bỏi vì chính các phép biến đổi (sử dụng các thuộc tính nén
năng lượng của mình) đã gói gọn toàn bộ năng lượng bức ảnh chỉ bằng một
số ít các hệ số, số lớn các hệ số còn lại ít có ý nghĩa hơn sẽ bị loại bỏ sau khi
lượng tử hoá và như vậy dữ liệu phải truyền nhỏ đi rất nhiều. Trong phương
pháp mã hoá dự đoán, sai lệch giữa ảnh gốc và ảnh dự đoán vẫn có ý nghĩa
(còn sử dụng ở bước tiếp theo) sau khi lượng tử hoá,chính điều này làm cho
phương pháp mã hoá dự đoán có nhiều dữ liệu được truyền đi hơn so với
phương pháp mã hoá biến đổi.
Trong đó tổng lấy theo j, k tính cho tổng tất cả các điểm ảnh trong ảnh và N
là số điểm ảnh trong ảnh. Còn PSNR giữa hai ảnh ( b bit cho mỗi điểm ảnh,
RMSE là căn bậc hai của MSE) được tính theo công thức dB như sau:
RMSE
PSNR = −20 log 10 ( 2.2)
2 b −1
Thông thường nếu PSNR ≥ 40dB thì hệ thống mắt người gần như không
phân được giữa ảnh gốc và ảnh khôi phục.
Một tham số khác hay sử dụng trong các hệ thông viễn thông đó là tỉ
số tín hiệu trên nhiễu – SNR, tuy vậy SNR sử dụng cho một hệ thống nén
ảnh cũng có công thức dB như sau:
Các bộ lọc băng con thường được thiết kế xấp xỉ thoả mãn tiêu chuẩn của
các đáp ứng tần số không chồng chéo. Mục đích của vấn đề là để giải tương
quan các hệ số tần số kết quả. Đây chính là tính chất quan trọng mà quá
trình lọc băng con cố gắng đạt được. Các bộ lọc băng con được thiết kết để
là các xấp xỉ với các bộ lọc chọn tần số lý tưởng, trong đó đáp ứng tổng hợp
từ tất cả các bộ lọc bao trùn tất cả băng tần của dải. Tuy nhiên trong thực tế,
sự tương quan tổng không bao giờ đạt được do những bộ lọc này chỉ xấp xỉ
với các bộ lọc lý tưởng.
HÌnh 2.2 dưới đây là sơ đồ tổng quát giải thích kỹ thuật mã hoá băng con.
Các bộ lọc sử dụng trong mã hoá băng con là các bộ lọc gương tứ
phương – QMF (quardrature mirror filters), do vậy chúng ta chỉ cần thiết kế
các bộ lọc thông thấp có đáp ứng H(ω) còn đáp ứng của các bộ lọc thông
cao là H(ω+π) chỉ là sự dịch pha 180o so với bộ lọc thông thấp. Sự chính
xác của bộ lọc phụ thuộc vào số các hệ số của bộ lọc.
Một trong các phương pháp mã hoá băng con đó là áp dụng sự phân
ly cây bát phân để phân ly dữ liệu ảnh thành các băng tần khác nhau. Ý
tưởng của phương pháp này là: trước tiên lọc và lược bỏ ảnh để phân ly
nhưng chỉ áp dụng cho băng con tần số thấp để tạo thành các băng con tần
số cao và thấp để tiếp tục lược bỏ. Kỹ thuật này rất phổ biến và cũng được
áp dụng trong các bộ mã sử dụng biến đổi Wavelet. Đầu ra của các băng con
sau khi đã giản lược sẽ được lượng tử hoá và mã hoá độc lập. Mỗi băng con
sẽ sử dụng bộ lượng tử hoá riêng và mỗi bộ lượng tử hoá này có tốc độ lấy
mẫu riêng (bit/mẫu)
Như vậy rõ rang mã hoá băng con không đạt được sự nén, mà nó chỉ
thực hiện việc giải tương quan dữ liệu ảnh gốc và tập trung năng lượng của
ảnh vào một số băng con. Nén chỉ đạt được là do sự lược bỏ ảnh
(decimation) và do sự lượng tử hoá (quantization).
Trong các hệ thống mã hoá băng con hai chiều thực tế, người ta chia
miền tần số - không gian hai chiều của ảnh gốc thành các băng khác nhau ở
bất kỳ mức nào. Hình 2.4 dưới đây minh hoạ việc phân ly 2 ảnh mẫu thành 4
băng con LL, HL, LH và HH ở mức đầu tiên.
+ Không hoàn toàn giải tương quan cho tất cả các băng tần, đấy là do
các bộ lọc không phải là lý tưởng và có sự chồng chéo nhỏ giữa các
băng tần liền kề. Do vậy luôn luôn tồn tại một sự tương quan nhỏ giữa
các băng tần kề nhau và dữ liệu sẽ không được nén hoàn toàn.
+ Kỹ thuật mã hoá băng con không hiệu quả khi thực hiện bù chuyển
động trong video vì rất khó để thực hiện đánh giá chuyển động ở các
băng con (sai số dự đoán là rất lớn).
đầu vào (tín hiệu audio hoặc video) là các tín hiệu ổn đinh bất biến theo thời
gian. Để hiểu rõ kỹ thuật này trước hết ta cần tìm hiểu biến đổi Fourier.
∞
X (t ) = ∫ X (t )e − 2 jπ ft df (2.5)
−∞
Phép biến đổi FT cũng có thể được áp dụng cho tín hiệu không ổn
định (non-stationary) nếu như chúng ta chỉ quan tâm đến thành phần phổ
nào có trong tín hiệu mà không quan tâm đến nó xuất hiện khi nào trong tín
hiệu. Tuy nhiên, nếu thông tin về thời gian xuất hiện của phổ trong tín hiệu
là cần thiết, thì phép biến đổi FT không có khả năng đáp ứng được yêu cầu
này, đây cũng là hạn chế của phép biến đổi này.
Trong đó WN= e-2jπ/N = cos( 2π/N) – j sin(2π/N), còn chuỗi {x(n)} có thể khôi
phục bằng DFT ngược như sau:
N −1
x(n) = ∑ X (k ) -Nkn , k = 0,......., N −1 (2.7)
n =0
2 N −1 ( 2n + 1) kπ
IDCT = x(n) = ck ∑ X ( k )cos , n = 0,1,...., N −1 ( 2.9)
N k =0 2N
Trong đó :
1/ 2, k = 0
ck =
1, k ≠ 0
Cả DCT và IDCT đều là biến đổi trực giao, tách biệt và thực. Tính
chất phân tách (separable) ở đây nghĩa là biến đổi nhiều chiều của nó có thể
phân tách thành các biến đổi một chiều. Tính chất trực giao ở đây nghĩa là
nếu các ma trận của DCT và IDCT là không bất thường (non-singular) và
thực thì biến đổi ngược của chúng có thể đạt được bằng cách áp dụng hoán
tử hoán vị. Cũng như biến đổi FT, DCT cũng coi dữ liệu đầu vào là tín hiệu
ổn định (bất biến).
Trong các chuẩn nén ảnh tĩnh vào video, người ta thường sử dụng DCT và
IDCT có kích thước 8 mẫu. Bức ảnh hoặc khung ảnh video kích thước NxN
được chia thành các khối không chồng chéo nhau hai chiều gọi là các ảnh
con kích thước 8x8 rồi áp dụng biến đổi DCT hai chiều ở bộ mã hoá và áp
dụng biến đổi IDCT ở bộ mã.
Biến đổi DCT và IDCT 8 mẫu tạo thành các ma trậnh 8x8 theo công thức:
k , l = 0,1,.... 7
7 7
c (k )c(l ) ( 2m +1)kπ (2n +1)lπ
2 − D IDCT = x m, n = ∑∑ X k ,l cos cos ( 2.11)
k =0 l =0 4 16 16
m, n = 0,1,.... 7
1/ 2, k & l = 0
Và c(k ) c, (l ) =
1, k 2 + l 2 ≠ 0
Thuật toán để tính 2-D DCT và IDCT là: thực hiện phép biến đổi 1-D lần
lượt cho hàng rồi đến cột của ma trận.
và so với các phép biến đổi khác nó có thể tối thiểu hoá MSE giữa ảnh khôi
phục và ảnh gốc.
Nén và giải nén dựa theo phép biến đổi DCT trong JPEG:
JPEG là chuẩn nén số quốc tế đầu tiên cho các ảnh tĩnh có tông màu liên tục
gồm cả ảnh đơn sắc và ảnh màu. Trong kỹ thuật này các khối ảnh kích thước
8x8 được áp dụng để thực hiện DCT, sau đó lượng tử hoá các hệ số rồi mã
hoá entropy sau lượng tử.
Đối với những ảnh màu RGB, để áp dụng kỹ thuật nén này, trước hết
phải chuyển sang chế độ màu YUV (Y là thành phần chói, U và V là hai
thành phần màu). Thành phần độ chói là ảnh đơn sắc xám. Hai thành phần
màu còn lại chứa thông tin về màu. Việc mã hoá và giải mã ảnh trong JPEG
ở được thực hiện cho thành phần chói rồi màu.
Sơ đồ khối bộ mã hoá và giải mã của JPEG như sau:
Quá trình xử lý thành phần độ chói ở phía mã hoá được giải thích như sau:
(a). Ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8
không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi
khối ảnh sẽ được trừ đi 128. Lý do là do giá trị các điểm ảnh có giá trị trừ
0 đến 255 (được mã hoá bởi 8 bit không dấu), áp dụng biến đổi DCT sẽ
tạo ra các hệ số AC có dải giá trị từ -1023 đến +1023 (có thể được mã
hoá bởi 11 bit có dấu). Nhưng hệ số DC lại có giải giá trị từ 0 đến 2040
(được mã hoá bởi 11 bit không dấu) và cần cách xử lý khác ở phần cứng
hoặc phần mềm so với các hệ số AC. Chính vì thế việc trừ mỗi điểm ảnh
đi 128 là để sau khi biến đổi DCT cả các hệ số DCT cả các hệ số DC và
AC có cùng dải giá trịo thuận lợi cho việc xử lý và biểu diễn.
(b). Ở mỗi khối ảnh hai chiều kích thước 8x8, áp cụng biến đổi DCT để tạo
ra mảng hai chiều các hệ số biến đổi. Hệ số có tương ưng với tần số
không gian thấp nhấp nhưng lại có giá trị lớn nhất được gọi là hệ số DC (
một chiều), nó tỷ lệ với độ chói trung bình của cả khối ảnh 8x8. Các hệ
số còn lại gọi là các hệ số AC (xoay chiều). Theo lý thuyết, biến đổi DCT
không đem lại sự mất mát thông tin ảnh, mà đơn giản nó chỉ chuyển
thông tin ảnh sang miền không gian mới thuận lợi hơn cho mã hoá ở
bước tiếp theo.
(c). Mảng hai chiều các hệ số biến đổi được lượng tử hoá sử dụng bộ lượng
tử hoá đồng nhất. nghĩa là các hệ số sẽ được lượng tử hoá riêng lẻ và độc
lập. Quá trình lượng tử hoá là dựa trên sinh lý của hệ thống mắt người:
cảm nhận hình ảnh có độ nhạy kém hơn ở các hệ số tần số cao và có độ
nhạy tốt hơn ở các hệ số có tần số thấp. Vì thế các hệ số được chọn sao
cho thực hiện lượng tử hoá thô đối với các hệ số tần số cao và lượng tử
hoá tinh đối với các hệ số có tần số thấp. Bảng lượng tử hoá được lấy tỉ
lệ để tạo ra các mức nén thay đổi tuỳ theo tốc độ bit và chất lượng ảnh.
Việc lượng tử hoá sẽ tạo ra rất nhiều giá trị 0, đặt biệt là ở tần số cao.
Quá trình làm tròn trong khi lượng tử hoá chính là nguyên nhân chính
gây ra sự tổn hao nhưng lại là nhân tố chính đem lại hiệu suất nén.
(d). Để tận dụng ưu điểm của các hệ số đã được lượng tử có giá trị gần bằng
0, mảng hai chiều các hệ số đã được lượng tử sẽ được sắp xếp theo hình
Zigzag tạo thành mảng một chiều. Cách sắp xếp này cho phép giảm thiểu
năng lượng tổn hao trung bình và tạo ra các giá trị bằng 0 liên tiếp. Cũng
theo cách sắp xếp này, các hệ số DC được tách khỏi các hệ số AC và sử
dụng kỹ thuật mã hoá điều xung mã vi sai – DPCM.
(e). Bước cuối cùng của bộ mã hoá là sử dụng mã hoá entropy chẳng hạn mã
hoá Huffman cho các AC và DC ( sau khi đã mã hoá DPCM) để tăng
thêm hiệu quả nén cũng như giảm thiểu lỗi.
Ở phía giải mã, luồng bit mã hoá được giải mã entropy, sau đó mảng
hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và
giải lượng tử. Mảng hai chiều các hệ số DCT kết quả sẽ được biến đổi IDCT
rồi cộng mỗi giá trị với 128 để xấp xỉ tạo thành các khối ảnh con kích thước
8x8. Chú ý là bảng lượng tử hoá và mã hoá entropy ở các phia mã hoá và
giải mã đồng nhất.
Hai thành phần màu cũng được mã hoá tương tự như thành phần chói ngoại
trừ khác biệt là chúng được lấy mẫu xuống hệ số 2 hay 4 ở cả chiều ngang
hay chiều dọc trước khi biến đổi DCT. Ở phía giải mã, thành phần màu sẽ
được nội suy thành kích thước gốc.
có thể thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà với
phép biến đổi FT ta không thực biện được.
Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:
∞
X ( f , t ) = ∫[ x (t ) w(t −τ )* ]e −2 jπft dt ( 2.12 )
−∞
Trong đó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị
trí của cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số
khác nhau của đoạn tín hiệu ta thay đổi giá trị τ.
Giải thích biến đổi STFT bằng nguyên lý bất định Heisender, nguyên lý này
phát biểu là: “ không thể biết chính xác được biểu diễn thời gian - tần số
của một tín hiệu (hay không thể biết các thành phần phổ của tín hiệu ở một
thời điểm nhất định)”. Cái mà ta có thể biết là một trong một khoảng thời
gian ngắn nhất định tín hiệu có những băng tần nào. Đây được gọi là bài
toán phân giải. Vấn đề này liên quan đến độ rộng của hàm cửa sổ mà chúng
ta sử dụng. Nếu hàm cửa số càng hẹp thì độ phân giải càng tốt hơn và giả
định tín hiệu là ổn định càng có độ chính xác nhưng độ phân giải tần số lại
kém đi. Ta có các hệ quả sau:
Cửa sổ hẹp -> phân giải thời gian tốt, phân giải tần số kém.
Cửa sổ rộng -> phân giải tần số tốt, phân giải thời gian kém.
Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để
giải quyết các vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số)
mà STFT vẫn còn hạn chế. Biến đổi Wavelet được thực hiện theo cách: tín
hiệu được nhân với hàm Wavelet (tương tự nhân với hàm cửa sổ trong biến
đổi STFT), rồi thực hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác nhau
trong miền thời gian tại các tần số khác nhau. Cách tiếp cận như vậy còn
được gọi là: phân tích đa phân giải – MRA (Multi Resolution Analysis):
phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác
nhau.
Từ biến đổi DWT một chiều có thể mở rộng định nghĩa biến đổi DWT hai
chiều theo cách: Sử dụng các bộ lọc riêng biệt, thực hiện biến đổi DWT một
chiều dữ liệu vào (ảnh) theo hàng rồi thực hiện theo cột. Theo cách này nếu
thực hiện biến đổi DWT ở mức 1, sẽ tạo ra 4 nhóm hệ số biến đổi. Quá trình
biến đổi DWT hai chiều có thể minh hoạ như hình 2.12 dưới đây, trong đó 4
nhóm hệ số là: LL, HL, LH, HH ( chữ cái đầu tiên tương ứng đã thực hiện
lọc theo hang, chữ cái thứ hai tương ứng đã thực hiện lọc theo cột)
Đối với các hệ thống audio số, việc thu nhận, hiệu chỉnh, và phát lại
trở lên dễ dàng hơn rất nhiều. Các kỹ thuật tổng hợp và nhận dạng phát triển
một cách nhanh chóng, tương tác giữa máy tính và con người trở lên phong
phú hơn.
Audio số là một chuỗi các giá trị số được biểu diễn bằng mức âm thanh theo
thời gian.
Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào mức độ phức tạp của tín hiệu
nguồn.
Thường sử dụng kỹ thuật mã hoá dự đoán trong miền thời gian.
(a) Thuật toán vi sai
(b) Mã hoá Entropy
stereo, joint-stereo. Xác định các tham số khác nhau về tốc độ, dòng số sau
khi nén, số mẫu header cho một kênh, cấu trúc thời gian khung, phương
pháp mã hoá dự đoán và các chế độ làm việc.
Với mỗi băng con, xác định mức biên độ và mức nhiễu bằng mô hình tâm
sinh lý nghe. SMR (signal-mask-rate) được sử dụng để xác định số bit cho
quá trình lượng tử hoá đối với mỗi băng con với mục đích giảm thiểu dung
lượng.
Ví dụ: Sau khi phân tích, mức của 16 băng con đầu là:
Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 16
5
Level(db) 0 8 1 10 6 2 10 6 35 20 15 2 3 5 3 1
2 0
Nếu mức của băng con thứ 2 là 60 thì nó che 12dB ở băng con thứ 7 và
15dB ở băng con thứ 9.
Băng con 7 có 10dB<12dB:loại. Băng con thứ 9 có mức 35dB>15dB: gửi đi.
chỉ có các mức lớn hơn che là được gửi đi thay vì dung 6 bit để
MPEG2:
Mở rộng MPEG-1 cho các ứng dụng mới.
- Có khả năng áp dụng nhiều tốc độ khác nhau, từ 32 đến 1066kbps.
- Chất lượng âm thanh tuỳ thuộc ứng dụng.
- Tần số lấy mẫu có thể giảm 1 nửa so với MPEG-1 (16; 22,05; 24kHz).
- Khả năng đa kênh, tốc độ bits mở rộng có thể lên đến 1 Mbps cho các ứng
dụng tốc độ cao.
- Cho phép nén đồng thời nhiều kênh.
- Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn ngữ trong phần bits mở
rộng.
- MPEG-2 sử dụng mã hoá cường độ cao, giảm xuyên âm, mã hoá dự đoán
liên kênh và mã hoá ảo ảnh kênh trung tâm để nhận được tốc độ bit kết hợp
384 kbps.
- Khung MPEG-2 được chia thành 2 phần, phần đầu là MPEG-1stereo tương
hợp lớp I với tốc độ tối đa 448kbps, lớp II tốc độ tối đa 384kbps và lớp III
tối đa 320kbps; phần mở rộng MPEG-2 chứa tất cả những dữ liệu surround
khác.
- Bộ mã hoá sử dụng băng lọc phân tích chuyển các mẫu PCM thành các hệ
số trong miền tần số. Mỗi hệ số biểu diễn ký hiệu mũ nhị phân gồm phần mũ
nhị phân và phần định trị. Các tập mũ nhị phân được mã hoá thô qua phổ tín
hiệu và được xem như đường bao phổ. Sử dụng phân phối bít xác định số
bits cần mã hoá mỗi định trị. Đường bao phổ và các định trị được lượng tử
cho 6 khối âm thanh (1536 mẫu âm thanh) được định dạng thành khung rồi
chuyển đi.
APT--X110000:
- APT-X100 cho tỷ lệ nén 4:1.
- Sử dụng để truyền dẫn, lưu trữ các tín hiệu audio mono, stereo hay đa kênh
chất lượng cao.
- Không hẳn dựa vào mô hình tâm sinh lý nghe, cũng không trực tiếp loại
các thành phần không thích hợp trong tín hiệu audio, mà nó ngầm hiểu một
mô hình đáp ứng nghe bằng việc phân phối ít bit ở tần số cao.
- Thuật toán hoàn toàn trong miền thời gian sử dụng mã hoá dự đoán tuyến
tính trong các băng con.
- Hoạt động với bất kỳ tần số lấy mẫu với ngõ ra 16 bits/từ mẫu.
- Tín hiệu audio được chia thành 4 băng con với băng thông đều nhau sử
dụng các bộ lọc QMF.
- Tín hiệu được phân tích trong miền thời gian: sử dụng mã hoá dự đoán
tuyến tính ADPCM để lượng tử mỗi băng theo nội dung và loại bỏ độ dư
thừa trong các băng con.
- Mã hoá sự khác biệt của mẫu hiện thời và mẫu trước.
- Giải mã được tiến hành một cách ngược lại.
∫ψ (t )dt
−∞
=0 (3.1)
Tích phân năng lượng của hàm trên toàn bộ trục t là một số hữu hạn, tức là:
∞
∫ ψ (t )
2
dt = 0 (3.2)
−∞
Điều kiện (3.2) có nghĩa là hàm ψ (t ) phải là một hàm bình phương khả tích
nghĩa là hàm ψ (t ) thuộc không gian L2 (R) các hàm bình phương khả tích.
Sau khi hàm Wavelet ψ (t ) được lựa chọn, biến đổi Wavelet liên tục của một
hàm bình phương khả tích f (t ) được tính theo công thức:
∞
1 t −b
W(a, b) = ∫ f(t)
−∞ a
ψ*
a
dt (3.3)
Biến đổi này là một hàm của hai tham số thực a và b. Dấu * ký hiệu là liên
hiệp phức của ψ (t ) . Nếu chúng ta định nghĩa một hàm ψa,b(t) theo biểu
thức:
t −b
ψ
1
ψa ,b (t ) = (3.4)
a a
∞
W(a, b) = ∫ f (t )ψ
−∞
a ,b (t )dt (3.5)
Theo toán học ta gọi đây là tích vô hướng của hai hàm f (t ) và ψa,b (t) .
1
Giá trị a là hệ số chuẩn hoá để đảm bảo rằng tích phân năng lượng của
Với mỗi giá trị của a thì ψa,b(t) là một bản sao của ψa,b(t) được dịch đi b đơn
vị trên trục thời gian. Do đó b được gọi là tham số dịch.
Đặt tham số dịch b = 0 ta thu được:
1 t
ψa , 0 (t ) = ψ (3.7)
a a
Nếu W(a,b) là biến đổi CWT của f (t ) bằng hàm Wavelet ψ (t ) , thì biến đổi
ngược của biến đổi CWT sẽ được tính như sau:
∞ ∞
1 1
f (t ) =
C ∫∫a
−∞−∞
2
W(a, b)ψa, b (t ) dadb (3.9)
Biến đổi CWT chỉ tồn tại nếu C dương và hữu hạn. Do đó C được gọi là
điều kiện tồn tại của biến đổi Wavelet. Cùng với hai điều kiện đã nêu ở trên,
đây là điều kiện thứ 3 mà một hàm cần phải thoả mãn để có thể được lựa
chọn làm hàm Wavelet. Chúng ta có thể xem biến đổi CWT như là một ma
trận hai chiều các kết quả của phép tính tích vô hướng giữa hai hàm f(t) và
ψa,b(t) . Các hàng của ma trận tương ứng với các giá trị của a và các cột
tương ứng với các giá trị của b do cách tính biến đổi Wavelet theo tích vô
hướng đã trình bày ở trên:
∞ ∞
f (t ), g (t ) = ∫ f (t ) g (t )dt ⇒ f (t )ψ a ,b (t ) = ∫ f (t )ψ
*
a ,b (t )dt (3.11)
−∞ −∞
Việc tính toán hệ số của biến đổi Wavelet có thể dễ dàng thực hiện bằng các
băng lọc số nhiều nhịp đa kênh, một lý thuyết rất quen thuộc trong xử lý tín
hiệu.
các giá trị W(ai,b) tạo thành hàng cho biết tại một thời điểm t của tín hiệu
f(t) có các thành phần tần số nào. Được nghiên cứu từ trước những năm 80
của thế kỷ trước và cũng đã được ứng dụng trong một số ngành khoa học và
công nghệ khác nhau nhưng biến đổi Wavelet vẫn là một lĩnh vực đang và sẽ
tiếp tục được nghiên cứu và phát triển cũng như ứng dụng rộng rãi hơn nữa.
Tham số b trong biến đổi Wavelet cho biết khoảng dịch của hàm Wavelet mẹ
và độ phân giải các tần số khác nhau của f(t) được minh họa bởi hệ số tỷ lệ
chính là a. Biến đổi Wavelet ngày càng được áp dụng rộng rãi đặc biệt là
trong xử lý tiếng nói, xử lý ảnh số. Tín hiệu tiếng nói là tín hiệu một chiều
nhưng do đặc điểm của tiếng nói là tín hiệu không dừng nên việc sử dụng
Fourier là không đủ để phân tích một cách đầy đủ các đặc trưng của tiếng
nói. Khác với tín hiệu tiếng nói, xử lý tín hiệu ảnh số là xử lý tín hiệu hai
chiều và do đặc điểm của ảnh số là bao giờ cũng có tính định hướng và tính
định vị. Tính định hướng của một ảnh nghĩa là trong ảnh bao giờ cũng có
một số ít các thành phần tần số nhưng các thành phần tần số này trải rộng
trên toàn bộ không gian ảnh còn tính định vị của ảnh chính là tính chất biểu
thị rằng tại một vùng của ảnh có thể có rất nhiều thành phần tần số. Ảnh
biểu thị tính định vị rõ nhất chính là ảnh có nhiều biên vùng phân tách rõ rệt,
tại các đường biên bao giờ cũng có nhiều thành phần tần số khác nhau, còn
hầu hết các ảnh có tông liên tục đều là những ảnh có tính định hướng.
Ngoài ra người ta thường áp dụng một cách kết hợp biến đổi Wavelet
với các hàm Wavelet thích hợp với dạng tín hiệu cần khảo sát và phép phân
tích đa phân giải để việc xử lý tín hiệu tiếng nói và hình ảnh đạt hiệu quả
cao hơn. Trước khi xem xét ứng dụng của phân tích đa phân giải trong nén
ảnh, chúng ta xem xét lý thuyết về đa phân giải trong phân tích tín hiệu. Giả
sử chúng ta cần xấp xỉ hoá một tín hiệu liên tục có dạng một hàm bình
phương khả tích f(x) bằng một tập các giá trị rời rạc (ví dụ hàm f(t) là hàm
cường độ sáng của ảnh). Phép xấp xỉ đơn giản thực hiện dựa trên lý thuyết
phép lấy trung bình và dựa vào hàm xấp xỉ là hàm ϕ(x) có dạng:
1 x ∈ [0,1)
ϕ ( x) = ( .3 1 ) 3
0 g t i rk a ih a c
Việc tính toán các giá trị xấp xỉ của hàm f(x) theo hàm ϕ(x) sẽ được viết như
sau:
A[ f ( x)] = ∑ f nϕ( x − n) (3.14 )
n
với fn là chính là giá trị xấp xỉ của hàm f(x) trong khoảng [n;n+1). Đây
chính là giá trị trung bình của hàm f(x) trong khoảng [n;n+1) được cho bởi
biểu thức:
n +1
fn = ∫ f ( x)
n
(3.15 )
Như vậy chúng ta có thể xấp xỉ hoá hàm f(x) bằng một tập các hàm tương tự
như hàm ϕ(x) và phép xấp xỉ hoá hàm f(x) cho bởi:
A[ f ( x) ] = ∑ ϕ
~ ( x − n), f ( x) ϕ( x − n) (3.16 )
n
~
Ở đây ϕ (x) được gọi là hàm trọng và ϕ(x) là hàm nội suy, để xấp xỉ ϕ(x)
thoả mãn:
~ ( x −n) =δ( n)
ϕ( x)ϕ (3.17 )
Việc phải thoả mãn điều kiện 3.17 là để đảm bảo rằng hàm f ( x) có thể được
xấp xỉ hoá bằng một tổ hợp tuyến tính của các hàm ϕ(x − n) . Ngoài ra hai
~
hàm ϕ (x) và ϕ(x) phải được chuẩn hoá để thoả mãn:
~ ( x ) dx =1
∫ϕ( x) dx =∫ϕ
2 2
(3.18 )
Trong thực tế, hàm f ( x) thường được giả thiết là có chu kỳ nguyên và
chúng ta chỉ cần một số hữu hạn các tổ hợp tuyến tính để xấp xỉ hoá hàm f
(x) . Chúng ta có thể thay đổi độ phân giải của phép xấp xỉ bằng cách thay
j
~
đổi hệ số tỷ lệ của các hàm ϕ (x) và ϕ(x) . Cho ϕ j ( x) = 2 2 ϕ(2 j x) và
j
~ (2 j x) , chúng ta có xấp xỉ:
~ j ( x) = 2 2 ϕ
ϕ
A j [ f ( x) ] = ∑ f ( x), ϕ
~ j ( x −2− j k ) ϕ j ( x −2− j k ) (3.19 )
k
của hàm f(x) là các phép chiếu trực giao của hàm f(x) lên không gian lấy
{ϕ j
(x −2−j k ) } k∈Z làm cơ sở. Việc thay đổi giá trị của j sẽ làm thay đổi mức
độ chính xác của phép xấp xỉ hàm f(x) của chúng ta như trên hình 3.2
Hàm ϕ(x) được gọi là hàm tỷ lệ và chúng ta thấy hàm này có một tính chất
đặc biệt là các hàm ứng với độ phân giải thứ j (tức là có chiều rộng 2-j ) là
trường hợp đặc biệt của các hàm có độ phân giải thứ j +1 (chiều rộng 2-j-1)
bởi vì các hàm có độ phân giải j có thể dễ dàng biểu diễn từ các hàm có độ
phân giải j +1. Điều đó dẫn tới:
V j ⊂V j +1
Vì vậy chúng ta có thể biểu diễn hàm f(x) theo các mức phân giải khác nhau
dựa trên các phép chiếu trực giao của hàm f(x) lên các không gian Vj . Chính
vì thế người ta định nghĩa một phép phân tích đa phân giải như sau:
*. Một phân tích đa phân giải bao gồm một chuỗi không gian bao hàm nhau:
thoả mãn:
−−−
V j = L2 ( R ) (3.21 )
j∈Z
V j =0 (3.22 )
j∈Z
Trên đây là cơ sở lý thuyết của phép phân tích đa phân giải với tín hiệu
1D tổng quát. Việc áp dụng trong tín hiệu ảnh (tín hiệu 2D) có thể dễ dàng
mở rộng từ việc phân tích đa phân giải 1D, chúng ta sẽ xét tới ở phần áp
dụng trong JPEG2000 ở phần sau
Giống như Meyer, Daubechies cũng là một nhà khoa học có công lao
to lớn trong việc nghiên cứu phát triển phép biến đổi Wavelet. Biến đổi
Daubechies là một trong những phép biến đổi phức tạp nhất trong biến đổi
Wavelet. Họ biến đổi này được ứng dụng hết sức rộng rãi, biến đổi Wavelet
áp dụng trong JPEG2000 là một biến đổi trong họ biến đổi Wavelet
Daubechies. Dưới đây là một số hàm ψ(t) trong họ biến đổi Wavelet
Daubechies:
dụng nén tiếng nói, nén dữ liệu. Việc sử dụng các phép mã hoá băng con,
băng lọc số nhiều nhịp và biến đổi Wavelet rời rạc tương ứng với loại tín
hiệu cần phân tích có thể mang lại những hiệu quả rất rõ rệt trong nén tín
hiệu. Do tính chất chỉ tồn tại trong các khoảng thời gian rất ngắn (khi phân
tích tín hiệu trong miền thời gian tần số) mà các hệ số của biến đổi Wavelet
có khả năng tập trung năng lượng rất tốt vào các hệ số biến đổi. Các hệ số
mang thông tin chi tiết của biến đổi Wavelet thường rất nhỏ và có thể bỏ qua
mà không ảnh hưởng tới việc mã hoá dữ liệu (trong phương pháp mã hoá
ảnh hay tiếng nói là những tín hiệu cho phép mã hoá có tổn
thất thông tin).
học có thể thực hiện được cả hai điều trên. Vì thế sự sử dụng biến đổi
Wavelet trong mã hoá nguồn và mã hoá kênh là rất thích hợp.
biến mà còn đưa ra một lựa chọn nhằm giải quyết toàn cục bài toán đặt ra ơ
phần mở đầu.
Sử dụng được với truyền dẫn và hiển thị luỹ tiến về chất lượng, độ
phân giải, các thành phần màu và có tính định vị không gian.
Sử dụng cùng một cơ chế nén ảnh cho cả hai dạng thức nén.
Truy nhập và giải nén tại mọi thời điểm trong khi nhận dữ liệu.
Giải nén từng vùng trong ảnh mà không cần giải nén toàn bộ ảnh
Có khả năng mã hoá ảnh với tỷ lệ nén theo từng vùng khác nhau
Nén một lần nhưng có thể giải nén với nhiều cấp chất lượng tuỳ theo
yêu cầu của người sử dụng
Hiện tại, ISO và uỷ ban JPEG đã đưa ra khuyến nghị thay thế JPEG bằng
JPEG2000.
Do biến đổi Wavelet 5/3 là biến đổi thuận nghịch nên có thể áp dụng
cho nén ảnh theo cả hai phương pháp, có tổn thất và không tổn thất trong khi
biến đổi 9/7 chỉ áp dụng cho nén ảnh theo phương pháp có tổn thất thông
tin.
, sgn ,với Δ là bước lượng tử, U(x,y) là giá trị băng con đầu vào; V(x,y) là giá
trị sau lượng tử hoá. Trong dạng biến đổi nguyên, đặt bước lượng tử bằng
1.Với dạng biến đổi thực thì bước lượng tử sẽ được chọn tương ứng cho
từng băng con riêng rẽ. Bước lượng tử của mỗi băng do đó phải có ở trong
dòng bít truyền đi để phía thu có thể giải lượng tử cho ảnh. Công thức giải
lượng tử hoá là:
U ( x, y ) = [V ( x, y ) + r sgn V ( x, y )]∆ ( 4.2)
r là một tham số xác định dấu và làm tròn, các giá trị U(x,y);V(x,y) tương
ứng là các giá trị khôi phục và giá trị lượng tử hoá nhận được. JPEG2000
không cho trước r tuy nhiên thường chọn r=1/2.
Có thể thấy rằng dù áp dụng biến đổi Wavelet nào hay cùng với nó là
một phép phân giải ảnh nào thì trong các băng con có số thứ tự thấp cũng là
những thành phần tần số cao (mang thông tin chi tiết của ảnh) trong khi
những băng con có số thứ tự cao hơn thì sẽ chứa những thành phần tần số
thấp (mang thông tin chính về ảnh). Điều đó nghĩa là các hệ số chi tiết sẽ
giảm dần từ băng con mức thấp (HH1 chẳng hạn) (ứng với thành phần tần số
cao) xuống băng con mức cao (ứng với thành phần tần số thấp) và có tính
tương tự về không gian giữa các băng con, ví dụ như một đường biên của
hình vẽ trong ảnh sẽ tồn tại ở cùng một vị trí trên các băng con đó (tương
ứng với mức độ phân giải của băng con ấy). Điều này đã dẫn tới sự ra đời
của phương pháp SPIHT (Set partitioning in hierarchical trees- phương
pháp mã hoá phân cấp theo phân vùng). Phương pháp SPIHT được thiết kế
tối ưu cho truyền dẫn luỹ tiến. Điều này có nghĩa là tại mọi thời điểm trong
quá trình giải nén ảnh theo phương pháp mã hoá này thì chất lượng ảnh hiển
thị tại thời điểm ấy là tốt nhất có thể đạt được với một số lượng bít đưa vào
giải mã tính cho tới thời điểm ấy. Ngoài ra, phương pháp này sử dụng kỹ
thuật embedded coding; điều đó có nghĩa là một ảnh sau nén với kích cỡ
(lưu trữ) lớn (tỷ lệ nén thấp) sẽ chứa chính dữ liệu sau nén của ảnh có kích
cỡ (lưu trữ) nhỏ (tỷ lệ nén cao). Bộ mã hoá chỉ cần nén một lần nhưng có thể
giải nén ra nhiều mức chất lượng khác nhau. Giả sử gọi các pixel trong một
ảnh p cần mã hoá là pi, j. Áp dụng một phép biến đổi Wavelet T nào đó cho
các pixel trong ảnh để tạo ra các hệ số của phép biến đổi Wavelet là ci,j. Các
hệ số này tạo ra một ảnh biến đổi là C. Phép biến đổi này được viết dưới
dạng toán tử như sau: C=T(p). Trong phương pháp truyền dẫn luỹ tiến với
ảnh thì bộ mã hoá sẽ bắt đầu quá trình khôi phục (giải nén) ảnh bằng cách
đặt các giá trị của ảnh khôi phục từ các hệ số biến đổi là ĉ . Sử dụng các giá
trị giải mã của các hệ số biến đổi để tạo ra một ảnh khôi phục (vẫn chưa áp
dụng biến đổi ngược Wavelet) là ĉ và sau đó áp dụng biến đổi ngược
Wavelet để tạo ra ảnh cuối cùng là ˆp . Chúng ta có thể viết dướidạng toán tử
như sau: pˆ =T −1 (cˆ) . Nguyên tắc quan trọng của phương pháp truyền dẫn
ảnh theo kiểu luỹ tiến chính là phương pháp này luôn truyền đi các giá trị
mang thông tin quan trọng hơn của ảnh đi trước. Sở dĩ làm như vậy là do
các thông tin đó chính là các thông tin sẽ làm giảm thiểu nhiều nhất độ méo
dạng của ảnh (sự sai khác giữa ảnh gốc và ảnh khôi phục). Đây chính là lý
do tại sao phương pháp SPIHT luôn truyền đi các hệ số lớn trước và cũng là
một nguyên tắc quan trọng của phương pháp này. Một nguyên tắc nữa là các
bít có trọng số lớn bao giờ cũng mang thông tin quan trọng nhất trong dữ
liệu nhị phân. Phương pháp SPIHT sử dụng cả hai nguyên tắc này; nó sắp
xếp các hệ số biến đổi và truyền đi các bít có trọng số lớn nhất. Quá trình
giải mã có thể dừng lại ở bất kỳ một bước nào ứng với giá trị ảnh cần mã
hoá yêu cầu. Đây chính là cách mà phương pháp mã hoá SPIHT làm tổn thất
thông tin.
đây là các cây tứ phân (quadtree). Sơ đồ cây tứ phân được minh hoạ ở hình
4.5.
Cây zero (zerotree): Cây zero là một cây tứ phân, trong đó tất cả các nút của
nó đều nhỏ hơn nút gốc. Một cây như vậy khi mã hoá sẽ được mã hoá bằng
một đối tượng duy nhất và khi giải mã thì chúng ta cho tất cả các giá trị bằng
không. Ngoài ra để có thể mã hoá được các hệ số Wavelet trong trường hợp
này, giá trị của nút gốc phải nhỏ hơn giá trị ngưỡng đang được xem xét ứng
với hệ số Wavelet đó
Sau khi có đủ các khái niệm cần thiết về cây tứ phân và cây zero, chúng ta
có thể trình bày nguyên lý hoạt động của thuật toán. Thuật toán sẽ mã hoá
các hệ số theo thứ tự giảm dần. Chúng ta sẽ dùng một giá trị gọi là ngưỡng
(threshold) và sử dụng ngưỡng này để tiến hành mã hoá các hệ số biến đổi.
Các hệ số được mã hoá theo thứ tự từ vùng tần số thấp đến vùng tần số cao.
Và chỉ những hệ số có giá trị tuyệt đối lớn hơn hoặc bằng ngưỡng thì mới
được mã hoá. Tiếp theo giảm ngưỡng và tiếp tục làm như vậy cho tới khi
ngưỡng đạt tới một giá trị nhỏ hơn giá trị của hệ số nhỏ nhất. Cách giảm giá
trị ngưỡng ở đây thực hiện tương đối đặc biệt, giá trị của ngưỡng giảm
xuống một nửa so với trước đó. Bộ giải mã phải biết các mức ngưỡng này
thì mới có thể giải mã ảnh thành công. Nhưng khi ta đi từ nút cha đến nút
con trong cây tứ phân thì nó vẫn có 3 nút con. Vậy ta phải đi theo nhánh có
nút con nào trước. Hay nói một cách đầy đủ hơn ta di chuyển từ hệ số này
đến hệ số khác theo thứ tự như thế nào. Có nhiều cách di chuyển khác nhau,
tuy nhiên hai cách di chuyển trên hình 4.6 được sử dụng nhiều nhất.
Việc sắp xếp này còn phải được quy ước thống nhất giữa quá trình mã
hoá và quá trình giải mã để việc giải mã ảnh được thành công. Trên đây chỉ
là nguyên lý cơ bản của phương pháp mã hoá EZW. Chi tiết về thuật toán mã
hoá có thể xem ở phần chương trình. Hiện nay phương pháp mã hoá này
được áp dụng ngày càng nhiều nén ảnh động. Phương pháp này cho tỉ lệ nén
và độ tin cậy giải mã cao. Ngoài ra phương pháp EZW rất dễ triển khai trên
máy tính bởi phương pháp này không yêu cầu việc lập trình quá phức tạp.
Một tính năng quan trọng và là ưu điểm rõ nét nhất của JPEG2000 so
với JPEG cũng như các chuẩn nén ảnh khác như MPEG 4 VTC hay JPEG -
LS v. v.... là JPEG2000 đưa ra cả hai kỹ thuật nén có tổn thất và không tổn
thất theo cùng một cơ chế mã hoá nghĩa là JPEG2000 thực hiện tất cả các
dạng thức của JPEG chỉ bằng một cơ chế mã hoá duy nhất. Nếu xét về sự
tồn tại của hai kỹ thuật này thì JPEG cũng có khả năng nén ảnh có tổn thất
và không tổn thất thông tin. Tuy nhiên với JPEG thì cơ chế mã hoá với hai
dạng này là khác nhau và rất khó để sử dụng cả hai dạng này cùng lúc cho
cùng một ứng dụng. Do đó, có thể thấy rằng JPEG có tính mềm dẻo hơn bất
kỳ chuẩn nén ảnh tĩnh nào trước đây. Hơn thế, chúng ta đã thấy rằng tất cả
các phương pháp thiết kế cho chuẩn JPEG2000 đều ưu việt và có nhiều tính
năng hơn so với JPEG; ngoài ra những thống kê về thực tế cho thấy với
cùng một tỷ lệ nén và một loại ảnh thì ảnh được nén bởi JPEG2000 hầu như
luôn có chất lượng tốt hơn so với JPEG. Chúng ta xem xét hai ảnh trên hình
4.7 để thấy rõ điều này, ảnh bên trái được nén theo JPEG còn ảnh bên phải
được nén theo JPEG2000
Tính năng ưu việt thứ hai của JPEG2000 so với JPEG chính là trong
dạng thức nén có tổn thất thông tin, JPEG2000 có thể đưa ra tỷ lệ nén cao
hơn nhiều so với JPEG. Các phần mềm nén ảnh JPEG hiện tại (kể cả
Photoshop) cũng chỉ thiết kế để có thể nén được tới tỷ lệ 40:1 nhưng với
JPEG2000 thì tỷ lệ nén có thể lên tới 200:1. Theo công thức tính PSNR
trong đơn vị dB, chúng ta có: (b là số bít dùng biểu diễn một pixel trên ảnh
gốc)
RMSE
PSNR (dB ) = −20 log b
2 −1
Với hai ảnh ở hình 4.6, sự so sánh về tham số PSNR cho trên bảng
4.1. Để có thể so sánh dễ dàng hơn, ta xét ảnh được nén với các tỷ lệ khác
nhau (đo lường bởi hệ số bít/pixel hay bpp). Tất cả các số liệu trên bảng đều
cho thấy JPEG2000 nén ảnh tốt hơn là JPEG; hơn thế hệ số PSNR mà
chúng ta xét trong bảng được đo trong hệ đơn vị logarit.
Tính năng ưu việt thứ 3 của JPEG2000 so với JPEG là chuẩn nén ảnh
này có thể hiển thị được các ảnh với độ phân giải và kích thước khác nhau từ
cùng một ảnh nén. Với JPEG thì điều này là không thể thực hiện được. Sở
dĩ có điều này là do JPEG2000 sử dụng kỹ thuật phân giải ảnh và mã hoá
đính kèm mà chúng ta đã nói tới ở phần mã hoá ảnh theo JPEG2000. Tính
năng này là một lợi thế đặc biệt quan trọng của JPEG2000, trong khi JPEG
cũng như các chuẩn nén ảnh tĩnh trước đây phải nén nhiều lần để thu được
chất lượng với từng lần nén khác nhau thì với JPEG2000 ta chỉ cần nén một
lần còn chất lượng ảnh thì sẽ được quyết định tuỳ theo người sử dụng trong
quá trình giải nén ảnh theo JPEG2000. Một tính năng ưu việt nữa của
JPEG2000 là tính năng mã hoá ảnh quan trọng theo vùng (ROI - Region of
Interest) mà chúng ta đã đề cập trongphần mã hoá ảnh theo JPEG2000. Chất
lượng của toàn bộ ảnh cũng được thấy rõ trên hình 4.7.
Như chúng ta thấy trên hình 4.7, chất lượng của vùng ảnh được lựa
chọn tăng cao hơn khi vùng đó được áp dụng phương pháp nén ảnh ROI.
JPEG2000 còn có một khả năng đặc biệt ưu việt hơn so với JPEG, đó chính
là khả năng vượt trội trong khôi phục lỗi. Đó là khi một ảnh được truyền
trên mạng viễn thông thì thông tin có thể bị nhiễu; với các huẩn nén ảnh như
JPEG thì nhiễu này sẽ được thu vào và iển thị, tuy hiên với JPEG2000, do
đặc trưng của phép mã hoá có thể chống lỗi, JPEG2000 có thể giảm thiểu
các lỗi này tới mức hầu như không có. Sau khi xem xét các tính năng vượt
trội của JPEG2000 so với JPEG (chuẩn nén ảnh thông dụng nhất hiện nay)
chúng ta so sánh chức năng của JPEG2000 với một số chuẩn nén ảnh như là
JPEG - LS; PNG; MPEG 4 VTC qua bảng 4.2 (Dấu + biểu thị chuẩn đó có
chức năng tương ứng, số dấu + càng nhiều thì chuẩn đó thực hiện chức năng
tương ứng càng tốt) dấu - biểu thị chuẩn tương ứng không hỗ trợ tính năng
đó)
Từ bảng trên chúng ta có thể thấy các tính năng vượt trội và khả năng ưu
việt của JPEG2000 so với các chuẩn nén ảnh tĩnh trước đây.
Lý thuyết và công nghệ wavelet đang trong giai đoạn phát triển quan
trọng và có nhiều ưu điểm hơn so với các phương pháp truyền thống đang
tồn tại. Wavelet và phép biến đổi wavelet được ứng dụng trong nhiều lĩnh
vực, trong xử lý tín hiệu, nén tín hiệu trong cả các ứng dụng xử lý ảnh và âm
thanh, là công cụ phân tích các hệ thống động. Các phương pháp xử lý tín
hiệu như là các bộ lọc gương cầu phương (Quadrature Mirror Filter-QMF)
kết hợp với kỹ thuật wavelet đang được nghiên cứu trong nhiều ứng dụng
của viễn thông. Các lĩnh vực ứng dụng khác của lý thuyết wavelet như là vật
lý lý thuyết, thăm dò dầu khí, ứng dụng trong y học, trong các dự đoán,
trong việc xây dựng các giải thuật nhanh, các toán tử tích phân đều, ....
Mã hoá
Khối tín hiệu Biến đổi Bộ lượng tử Thiết bị lưu
Entropy
Dự đoán
phổ
Một tính chất rất hấp dẫn của các wavelet là khả năng điều chỉnh
chiều dài của các hàm cơ sở. Một phân tích bốn mức và dãy lọc tương
đương của nó có thể minh hoạ như sau:
H0 ↓2
H0 ↓2
H0 ↓2 H1 ↓2
H0 ↓2 H1 ↓2
H1 ↓2
H1 ↓2
H0 ↓16
H1 ↓16
H2 ↓8
H3 ↓4
H4 ↓2
Hình 5.2-biến đổi wavelet rời rạc bốn mức và dãy lọc tương
đương của nó
Hàm cơ sở tần số thấp là một chuỗi các bản ảnh nội suy của bộ lọc
thông thấp H0. Chiều dài của nó rất lớn. Các tần số cao hơn ít được lặp hơn,
các hàm cơ sở trở nên ngắn hơn. Tín hiệu được xấp xỉ bởi một số hàm cơ sở,
khi đó hầu hết năng lượng tập trung ở băng con thấp.
Trong một hệ thống nén thoại / audio, tín hiệu được biến đổi bằng một
dãy lọc cấu trúc cây. Sự định vị tần số xấp xỉ các băng tới hạn của tai người.
Các tần số fm với công suất đáng dể được tìm ra và tính toán được T(fm, f).
Nén thoại:
Nén thoại có một tầm quan trọng lớn để giảm thời gian truyền trong
thông tin di động. Thoại được phân chia thành hai loại có thanh (voiced) và
không thanh (unvoiced). Thoại có thanh chủ yếu là ở tần số thấp. Trong
CELP (Code Excitation Linear Predictor) thoại có thanh được mô hình như
là đầu ra của một bộ lọc IIR all-pole với đầu vào là nhiễu trắng. Các hệ số
lọc được tìm ra nhờ việc dự đoán tuyến tính. Bộ lọc này biểu diễn hàm
truyền của vùng âm thanh (vocal tract). Thoại không thanh có các thành
phần ở tất cả các dải tần số và tương đồng với nhiễu trắng.
Nén audio:
Xét một tín hiệu âm thanh CD lấy mẫu ở tốc độ 44,1 kHz với độ phân
giải là 16 bit. Tốc độ bít tổng cộng là 705,6 kbit/s. Đối với các ứng dụng đa
phương tiện thì cần phải nén lại trong phạm vi từ 64 đến 192 kbit/s (11:1
đến 4:1). Từ việc nén audio cho thấy không có hiện tượng suy hao trong tín
hiệu được khôi phục. Điều này đóng vai trò quyết định trong quảng bá
audio số và truyền hình vệ tinh vì ở đó chất lượng âm thanh là đặc tính quan
trọng nhất. Ứng dụng của các hệ thống nén audio là:
Quảng bá audio số
Truyền hình vệ tinh, HDTV
Các đường liên kết phân phối và tập trung
Các thiết bị lưu trữ
5.3.2. Wavelet:
Trong phần này sẽ xét một số tính chất của wavelet ứng dụng trong
các ứng dụng loại nhiễu :
5.3.2.1. Định vị theo không gian và tham số :
Biến đổi wavelet được coi là một sự thay thế cho biến đổi Furier vì cả
hai phương pháp đều được sử dụng để nghiên cứu các tham số của tín hiệu
vào. Sự khác nhau chủ yếu giữa biến đổi Wavelet và biến đổi Furier là biến
đổi wavelet có thể định vị trong cùng miền như tín hiệu vào. Sự định vị ở
đây là định vị theo thời gian đối với tín hiệu một chiều và theo không gian
điểm (pixel space) đối với một ảnh. Điều này được minh hoạ trong hình vẽ
dưới đây, ở đó biểu diễn một tín hiệu và biến đổi Furier và biến đổi wavelet
của nó. Tín hiệu là rời rạc và do đó đều là hai biến đổi : chúng gồm các
chuỗi hệ số, các giá trị của chúng được minh hoạ trong hình. Mỗi mức của
biến đổi wavelet có chứa thông tin biểu diễn trong một khoảng của miền
tham số biến đổi Furier, được gọi là một giải tần số. Mức và giải tần số cao
nhất biểu diễn các tham số cao nhất của tín hiệu : ở đó biến đổi wavelet có
các thành phần khác 0, tín hiệu gốc có một sự phân bố trong một giải tham
số tương ứng. Nó cũng cho thấy sự định vị xấp xỉ của sự phân bố tham số
này, đây là một ưu điểm của biến đổi wavelet so với biến đổi Furier.
Đối với biến đổi wavelet
Biểu diễn sự phân bố tín hiệu theo các giải tần số như các hệ số trong
nhiều mức và
Biểu diễn sự định vị của sự phân bố này trong cùng miền như tín hiệu
gốc.
Các phương pháp cơ sở wavelet để khử nhiễu thường có ưu điểm về
cả hai tính chất trên.
Các hệ số của biến đổi Wavelet là các hệ số trong một cơ sở của các
hàm tỷ lệ được gọi là các Wavelet và ký hiệu là ψ các wavelet ở các mức
cao hơn thì có giá nhỏ hơn so với các mức thấp hơn. Các wavelet ở một mức
thì có cùng tỷ lệ, gọi là characteristic scale (tỷ lệ đặc trưng). Mức càng cao
thì tỷ lệ đặc trưng càng nhỏ và tham số càng cao.
Cũng có một loại hàm cơ sở khác bao gồm sự phân tích Wavelet. Các
hàm này ký hiệu là φ , gọi là các hàm tỷ lệ. Trong đó các hệ số Wavelet
biểu diễn sự phân bố tín hiệu theo một dải tần, các hệ số hàm tỷ lệ biểu diễn
tất cả các phân bố tham số thấp hơn.
−∞
b bc
b
b c
a
b c
a
a
Các giải thuật thực tế để tính toán biến đổi wavelet rời rạc một chiều,
bao gồm các tích chập đượclặp lại của một tín hiệu với các chuỗi rời rạc
hoặc các bộ lọc, tạo ra các hệ số wavelet. Các hệ số hàm tỷ lệ được tính toán
tương tự như các trung gian. Các bộ lọc được liên hệ với loại wavelet và
hàm tỷ lệ được sử dụng. Chúng có nhiều tính chất như tính đối xứng, bằng
phẳng, giá và suy giảm. Đối với biến đổi hai chiều, sự thay thế các tích chập
theo các hướng khác nhau được thực hiện để tạo ra các hệ số của các thành
phần theo phương ngang, chéo và phương thẳng đứng.
Khối lượng tính toán biến đổi Wavelet cần có giá compact hoặc ít
nhất có sự suy giảm đủ nhanh.
dụng tỷ số tín hiệu trên nhiễu để đo chất lượng. Tỷ số tín hiệu trên nhiễu
được biểu diễn bằng dB và được định nghĩa như sau:
Psignal
SNR = 10 lg
Pnoise
Trong đó Psignal là công suất của tín hiệu hay của ảnh.
Pnoise là công suất của nhiễu.
số cao bị triệt trừ khi ở đó một đặc tính tín hiệu có một số phân bố tham số
được tách. Việc tách này được thực hiện bằng cách tính toán sự tương quan
giữa một số có tỷ lệ liên tiếp. Xu đề xuất tính toán sự tương quan này là tính
của các hệ số wavelet trong các mức liên tiếp của cùng sự định vị. Nó được
kiểm nghiệm từ sự thực nhưng các hệ số nhiễu không được tương quan và
các hệ số có ích được tương quan, khi sử dụng phân tích wavelet.
Giải thuật :
endfor
end algorithm.
Biến đổi wavelet đang dần trở thành một công cụ mạnh và thiết thực
để loại bỏ nhiễu trong tín hiệu. Phép biến đổi đưa ra một sự phân tích các
tần số của tín hiêu, được biểu diễn trong miền tín hiệu gốc. Các phương
pháp loại nhiễu có thể hiện rõ hai cơ sở lập luận trên. Chúng được xây dựng
và áp dụng cho các cơ sở lý thuyết xấp xỉ của các Wavelet.
Kết luận
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, dưới sự
hướng dẫn khoa học của PGS.TS Nguyễn Văn Xuất.
Các số liệu kết quả trong luận văn là trung thực và chưa được ai công
bố trong bất kỳ công trình nào.
Tác giả