Professional Documents
Culture Documents
3
Chương 1 Giới thiệu chung về xử lý tín hiệu
vẫn được mô tả dựa trên nền tảng lý thuyết xử lý tín hiệu tổng quát. Sau đây chúng ta nhắc lại một
số những khái niệm cơ bản về tín hiệu và hệ thống xử lý tín hiệu.
1.1.1 Tín hiệu và phân loại tín hiệu
Tín hiệu do một thiết bị đầu cuối tạo ra, tín hiệu là biểu diễn vật lý (dòng điện, điện áp...)
của tin tức, được truyền đi từ đầu phát đến đầu thu. Tín hiệu có thể được biểu diễn bằng một hàm
của nhiều biến số: m(t ) = f (t , v, f , ϕ ) , f - tần số, t - thời gian, v - biên độ, ϕ - trạng thái pha.
Khi phân loại tín hiệu ta có thể dựa trên các cơ sở khác nhau như phân loại theo năng lượng,
hình thái, theo tính chất của phổ của tín hiệu v.v.
Trong lý thuyết tín hiệu có hai lớp tín hiệu quan trọng đó là tín hiệu xác định và ngẫu nhiên.
Tín hiệu xác định là tín hiệu có quá trình biến đổi biểu diễn bằng một hàm thời gian, và có thể xác
định chính xác ở mọi thời điểm. Các tín hiệu xác định có vai trò rất quan trọng trong lý thuyết tín
hiệu cổ điển. Tín hiệu xác định còn chia ra thành tín hiệu tuần hoàn (theo chu kỳ T) và không
tuần hoàn (phi chu kỳ).Tín hiệu tuần hoàn là những tín hiệu có thể biểu diễn bằng công thức như
sau: x (t ) = x (t + kT ) k − nguyeân - tín hiệu này tuân theo quy luật lặp lại đều với chu kỳ T.
Tín hiệu ngẫu nhiên là các tín hiệu mà không thể dự kiến trước hành vi của chúng theo thời
gian và để biểu diễn chúng phải dựa trên lý thuyết thống kê. Trên thực tế, các tín hiệu thông tin
đều mang tính chất ngẫu nhiên.
Tín hiệu có thể có biên độ và biến thời gian (không gian) là rời rạc hay liên tục, do đó
chúng ta còn phân biệt bốn loại tín hiệu sau:
Tín hiệu Tín hiệu Tín hiệu Tín hiệu
tương tự (analog) lượng tử rời rạc số (digital)
Biên độ liên tục rời rạc liên tục rời rạc
Biến thời gian liên tục liên tục rời rạc rời rạc
Như vậy, tín hiệu tương tự là tín hiệu có biên độ và biến thời gian là liên tục. Nếu tín hiệu
được biểu diễn bằng hàm của biến rời rạc thì tín hiệu đó là tín hiệu rời rạc. Ký hiệu chung của tín
hiệu rời rạc là xs ( nTs ) , nTs là biến độc lập, rời rạc, n là số nguyên, Ts là chu kỳ lấy mẫu.
Tín hiệu có biên độ và thời gian đều rời rạc được gọi là tín hiệu số, ký hiệu là xd ( n ) .
Ngoài ra, dựa trên tính chất của tin tức truyền đi, người ta còn phân loại các tín hiệu sau:
- Tín hiệu thoại (tiếng nói con người).
- Tín hiệu hình ảnh tĩnh hay ảnh động (tín hiệu video)
- Tín hiệu dữ liệu (data) dùng trong hệ thống máy tính, bộ vi xử lý.
Một số tín hiệu khác, phân biệt theo bề rộng phổ và tần số (tín hiệu dải rộng, dải hẹp, cao
tần v.v.) cũng sẽ được định nghĩa và sử dụng trong những phần tiếp theo.
1.1.2 Tín hiệu rời rạc
Tín hiệu x(t) có biến thời gian t rời rạc được gọi là tín hiệu rời rạc, chúng ta có thể ký hiệu
là {xn} với n là số nguyên (n = 0, ±1, ±2, … ).
4
Chương 1 Giới thiệu chung về xử lý tín hiệu
Như vậy một tín hiệu x(n) bất kỳ có thể biểu diễn :
∞
x ( n) = ∑ x(k )δ (n − k )
k = −∞
(1.1.6)
5
Chương 1 Giới thiệu chung về xử lý tín hiệu
e- Tín hiệu rời rạc tuần hoàn với chu kỳ là N nếu thoả mãn :
x(n) = x(n + N ) , ∀ n. (1.1.7)
Tín hiệu tuần hoàn có thể được ký hiệu với chỉ số p (period) : xp(n). Tín hiệu chỉ được xác
định trong một khoảng hữu hạn N mẫu được gọi là tín hiệu có độ dài hữu hạn N.
f- Tín hiệu năng lượng và tín hiệu công suất:
* Năng lượng của tín hiệu được định nghĩa bằng tổng bình phương các modul :
∞
∑
2
E xN = x( n ) (1.1.8)
n=−∞
* Công suất trung bình của tín hiệu rời rạc được định nghĩa như sau:
N
1
∑ x( n )
2
PxN = lim (1.1.9)
N →∞ 2 N + 1
n=− N
Thay biến n bằng (-n), kết quả ta có x ( n ) thay vì x ( − n ) . Phép biến đổi này thực hiện
bằng cách lấy đối xứng tín hiệu x ( n ) qua gốc thời gian.
6
Chương 1 Giới thiệu chung về xử lý tín hiệu
Ngoài ra cũng còn các hệ thống hỗn hợp khác như hệ thống biến đổi tương tự- số hay
ngược lại.
Tín hiệu vào và tín hiệu ra của một hệ thống quan hệ với nhau thông qua toán tử biến đổi T:
T ⎡⎣ x ( t ) ⎤⎦ = y ( t ) hay x ( t ) ⎯⎯
T
→ y (t ) (1.1.13)
7
Chương 1 Giới thiệu chung về xử lý tín hiệu
Cho tín hiệu vào hệ thống được giới hạn biên độ: x ( t ) ≤ M x < ∞ , M x là hằng số.
Trong trường hợp này, hệ thống sẽ là ổn định nếu đáp ứng xung của nó thỏa mãn điều
∞
kiện: ∫ h ( t ) dt < ∞ . Điều kiện này là cần và đủ để hệ thống LTI là ổn định.
−∞
Hệ thống LTI không nhớ: hệ thống tuyến tính bất biến là không nhớ nếu h ( t ) = 0
với t ≠0.
1.1.3.1.3 Phương trình sai phân tuyến tính hệ số hằng
Cho x ( t ) và y ( t ) là tín hiệu vào ra của hệ thống tuyến tính bất biến. Phương trình sai
phân tuyến tính hệ số hằng tổng quát của hệ thống có thể biểu diễn dưới dạng:
N M
∑ ak y( k ) ( t ) = ∑ br x( r ) ( t ) (1.1.17)
k =0 r =0
y0 ( t ) : y ( t ) = yr ( t ) + y0 ( t ) .
Trong đó nghiệm thuần nhất y0 ( t ) là nghiệm của phương trình thuần nhất:
N
∑ ak y( k ) ( t ) = 0 . (1.1.18)
k =0
hiệu rời rạc) thành dãy ra y ( n ) . Toán tử T cho chúng ta thấy quan hệ vào ra của hệ thống.
Chúng ta có hai cách để biểu diễn toán tử T:
T ⎡⎣ x ( t ) ⎤⎦ = y ( t ) hay x ( t ) ⎯⎯
T
→ y (t ) (1.1.19)
Dãy vào còn được gọi là kích thích, còn dãy ra là đáp ứng của hệ thống đối với kích thích
đang khảo sát.
1.1.3.2.1 Hệ thống rời rạc tuyến tính bất biến (LTI)
a. Hệ thống tuyến tính
Hệ thống tuyến tính là hệ thống mà quan hệ vào ra của hệ thống thoả mãn nguyên lý xếp chồng.
Với x1 ( n ) và x2 ( n ) là các chuỗi vào bất kỳ, y1 ( n ) và y2 ( n ) là các chuỗi ra tương ứng. Hệ
thống được gọi là tuyến tính khi:
x1 ( n ) ⎯⎯
T
→ y1 ( n ); x2 ( n ) ⎯⎯
T
→ y2 ( n )
(1.1.20)
a1 x1 ( n ) + a2 x2 ( n) ⎯⎯
T
→ a1 y1 ( n ) + a2 y2 ( n )
trong đó a1, a2 là các hằng số.
8
Chương 1 Giới thiệu chung về xử lý tín hiệu
y ( n − k ) là đáp ứng của hệ thống đối với kích thích x ( n − k ) . Nếu biến số là thời gian thì ta
có hệ thống bất biến theo thời gian. Đối với hệ thống bất biến, khi kích thích giống nhau thì đáp
ứng sẽ giống nhau tại mọi thời điểm.
c. Hệ thống nhân quả và không nhân quả
Một hệ thống gọi là nhân quả khi tín hiệu ngõ ra tại một thời điểm nào đó chỉ phụ thuộc vào
các giá trị của tín hiệu vào từ thời điểm đó trở lại. Ta có thể biểu diễn quan hệ vào - ra của hệ
thống nhân quả bằng một phương trình toán học như sau:
h ( n ) là đáp ứng xung của hệ thống tuyến tính bất biến, không phụ thuộc vào biến k.
Đáp ứng của hệ thống có thể tìm được thông qua tích chập của kích thích và đáp ứng xung:
∞
y( n) = ∑ x(k )h(n − k ) = x(n) ∗ h(n)
k =−∞
(1.1.22)
Như chúng ta đã biết, các hệ thống có tín hiệu ra chỉ phụ thuộc vào tín hiệu vào trong quá
khứ và hiện tại được gọi là hệ thống nhân quả.
Định lý : Hệ thống tuyến tính bất biến là nhân quả nếu và chỉ nếu đáp ứng xung h(n) = 0
với mọi n < 0.
1.1.3.2.3 Hệ thống tuyến tính bất biến và ổn định
Tính ổn định là một điều kiện ràng buộc quan trọng cần xét đến trong thực tế đối với các
hệ thống xử lý tín hiệu. Theo định nghĩa, một hệ thống được gọi là ổn định hay là hệ BIBO
(Bounded Input Bounded Output) nếu đáp ứng của hệ thống đó luôn bị chặn khi kích thích vào bị
chặn. Thuật ngữ bị chặn có thể hiểu là “có giá trị hữu hạn”.
9
Chương 1 Giới thiệu chung về xử lý tín hiệu
Định lý: Một hệ thống tuyến tính bất biến được xem là ổn định nếu và chỉ nếu đáp ứng
xung thoả mãn điều kiện sau :
∞
S= ∑ h(n) < ∞
n = −∞
(1.1.23)
∑ a k ( n) y ( n − k ) = ∑ b r ( n) x ( n − r )
k =0 r =0
(1.1.24)
ở đây N và M là các số nguyên dương, N gọi là bậc của phương trình sai phân.
Trong phương trình này, tập hợp các hệ số ak(n) và br(n) sẽ quyết định toàn bộ hành vi của
hệ thống. Phương trình này chính là ảnh rời rạc của phương trình vi phân tuyến tính đối với các hệ
số liên tục, phương trình vi phân tuyến tính có dạng sau :
N
d k y (t ) M d r x (t )
∑ a (t )
k =0
k
dt k
= ∑
r =0
br ( r )
dt r
(1.1.25)
Chúng ta có thể nhận được phương trình sai phân tuyến tính từ một phương trình vi phân
tuyến tính bằng cách thay gần đúng của các đạo hàm vào vị trí của các đạo hàm. Ví dụ với đạo
hàm bậc một, ta có gần đúng như sau :
∑ ak y( n − k ) = ∑ br x( n − r )
k =0 r =0
(1.1.26)
trong đó tập các hệ số ak và br đặc trưng cho hệ tuyến tính bất biến.
Hệ tuyến tính bất biến mô tả bằng PT-SP-TT-HSH đóng vai trò đặc biệt trong xử lý tín
hiệu số. Trong tài liệu này, chúng ta chỉ sử dụng các hệ thống xử lý tín hiệu được mô tả bằng
phương trình tuyến tính bất biến hệ số hằng nói trên.
1.1.3.2.5 Các hệ thống đệ quy và không đệ quy
a. Hệ thống không đệ quy
Một hệ thống tuyến tính bất biến được đặc trưng bởi PT-SP-HSH bậc N như sau :
N M
∑ ak . y( n − k ) = ∑ br . x(n − r )
k =0 r =0
(1.1.27)
10
Chương 1 Giới thiệu chung về xử lý tín hiệu
M
y( n) = ∑ br . x( n − r ) a0 = 1 (1.1.28)
r =0
Định nghĩa :
Hệ thống được đặc trưng bởi phương trình sai phân tuyến tính bậc không (N = 0) được gọi
là hệ thống không đệ qui.
b. Hệ thống đệ quy
Trong trường hợp nếu N > 0, ta có phương trình SP-TT-HSH bậc N như sau :
M N
br b
y( n) = ∑ . x( n − r ) − ∑ k . y ( n − k ) (1.1.29)
r =0 a0 k =1 a0
Định nghĩa :
Hệ thống được đặc trưng bởi phương trình sai phân bậc N > 0 được gọi là hệ thống đệ qui.
11
Chương 1 Giới thiệu chung về xử lý tín hiệu
Nhìn chung, dữ liệu multimedia có dung lượng rất lớn và có đặc tính nhạy cảm với trễ cũng
như mất mát dữ liệu.
Để truyền các dạng dữ liệu trên mạng điện thoại, Internet hay mạng truyền hình, các đặc
tính kỹ thuật của từng loại dữ liệu phải được biến đổi cho phù hợp với đường truyền. Việc điều
chỉnh này bao gồm việc nén dữ liệu, định thời trong truyền dẫn và lưu trữ multimedia.
1.2.2 Nén tín hiệu trong mạng đa dịch vụ
Các kỹ thuật và giải thuật nén quyết định đến sự sống còn của các mạng đa dịch vụ. Ví dụ
như một kênh truyền hình số không nén có thể yêu cầu băng thông lên đến 216 Mbps. Nếu chúng
ta không dùng kỹ thuật nén, hệ thống chỉ có thể phục vụ đồng thời cho một số ít người. Nén là
giải pháp cứu cánh cho phép việc truyền bá rộng rãi video số và multimedia. Kỹ thuật nén phụ
thuộc vào giải thuật được cài đặt trên phần cứng hoặc phần mềm của máy phát và máy thu. Khi
ứng dụng yêu cầu tốc độ nén và giải nén cao, giải thuật phải được cài đặt trên phần cứng (card âm
thanh hay card đồ họa trên máy tính).
Nén dữ liệu là giải pháp để giảm bớt áp lực về băng thông trên mạng và giảm bớt không
gian lưu trữ, tuy nhiên nó cũng tạo ra một số nhược điểm đáng kể. Một số kỹ thuật nén hoạt động
dựa trên ý tưởng lược bớt các thông tin kém quan trọng trong tín hiệu vì thế sẽ tạo ra sự mất mát
độ phân giải trong tín hiệu nén. Nhưng bên cạnh đó, việc nén dữ liệu sẽ làm tăng tính bảo mật của
thông tin khi được truyền qua mạng công cộng. Khi tiến hành nén dữ liệu chúng ta phải quan tâm
đến các yếu tố sau: độ phức tạp của phần cứng và phần mềm, thời gian trễ gây nên bởi quá trình
xử lý nén và giải nén và cũng như các yếu tố quan trọng khác.
Trong các ứng dụng khác nhau người ta sử dụng các phương pháp mã hóa khác nhau để tận
dụng tối đa tài nguyên sẵn có, đồng thời đạt chất lượng dịch vụ cao nhất. Ví dụ như hội nghị video
phải được thực hiện và xử lý trong thời gian thực, vì thế các phương pháp má hóa và giải mã được
phải thỏa mãn các tiêu chuẩn xử lý trong thời gian thực. Đây là lý do quan trọng mà tiêu chuẩn
H.261 được thiết kế. Một ví dụ khác là việc truyền file video qua mạng có dây, không dây tới hệ
thống lưu trữ video không đòi hỏi thời gian thực, quá trình thực hiện ít nhạy cảm với thời gian trễ
nên thời gian xử lý mã hóa và giải mã không là một vấn đề quan trọng, ngược lại hiệu quả nén
mới là tiêu chí đặt lên hàng đầu, vì vậy tiêu chuẩn nén MPEG được thiết kế (ban đầu) dựa trên
quan điểm này.
1.2.3 Lưu trữ
Như đã nói ở trên, thông tin âm thanh chất lượng cao và video trong multimedia làm cho
luồng số tổng hợp có kích thước rất lớn, vì thế lưu trữ dữ liệu là một trong những vấn đề quan
12
Chương 1 Giới thiệu chung về xử lý tín hiệu
trọng trong hệ thống multimedia. Hiện nay, hệ thống multimedia sử dụng hầu hết các công nghệ
truyền thống để ghi dữ liệu đó là các công nghệ lưu trữ từ, quang và công nghệ flash. Giá thành
các hệ thống lữu trữ dung lượng lớn ngày càng hạ, trong khi các thông số kỹ thuật liên tục được
cải thiện. Ví dụ, các ổ đĩa cứng (HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới
300MBps qua giao thức SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng
không qua giai đoạn nén dữ liệu (làm mất chất lượng video gốc). Hệ thống RAID (Redundant
Array of Independent Disks) có thể được thiết lập từ 8, 16 hoặc nhiều hơn nữa các ổ cứng có dung
lượng lên tới 750 GB mỗi ổ. Với dung lượng 12 TB, hệ thống RAID cho phép ghi tới ~2700 giờ
video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén (216Mbps). Giá
thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào năm 2005, giá thành ổ cũng khoảng
1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps.
Trong các hệ thống truyền dẫn có băng thông hẹp, việc truyền tải dữ liệu multimedia không
thể thực hiện trong thời gian thực, khi đó các user đầu cuối phải sử dụng thiết bị lưu trữ cục bộ.
Toàn bộ dữ liệu sau khi tải về sẽ được giải mã để trình chiếu offline. Ví dụ như mạng Internet chỉ
có khả năng phân phối video và audio trực tuyến với chất lượng thấp, tuy nhiên lưu trữ cục bộ vẫn
cho phép người dùng nghe nhạc hoặc xem video chất lượng cao. Hệ thống lưu trữ ngày càng được
cải tiến để đáp ứng nhu cầu này.
Các thiết bị lưu trữ như CDROM và DVD cũng được cải tiến để cung cấp luồng dữ liệu tốc
độ cao. Công nghệ CDROM hiện tại có thể truyền tải dữ liệu khoảng 64 Mbps hay cao hơn, lưu
trữ khoảng 700MB dữ liệu và có thời gian truy cập khoảng 300 ms. Đĩa DVD một mặt có dung
lượng ~4.7 GB. Với các thông số như vậy, công nghệ CD ROM là tạm chấp nhận được cho một
số ứng dụng. Hiện tại công nghệ đĩa cứng vẫn được cải tiến liên tục để phục vụ cho nhu cầu lưu
trữ đa dạng của dữ liệu multimedia ngày càng đòi hỏi những tiêu chuẩn khắt khe về không gian
lưu trữ, thời gian trễ…
1.2.4 Băng thông
Các ứng dụng multimedia, đặc biệt các ứng dụng liên quan đến video và hình ảnh yêu cầu
băng thông rất lớn. Tuy nhiên băng thông là nguồn tài nguyên giới hạn. Tăng băng thông đồng
nghĩa với việc tăng chi phí để nâng cấp, cài đặt các thiết bị truyền dẫn quang, các thiết bị đầu cuối
phức tạp, các bộ chuyển mạch tốc độ cao….
Mặc dù hiện này công nghệ chuyển mạch đã phát triển mạnh mẽ cũng với mạng cáp quang
cho phép cung cấp nhiều băng thông hơn, nhưng kinh nghiệm cho thấy việc phát triển của mạng
luôn luôn thấp hơn nhu cầu thực tế. Do đó, cần có cơ chế phân phối và quản lý băng thông cho
các ứng dụng tại thiết bị đầu cuối để băng thông được sử dụng một cách hợp lý và hiệu quả.
1.2.5 Chất lượng dịch vụ (Quality of Service)
Hiện này nhu cầu trao đổi dữ liệu multimedia qua mạng là rất lớn. Để đảm bảo chất lượng
dịch vụ ở đầu cuối, các thông số quan trọng sau phải được đánh giá và điều khiển: tỷ lệ lỗi bit (Bit
Error Ratio), tỷ lệ mất gói, thời gian trễ và sự biến thiên của thời gian trễ…Ở một số dịch vụ tài
nguyên của mạng sẽ được dành sẵn để đảm bảo các thông số trên. Ví dụ như trong mạng ATM,
người dùng đầu cuối sẽ được phân định các mức băng thông và chất lượng dịch vụ khác nhau phụ
thuộc vào ứng dụng cụ thể. Với các ứng dụng liên quan đến thoại, tài nguyên của mạng được phân
phối sao cho mức trễ nằm trong phạm vi cho phép để đảm bảo chất lượng thoại.
13
Chương 1 Giới thiệu chung về xử lý tín hiệu
14
Chương 1 Giới thiệu chung về xử lý tín hiệu
15
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người
Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như
trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau.
Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là
vận tốc). Dù được phân tích bằng cách thức nào, thì các phương pháp khi so sánh với nhau
phải dùng một tỉ lệ thời gian.
Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những thiết
bị cổ điển, các tiêu chuẩn xử lý thì hầu như không có gì thay đổi, mặc dù công nghệ có vẻ xử
lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số
liên tục biến thiên vô hạn.
Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý
âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban
đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên
hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tín hiệu số sẽ truyền
trong khoảng cách ngắn hơn tín hiệu tương tự và với chi phí thấp hơn. Trong giáo trình này,
tập trung đề cập đến hệ thống số xử lý âm thanh.
Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có thể
được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu
(symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme).
Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến
50. Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị.
Tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên
thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới
hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong
một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có
16
Chương 2 Kỹ thuật xử lý âm thanh
thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bình 10 âm vị/giây,
và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc
độ truyền trung bình của âm thoại khoảng 60bit/giây.
Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều
cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần
quan tâm chung là:
1. Việc duy trì nội dung của thông điệp trong tín hiệu thoại
2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc
lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm
giảm nghiêm trọng nội dung của thông điệp thoại.
Việc biểu diễn tín hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được dễ
dàng trích ra bởi người nghe, hoặc bởi các thiết bị phân tích một cách tự động.
2.1.1.2 Khái niệm tín hiệu
Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều
biến độc lập khác, ví dụ như:
¾ Âm thanh, tiếng nói: dao động sóng theo thời gian (t)
¾ Hình ảnh: cường độ sáng theo không gian (x, y, z)
¾ Địa chấn: chấn động địa lý theo thời gian
Biểu diễn toán học của tín hiệu: hàm theo biến độc lập
Ví dụ:
¾ u (t ) = 2t 2 − 5
¾ f ( x, y ) = x 2 − 2 xy − 6 y 2
Thông thường các tín hiệu tự nhiên không biểu diễn được bởi một hàm sơ cấp, cho
nên trong tính toán, người ta thường dùng hàm xấp xỉ cho các tín hiệu tự nhiên.
Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trình thực hiện các phép
toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, … Việc thực hiện phép toán còn
được gọi là xử lý tín hiệu.
2.1.1.3 Phân loại tín hiệu
Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần, cùng chung mô tả một đối tượng nào
đó, thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECG-
ElectroCardioGram), tín hiệu điện não (EEG – ElectroEncephaloGram), tín hiệu ảnh màu
RGB.
Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình
ảnh, tín hiệu tivi trắng đen.
Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn
thời gian [a, b], ký hiệu x(t ) .
17
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
Hìn
nh 2.1.1 Tínn hiệu liên tụục theo thời gian
g
Tín hiệu rờời rạc thời gian:
g là tín hiệu
h chỉ đượcc định nghĩaa tại những thời
t điểm rờ
ời rạc
khác nhau,
n ký hiệuu x(n) .
Hìn
nh 2.1.2 Tínn hiệu rời rạcc theo thời gian
g
Tín hiệu liên tục giá trrị: là tín hiệuu có thể nhậnn trị bất kỳ trong
t đoạn [Ymin , Ymax ] , ví
v dụ
tín hiệệu tương tự (analog).
(
Hìn
nh 2.1.3 Tínn hiệu liên tụục giá trị
Tín hiệu rờ
ời rạc giá trrị: tín hiệu chỉ
c nhận trị trong một tậập trị rời rạc định trướcc (tín
hiệu sốố).
Chương 2 Kỹ thuật xử lý âm thanh
19
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.1.7 Để nhận được tám mức tín hiệu khác nhau một cách phân biệt, tín hiệu
đỉnh-đỉnh của tín hiệu nhiểu phải nhỏ hơn hoặc độ sai biệt giữa các mức độ. Tỉ số tín hiệu trên
nhiễu phải tối thiểu là 8:1 hoặc là 18dB, truyền bởi 3 bit. Ở 16 mức thì tỉ số tín hiệu trên nhiễu
phải là 24dB, truyền bởi 4 bit.
2.1.1.6 Mô hình hóa tín hiệu âm thanh
Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và áp dụng các giải thuật trong
việc khôi phục âm thanh. Chất lượng của âm thoại phụ thuộc rất lớn vào mô hình giả định phù
hợp với dữ liệu. Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong
muốn, mô hình phải tổng quát và không sai lệnh so với giả định. Một điều cần lưu ý là hầu hết
các tín hiệu âm thoại là các tín hiệu động trong thực tế, mặc dù mô hình thực tiễn thì thường
giả định khi phân tích tín hiệu là tín hiệu có tính chất tĩnh trong một khoảng thời gian đang
xét.
Mô hình phù hợp với hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao
gồm việc phục hồi âm thanh là mô hình Autoregressive (viết tắt AR), được dùng làm mô hình
20
Chương 2 Kỹ thuật xử lý âm thanh
Mô hình AR đại diện cho các quá trình tuyến tính tĩnh, chấp nhận tín hiệu tương tự
nhiễu và tín hiệu tương tự điều hòa. Một mô hình khác phù hợp hơn đối với nhiều tình huống
phân tích là mô hình auto regressive moving-average (ARMA) cho phép các điểm cực cũng
như điểm 0. Tuy nhiên mô hình AR có tính linh động hơn trong phân tích hơn mô hình
ARMA, ví dụ một tín hiệu nhạc phức tạp cần mô hình có bậc P > 100 để biểu diễn dạng sóng
của tín hiệu, trong khi các tín hiệu đơn giản hơn chỉ cần biểu diễn bằng bậc 30. Trong nhiều
ứng dụng, việc lựa chọn bậc của mô hình phù hợp để đảm bảo việc biểu diễn tín hiệu để
không làm mất đi thông tin ban đầu là tương đối phức tạp. Có rất nhiều phương pháp dùng để
ước lượng bậc của mô hình AR như phương pháp trong các phương pháp dùng để giảm nhiễu.
Tín hiệu được cho bởi công thức (2.1.2):
Pn
⎛ nT ⎞
s[n] = ∑ ai [n]sin⎜⎜ ∫ ωi (t )dt + φi ⎟⎟ (2.1.2)
i =1 ⎝0 ⎠
Đây là mô hình tổng quát đối với các tín hiệu điều chế biên độ và điều chế tần số, tuy
nhiên lại không phù hợp để mô tả các thành phần nhiễu tương tự, mặc dù nhiễu có thể được
biểu diễn bởi số lượng hàm sin rất lớn.
2.1.1.7 Kiến trúc hệ thống số xử lý âm thanh
Để sử dụng máy tính trong xử lý âm thanh, người ta thường dùng phương pháp điều
chế xung (Pulse Code Modulation - PCM). Dạng sóng âm thanh được chuyển sang dãy số
PCM như sau, xét tín hiệu hình sin làm ví dụ:
Tín hiệu gốc là tín hiệu âm thanh lan truyền trong không khí như hình 2.1.8
lan truyền trong không khí
Tín hiệu âm thanh dịch
Air Displacement
Time
21
Chương 2 Kỹ thuật xử lý âm thanh
+1.0
+0.5
Voltage
0
-0.5
-1.0
Time
+32,767
Converter Output
+16,383
-16,384
-32,768
1 43
+32,767
Converter Output
+16,383
-16,384
-32,768
Time
Hình 2.1.11 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số
Kết quả của việc lấy mẫu và lượng tử được biến đổi thành một chuỗi gồm 43 chữ số
biểu diễn các mẫu của dạng sóng ứng thời gian (hình 2.1.12).
+32,767
Recorded Value
+16,383
-16,384
-32,768
1 43
Hình 2.1.12 Kết quả của việc lấy mẫu các giá trị
22
Chương 2 Kỹ thuật xử lý âm thanh
Tín hiệu số có thể được chuyển đổi ngược thành tín hiệu tương tự bằng việc kết nối
các điểm dữ liệu rời rạc lại với nhau. Dạng sóng kết quả được mô tả ở hình 2.1.13.
+32,767
Recorded V alue
+16,383
-16,384
-32,768
1 43
1
x ( n) = ∫
2πj C
X ( z ) z n−1dz (2.1.3b)
Biến đổi Z của x (n) được định nghĩa bởi biểu thức (2.1.3a). X (z ) còn được gọi là
dãy công suất vô hạn theo biến z −1 với các giá trị của x (n) chính là các hệ số của dãy công
suất. Miền hội tụ ROC là { z X (z ) < ∞ }, là những giá trị của z sao cho chuỗi hội tụ, hay
nói cách khác
∞
∑ x(n) z
n=−∞
−n
< ∞ (2.1.4)
23
Chương 2 Kỹ thuật xử lý âm thanh
n =0 1 − az −1
−1
1
Ví dụ: Cho x ( n) = −b n u ( − n − 1) . Then X ( z ) = ∑b z
n=−∞
n −n
=
1 − bz −1
, z <b
2. Dịch x ( n + n0 ) z n X ( z)
0
3. Hàm mũ a n x(n ) X ( a −1 z )
4. Hàm tuyến tính nx(n) dX ( z )
−z
dz
5. Đảo thời gian x(-n) X ( z −1 )
1 π
x ( n) = ∫ π X (e
jw
)e jwn dw (2.1.6b)
2π −
Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế
z = e . Như mô tả trong hình 2.1.14, trong mặt phẳng z, tần số w là góc quay. Điều kiện đủ
iw
24
Chương 2 Kỹ thuật xử lý âm thanh
2π
~ 1 N −1
~ j kn
x (k ) =
N
∑ X ( k )e N
k =0
(2.1.9b)
Chuỗi x(n) hữu hạn, có giá trị bằng 0 với 0 ≤ n ≤ N − 1, có phép biến đổi z là.
N −1
X ( z ) = ∑ x ( n) z − n (2.1.10)
n =0
Nếu chia X (z ) thành N điểm trên vòng tròn đơn vị, z k = e j 2πk N , k = 0,1,..., N − 1 , ta
có:
2π N −1 2π
j k −j kn
X (e N
) = ∑ x ( n )e N
, k = 0,1,..., N − 1 (2.1.11)
n=0
2π
j k
Ta nhận thấy rằng các mẫu X (e N ) từ phương trình (2.1.9a) và (2.1.11) chính là các
hệ số Fourier của chuỗi tuần hoàn ~
x (n) trong phương trình (2.1.12). Như vậy, một chuỗi có
chiều dài N có thể được biểu diễn bởi phép biến đổi Fourier rời rạc (DFT) như sau:
N −1 2π
−j kn
X ( k ) = ∑ x ( n)e N
, k = 0,1,..., N − 1 (2.1.13a)
n =0
25
Chương 2 Kỹ thuật xử lý âm thanh
2π
1 N −1 j kn
x (n) =
N
∑ X ( k )e
k =0
N
, n = 0,1,..., N − 1 (2.1.13b)
Điều khác biệt duy nhất giữa biểu thức (2.1.9a,b) và (2.1.13a,b) là ký hiệu ~ (loại bỏ
ký hiệu ~ khi nói đến tín hiệu không tuần hoàn) và giới hạn hữu hạn 0 ≤ k ≤ N − 1 và
0 ≤ n ≤ N − 1. Lưu ý một điều là chỉ dùng phép biến đổi DFT cho tín hiệu tuần hoàn có tính
chất là module của N .
∞
x( n ) = ∑ x( n + rN ) =
(2.1.14)
r =−∞
= ( x( n )) N
1 N −1
5. Nhân chuỗi x(n)w(n) ∑ X (r )W ((k − r )) N
N r =0
26
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.2.1 Cấu hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số
Để xác định quan hệ giữa phổ của tín hiệu liên tục và phổ của tín hiệu rời rạc tạo ra từ
quá trình lấy mẫu tín hiệu, liên tục đó, ta chú ý đến quan hệ giữa biến độc lập t và n của tín
hiệu xa (t ) và x (n)
n
t = nT = (2.2.2)
Fs
Định lý lấy mẫu: một tín hiệu liên tục có băng tần hữu hạn, có tần số cao nhất là B
Hertz có thể khôi phục từ các mẫu của nó với điều kiện tần số lấy mẫu Fs ≥ 2 B mẫu / giây
2.2.1.2 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục
Ta đã biết tín hiệu liên tục có năng lượng hữu hạn thì có phổ liên tục. Trong phần này,
ta sẽ xét quá trình lấy mẫu của các tín hiệu loại đó một cách tuần hoàn và sự tái tạo tín hiệu từ
các mẫu của phổ của chúng
Xét một tín hiệu liên tục xa (t ) với một phổ liên tục X a (F ) . Giả sử ta lấy mẫu
X a (F ) tại các thời điểm cách nhau ∂F Hertz. Ta muốn tái tạo X a (F ) hoặc xa (t ) từ các
mẫu X a (F )
Nếu tín hiệu tương tự xa (t ) có giới hạn thời gian là ℑ giây và Ts được chọn để
Ts > 2 ℑ thì aliasing không xảy ra và phổ X a (F ) có thể được khôi phục hoàn toàn từ các
mẫu.
2.2.1.3 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc
Xét một tín hiệu rời rạc không tuần hoàn x (n) có phép biến đổi Fourier:
∞
X (ω ) = ∑ x(n)e
n= −∞
− jωn
(2.2.3)
Giả sử ta lấy mẫu X (ω ) tuần hoàn tại các điểm cách nhau ∂ω rad. Vì X (ω ) tuần
hoàn với chu kỳ 2π , chỉ có các mẫu trong phạm vi tần số cơ bản là cần thiết. Để thuận tiện,
ta lấy N mẫu cách đều nhau trong khoảng 0 ≤ ω ≤ 2π theo khoảng cách ∂ω = 2π / N
⎛ 2π ⎞ ∞
Xét ω = 2πk / N , ta được X ⎜ k ⎟ = ∑ x ( n)e − j 2πkn / N k = 0,1,..., N − 1 (2.2.4)
⎝ N ⎠ n = −∞
∞
Xét tín hiệu x p (n) = ∑ x(n − lN )
l =−∞
nhận được bằng cách lặp lại tuần hoàn x (n) tại
mỗi N mẫu, tín hiệu này tuần hoàn với chu kỳ N , do đó có thể được triển khai theo khai
triển Fourier
1 N −1 2π
x p ( n) = ∑
N k =0
X ( k )e j 2πkn / N , n = 0,1,..., N − 1
N
(2.2.5)
Từ công thức x p (n) trên, ta nhận thấy có thể khôi phục tín hiệu x p (n) từ các mẫu của
27
Chương 2 Kỹ thuật xử lý âm thanh
phổ X (ω ) . Như vậy, ta phải tìm ra mối tương quan giữa x p (n) và x (n) để có thể thực hiện
khôi phục x (n) từ X (ω )
Vì x p (n) là sự mở rộng tuần hoàn của x (n) , nên x (n) có thể được khôi phục từ
x p (n) nếu không có aliasing ở cõi thời gian, nghĩa là nếu x (n) có thời gian giới hạn nhỏ hơn
hoặc bằng chu kỳ N của x p (n) .
2.2.1.4 Các chuẩn mã hóa âm thoại trong các hệ thống xử lý thoại
Chuẩn mã hóa âm thoại thông thường được nghiên cứu và phát triển bởi một nhóm
các chuyên gia đã giành hết thời gian và tâm huyết thực hiện các công việc kiểm nghiệm, mô
phỏng sao cho đảm bảo một tập các yêu cầu đưa ra đáp ứng được. Chỉ có các tổ chức với
nguồn tài nguyên khổng lồ mới có thể thực hiện được các công việc khó khăn này, thông
thường, thời gian tối thiểu cần thiết để hoàn thành một chuẩn trong trường hợp gặp nhiều
thuận lợi trong quá trình là khoảng bốn năm rưỡi.
Điều này không có nghĩa là một chuẩn được đưa ra thì “không có lỗi” hoặc không cần
phải cải tiến. Do đó, các chuẩn mới luôn luôn xuất hiện sao cho tốt hơn chuẩn cũ cũng như
phù hợp với các ứng dụng trong tương lai.
Hội đồng chuẩn là các tổ chức có trách nhiệm trong việc giám sát việc phát triển các
chuẩn cho một ứng dụng cụ thể nào đó. Sau đây là một số hội đồng chuẩn nổi tiếng được
nhiều nhà cung cấp sản phẩm tuân theo
¾ Liên minh viễn thông quốc tế - International Telecommunications Union (ITU): Các
chuẩn viễn thông của ITU ( chuẩn ITU-T) có uy tín trong việc định ra các chuẩn mã
hóa âm thoại cho hệ thống mạng điện thoại, bao gồm các mạng vô tuyến lẫn hữu
tuyến.
¾ Hiệp hội công nghiệp viễn thông - Telecommunications Industry Association (TIA):
có trách nhiệm ban hành các chuẩn mã hóa thoại cho các ứng dụng cụ thể, là một
thành viên của Viện tiêu chuẩn quốc gia Hoa Kỳ - National Standards Institute
(ANSI). TIA đã thành công trong việc phát triển các chuẩn sử dụng trong các hệ thống
tổng đài tế bào số Bắc Mỹ, bao gồm các hệ thống sử dụng chuẩn đa kết phân thời gian
- Time division multiple access (TDMA) và Đa truy nhập phân chia theo mã - Code
division multiple access (CDMA).
¾ Viện tiêu chuẩn viễn thông châu Âu - European Telecommunications Standards
Institute (ETSI): ETSI có các hội viên từ các nước cũng như các công ty Châu Âu, là
tổ chức đưa ra các chuẩn sản xuất thiết bị tại Châu Âu. ETSI được thành lập bởi nhóm
có ảnh hưởng nhất trong lãnh vực mã hóa âm thoại là nhóm di động đặc biệt - Groupe
Speciale Mobile (GSM), đã đưa ra rất nhiều chuẩn hữu dụng và được triển khai rất
nhiều trên thế giới
¾ Bộ quốc phòng Hoa Kỳ - United States Department of Defense (DoD). DoD có liên
quan đến việc sáng lập các chuẩn mã hóa thoại, được biết đến với các chuẩn liên bang
Hoa Kỳ (U.S. Federal) dùng nhiều cho các ứng dụng quân sự
¾ Trung tâm phát triển và nghiên cứu các hệ thống vô tuyến của Nhật Bản - Research
and Development Center for Radio Systems of Japan (RCR). Các chuẩn tế bào số
được phát hành bởi RCR.
28
Chương 2 Kỹ thuật xử lý âm thanh
29
Chương 2 Kỹ thuật xử lý âm thanh
30
Chương 2 Kỹ thuật xử lý âm thanh
Tín hiệu
âm thoại Phân tích và xử lý
ngõ vào
PCM
Chuỗi bit
Đóng gói
Âm thoại
tổng hợp
Kết hợp và xử lý
Đối với bộ mã hóa, tín hiệu âm thoại đầu vào được xử lý và phân tích nhằm thu được
các thông số đại diện cho một khung truyền. Các thông số ngày được mã hóa và lượng tử với
mã chỉ số nhị phân và được gửi đi như là một chuỗi bit đã được nén. Các chỉ số này được
đóng gói và biểu diễn thành chuỗi bit, chúng được sắp xếp thứ tự truyền dựa vào các thông số
đã quyết định trước và được truyền đến bộ giải mã.
31
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.2.5 Mô hình chung của bộ mã hóa âm thoại. Hình trên: bộ mã hóa, hình dưới:
bộ giải mã.
Bộ giải mã thực hiện việc phân tích chuỗi bit nhận được, các chỉ số nhị phân được
phục hồi sau quá trình phân tích và dùng để kết hợp với các thông số tương ứng của bộ giải
mã để có được các thông số đã được lượng tử. Các thông số giải mã này sẽ kết hợp với nhau
và được xử lý để tạo lại tín hiệu âm thoại tổng hợp.
2.2.1.7 Các yêu cầu cần có của một bộ mã hóa âm thoại
Mục tiêu chính của của mã hóa thoại là tối đa hóa chất lượng nghe tại một tốc độ bit
nào đó, hoặc tối thiểu hóa tốc độ bit ứng với một chất lượng đặc thù. Tốc độ bit tương ứng với
âm thoại nào sẽ được truyền hoặc lưu trữ phụ thuộc vào chi phí của việc truyền hay lưu trữ,
chi phí của mã hóa tín hiệu thoại số, và các yêu cầu về chất lượng của âm thoại đó. Trong hầu
hết các bộ mã hóa âm thoại, tín hiệu được xây dựng lại sẽ khác với tín hiệu nguyên thủy. Tốc
độ bit truyền bị giảm bởi việc biểu diễn tín hiệu âm thoại (hoặc các thông số trong mô hình
tạo âm thoại) với độ chính xác bị giảm, và bởi quá trình loại bỏ các thông tin dư thừa của tín
hiệu. Các yêu cầu lý tưởng của một bộ mã hóa thoại bao gồm:
¾ Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ lệ thuận với băng thông cần cho
truyền dữ liệu. Điều này dẫn đến nếu tốc độ bit thấp sẽ làm tăng hiệu suất của hệ
thống. Yêu cầu này lại xung đột với các các đặc tính khác của hệ thống, như là chất
32
Chương 2 Kỹ thuật xử lý âm thanh
lượng của âm thoại. Trong thực tế, việc đánh đổi giữa các lựa chọn phụ thuộc vào áp
dụng vào ứng dụng gì.
¾ Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có thể chấp nhận
được đối với ứng dụng cần đạt. Có rất nhiều khía cạnh về mặt chất lượng bao gồm tính
dễ hiểu, tự nhiên, dễ nghe và cũng như có thể nhận dạng người nói.
¾ Nhận dạng tiếng nói / ngôn ngữ khác nhau: kỹ thuật nhận dạng tiếng nói có thể phân
biệt được giọng nói của người lớn nam giới, người lớn nữ giới và trẻ con cũng như
nhận dạng được ngôn ngữ nói của người nói.
¾ Cường độ mạnh ở trong kênh truyền nhiễu: đây là yếu tố quan trọng đối với các hệ
thống truyền thông số với các nhiễu ảnh hưởng mạnh đến chất lượng của tính hiệu
thoại.
¾ Hiệu suất cao đối với các tín hiệu phi thoại (ví dụ như tín hiệu tone điện thoại): trong
hệ thống truyền dẫn kinh điển, các tín hiệu khác có thể tồn tại song song với tín hiệu
âm thoại. Các tín hiệu tone như là đa tần tone đôi – Dual tone multifrequency (DTMF)
của tín hiệu âm bàn phím và nhạc thông thường bị chèn vào trong đường truyền tín
hiệu. Ngay cả những bộ mã hóa thoại tốc độ thấp cũng có thể không thể tạo lại tín hiệu
một cách hoàn chỉnh.
¾ Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp: nhằm mục đích sử dụng được
bộ mã hóa âm thoại trong thực tế, chi phí thực hiện liên quan đến việc triển khai hệ
thống phải thấp, bao gồm cả việc bộ nhớ càn thiết để hỗ trợ khi hệ thống hoạt động
cũng như các yêu cầu tính toán. Các nhà nghiên cứu mã hóa âm thoại đã nổ lực trong
việc tìm kiếm hiện thực bài toán triển khai trong thực tiễn sao cho có hiệu quả nhất.
¾ Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và giải mã thoại, độ trễ tín hiệu luôn
luôn tồn tại, chính là thời gian trượt giữa âm thoại ngõ vào của bộ mã hóa với tín hiệu
ngõ ra của bộ giải mã. Việc trễ quá mức sẽ sinh ra nhiều vấn đề trong việc thực hiện
trao đổi tiếng nói hai chiều trong thời gian thực.
2.2.2 Các mô hình dùng trong xử lý âm thanh
2.2.2.1 Mô hình quang phổ
2.2.2.1.1 Mô hình sin
Tín hiệu âm thanh có thể được triển khai từ tập hợp các mô hình sin nếu như có có
dạng
I
y(t ) = ∑ Ai (t )e jφ ( t )
i
(2.2.6)
i =1
t
Với φ i (t ) = ∫ ω i (τ ) dτ , Ai (t ) và ω i (t ) là thành phần biên độ và tần số tương ứng của
−∞
thành phần sin thứ i . Trong thực tế, tín hiệu được xem xét là tín hiệu rời rạc thời gian thực,
như vậy ta có thể viết lại
I
y (n) = ∑ Ai (n) cos(φi (n )) (2.2.7)
i =1
33
Chương 2 Kỹ thuật xử lý âm thanh
nT
Với φ i ( n ) = ∫ ω i (τ ) dτ + φ 0 , i . (2.2.8)
0
Về cơ bản, nếu như I có giá trị vô cùng lớn, thì bất cứ tín hiệu âm thanh nào cũng có
thể được triển khai từ mô hình sin, phép tính gần đúng được áp dụng tính toán trong mô hình
này. Thực tế, tính hiệu nhiễu cũng được triển khai thành vô số các tín hiệu sin, và ta tách việc
xử lý riêng tín hiệu này thành phần xử lý Stochastic ( Λ ) được ký hiệu là e (n ) .
I
y ( n) = ∑ Ai ( n) cos(φi (n )) + e(n) (2.2.9)
i =0 Λ
Γ
Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử dụng lưu
đồ ở hình 2.2.6. Phương pháp này được ứng dụng trong các phần mềm sms, viết tắt của tổng
hợp mô hình phổ - spectral modeling synthesis.
Hình 2.2.6 Phân tích các thành phần hình sin của phần stochastic
Phát hiện đỉnh và ghép (Peak detection and continuation): để thực hiện việc phân
tích các thành phần hình sin từ tín hiệu thặng dư, ta phải tìm được và ghi chú lại các đỉnh tần
số nổi trội, tức là các thành phần hình sin nắm vai trò chính trong công thức phân tích được.
Một chiến thuật được sử dụng để thực hiện điều này là vẽ “bảng chỉ dẫn” trong các khung
STFT.
Để thực hiện việc phân chia phần nào là tín hiệu, phần nào là nhiễu, các tần số và pha
phải được xác định một cách chính xác. Ngoài ra, để quá trình tổng hợp lại hai tín hiệu đó
được đơn giản, biên độ của các thành phần nên được nội suy giữa các khung tín hiệu, và phép
nội suy tuyến tính thường được sử dụng. Các tần số cũng như pha của tín hiệu cũng có thể
được nội suy, tuy nhiên cần phải lưu ý là phép nội suy tần số có ảnh hưởng chặt chẽ đến phép
nội suy pha.
Tổng hợp lại các thành phần sin: Trong giai đoạn tổng hợp lại, các thành phần sin có
34
Chương 2 Kỹ thuật xử lý âm thanh
thể được tạo bởi bất kỳ phương pháp nào như máy tạo dao động số, máy tạo dao động bảng
sóng hoặc tổng hợp lấy mẫu bảng sóng, hoặc kỹ thuật dựa trên cơ sở FFT. Kỹ thuật FFT được
sử dụng nhiều do tính tiện lợi khi tín hiệu có nhiều thành phần hình sin.
Trích tín hiệu thặng dư (Extraction of the residual): Việc trích phổ của tín hiệu
nhiễu thặng dư có thể được thực hiện ở miền tần hoặc trực tiếp từ miền thời gian.
Sự hiệu chỉnh phổ thặng dư (Residual spectral fitting): thành phần stochastic được
mô hình hóa là tín hiệu nhiễu băng rộng, được lọc bởi khối đặc trưng tuyến tính. Phổ cường
độ của tín hiệu thặng dư có thể được xấp xỉ bằng giá trị trung bình của hàm piecewise-linear.
Việc tổng hợp trong miền thời gian có thể được thực hiện bằng phép đảo FFT, sau khi đã ấn
định được một tập cường độ mong muốn và một tập pha ngẫu nhiên.
Hiệu chỉnh âm thanh: mô hình sin là một mô hình hữu dụng vì nó cho phép áp dụng
việc truyền các âm thanh nhạc lấy từ việc ghi băng thực tế. Hình 2.2.7 mô tả một các bước
thực hịên cho việc hiệu chỉnh tín hiệu âm nhạc
Hình 2.2.7 Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc
2.2.2.1.2 Tín hiệu sin + nhiễu + nốt đệm
Trong mô hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp của nhiều
tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh. Khi đó, một thành
phần của âm thanh không được xem xét đến, đó là nốt đệm. Việc hiệu chỉnh âm thanh có thể
được thực hiện dễ dàng bằng cách tách riêng thành phần nốt đệm để xét riêng. Thực tế, hầu
hết các dụng cụ âm nhạc mở rộng trường độ của một nốt nhạc không làm ảnh hưởng đến chất
lượng xử lý.
Với lý do này, một mô hình mới là sin + nhiễu + nốt đệm (SNT) được phát họa dùng
trong việc phân tích âm thanh. Ý tưởng chính của việc trích âm đệm trong thực tế từ việc
quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền tần thành các
đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền thời gian khi được
ánh xạ qua miền tần lại có dạng hình sin. Như vậy, mô hình sin có thể được ứng dụng trong
miền tần số biểu diễn các tín hiệu hình sin. Sơ đồ khối mô tả quá trình phân tích SNT được
biểu diễn trên hình 2.2.8.
35
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.2.8 Phân tích tín hiệu âm thanh theo mô hình sin + nhiễu + nốt đệm
Khối DCT trong hình 2.2.8 mô tả hoạt động của phép rời rạc cosin.
Phép biến đổi, được định nghĩa như sau:
N −1
⎛ (2n + 1)kπ ⎞
C (k ) = α ∑ x(n) cos⎜ ⎟ (2.2.10)
n =0 ⎝ 2N ⎠
Phép biến đổi DCT thực hiện việc một xung được biến đổi thành dạng cosin và ngược
lại.
2.2.2.1.3 Mô hình LPC
Mã hóa dự đoán tuyến tính có thể được sử dụng để mô hình phổ tĩnh. Tổng hợp LPC
được mô tả trong lưu đồ trong hình 2.2.9. Về bản chất, mô hình chính là giải thuật trừ tổng
hợp thực hiện một tín hiệu có phổ “đặc” được lọc bởi một bộ lọc cực. Tín hiệu kích thích có
thể sử dụng chính tín hiệu thặng dư e có được qua quá trình phân tích, hoặc có thể sử dụng
các thông tin của tín hiệu thoại/phi thoại.
a1 ,…, a p
36
Chương 2 Kỹ thuật xử lý âm thanh
e jω 0 ( n +1)
= e j ω e jω n
0 0
(2.2.11)
Với e jω0n = xR ( n) + jxI (n) ở dạng số phức, mỗi bước nhảy thời gian được định nghĩa
như sau:
x R ( n + 1) = cos ω0 x R ( n) − sin ω0 x I ( n ) (2.2.12)
xI ( n + 1) = sin ω0 xR ( n ) + cos ω0 xI ( n ) (2.2.13)
Thông số biên độ và pha ban đầu có thể tính dựa theo pha ban đầu e jω0 0 và thực hiện
việc lệch pha vào số mũ. Tín hiệu xR ( n + 1) có thể được tính theo công thức sau:
xR ( n + 1) = 2 cos ω0 x R ( n ) − x R ( n − 1) (2.2.14)
Đáp ứng xung của bộ lọc như sau:
1 1
H R ( z) = =
1 − 2 cos ω0 z + z
−1 −2
(1 − e − jω0 z −1
)(1 − e )
jω0 z −1
(2.2.15)
Giá trị cực của bộ lọc biểu thức 10 nằm trên chu vi đường tròn đơn vị.
Gọi xR1 , xR 2 là hai biến trạng thái của hai mẫu trứoc đó của tín hiệu ngõ ra x R , pha
ban đầu φ0 có thể được tính theo hệ phương trình sau:
x R1 = sin (φ0 − ω 0 ) (2.2.16)
x R 2 = sin (φ0 − 2ω0 ) (2.2.17)
Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu đối với
các bộ vi xử lý đa mục đích, khi các phép toán trên dấu chấm động được triển khai. Tuy
nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi:
Việc cập nhật thông số yêu cầu tính toán trên hàm cosin. Đây là một điều khó đối
với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng mẫu
trong miền thời gian
Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin. Khi đó
bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này.
2.2.2.2.2 Máy tạo dao động bảng sóng
Phương pháp thông dụng nhất dùng để tổng hợp các dạng sóng có chu kỳ (bao gồm tín
hiệu dạng sin) thực hiện quá trình đọc lặp đi lặp lại một bảng chứa nội dung của một dạng
sóng đã được lưu trữ trước. Ví dụ: nếu dạng sóng cần được tổng hợp ở dạng sin, đối xứng thì
chỉ cần lưu trữ lưu trữ ¼ chu kỳ, sau đó sử dụng phép tính toán để nội suy cho toàn bộ chu kỳ.
Đặt buf [ ] là bộ đệm có nội dung chứa là chu kỳ của dạng sóng, hoặc bảng dạng
sóng. Máy tạo dao động dạng sóng hoạt động lặp lại theo chu kỳ quét bảng dạng sóng là bội
số của gia số I và đọc nội dung của bảng dạng sóng tại vị trí đó.
Gọi B là chiều dài của bộ đệm, f 0 là tần số mà ta muốn tạo tần số lấy mẫu Fs , khi đó
giá trị của gia số I là:
Bf 0
I= (2.2.18)
Fs
37
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
nh 2.2.11 Ví
Hìn l mẫu với L / M = 3 / 2
V dụ về thayy đổi tần số lấy
2
2.2.2.2.3 Tổn
ng hợp lấy m
mẫu bảng sóng
Tổng hợp lấy
l mẫu bảnng sóng là phhần mở rộng của máy daao động bảngg sóng đối vớ
ới
• Dạng sóng
g phân tích không
k phải dạng sin
• Bảng dạng
g sóng được lưu trữ với nnhiều chu kỳỳ
Các tín hiệệu điều khiểnn rất quan trọọng trong việc nhận đượ
ợc âm thanh tự nhiên
2
2.2.2.2.4 Tổ
ổng hợp hạt (với Giovanni De Poli)
Các bảng sóng ngắn có v kết quả là âm
c thể được đọc với nhiều tốc độ kkhác nhau, và
Chương 2 Kỹ thuật xử lý âm thanh
điệu có thể chồng chéo vào nhau trong miền thời gian. Trong phương pháp miền thời gian,
việc tổng hợp âm thanh này được gọi là tổng hợp hạt. Tổng hợp hạt bắt đầu từ ý tưởng việc
phân tích âm thanh trong miền thời gian được thay thế bằng biểu diễn chúng thành một chuỗi
các thành phần ngắn được gọi là “hạt”. Các thông số của kỹ thuật này là các dạng sóng của
hạt thứ g k (⋅) , vị trí trong miền thời gian lk và biên độ a k
s g ( n ) = ∑ ak g k ( n − lk ) (2.2.19)
k
Khi số lượng “hạt” lớn, thì việc tính toán sẽ trở nên phức tạp. Tính chất của các hạt và
các vị trí trong miền thời gian quyết định âm sắc của âm thanh. Việc lựa chọn các thông số
tùy thuộc vào các tiêu chuẩn đưa ra bởi các mô hình thể hiện. Việc lựa chọn các mô hình biểu
diễn liên quan đến các quá trình hoạt động mà các quá trình này có thể ảnh hưởng đến âm
thanh nào đó theo nhiều cách khác nhau.
Loại cơ bản và quan trọng nhất của tổng hợp hạt (tổng hợp hạt bất đồng bộ) là phân
phối các hạt không theo quy luật trong miền tần số -thời gian. Dạng sóng hạt có dạng
g k (i ) = ω d (i ) cos (2πf k Ts i ) (2.2.20)
Với ω d (i ) là cửa số có chiều dài là d mẫu, dùng để điều khiển nhịp thời gian và băng
tần phổ f k .
2.2.2.3 Các mô hình phi tuyến
2.2.2.3.1 Điều pha và điều tần
Kỹ thuật tổng hợp phi tuyến thông dụng nhất là điều tần (FM). Trong liên lạc thông
tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong giải thuật tổng
hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên John Chowning. Về bản
chất, Chowning đã thực hiện các nghiên cứu trên các phạm vi khác nhau của việc tạo tiếng
rung bằng các bộ tạo dao động đơn giản, và thu được kết quả là các tần số rung nhanh sẽ tạo
ra các thay đổi đầy kịch tính. Như vậy, điều chế tần số của một máy tạo dao động cũng đủ tạo
ra tín hiệu âm thanh có phổ phức tạp. Mô hình FM của Chowning như sau:
x ( n) = A sin (ω c n + I sin (ω m n )) = A sin (ω c n + φ (n )) (2.2.21)
Với ω c là tần số sóng mang và ω m là tần số điều chế, I là chỉ số điều chế. Phương
trình (2.2.21) thực tế cũng là phương trình điều pha. Tần số tức thời của phương trình
(2.2.21)
ω ( n) = ω c − Iω m cos (ω m n ) (2.2.22)
Hoặc:
f ( n ) = f c − If m cos( 2πf m n ) (2.2.23)
Hình 2.2.12 mô tả việc triển khai pd của giải thuật FM đơn giản. Tần số điều chế
được dùng để điều khiển trực tiếp bộ tạo dao động, trong khi tần số sóng mang dùng để điều
khiển bộ tạo pha đơn vị, tạo pha theo chu kỳ. Với tần số sóng mang, tần số điều chế và chỉ số
điều chế cho trước, ta có thể dễ dàng dự đoán các thành phần ở phổ tần số của âm thanh kết
quả.
39
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.2.12 Phần triển khai phân phối pd của điều pha.
Việc phân tích dựa trên đặc tính lượng giác
x(n) = A sin (ωc n + I sin (ωm n ))
⎧ ⎫
(2.2.24)
⎪
[ ] ⎪
∞
= A⎨ J 0 ( I ) sin(ωc n) + ∑ J k ( I ) sin ((ωc + kωm )n ) + (− 1) sin ((ωc − kωm )n ) ⎬
k
⎪ carrier
k =1 ⎪
⎩ side− frequencies ⎭
Với J k (I ) là bậc thứ k của hàm Bessel. Các hàm Bessel được vẽ trên hình 2.2.13
ứng với nhiều giá trị k trên trục số lượng side-frequencies và giá trị I trên trục chỉ số điều
chế.
40
Chương 2 Kỹ thuật xử lý âm thanh
này cho phép thiết kế một bảng méo cho bởi các đặc điểm kỹ thuật của một phổ mong muốn.
Nếu bộ tạo dao động có dạng tín hiệu sin, ta có thể tính toán NLD như sau
x ( n) = A cos(ω 0 n) (2.2.26)
y ( n ) = F ( x (n )) (2.2.27)
Với hàm số phi tuyến, dùng đa thức Chebyshev. Đa thức Chebyshev cấp độ n được
định nghĩa đệ quy như sau:
T0 ( x ) = 1 (2.2.28)
T1 ( x ) = x (2.2.29)
Tn ( x ) = 2 xTn−1 ( x ) − Tn−2 ( x ) , (2.2.30)
và có tính chất:
Tn (cos θ ) = cos nθ (2.2.31)
Như vậy, với tính chất (2.2.31), nếu hàm méo phi tuyến là đa thức Chebyshev cấp độ
m , giá trị ngõ ra y có được bằng cách sử dụng bộ dao động sin x ( n) = cos ω0 n , như vậy
y ( n ) = cos (mω 0 n ) là hài bậc m của x .
Phổ của y(n) với:
y ( n ) = ∑ hk cos( kω 0 n ) (2.2.32)
k
là:
F ( x ) = ∑ hk Tk ( x ) (2.2.33)
k
Ngoài các mô hình trên, các mô hình vật lý cũng được áp dụng trong việc tổng hợp, xử
lý âm thanh như mạch dao động vật lý, mạch dao động đôi và mạch phân phối cộng hưởng
một chiều.
41
Chương 2 Kỹ thuật xử lý âm thanh
42
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.2.15 (a) Lấy mẫu đơn vị, (b) đơn vị bước, (c) hàm mũ thực và (d) hàm sin suy
giảm
Hình 2.2.16 Sơ đồ khối (a) hệ thống đơn ngõ vào/đơn ngõ ra; (b) hệ thống đơn ngõ
vào/đa ngõ ra
Khi hệ thống gồm nhiều ngõ ra, tín hiệu chuỗi ngõ ra sẽ được biểu diễn bằng một
vector được mô tả như ở hình 2.2.16.
Hệ thống tuyến tính dịch bất biến là hệ thống đặc biệt hữu dụng cho việc xử lý tín hiệu
âm thoại. Hệ thống được đặc trưng bởi đáp ứng xung, h(n) , khi đó tín hiệu ngõ ra được tính
bởi công thức
∞
y ( n) = ∑ x ( k ) h( n − k ) = x ( n) * h( n)
k = −∞
(2.2.38a)
43
Chương 2 Kỹ thuật xử lý âm thanh
∞
y ( n) = ∑ h(k ) x(n − k ) = h(n) * x(n)
k = −∞
(2.2.38b)
Với ai là các ước lượng của các thông số AR được xem là các hệ số dự đoán tuyến
44
Chương 2 Kỹ thuật xử lý âm thanh
tính (LPC). Hằng số M trong công thức là bậc dự đoán. Như vậy, việc dự đoán dự trên tổ hợp
tuyến tính của M mẫu trong quá khứ của tín hiệu, chính vì thế việc dự đoán mang tính tuyến
tính. Lỗi dự đoán được tính bằng công thức:
e[ n ] = s[ n ] − sˆ[ n ] (2.3.2)
Hình 2.3.1 Hệ thống nhận dạng dưới dạng dự đoán tuyến tính
45
Chương 2 Kỹ thuật xử lý âm thanh
∂J ⎧⎛ M
⎞ ⎫
= 2 E ⎨⎜ s[ n] + ∑ ai s[ n − i ] ⎟ s[ n − k ]⎬ = 0 (2.3.4)
∂ak ⎩⎝ i =1 ⎠ ⎭
Với k = 1, 2,..., M , khi (2.3.4) xảy ra thì a i = â i , lúc này LPC chính bằng các thông số
AR.
Độ lợi dự đoán
Độ lợi dự đoán của bộ dự đoán được cho bởi công thức
⎛σ 2 ⎞ ⎛ E{s 2 [n]}⎞
PG = 10 log10 ⎜⎜ s2 ⎟⎟ = 10 log10 ⎜⎜ ⎟⎟ (2.3.5)
⎝σe ⎠ ⎝ E{e [n]}⎠
2
Là tỉ số giữa biến tín hiệu ngõ vào và biến của lỗi dự đoán theo đơn vị decibels (dB).
Độ lợi dự đoán là thông số đo lường chất lượng của bộ dự đoán. Một bộ dự đoán tốt hơn có
khả năng tạo ra lỗi dự đoán nhỏ hơn với độ lợi cao hơn.
Tối thiểu hóa bình phương trung bình lỗi dự đoán
Từ hình 2.3.2, ta có thể nhận xét khi a i = aˆ i , thì e[n] = x[n] ; như vậy lỗi dự đoán
tương tự như dùng tín hiệu nhiễu trắng để tạo ra tín hiệu AR s[n] . Đây là trường hợp tối ưu
khi lỗi bình phương trung bình được tối thiểu hóa, với
J min = E {e 2 [ n]} = E {x 2 [ n]} = σ x2 (2.3.6)
Khi đó, độ lợi dự đoán đạt giá trị lớn nhất.
Điều kiện tối ưu có thể đạt được khi bậc của bộ dự đoán lớn hơn hoặc bằng bậc của
quá trình tổng hợp AR. Trong thực tế, M thường là số chưa biết trước. Một phương pháp đơn
giản để có thể ước lượng được giá trị M từ tín hiệu nguồn là vẽ biểu đồ độ lợi dự đoán như là
một hàm của bậc dự đoán. Với phương pháp này, ta có thể quyết định được bậc của dự đoán
ứng với độ lợi bão hòa, khi đó khi tăng bậc dự đoán thì độ lợi không tăng. Giá trị của bậc dự
đoán tại điểm thỏa điều kiện bão hòa này được xem là giá trị ước lượng tốt nhất cho bậc của
tín hiệu AR.
Sau khi đã xác định được giá trị M, hàm chi phí J đạt giá trị tối thiểu khi ai = aˆ i , dẫn
đến e[n] = x[n] . Và khi đó, lỗi dự đoán sẽ bằng với giá trị tín hiệu đầu vào của bộ tổng hợp
quá trình AR.
2.3.1.2 Phân tích dự đoán tuyến tính cho tín hiệu động
Tín hiệu thoại trong thực tế là tín hiệu động, nên LPC phải được tính ứng với từng
khung tín hiệu. Trong một khung tín hiệu, một tập LPC được tính toán và dùng để đại diện
cho các thuộc tính của tín hiệu trong một chu kỳ cụ thể, với giả định rằng số liệu thống kê của
tín hiệu vẫn không thay đổi trong một khung. Quá trình tính toán LPC từ dữ liệu tín hiệu được
gọi là phân tích dự đoán tuyến tính.
Bài toán dự đoán tuyến tính cho tín hiệu động được phát biểu lại như sau: đây là bài
toán thực hiện việc tính các giá trị LPC ứng với N điểm dữ liệu với thời gian kết thúc là m :
s[m − N + 1] , s[m − N + 2] , …, s[m] . Vector LPC được viết như sau:
a[m ] = [a1 [m] a2 [m] a M [m ]]
T
... (2.3.7)
46
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
V M là bậc dự đoán
Với
Đ lợi dự đooán
Độ
Độ lợi dự đoán
đ của bộ dự đoán được cho bởi công
c thức
⎛ m 2 ⎞
⎜ ∑ s [n ] ⎟
PG[m] = 10 log10 ⎜ n = mm− N +1 ⎟ (22.3.8)
⎜ ⎟
⎜ ∑ e [n ] ⎟
2
⎝ n = m − N +1 ⎠
V
Với
^ M
e[n] = s[n] − s[n] = s[n] + ∑ ai [m]s[n − i ] ; n = m − N + 1 , …,
… m (22.3.9)
i =1
a6 = −0.061
1 a7 = −0.172 a8 = −0.156 a9 = −0.157 a10 = −0.14
Khung tổn
ng hợp của tín t hiệu AR được dùng cho phân tícch LP, với tổng
t cộng làà 240
mẫu. Ước
Ư lượng tự t động tươnng quan khôông hồi qui sửs dụng cửaa sổ Hammin ng. Phân tích LP
được thực
t hiện vớ
ới bậc từ 2 đến 20. Hình 2.3.3 tóm tắt
t kết quả, vvới độ lợi dự
ự đoán đượcc tính
c nhất tại M = 10 . Cáác bậc lớn hơ
toán tạại M = 2 vàà đạt giá trị cao ơn 10 khôngg cho được đđộ lợi
cao hơ n ta có thểể chỉ cần xétt đến M = 10 .
ơn nữa, cho nên
Hình 2.3.3
3 Độ lợi dự đoán (PG) llà một hàm theo
t biến bậcc dự đoán M
Chương 2 Kỹ thuật xử lý âm thanh
Với
48
Chương 2 Kỹ thuật xử lý âm thanh
l
ai(l ) = LPC của bộ dự đoán bậc thứ l
Định lý:
ε ( l ) [k ] ≤ R[0] (2.3.11)
Sinh viên có thể tự chứng minh
Bảng 2.3.1 mô tả các thông số ε cần thiết ứng với mỗi bậc l trong giải thuật Leroux-
Gueguen
Bảng 2.3.1
M
M −1 ε ( M −1) [0], ε ( M −1) [M ]
M −2 ε ( M − 2 ) [− 1], ε ( M − 2 ) [0], ε ( M − 2 ) [M − 1], ε ( M − 2 ) [M ]
M −3 ε ( M −3) [− 2],… , ε ( M −3) [0], ε ( M −3) [M − 2],… , ε ( M −3) [M ]
M −4 ε ( M −4 ) [− 3],… , ε ( M −4 ) [0], ε ( M −4 ) [M − 3],… , ε ( M −4 ) [M ]
49
Chương 2 Kỹ thuật xử lý âm thanh
do số lượng tính toán. Ngoài ra, đối với trường hợp thời gian biến đổi, các hệ số được cập
nhật từ khung thời gian này đến khung thời gian khác sẽ làm cho việc tính toán càng phức tạp
hơn đối với cấu trúc lưới. Ngoài ra, phương pháp Leroux-Gueguen sử dụng biến đổi RC-sang-
LPC không cung cấp việc lưu trữ lại các bước tính toán quan trọng so với giải thuật Levinson-
Durbin. Tất cả các điều trên làm cho giải thuật Levinson-Durbin thông dụng hơn trong thực
tiễn, đặc biệt là đối với các bài toán số.
Trong các bài toán ứng dụng thực tế, giải thuật Levison-Durbin dùng trong điều kiện
dấu chấm tĩnh phải được cân nhắc kỹ sao cho đảm bảo các biến phải nằm trong tầm vực cho
phép.
2.3.2 Dự đoán tuyến tính trong xử lý thoại
Đối với việc đơn giản hóa mô hình xử lý thoại, giải thuật dự đoán tuyến tính (LPC) là
một trong những giải thuật áp dụng tạo các bộ mã hóa chuẩn cho việc xử lý âm hoạt động ở
tần số thấp. Ở tốc độ 2.4kbps, bộ mã hóa FS1015 LPC [Hãng Tremain, 1982] là một bước tiến
vượt bật trong ngành xử lý âm thanh; mặc dù chất lượng của âm thanh được giải mã không
cao, nhưng hệ thống giải mã đơn giản và dễ hiểu. Thuật ngữ “mã hóa dự đoán tuyến tính”
xuất hiện từ khi việc tạo ra âm thanh thoại sử dụng bất kỳ giải thuật ứng dụng mô hình LPC,
trong đó chuẩn FS1015 là chuẩn điển hình.
Ban đầu, trong việc phát triển cho việc truyền thông bảo mật thuộc các ứng dụng quân
sự, bộ mã hóa FS1015 được đặc trưng bởi tín hiệu thoại mã tổng hợp ngõ ra thường cần đến
các nhân viên vận hành tổng đài đã được huấn luyện sử dụng. Mặc dù hầu hết các bộ mã hóa
thoại dựa vào công nghệ LP đạt được hiệu suất cao hơn ngày nay, nhưng về cơ bản, hoạt động
của chúng là có nguồn gốc từ LPC, việc cải tiến nhằm mục đích đạt được chất lượng tốt hơn
và hiệu suất mã hóa tối ưu hơn.
2.3.2.1 Mô hình xử lý tín hiệu thoại
Mô hình xử lý thoại dựa vào mô hình mã hóa dự đoán tuyến tính được mô tả trong
hình 2.3.4. Mô hình được dựng dựa vào việc quan sát các đặc tính cơ bản của tín hiệu thoại và
bắt chước kỹ thuật tạo âm thanh thoại của người. Bộ lọc tổng hợp được mô phỏng theo sự
phát âm, khẩu âm của miệng người. Tín hiệu lái ngõ vào của bộ lọc hoặc tín hiệu kích thích
mạch được mô phỏng theo dạng xung truyền động (âm thanh thoại) hoặc là nhiễu ngẫu nhiên
(âm thanh phi thoại). Như vậy, phụ thuộc vào trạng thái âm thanh thoại hay phi thoại của tín
hiệu, mạch chuyển được thiết lập ở vị trí thích hợp sao cho ngõ vào tương ứng sẽ được chọn
đưa vào mạch. Mức năng lượng của tín hiệu ngõ ra được điều khiển bởi thông số độ lợi.
Làm cách nào mô hình phù hợp với ngữ cảnh của mã hóa âm thoại? Xét các mẫu thoại
một cách riêng lẻ ứng với từng khung tín hiệu không chồng lên nhau. Ứng với từng đoạn
khung đủ ngắn, thuộc tính của tín hiệu về cơ bản là hằng số. Trong mỗi khung, các thông số
của mô hình được ước lượng từ các mẫu thoại, các thông số bao gồm:
Dạng: tín hiệu thuộc khung là thoại hay phi thoại
Độ lợi: liên quan chủ yếu đến mức năng lượng của khung
Hệ số lọc: định rõ đáp ứng của bộ lọc tổng hợp
Chu kỳ âm thanh: trong trường hợp đối với khung thoại, là chiều dài thời gian giữa
các xung kích thích liên tiếp nhau.
50
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
Khóa
trruyền âm/
cách âm
Chu kỳ Bộ tạo
cường độ chuỗi xunng Bộ lọc
Âm thoạii
ttổng hợp
Bộ tạo Các hệ số
C
T
Truyền âm Độ lợi
nhiễu trắnng bộ lọc
Hìn
nh 2.3.5 Hìình vẽ các cáác khung phii thoại
Hình 2.3.55 mô tả mộột khung tínn hiệu phi thhoại có 1800 mẫu (sử dụngd bộ mãã hóa
FS10115). Các mẫu u nguyên thủủy được xử phân tích LP qua quá trrình tổng hợ ợp LPC dùngg cho
ổng hợp âm thoại dựa trrên mô hình hình 2.3.4. Tín hiệu củaa tín hiệu ngguyên thủy và
việc tổ v tín
hiệu sau khi tổng hợp tương đối
đ giống nhhau do mật độđ phổ côngg suất có dạn ng tương đư
ương,
được mô
m tả trong hình
h 2.3.6.
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
Trường hợp tín hiệu là âm thoại, T là chu kỳ lớn nhất của tín hiệu thành phần
[ N T ]T −1
1
p=
[N T ]T ∑ e [n ]
n =0
2
(2.3.13)
Với [⋅] là hàm tính giá trị nhỏ hơn hoặc bằng với toán hạng. Giả sử rằng N > T thì việc
dùng [⋅] luôn đảm bảo rằng việc tính toán luôn nằm trong vùng biên của khung.
53
Chương 2 Kỹ thuật xử lý âm thanh
2.3.2.2.3 Bộ giải mã
Khối unpack
Chuỗi bit
Chỉ số chu kỳ Chỉ số Chỉ số
cường độ công suất LPC
Bộ giãi mã chu Bộ giải mã Bộ giãi mã
kỳ cường độ công suất LPC
Tiếng nói
tổng hợp Khối
De-emphasis
54
Chương 2 Kỹ thuật xử lý âm thanh
dịch vụ cơ bản này. Do đó, việc đánh giá các chỉ tiêu chất lượng chất lượng thoại có vai trò rất
quan trọng. Các phương thức đánh giá chất lượng thoại đã được nhiều tổ chức viễn thông
(như ITU,ETSI...) nghiên cứu, xây dựng. Trong phần này trình bày một số phương pháp đánh
giá chất lượng thoại, đặc biệt là cho mạng viễn thông (cố định, di động).
Việc đánh giá chất lượng thoại có vai trò rất quan trọng đối với các nhà khai thác
mạng thông tin di động và cố định. Vì thoại là dịch vụ thông tin cơ bản cho nên việc đảm bảo
cung cấp dịch vụ này với chất lượng ổn định là một yếu tố cạnh tranh của các nhà khai thác
mạng.
Phương pháp đánh giá chất lượng thoại đã được nhiều tổ chức tiêu chuẩn như ITU-T,
ETSI, 3GPP thực hiện chuẩn hóa. Giáo trình phân tích bản chất của một số phương pháp đánh
giá chất lượng thoại cơ bản: phương pháp đánh giá theo thang điểm MOS (Mean Opinion
Score) dựa trên khuyến nghị ITU-T P.800, các phương pháp đánh giá dựa trên mô hình giác
quan PSQM (Perceptual Speech Quality Measurement) theo khuyến nghị ITU-T P.861, PESQ
(Perceptual Evaluation of Speech Quality) theo khuyến nghị ITU-T P.862 và phương pháp
dựa trên mô hình đánh giá truyền dẫn E-model theo tiêu chuẩn ETR 250 của ETSI. Các
phương pháp này được so sánh về ưu nhược điểm và phạm vi ứng dụng.
2.4.2 Các tham số liên quan đến chất lượng thoại
Các tham số truyền dẫn cơ bản liên quan đến chất lượng thoại là:
Tham số đánh giá cường độ âm lượng/tổn hao tổng thể (OLR-Overall Loudness
Rating): OLR của hệ thống phải không được vượt quá giới hạn được định nghĩa trong
khuyến nghị G.111 của ITU-T. Các giá trị đánh giá tổn hao phía phát và thu (SLR và
RLR) đối với hệ thống GSM được đánh giá cho đến giao diện POI. Tuy nhiên, tham
số ảnh hưởng chính là đặc tính của MS gồm cả bộ chuyển đổi tương tự - số (ADC) và
số tương tự (DAC). Do vậy, thông thường, người ta đánh giá OLR của giao diện vô
tuyến.
Trễ: thời gian truyền dẫn tín hiệu giữa hai đầu cuối gây ra những khó khăn trong việc
hội thoại. Trễ bao gồm: trễ chuyển mã thoại, trễ mã hóa kênh, trễ mạng và trễ xử lý tín
hiệu thoại để loại bỏ tiếng vọng và giảm nhiễu ở chế độ Handsfree.
Tiếng vọng (echo).
Cắt ngưỡng (clipping): là hiện tượng mất phần đầu hoặc phần cuối của cụm tín hiệu
thoại.
Các tính chất liên quan đến độ nhạy tần số.
Xuyên âm (sidetone loss).
Nhiễu nền...
2.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản
Việc đánh giá chất lượng thoại trong mạng GSM cũng như các hệ thống thông tin
khác (cố định và vô tuyến) có thể được thực hiện bằng cách đánh giá các tham số truyền dẫn
có ảnh hưởng đến chất lượng thoại và xác định tác động của các tham số này đối với chất
lượng tổng thể. Tuy nhiên, việc đánh giá từng tham số rất phức tạp và tốn kém. Hiện nay, việc
đánh giá chất lượng thoại được dựa trên một tham số chất lượng tổng thể là MOS (Mean
Opinion Score). Những phương pháp sử dụng MOS đều mang tính chất chủ quan do chúng
55
Chương 2 Kỹ thuật xử lý âm thanh
phụ thuộc vào quan điểm của người sử dụng dịch vụ. Tuy vậy, chúng ta có thể phân chia các
phương pháp đánh giá chất lượng thoại ra làm hai loại cơ bản:
Các phương pháp đánh giá chủ quan: việc đánh giá theo quan điểm của người sử dụng
về mức chất lượng được thực hiện trong thời gian thực. Phương pháp này được quy
định trong khuyến nghị ITU-T P.800.
Các phương pháp đánh giá khách quan: sử dụng một số mô hình để ước lượng mức
chất lượng theo thang điểm MOS.
Phương pháp đánh giá khách quan có thể được phân thành:
a) Các phương pháp so sánh: dựa trên việc so sánh tín hiệu thoại truyền dẫn
với một tín hiệu chuẩn đã biết.
b) Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt đối
chất lượng tín hiệu thoại (phương pháp này không sử dụng các tín hiệu chuẩn đã biết);
vd: INMD (sử dụng trong khuyến nghị P.561 của ITU-T).
c) Các mô hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất
lượng thoại mong muốn dựa trên những hiểu biết về mạng; vd: mô hình ETSI Model.
Trên thực tế, các thiết bị đo có thể sử dụng kết hợp nhiều phương pháp đánh giá chất
lượng thoại. Tuy vậy, trong các phương pháp này thì phương pháp so sánh (hay còn gọi là
intrusive methods) có kết quả đánh giá chính xác nhất. Các phương pháp đánh giá các cũng có
thể được sử dụng cho một số ứng dụng đặc thù.
Hình 2.4.1 Phân loại các phương pháp đánh giá chất lượng thoại: a) Các phương pháp
so sánh, b) Các phương pháp ước lượng tuyệt đối, c) Các mô hình đánh giá truyền dẫn
56
Chương 2 Kỹ thuật xử lý âm thanh
57
Chương 2 Kỹ thuật xử lý âm thanh
Hiển nhiên, các phương thức cho điểm theo MOS có một số nhược điểm như sau:
Phương thức này mang tính chất chủ quan vì kết quả phụ thuộc vào nhiều yếu tố không
thể kiểm soát của chủ thể như: trạng thái tâm lý, thái độ đối với bài kiểm tra và trình độ
văn hóa. Trên thực tế, phương thức đánh giá chất lượng thoại theo thang điểm MOS
không phải là phương thức nhất quán.
Phương thức này rất tốn kém, đòi hỏi nhiều người tham gia và thiết lập phức tạp.
Khi cần thực hiện đo thường xuyên các tham số chất lượng thì việc sử dụng phương
pháp đánh giá chất lượng này là không thực tế.
Những hạn chế của phương pháp đánh giá chất lượng thoại dựa trên MOS cho thấy
cần có một phương thức đánh giá khách quan, phương pháp này có thể thực hiện một cách tự
động để đánh giá chất lượng thoại.
2.4.3.2 Các phương pháp so sánh dựa trên mô hình giác quan
2.4.3.2.1 Phương pháp PSQM
PSQM là kỹ thuật đánh giá chất lượng thoại được phát triển bởi John G. Beerends và
J. A. Stemerdink thuộc Trung tâm nghiên cứu KPN ở Hà Lan. Trong khoảng từ 1993-1996,
nhiều kỹ thuật đánh giá chất lượng thoại đã được ITU so sánh để xác định kỹ thuật có độ
chính cao nhất (ước lượng gần nhất với phương pháp đánh giá chủ quan). Theo ITU, PSQM
là kỹ thuật đánh giá chất lượng thoại có tương quan lớn nhất với các kết quả theo phương
pháp đánh giá chủ quan. PSQM sau đó đã được ITU-T Study Group 12 thông qua và đã được
công bố trong khuyến nghị P.861 năm 1996. Kỹ thuật này đã được sử dụng rộng rãi và thể
hiện độ chính xác tương đối cao.
PSQM là một phương pháp tính toán nhằm ước lượng chất lượng thoại theo kết quả
của phương pháp đánh giá chủ quan theo khuyến nghị P.830 (MOS). Tuy nhiên, PSQM tính
theo thang điểm khác so với MOS. Điểm PSQM thể hiện độ lệch giữa tín hiệu chuẩn và tín
hiệu truyền dẫn.
PSQM được thiết kế để sử dụng cho tín hiệu thoại (300-3400 Hz) qua các bộ mã hóa
thoại. Phương thức này được sử dụng để đo tổn hao của các bộ mã hóa thoại này dựa trên các
thông số nhận thức của con người. Phương thức này sử dụng hiệu quả đối với các bộ mã hóa
thoại tốc độ thấp. Việc xử lý trong phương thức PSQM được thể hiện trên hình 2.4.2
Để thực hiện phép đo PSQM, một mẫu tiếng nói được đưa vào hệ thống và được xử lý
bởi một bộ mã hóa thoại bất kỳ. Những tính chất của tín hiệu vào giống như của các tín hiệu
sử dụng cho phép đánh giá MOS được định nghĩa trong chuẩn ITU P.830.
Các tín hiệu vào có thể là mẫu tiếng nói thật hoặc tiếng nói nhân tạo theo khuyến nghị
ITU P.50. ITU-T khuyến nghị tín hiệu vào được lọc theo modified IRS (Intermediate
Reference System trong khuyến nghị ITU P.48) có những tính chất được định nghĩa trong phụ
lục của D/P.830. Nó mô phỏng đặc tính tần số của máy điện thoại đầu cuối.
Khi nhận được, tín hiệu ra được ghi lại. Sau đó, nó được đồng bộ về mặt thời gian với
tín hiệu vào. Hai tín hiệu này được thực hiện so sánh bởi các thuật toán PSQM. So sánh được
58
Chương 2 Kỹ thuật xử lý âm thanh
thực hiện theo từng phân đoạn thời gian (khung thời gian) trong miền tần số (được biết đến là
các phần tử thời gian - tần số) hoạt động dựa trên các tham số lấy từ mật độ phổ công suất của
tín hiệu vào và ra của các phần tử thời gian - tần số. Việc so sánh dựa trên các tham số nhận
thức của con người như: tần số và độ nhạy âm lượng (không chỉ phụ thuộc vào Mật độ phổ
công suất - Spectral Power Densities (SPD)).
Điểm PSQM nằm trong dải từ 0 đến vô cùng. Điểm số này thể hiện độ lệch về mặt
cảm nhận giữa tín hiệu ra và tín hiệu vào. VD: điểm 0 thể hiện tín hiệu ra và tín hiệu vào hoàn
toàn trùng khớp, đánh giá là mức chất lượng hoàn hảo. Điểm PSQM càng cao thì thể hiện
mức tổn hao càng lớn và đánh giá là mức chất lượng thấp. Trên thực tế, giới hạn trên đối với
thang điểm PSQM trong khoảng từ 15-20.
Hình 2.4.2 Phương thức đánh giá chất lượng thoại PSQM
2.4.3.2.2 Phương pháp PESQ
PESQ là phương pháp đánh giá chất lượng thoại so sánh; phương pháp này được mô
tả trong khuyến nghị ITU-T P.862 được sử dụng thay thế cho khuyến nghị ITU-T P.861.
PESQ so sánh tín hiệu gốc X(t) với tín hiệu suy giảm Y(t) là kết quả của việc truyền
tín hiệu X(t) qua hệ thống thông tin. Đầu ra của PESQ là một ước lượng về chất lượng thoại
nhận được của tín hiệu Y(t).
Trong bước đầu tiên của PESQ, một loạt các trễ tín hiệu giữa tín hiệu vào ban đầu và
tín hiệu ra được xác định; mỗi giá trị trễ được tính cho một khoảng thời gian mà có sự khác
biệt về độ trễ so với phân đoạn thời gian trước đó. Ứng với mỗi phân đoạn thời gian, điểm bắt
đầu và kết thúc được xác định. Một thuật toán sắp xếp dựa trên nguyên tắc so sánh giữa khả
năng có hai trễ trong một đoạn thời gian với khả năng có một trễ trong đoạn thời gian đó.
Thuật toán này có thể xử lý thay đổi về trễ trong cả khoảng lặng và trong thời gian tích cực
thoại. Dựa trên tập các trễ đã xác định được, PESQ so sánh tín hiệu vào ban đầu với tín hiệu
ra đã được sắp xếp bằng cách sử dụng một mô hình giác quan. Điểm mấu chốt của quá trình
này là chuyển đổi cả tín hiệu gốc và tín hiệu đã bị suy giảm thành dạng biểu diễn của tín hiệu
âm thanh trong hệ thống thính giác của con người có tính đến tần số thính giác và cường độ
âm. Quá trình này được thực hiện theo nhiều giai đoạn: sắp xếp về mặt thời gian, sắp xếp mức
tín hiệu về mức tín hiệu nghe đã được căn chỉnh, ánh xạ thời gian - tần số, frequency warping
và căn chỉnh cường độ âm.
Trong PESQ, hai tham số lỗi được tính toán trong mô hình kinh nghiệm; chúng được
kết hợp lại để ước lượng điểm MOS.
Một mô hình máy tính của chủ thể bao gồm mô hình giác quan và mô hình kinh
nghiệm được sử dụng để so sánh tín hiệu đầu ra với tín hiệu gốc sử dụng các thông tin sắp xếp
59
Chương 2 Kỹ thuật xử lý âm thanh
lấy được từ các tín hiệu định thời trong môđun sắp xếp định thời.
Hình 2.4.3 Mô tả phương pháp đánh giá chất lượng thoại PESQ
Phương pháp PESQ là có thể sử dụng không chỉ để đánh giá các bộ mã hóa thoại mà
còn để đánh giá chất lượng thoại đầu cuối đến đầu cuối. Các hệ thống thông tin trên thực tế có
thể bị ảnh hưởng của nhiều khâu lọc, trễ khả biến và các tổn hao do lỗi kênh truyền dẫn và
việc sử dụng các bộ codec tốc độ thấp. Phương pháp PSQM được mô tả trong khuyến nghị
ITU-T P.861 chỉ được khuyến nghị sử dụng để đánh giá các bộ codec thoại mà không tính đến
các yếu tố như lọc, trễ khả biến ... PESQ tính đến các yếu tố này nhờ sử dụng cân bằng hàm
truyền dẫn, sắp xếp định thời, và một thuật toán mới để thực hiện xác định tổn hao trung bình.
PESQ đã được kiểm tra trong điều kiện kết hợp nhiều yếu tố như: lọc, trễ khả biến, tổn hao
mã hóa và lỗi kênh truyền dẫn. Phương pháp này được khuyến nghị sử dụng thay thế cho
PSQM để đánh giá chất lượng thoại từ đầu cuối đến đầu cuối.
2.4.3.2.3 Mô hình đánh giá truyền dẫn E-Model
E-model (tham khảo ETR 250, EG 201 050 và khuyến nghị ITU-T G.107) được sử
dụng làm một công cụ để quy hoạch truyền dẫn trong các mạng điện thoại. Nó hỗ trợ việc
ước lượng chất lượng tín hiệu thoại từ một kết hợp của nhiều yếu tố can nhiễu. E-model
khác so với các phương pháp đánh giá chất lượng đã phân tích ở trên:
Đây không phải là một công cụ đo mà là một công cụ quy hoạch mặc dù nó có thể sử
dụng kết hợp với các phép đo.
model này ước lượng chất lượng thoại hai chiều và tính đến các yếu tố như: tiếng vọng,
trễ ...
Đầu vào của E-model bao gồm các tham số được sử dụng tại thời điểm quy hoạch.
Lưu ý rằng việc quy hoạch có thể được thực hiện trước và sau khi triển khai mạng. E-model
có tính đến các tham số như: nhiễu, trễ, tiếng vọng và tính chất của thiết bị đầu cuối mà đã
được chuẩn hóa hoặc đã được xác định, có thể đo được. Ngoài ra, E-model xác định trọng số
60
Chương 2 Kỹ thuật xử lý âm thanh
đối với ảnh hưởng của thiết bị số hiện đại (các bộ codec tốc độ thấp, các bộ ghép kênh ...) đến
chất lượng truyền dẫn. Trong nhiều trường hợp, số lượng và chủng loại các thiết bị này được
xác định tại thời điểm quy hoạch.
E-model dựa trên giả thiết là các tổn hao truyền dẫn có thể được chuyển đổi thành
"psychological factors" và các hệ số này có tính cộng dồn trên một "psychological scale". Nói
cách khác, nhận thức chủ quan về chất lượng thoại được coi như là tổng hợp của các tổn hao
truyền dẫn.
E-model đầu tiên thực hiện tính toán một "giá trị gốc" về chất lượng (giá trị này được
xác định từ nhiễu trên mạng). Mỗi tổn hao thêm vào được biểu diễn dưới dạng một giá trị tổn
hao. Kết quả của phép trừ giá trị gốc với các giá trị tổn hao thể hiện ước lượng chất lượng
thoại cho một mạng cụ thể. Cuối cùng, kết quả chất lượng thoại thu được được sử dụng để
ước tính tỷ lệ thuê bao đánh giá chất lượng là tốt hay tồi. Cụ thể, E-model tính một hệ số đánh
giá truyền dẫn R như sau:
R = Ro - Is - Id - Ie + A (2.4.1)
Hệ số này bao gồm: giá trị gốc Ro, các tổn hao Is, Id và Ie và một hệ số thuận lợi
(Advantage factor) như sau:
Ro mô tả tỷ số tín hiệu trên nhiễu (SNR) của kết nối. Nó bao gồm tạp âm trong mạng,
trong môi trường phía người nói và người nghe và ảnh hưởng của tạp âm tại phía người
nghe, SNR được coi là một tham số biểu diễn chất lượng cơ bản.
Is thể hiện các tổn hao nhất thời bao gồm: mức cường độ âm, mức xuyên âm vượt quá
phạm vi cho phép và tổn hao lượng tử (mã hóa PCM).
Id chứa các tổn hao do trễ và tiếng vọng.
Ie bao gồm các tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp).
A cho phép điều chỉnh chất lượng trong những trường hợp đặc biệt nhờ thêm vào các
yếu tố phi kỹ thuật để đánh giá chất lượng.
Cuối cùng, E-model sử dụng một ánh xạ phi tuyến tính để chuyển giá trị R thành giá
trị MOS tương đương.
Như vậy, E-model cho phép xác định chất lượng thoại nhờ phân tích tác động của
nhiều tham số truyền dẫn. Nhờ đó có thể đánh giá ảnh hưởng của các tham số này đối với
mức chất lượng tổng thể.
2.4.3.2.4 Kết luận
Phần 2.4.3.2 đã phân tích các phương pháp đánh giá chất lượng có thể sử dụng để
đánh giá chất lượng thoại trong mạng GSM. Như đã phân tích ở trên, điểm MOS là chỉ tiêu
chất lượng tổng thể được sử dụng để đánh giá chất lượng thoại. Phương pháp đánh giá chủ
quan sử dụng số liệu vào là nhận xét của khách hàng về mức chất lượng từ đó tính toán ra
điểm đánh giá bình quân MOS. Các phương pháp đánh giá khách quan sử dụng các mô hình
tính toán để ước lượng ra mức chất lượng quy đổi về MOS.
Dựa trên những ưu nhược điểm và phạm vi ứng dụng của các phương pháp này, để sử
dụng đánh giá chất lượng thoại cho mạng GSM của VNPT có thể sử dụng các phương pháp
đánh giá như sau:
Sử dụng PESQ để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối.
61
Chương 2 Kỹ thuật xử lý âm thanh
Mô hình đánh giá E-Model có thể được sử dụng để phân tích hệ thống nhằm xác định
các yếu tố ảnh hưởng đến chất lượng thoại.
Ngoài ra, nếu có điều kiện có thể sử dụng kết hợp phương pháp đánh giá chủ quan để
kiểm chứng lại việc đánh giá theo PESQ.
d ( x, y ) = ∑ (x − y )
2
i i (2.5.1)
i
Mặc dù sử dụng hệ đơn vị Euclidean cho việc tính toán sẽ tăng độ phức tạp hơn so với
các hệ đo lường khác, nhưng nó lại cho tác dụng nhiều hơn với độ sai biệt lớn đối với một đặc
trưng đơn. Nếu như việc quay lui trong quá trình tìm kiếm sự tương thích nhất cần thiết thì
một dãy có nhiệm vụ lưu trữ các entry trước đó trong quá trình xử lý tìm kiếm, được gọi là
backtrace array.
62
Chương 2 Kỹ thuật xử lý âm thanh
Hình 2.5.1 Mô tả canh chỉnh thời gian giữa mẫu tiếng nói “SPEECH” và tín hiệu tiếng
nói đầu vào “SsPEEhH”
Làm cách nào để có thể tính được độ tương thích tốt nhất (có giá trị độ sai biệt toàn
cục nhỏ nhất) giữa tín hiệu cần so sánh và tiếng nói mẫu? Việc này được thực hiện bằng cách
ước lượng tất cả khoảng cách có thể có, nhưng cách này không hiệu quả khi số lượng khoảng
cách có dạng hàm mũ theo chiều dài của tín hiệu ngõ vào. Thay vào đó, ta xem xét những
ràng buộc tồn tại trong quá trình so trùng (hoặc có thể áp đặt các ràng buộc này) và dùng
những ràng buộc này để có được giải thuật hiệu quả hơn. Các ràng buộc được thiết lập phải
không phức tạp và cũng không hạn chế nhiều, như:
→ Các khoảng cách so trùng không thể thực hiện việc đi lui;
→ Mọi khung của tín hiệu cần so trùng phải được dùng trong quá trình so trùng;
→ Các giá trị sai biệt cục bộ được kết hợp bằng phương pháp cộng dồn vào giá trị sai
biệt toàn cục.
Mọi khung trong tín hiệu cần so trùng với mẫu tiếng nói được xem xét ứng với từng
tính toán độ sai biệt. Nếu thời điểm đang xét là (i, j ) , với i là chỉ số của khung tín hiệu ngõ
vào, j là của khung tiếng nói mẫu, thì các vị trí trước đó là (i − 1, j − 1), (i − 1, j ) , (i, j − 1) .
Ý tưởng chính của lập trình động là tại vị trí (i, j ) , việc tính toán dự trên độ sai biệt nhỏ nhất
của các vị trí (i − 1, j − 1), (i − 1, j ) , (i, j − 1) .
63
Chương 2 Kỹ thuật xử lý âm thanh
Giải thuật lập trình động thực hiện cần phải đồng bộ thời gian: mỗi cột của ma trận
thời gian-thời gian được xem như là một sự kế vị các tính toán trước đó, do đó, ứng với một
mẫu tiếng nói có chiều dài N , số lượng bước so trùng tối đa là N .
Gọi D (i, j ) , d (i , j ) tương ứng là độ sai biệt toàn cục và độ sai biệt cục bộ tại vị trí
(i, j ) .
D (i , j ) = min [D (i − 1, j − 1), D (i − 1, j ), D (i , j − 1) ] + d (i , j ) (2.5.2)
Với D (1,1) = d (1,1) là giá trị khởi tạo ban đầu, giải thuật ứng dụng đệ qui vào việc
tính toán các độ sai biệt tại D (i, j ) . Giá trị cuối D ( n , N ) chính là giá trị chênh lệch giữa
template và tín hiệu cần so sánh, lưu ý rằng N sẽ khác nhau ứng với mỗi template.
Đối với việc nhận dạng tiếng nói, giải thuật DP không cần phải chạy trên các máy tính
có bộ nhớ lớn, việc lưu trữ được thực hiện bởi một array, lưu giữa từng cột đơn trong ma trận
thời gian-thời gian. Ma trận có vị trí đầu tiên có giá trị là 0, như vậy chỉ những hướng di
chuyển trong ma trận được mô tả ở hình 2.5.2 mới có thể xuất phát từ vị trí (i, j ) .
Hình 2.5.2 Ba hướng có độ tương thích tốt nhất có thể đi đến từ ô (i, j ) trong giải thuật
DTW đối xứng.
Phương trình (2.5.2) được thực hiện bằng phương pháp đệ quy. Tuy nhiên, trừ khi
ngôn ngữ đã được tối ưu cho việc đệ quy, phương pháp này có thể tốn nhiều thời gian ngay cả
đối với những tín hiệu cần so sánh có kích thước nhỏ. Một phương pháp khác có thể cải tiến
được tốc độ xử lý cũng như cần bộ nhớ thực thi nhỏ hơn là dùng hai vòng lặp, sử dụng hai
array để lưu trữ các cột kề với ma trận thời gian-thời gian.
Hình 2.5.3 Vị trí ô (i, j ) và (i,0) có các ô định hướng khác nhau. Từ (i,0) chỉ có thể đi
từ ô (i − 1,0) . Tuy nhiên tại ô (i, j ) thì có thể đi đến 3 ô như mặc định.
64
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
G thuật tìm
Giải m chi phí toàn cục nhỏ nhất:
n
1. Tính tại cộột 0, bắt đầuu từ đáy của ô. Giá trị chhi phí toàn cụ của ô bằnng giá trị chhi phí
cục bộ. Sauu đó, tính toán giá trị chi phí toàn cụ
ục của các ô có khả năngg cho được giá
g trị
thấp bằng cách lấy giáá trị chi phí cục bộ của ô cộng thêm m cho giá trrị toàn cục của
c ô
ngay dưới đó, ô này đư ược gọi là prredCol (preddecessor coluumn).
2. Tính giá trrị chi phí toààn cục của ô đầu tiên củaa cột kế tiếp là curCol. Giá
G trị cục bộộ của
ô cộng thêm m cho giá trị toàn cục củủa ô phía dư
ưới cùng của cột trước nó ó.
3. Tính giá trrị toàn cục củủa các ô cònn lại của curC
Col.
4. curCol đượ
ợc định là prredCol và lặpp lại bước 2 cho đến khii tất cả các cộột được tínhh toán
xong.
5. Giá trị chi phí toàn cụcc tại vị trí cộột cuối cùng, dòng trên cụục là giá trị cần tìm.
M giải của quá trình nh
Mã hư sau:
H
Hình 2.5.4 Ba hướng có giá trị soo trùng tốt nhất
n có thể đi đến từ ô (i, j ) trongg giải
thuật DTW
D bất đối xứng.
H
Hình 2.5.5 Các vị trí ô tại (i, j ) , (i,0) và (i,1) có các ô đđịnh hướng khác
k nhau. Tại
T ô
c có thể đii đến ô (i − 1,0) ; tại ô (i,1) có thể đii đến (i − 1,1) hoặc (i − 1,0) ; tại ô (i, j )
(i,0) chỉ
có thể đi đến các vị
v trí chuẩn.
G trị chi ph
Giá hí nhỏ nhất là ng highestJ
l cột cuối ccùng lưu tron
- Xác suất trạng thái chuyển tiếp phải thỏa mãn ràng buộc trực giao sau
N
aij ≥ 0, 1 ≤ i, j ≤ N và ∑a
j =1
ij =1 , 1≤ i ≤ N
- Nếu việc quan sát là liên tục thì phải dùng hàm mật độ xác suất liên tục thay cho xác
suất rời rạc. Trong trường hợp này, các thông số của hàm mật độ xác suất liên tục phải
được định rã. Thông thường mật độ xác suất xấp xỉ với trọng số tổng M của phân bố
Gaussian Ν
M
- b j (at ) = ∑ c jm Ν(μ jm , Σ jm , at ) với
m =1
- c jm = hệ số trọng số
- μ jm = vector trung bình
- Σ jm = ma trận đồng biến
c jm thỏa các điều kiện c jm ≥ 0, 1 ≤ j ≤ N, 1≤ m ≤ M và
M
∑c
m =1
jm = 1, 1≤ j ≤ N
- Trạng thái ban đầu của hàm phân phối π = {π i } với π i = p{qi = i}, 1≤ i ≤ N
Ký hiệu λ = (Λ , B , π ) dùng cho HMM với hàm phân phối xác suất rời rạc, và
λ = (Λ , c jm , μ jm , Σ jm , π ) dùng cho HMM với hàm mật độ xác suất liên tục
Một số ứng dụng mô hình Markov ẩn trong thực tiễn là:
- Ứng dụng HMM trong việc nhận dạng âm thoại cô lập
- Ứng dụng HMM trong việc nhận dạng âm thoại liên tục
- Ứng dụng HMM trong việc xử lý cấu trúc đa cấp độ cho văn phạm tiếng Anh
- Ứng dụng HMM trong học bản thảo viết tay
2.5.2.3 Ứng dụng HMM trong việc nhận dạng âm thoại liên tục
Trong chế độ cô lập, ta sử dụng một HMM cho từng đơn vị âm thoại, còn trong
trường hợp nhận dạng liên tục, hệ thống cần nhận dạng một chuỗi các âm đơn vị kết nối lại
với nhau, đôi khi cần nhận diện cả một câu, hoặc nhiều câu. Khi đó số lượng câu có thể rất
lớn. Phương pháp thực hiện cũng tương tự như trong nhận dạng âm thoại cô lập, bao gồm hai
bước huấn luyện và nhận dạng. Bước huấn luyện có thể dùng hoặc là tiêu chuẩn MMI hoặc là
ML, và bước nhận dạng có thế sử dụng các phương pháp như nhận dạng trên cơ sở Veterbi,
xây dựng cấp độ, tìm kiếm N-tốt nhất và tính toán hiệu suất bộ nhận dạng.
68
Chương 2 Kỹ thuật xử lý âm thanh
69
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
HƯỚNG DẪ
ẪN / SỬ DỤNG
CÁC NGÕ
N
VÀO
O NGÕ RA
NGÕ VÀ
ÀO HƯỚNG DẪN
N
22.5.3.4 Ứng dụng mạngg neuron troong nhận dạạng tiếng nóii
Mạng neurron (Neuron Network) làà một công cụ c có khả năăng giải quyếết được nhiều bài
toán khó,
k thực tế những
n nghiêên cứu về mạạng neuron đưa
đ ra một cách
c tiếp cận
n khác với nhhững
cách tiiếp cận truyền thống troong lý thuyếtt nhận dạng. Trong thựcc tế, mạng neuron
n được triển
khai có
c hiệu quả trong nhậnn dạng tiếngg nói thường g dùng mạnng neuron laan truyền ngược
hướngg (Back-proppagation Neuural Networkk) hoặc kết hợp
h với phư ương pháp mã m dự đoán tuyến
t
tính LPPC (Linear Predictive
P C
Coding).
2
2.5.3.4.1 Sơ lược về lý thhuyết nhận dạng
d
Lý thuyết nhận dạng làl phương phháp để xây dựngd một hệệ thống tin học
h có khả năng:
n
cảm nhận-nhận
n th
hức-nhận biếết các đối tượ
ợng vật lý gần
g giống khhả năng của con người. N Nhận
dạng cóc gắn chặt với
v 3 khả năăng trên là một
m lĩnh vực hết sức rộngg có liên quaan đến việc xử x lý
tín hiệệu trong không gian nhiềều chiều, môô hình, đồ thhị, ngôn ngữ,, cơ sở dữ liệu, phương pháp
ra quyyết định... Hệệ thống nhậnn dạng phải có khả năng g thể hiện đđược quá trìnnh nhận thứcc của
con nggười qua cácc mức:
Chươ
ơng 2 Kỹ thu
uật xử lý âm thanh
- Mức 1- mức
m cảm nhậận: cảm nhậận được sự tồn t tại các đđối tượng quan
q sát, hayy đối
tượng mà hệ thống g cần nhận dạng.
d Mức này
n cũng đưaa ra quá trìnhh thu nhận sốố liệu qua cáác bộ
cảm biến trong hệ thống nhận dạng, ví dụ trong hệ thốống nhận dạnng tiếng nói:: đối tượng ở đây
là tiến
ng nói (speecch) và thu nhhận đầu vào qua
q Micro hoặc
h các file âm thanh .wwav.
- Mức 2- mứức nhận thứcc: ở đây biểuu diễn quá trình
t học, mô hình hoá đối
đ tượng đểể tiến
tới hìnnh thành sự phân
p lớp (claassification) các đối tượnng cần nhận dạng.
- Mức 3- mứ ức nhận biếtt: từ đối tượnng quan sát có thể trả lờ
ời nhận biết đối tượng làà gì ?
Hay đây là quá trìn
nh ra quyết định.
đ
Đ
Đánh giá chất Trả lời Ra
R quyết định Học và ra
lượ
ợng nhận dạng nhận dạng phân lớp quyết định
Hìn
nh 2.5.12 Sơ
ơ đồ tổng quuan của hệ thhống nhận dạạng
2
2.5.3.4.2 Nhhận dạng tiếnng nói dùng mạng Neuroon
H
Hình 2.5.13 mô tả chức năng cơ bảnn của hệ thốnng nhận dạngg tiếng nói
Hìn
nh 2.5.13 Sơ
S đồ khối mô
m tả hệ thốnng nhận dạngg tiếng nói
Phương án n lựa chọn sốố nút của từnng lớp trong mạng: theo kinh nghiệm
m của các chhuyên
gia về mạng neuro on trong các bài toán phân lớp có sửử dụng mạngg lan truyền ngược
n hướnng, sử
dụng 1 lớp tính toáán là lớp mạạng Kohonenn làm lớp ẩn. Việc xác định số neuroon cho từng lớp.
l
+ Số neuronn lớp vào = số chiều của vector vào.
+ Số neuronn lớp Kohoneen = số giá trrị các tập trảả lời.
+ Số neuron
n lớp ra = số lượng kết quả
q đầu ra, sử
ử dụng phươ
ơng pháp mãã hoá bằng số
s bit
biểu diễn
d số lượngg kết quả
Phương phááp học cạnh tranh
P t của lớpp ẩn và quá trình học cóó chỉ đạo tại lớp ra của mạng
m
theo các bước sau:
+ Khởi tạo trọng số: cáác thành phầần ma trận trọng
t số đượ
ợc khởi tạo bởi giá trị ngẫu
nhiên
+ Đọc tín hiiệu vào cho mạng:
m dữ liệệu trong filee mẫu chứa tthông tin mẫẫu học và cho kết
quả gồồm 2 thành phần:
p mảng 1 chiều chứứa vector tín hiệu vào vàà mảng 2 chiiều chứa maa trận
s liên kết ban đầu của lớp
trọng số l Kohonenn
+ Hiệu chỉnhh ma trận trọng số lớp Kohonen:
K hiiệu chỉnh trọọng số liên kết
k neuron lớ
ớp ẩn
Kohon
nen sao cho mạng có thểể học mẫu tốốt nhất.
P
Phương phápp nhận dạngg
- Đầu
u vào: file chứa
c dữ liệu tín hiệu tiếnng nói cần nnhận dạng vàà file chứa thông
t
Chương 2 Kỹ thuật xử lý âm thanh
tin trọng số liên kết neuron lớp ẩn và lớp ra. Ngoài ra đầu vào nguồn âm cũng có thể là
từ micro thông qua sound card, lúc này dữ liệu tiếng nói được đọc trong buffer dữ liệu
của Windows.
- Đầu ra: kết quả cần nhận dạng
Quá trình nhận dạng tiếng nói được thực hiện qua các bước:
+ Đọc tín hiệu vào: đọc dữ liệu từ file wav hoặc từ buffer dữ liệu âm thanh
+ Xử lý tín hiệu giống như chức năng phân tích LPC ở trên
+ Đọc ma trận trọng số liên kết lớp ẩn và lớp ra của mạng
+ Xác định neuron trung tâm
+ Tra cứu kết quả: tra cứu trên bản đồ topo mạng neuron để đưa ra giá trị cần
nhận dạng.
73
Chương 2 Kỹ thuật xử lý âm thanh
74
Chương 2 Kỹ thuật xử lý âm thanh
75
Chương 2 Kỹ thuật xử lý âm thanh
12. Bảng sau là thang điểm đánh giá điểm hội thoại và điểm chất lượng nghe của
phương thức nào của phương pháp chủ quan trong đánh giá chất lượng thoại?
Điểm đánh giá Mức độ cố gắng cần thực hiện để hiểu câu
5 Không cần cố gắng
4 Cần chú ý nhưng không cần cố gắng nhiều
3 Cần tương đối tập trung
2 Cần tập trung
1 Không hiểu câu mẫu
A/ Comparison Category Rating (CCR)
B/ Conversation Opinion Test (COT)
C/ Degradation Category Rating (DCR)
D/ A, B, C đều sai
13. Phương pháp nào so sánh dựa trên mô hình giác quan trong đánh giá chất lượng
thoại
A/ Phương pháp PSQM (Perceptual Speech Quality Measurement)
B/ Phương pháp PESQ (Perceptual Evaluation of Speech Quality)
C/ Phương pháp mô hình đánh giá truyền dẫn E-Model
D/ A, B, C đều đúng
14. Thông thường, tai người nhạy nhất ở tầm tần số nào
A/ 2MHz và 5MHz
B/ 2kHz và 5kHz
C/ 2Hz và 5HZ
D/ 2GHz và 2GHz
15. Chọn phát biểu đúng
A/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng tuyến tính
B/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng logarith
C/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng hình sin
D/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng xung
16. Giải thuật giải thuật mô hình thời gian động đối xứng - Dynamic Time Warping -
DTW có khuyết điểm so với giải thuật mô hình thời gian động bất đối xứng là
A/ giải thuật sinh lỗi tại những vị trí không ước đoán trước
B/ tại các vị trí cột và hàng lệ thuộc vào các vị trí đường chéo có thể sinh lỗi
C/ giải thuật luôn luôn sinh lỗi trong thực tế
76
Chương 2 Kỹ thuật xử lý âm thanh
D/ A, B, C đều sai
17. Trong thực tế, việc tổng hợp âm thanh có thể được thực hiện bằng
A/ mô hình miền thời gian
B/ mô hình phi tuyến
C/ A, B đều sai
D/ A, B đều đúng
18. Cho tín hiệu có tần số cao nhất là 256Hz, vậy tần số lấy mẫu có giá trị là
A/ tối đa là 512 Hz
B/ tối thiểu là 512Hz
C/ tối thiểu là 256Hz
D/ A, B đều đúng
19. Hình thức đánh giá chất lượng thoại theo phương pháp chủ quan là hình thức nào
A/ Bài kiểm tra hội thoại (Conversation Opinion Test).
B/ Đánh giá phân loại tuyệt đối (Absolute Category Rating (ACR) Test).
C/ Phương thức phân loại theo suy hao (Degradation Category Rating (DCR)).
D/ Phương thức phân loại so sánh (Comparison Category Rating (CCR)).
E/ A, B, C, D đều đúng
20. Mô hình điều pha và điều tần thuộc mô hình
A/ Mô hình phi tuyến
B/ Mô hình miền thời gian
C/ Mô hình quang phổ
D/ Mô hình sin
21. Các mô hình dùng trong xử lý âm thanh
A/ Mô hình phi tuyến
B/ Mô hình miền thời gian
C/ Mô hình quang phổ
D/ A, B, C đều đúng
22. Mô hình giác quan PSQM (Perceptual Speech Quality Measurement) được thiết kế
để sử dụng cho
A/ tín hiệu thoại
B/ tín hiệu hình ảnh
C/ tín hiệu điều khiển
D/ B, C đúng
77
Chương 2 Kỹ thuật xử lý âm thanh
23. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality
Measurement) có giá trị
A/ từ 5 đến 10
B/ từ 0 đến ∞
C/ từ -∞ đến ∞
D/ từ -1 đến 1
24. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality
Measurement) có giá trị 0 để chỉ tương quan giữa tín hiệu ra và tín hiệu vào mô hình là
A/ hoàn toàn trùng khớp
B/ hoàn toàn khác biệt
C/ không thể đánh giá được
D/ A, B, C đều sai
25. Hệ số đánh giá truyền dẫn trong E-model được tính dựa vào thông số:
A/ tỷ số tín hiệu trên nhiễu (SNR)
B/ các tổn hao do trễ và tiếng vọng.
C/ Tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp).
D/ A, B, C đều đúng
26. Quá trình nhận dạng tiếng nói bằng phương pháp mạng neuron được thực hiện qua
__________ bước
A/ 10
B/ 5
C/ 20
D/ 15
27. Cho chuỗi x(n) có phép biến đổi z là X(z). Phép biến đổi z của chuỗi hàm tuyến tính
nx(n) là
dX (1 / z )
A/ z
dz
dX (1 / z )
B/ − z
dz
dX (−1 / z )
C/ − z
dz
dX (−1 / z )
D/ z
dz
E/ A, B, C, D đều sai
78
Chương 2 Kỹ thuật xử lý âm thanh
79
Chương 3 Kỹ thuật xử lý hình ảnh
Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn hảo, cho phép
con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng quan trọng nhất của
xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về sự gia tăng chất lượng hình
ảnh quang học trong hệ thống thị giác.
Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế trong vùng
nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình ảnh quang học mà mắt
người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý có thể được tạo ra bởi các nguồn bức xạ
có phổ rộng hơn, từ sóng vô tuyến tới tia gamma, ví dụ: ảnh do sóng siêu âm hoặc tia X tạo ra.
Nhiều hệ thống xử lý ảnh có thể tương tác với những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực
xử lý ảnh có phạm vi tương đối rộng, và liên quan tới nhiều lĩnh vực khoa học khác.
Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật toán xử lý như
sau:
1- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các bộ lọc nhằm
khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong trường hợp này, tín
hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học.
2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để phân lớp,
phân đoạn ảnh, xác định và dự đoán biên ảnh, nén ảnh để lưu trữ hoặc truyền phát. Đặc điểm của
các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành
phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận được sau khi nén ảnh.
3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình ảnh. Đây cũng là quá trình
xử lý được thực hiện trong hệ thống thị giác của con người.
80
uật xử lý hìnhh ảnh
Chươnng 3 Kỹ thu
T
Trong ngànhh khí tượng học,
h ảnh nhậnn được từ hệ thống vệ tinnh theo dõi thhời tiết cũng được
xử lý, nâng cao chấất lượng và ghép
g hình đểể tạo ra ảnh bề
b mặt trái đấất trên một vùùng rộng lớnn, qua
đó có thể thực hiệnn việc dự báoo thời tiết một cách chínhh xác hơn. Dựa
D trên các kết quả phânn tích
ảnh vệệ tinh tại các khu vục đôn
ng dân cư cònn có thể dự đoán
đ quá trìnhh tăng trưởngg dân số, tốcc độ ô
nhiễm môi trường cũng như cáác yếu tố ảnhh hưởng tới môi m trường ssinh thái. Ảnnh chụp từ vệệ tinh
có thểể thu được thông qua các thiết bbị ghi hình cảm nhận được tia sááng quang học h (
λ = 4550 − 520 nm ), hoặc tia hồồng ngoại ( λ = 760 − 900 nm ). Trênn hình 3.1.2a và 3.1.2b lầnn lượt
là ảnh bề mặt trái đất
đ nhận đượ ợc từ hai ống ghi hình nóii trên, dễ dànng nhận thấy sự khác biệtt giữa
hai ảnhh. Đặc biệt trrên ảnh 3.1.22b, hình con ssông được táách biệt rất rõõ ràng so với vùng ảnh haai bên
bờ. Thhiết bị thu hìnnh nhạy cảmm với vật thể bbức xạ các tiia trong miềnn hồng ngoạii sẽ cho ra những
n
bức ảnnh trong đó vật
v thể có nhiiệt độ thấp sẽẽ được phân biệt rõ ràng so với vật thhể có nhiệt độộ cao
hơn. Như
N vậy việcc lựa chọn cáác thiết bị ghhi hình khác nhau sẽ tạo ra r ảnh có đặặc tính khác nhau,
n
tùy thu
uộc vào mục đích sử dụngg trong các lĩĩnh vực khoaa học cụ thể .
a b
Hìnnh 3.1.2 - Ảnnh bề mặt tráii đất thu được từ hai cameera khác nhau
u
Chương 3 Kỹ thuật xử lý hình ảnh
Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số lượng hàng
hóa trong các dây truyền tự động, ví dụ như hệ thống phân tích ảnh để phát hiện bọt khí bên trong
vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt tiêu chuẩn (bị biến dạng) trong quá trình
sản xuất hoặc hệ thống đếm sản phẩm thông qua hình ảnh nhận được từ camera quan sát.
Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ thống bảo mật hoặc
kiểm soát truy nhập: quá trình xử lý ảnh với mục đích nhận dạng vân tay hay khuôn mặt cho phép
phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả hệ thống bảo mật cá nhân
cũng như kiểm soát ra vào. Ngoài ra, có thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử
lý ảnh tĩnh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng mục tiêu quân
sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và
truyền trong mạng viễn thông v.v.
2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để
trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi đường
biên, khử nhiễu v.v.
3- Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là
một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện tách quá sâu
các chi tiết thì bài toán nhận dạng thành phần được tách ra trở nên phức tạp, còn ngược lại nếu
quá trình phân đoạn được thực hiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng
sẽ không chính xác.
4- Biểu diễn và mô tả: là quá trình xử lý sau khâu phân đoạn hình ảnh. Các vật thể sau
khi phân đoạn có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới một vùng, hoặc
tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua ranh giới vùng
thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoài của chi tiết ảnh như độ
cong, các góc cạnh v.v. Một vùng ảnh có thể được mô tả dựa trên đặc tính bên trong của nó: miền
đồng nhất, đặc điểm đường vân (texture).
5- Nén ảnh: là các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu trữ hình
ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số.
6- Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó
(ví dụ các phương tiện giao thông có trong ảnh).
Các quá trình xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều khiển dựa
trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có thể đơn giản như vị trí
vùng ảnh nơi có những thông tin cần quan tâm, như vậy có thể thu nhỏ vùng tìm kiếm. Trường
hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những hư hỏng có thể gặp trong
quá trình kiểm soát chất lượng thành phẩm hoặc các ảnh vệ tinh có độ chi tiết cao trong các hệ
thống theo dõi sự thay đổi môi trường trong một vùng. Ngoài việc điều khiển hoạt động của từng
82
Chương 3 Kỹ thuật xử lý hình ảnh
modul xử lý ảnh (hình 3.1.3), cơ sở kiến thức còn sử dụng để thực hiện việc điều khiển tương tác
giữa các modules. Trong hình 3.1.3, quá trình điều khiển tương tác được biểu diễn bằng mũi tên
hai chiều.
Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình ảnh
quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Có nhiều dạng cảm
biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại thiết bị biến đổi quang –
điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và chip CCD (Charge Couple Device –
linh kiện ghép điện tích).
Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng tương đối rộng
rãi trong camera màu cũng như đen trắng. Ống Vidicon có kích thước nhỏ gọn (đường kính 18-25
mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử dụng. Đèn hình này sử dụng nguyên lý
hiệu ứng quang điện trong và nguyên lý tích lũy điện tích.
Chip CCD là linh kiện bán dẫn có khả năng biến đổi năng lượng quang phổ thành tín hiệu
điện. Thành phần chính của chip CCD là các tụ điện MOS (Metal-Oxide-Semiconductor). Tụ
điện MOS được hình thành bởi ba lớp: một má tụ bằng kim loại, chất điện môi nằm giữa là lớp
83
Chương 3 Kỹ thuật xử lý hình ảnh
SiO2 và một má tụ bằng lớp bán dẫn loại p hoặc n (hình 3.1.5).
+U
Ñieän cöïc kim loaïi
Chip CCD sử dụng trong máy quay video thường có cấu trúc ma trận (hình 3.16b). Các
phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình “đọc” tín hiệu được thực
hiện theo chiều ngang và chiều dọc. Có nhiều cách tổ chức quá trình ghi và đọc tín hiệu trong
CCD, nhưng phổ biến nhất là phương pháp dịch chuyển từng ảnh. Khi sử dụng phương pháp này,
trong chip CCD được thiết kế một miền nhớ, không tiếp xúc với ánh sáng và có diện tích bằng
miền tích lũy – là ma trận các phần tử cảm quang.
Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đó, quá trình ghi ảnh tại
miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ được tiến hành song song.Từng
dòng ảnh được dịch chuyển xuống thanh dịch ngang, sau đó các gói điện tích ứng với các điểm
trong dòng ảnh sẽ được đẩy ra lần lượt khỏi thanh dịch. Sau khi toàn bộ ảnh trong miền nhớ được
đọc ra hết, một ảnh mới từ miền tích lũy sẽ lại được chuyển về đây.
Với những tính năng vượt trội trước ống ghi hình điện tử cổ điển, linh kiện biến đổi -
quang điện CCD được sử dụng rất rộng rãi trong công nghệ truyền hình và ảnh số. Hầu hết các
camera quay video dân dụng và bán chuyên nghiệp (semi-professional) được thiết kế trên cơ sở
chip CCD.
Bộ nhớ trong và ngoài trong các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng
để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước
1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu một ảnh màu
84
Chương 3 Kỹ thuật xử lý hình ảnh
không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh có thể chia
làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải có
khả năng ghi/đọc rất nhanh (tốc độ tối đa có thể lên tới 17GB/sec); 2- bộ nhớ ngoài có tốc độ truy
cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ
nhớ flash v.v.. 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc
độ truy cập không cao. Thông dụng nhất là đĩa quang ghi một lần hoặc nhiều lần như đĩa DVD-R,
DVD-RW có dung lượng 4.7GB (một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các
thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy
in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v.
1 – Mắt có độ nhậy cảm không đồng đều đối với các tia bức xạ có bước sóng khác nhau.
Trên đồ thị độ nhạy của mắt người (hình 3.1.7) ta thấy vùng lục – vàng (λ ~ 555 nm) là nơi nhậy
cảm nhất của mắt.
2 – Mật độ phân bố phổ công suất của các nguồn sáng trong thiên nhiên không đồng đều.
85
Chương 3 Kỹ thuật xử lý hình ảnh
Ñoä nhaïy
Hình 3.1.7 Đáp ứng phổ (độ nhạy) của mắt người
Trường hợp tổng quát, một nguồn bức xạ có thể đặc trưng bởi hàm mật độ phân bố công
suất trên trục tần số ρ (λ ) :
dP(λ )
ρ (λ ) = (Watt/μm) (3.1.1)
dλ
λ - bước sóng (μm);
Công suất toàn phần của nguồn ánh sáng có phổ liên tục (ánh sáng mặt trời, áng sáng đèn
đốt nóng v.v.) sẽ bằng:
780
P∑ = ∫ ρ (λ ) ⋅ dλ (3.1.2)
370
Để đặc trưng cho phần năng lượng bức xạ có ích (cảm nhận được bằng mắt) ta đưa ra khái
niệm quang thông F:
780
F = K ∫ V (λ )ρ (λ ) ⋅ dλ (lumen1) (3.1.3)
370
V (λ ) - hàm độ nhạy phổ tương đối của mắt người (không có đơn vị).
K là hệ số tỷ lệ giữa quang thông và công suất bức xạ.
Nhìn chung, quang thông của một nguồn sáng có thể phân bố không đồng đều theo các
phương hướng khác nhau. Ta định nghĩa đại lượng độ sáng I đặc trưng cho khả năng phát sáng
của nguồn sáng theo một hướng nào đó (hình 3.1.10):
dF
I= , (candela2) (3.1.4)
dΩ
dS
Ω - góc khối; dΩ = (sr –steradian)
r2
1
Lumen (lat.) – nguồn sáng
2
Đơn vị độ sáng là candela (cd) – là 1 trong sáu đơn vị cơ bản hệ SI. 1 candela là độ sáng đo theo phương
vuông góc của bề mặt platin, ở nhiệt độ đông đặc, (2046,5 K), có diện tích 1/60π=0.0053 cm2.
86
Chương 3 Kỹ thuật xử lý hình ảnh
r
A
n
dΩ
dS o r
dF
dS
Hình 3.1.10 Minh họa độ sáng của nguồn điểm
4π r 2
Góc khối lớn nhất là Ω= = 4π , do đó độ sáng trung bình của nguồn điểm3 sẽ
r 2
FA FA
I tb = =
Ω 4π
Quang thông và độ sáng là hai đại lượng đặc trưng cho nguồn sáng.
Độ rọi E là đại lượng đặc trưng cho bề mặt được chiếu sáng.
Độ rọi là mật độ phân bố quang thông trên bề mặt được chiếu sáng:
dF
E = (lux4) (3.1.5)
dS
1 lux là độ rọi lên một bề mặt khi 1 m2 bề mặt đó nhận được quang thông bằng 1 lumen.
Xét bề mặt được chiếu sáng dS bởi nguồn điểm A (hình 3.1.10). Diện tích bề mặt hình cầu
giới hạn trong góc khối dΩ là dS0., α là góc giữa pháp tuyến của dS và pháp tuyến dS0.
dS 0 dS ⋅ cos α
dΩ≅ = ;
r2 r2
dF Id Ω I dS ⋅ cos α
ES = = = (3.1.6)
dS dS dS r2
I ⋅ cos α
ES =
r2
Như vậy độ rọi của bề mặt được chiếu sáng bởi nguồn điểm tỷ lệ nghịch với bình phương
khoảng cách giữa nguồn sáng và bề mặt đó.
Độ chói L là đại lượng đặc trưng cho bề mặt phát sáng (trong khi độ rọi đặc trưng cho bề
mặt được chiếu sáng).
3
Nguồn điểm là nguồn sáng có kích thước (d) nhỏ hơn nhiều lần so với khoảng cách (l) đến bề mặt được
chiếu sáng (l ≥ 10d).
4
lux (lat.) – chiếu sáng
87
Chương 3 Kỹ thuật xử lý hình ảnh
Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức độ sáng của
nguồn sáng. Cho bề mặt phát sáng S0. Theo hướng trực giao với S0, độ chói sẽ bằng:
I0
L0 = (candel / m2 ) (3.1.7)
S
Đơn vị độ chói còn gọi là Nít ( Nít là độ chói của nguồn sáng có diện tích 1 m2 và cường độ
sáng là 1 candela theo hướng vuông góc với bề mặt nguồn sáng)
Sắc màu (sắc điệu) là tính chất đặc trưng của màu mà qua đó ta nhận biết được màu đỏ,
xanh, vàng v.v.
Độ bão hòa màu là cường độ về sắc màu qua đó ta có thể phân biệt được màu đỏ thẫm hay
màu đỏ nhạt v.v.
Khi đánh giá về số lượng của các đại lượng trên (bằng cách đo lường khách quan) chúng ta
sẽ sử dụng ba khái niệm tương đương là: độ chói, bước sóng trội và độ sạch của màu. Sắc điệu
của nguồn sáng tương đương với bước sóng λ có năng lượng lớn nhất trong phổ của nguồn sáng
đó, đại lượng này được gọi là bước sóng trội λ . Độ bão hòa của một màu có bước sóng trội λ
được tính bằng:
p = Fλ / ( Fλ + FE ) (3.1.8)
p – là độ sạch màu, đại lượng xác định số lượng ánh sáng trắng trong nguồn sáng hay độ
pha loãng của nguồn sáng đó. Như vậy, màu quang phổ sẽ có độ sạch là p = 100% , đối với màu
trắng p = 0 .
Dựa trên những tính chất của hệ thị giác như độ phân giải, tính lưu ảnh và thuyết ba thành
phần cảm nhận màu, để tạo ra cảm giác về một màu nào đó, người ta có thể thực hiện pha trộn các
màu cơ bản theo những phương pháp sau:
88
Chương 3 Kỹ thuật xử lý hình ảnh
Phương pháp này dựa trên khả năng tổng hợp màu khi các nguồn bức xạ được chiếu lên một
mặt phẳng. Các nguồn bức xạ có thể được rọi cùng một lúc hay nối tiếp nhau với một tốc độ
tương đối lớn (còn gọi là phép trộn màu theo thời gian), khi đó, ánh sáng thứ cấp phản xạ từ bề
mặt của mặt phẳng trên sẽ mang lại cho người quan sát cảm nhận về một màu sắc tổng hợp. Sắc
độ màu mới phụ thuộc vào tỷ lệ công suất của các bức xạ thành phần (hình 3.1.11).
Khi trộn màu không gian, các phần tử ảnh mang sắc màu cơ bản nằm độc lập với nhau
trong không gian, nếu những phần tử này nằm gần nhau và có kính thước nhỏ thì mắt cảm nhận
chúng như một điểm ảnh, màu sắc của điểm ảnh này phụ thuộc vào tỷ lệ công suất của các màu cơ
bản. Hình dạng của các phần tử có thể là các điểm tròn hay vạch màu nhỏ. Tỷ lệ công suất của các
màu cơ bản có thể thay đổi bằng cách thay đổi độ chói của các phần tử ảnh tham gia trộn màu
hay thay đổi kích thước của chúng. Việc tái tạo hình ảnh màu trên màn hình vô tuyến thường
được thực hiện bằng phương pháp trộn màu trong không gian.
Định luật thứ nhất: Bất kỳ một màu sắc nào cũng có thể tạo được bằng cách trộn 3 màu cơ
bản độc lập tuyến tính với nhau.
Ba màu được gọi là độc lập tuyến tính khi một trong những màu đó không thể tạo ra bằng
cách pha trộn hai màu còn lại được. Như vậy, ta có thể viết ra được phương trình so màu như sau:
f ′F = r′R + g′ G + b′ B (3.1.9)
f ′F - nguồn ánh sáng bất kỳ, có đơn vị là F và số lượng ánh sáng là f ′ ; R,G,B – đơn vị
màu cơ bản; r ′, g′ , b′ - số lượng các màu cơ bản R, G, B, còn gọi là modul của các màu đó.
Năm 1931, theo quy định của tổ chức quốc tế CIE (Commission Internationale d’Eclairage -
International Commission on Ilumination – ủy ban quốc tế về ánh sáng) ba nguồn bức xạ đơn sắc
89
Chương 3 Kỹ thuật xử lý hình ảnh
λ R = 700 nm
λG = 546,1 nm
λ B = 435,8 nm
Ba màu trên được gọi là ba màu cơ bản. Mỗi màu cơ bản sẽ có một màu bổ xung tương
ứng, khi pha trộn màu cơ bản và màu bổ xung của nó chúng ta sẽ nhận được màu trắng. Các cặp
màu cơ bản và màu bổ xung là: Đỏ – Lơ (Cyan), Lục – Mận chín (Magenta), Lam – Vàng
(Yellow).
Định luật thứ hai: Sự biến đổi liên tục của các hệ số công suất của các màu cơ bản sẽ dẫn
dến sự biến đổi liên tục của màu sắc tổng hợp, nó chuyển từ màu này sang màu khác.
Khi thay đổi công suất của các nguồn sáng cơ bản nhưng giữ nguyên tỷ lệ công suất thì màu
tổng hợp sẽ không thay đổi sắc độ, chỉ có sự thay đổi về độ chói mà thôi. Vì vậy, tỷ lệ tương đối
giữa ba màu cơ bản R:B:G sẽ quyết định màu sắc của màu tổng hợp.
Định luật thứ ba: Màu sắc tổng hợp của nhiều nguồn sáng chỉ xác định bởi các thành phần
màu sắc của từng nguồn sáng chứ không phụ thuộc vào thành phần phổ của chúng.
Định luật thứ tư: độ chói của màu tổng hợp bằng tổng số độ chói của các thành phần màu.
L∑ = L R + LG + L B
f'F
G
F
0
r
R
B
b
Hình 3.1.12 Không gian màu rgb
Xét một màu bất kỳ trong không gian màu rgb, xác định bởi phương trình:
90
Chương 3 Kỹ thuật xử lý hình ảnh
f ′F = r′R + g′ G + b′ B (3.1.11)
Ta thấy ba hệ số r ′, g′ , b′ cho ta biết cả về số lượng lẫn chất lượng của nguồn sáng. Nếu
chỉ cần xét đến chất lượng hay thành phần “sắc” của màu, chúng ta không cần biết đến giá trị
tuyệt đối r ′, g′ , b′ , mà chỉ cần biết đến số lượng tương đối giữa các thành phần màu cơ bản R, G,
B, tìm được qua các phương trình sau:
r′ r′ ⎫
r= = ;⎪
r ′ + g′ + b′ m
⎪
g′ g′ ⎪ (3.1.12)
g= = ;⎬
r ′ + g′ + b′ m ⎪
b′ b′ ⎪
b= = ⎪
r ′ + g′ + b′ m ⎭
F = rR + gG + bB (3.1.13)
r, g, b - được gọi là tọa độ màu. Các tọa độ màu không cho ta biết về chiều dài của vector
màu, nhưng hoàn toàn xác định phương hướng của nó trong không gian màu ba chiều.
Đẳng thức (3.1.13) cho phép chúng ta biểu diễn sắc của một nguồn sáng bất kỳ như một
điểm trên hình tam giác đều RGB có chiều cao bằng 1 (hình 3.1.13). Mặt phẳng RGB còn gọi là
mặt phẳng đơn vị. Nếu vị trí của điểm màu F trong tam giác màu được biết trước, ta có thể tìm tọa
độ màu bằng cách kẻ các đoạn thẳng vuông góc từ F đến các cạnh của tam giác màu và đo chiều
dài của chúng. Nếu cho trước tọa độ màu, người ta tìm vị trí của điểm màu theo luật tìm trọng tâm
của tam giác màu. Sắc màu của những điểm nằm ngoài tam giác RGB (như điểm N trên hình
3.1.13) không thể nhận được khi ta cộng ba màu cơ sở, để nhận được sắc màu điểm N, một trong
các tọa độ màu (tọa độ màu đỏ - r) sẽ phải là âm.
Kẻ đường thẳng nối điểm N là màu quang phổ có bước sóng λN và điểm trắng đẳng năng
E, điểm N1 là điểm cắt của đường EN và BG sẽ có sắc điệu tương đương điểm N, nhưng độ sạch
màu thấp hơn ( pN < pN ). Nói cách khác, bước sóng trội của tất cả các điểm màu nằm trên
1
đường thẳng NE sẽ bằng λN - tức bước sóng của màu quang phổ N. Như vậy khi cộng ba màu R,
G, B ta có thể tạo ra tất cả các sắc điệu, nhưng không thể tạo ra mọi độ bão hòa.
91
Chương 3 Kỹ thuật xử lý hình ảnh
A
500
G
550
N2
N r
N1
F
b
E g
C 600
450
B R
Màu quang phổ là các màu có độ sạch màu tuyệt đối : pλ = 100% , màu trắng có độ bão
hòa pE = 0 , độ sạch màu tại điểm N1 có giá trị:
N1E
pN1 = ⋅ 100% (3.1.14)
NE
Các màu quang phổ nằm trên đường cong hình móng ngựa RGAB. Hai đầu cuối của đường
cong là điểm R và B. Sắc màu nằm trên đường thẳng RB (đỏ - mận chín) không phải là màu
quang phổ, những màu này thường gặp trong thiên nhiên. Các điểm nằm ngoài đường màu quang
phổ là những màu không có thực, vì độ sạch màu của chúng lớn hơn 100%.
Năm 1931, CIE đã đề xuất một không gian màu mới, ký hiệu là không gian XYZ. Khi thiết
kế biểu đồ màu mới người ta đặt ra những yêu cầu như sau:
1. Tất cả các màu thực phải được xác định bởi các modul màu có giá trị dương. Như
vậy tọa độ màu của tất cả các màu thực (nằm phía trong đường màu quang phổ) phải nằm trong
tam giác màu XYZ.
3. Điểm trắng đẳng năng phải nằm ở trọng tâm tam giác màu XYZ.
Không gian XYZ do CIE công bố với ba màu cơ bản X,Y,Z đáp ứng được các yêu cầu trên.
Hệ tọa độ không gian XYZ được chọn làm sao cho các vector màu thực (nằm bên trong đường
màu quang phổ) đều đi qua tam giác màu đơn vị XYZ (hình 3.1.15). Như vậy, trong phương trình
màu f ′F = x′X + y′Y + z′Z các thành phần x′, y′, z′ sẽ có giá trị dương cho tất cả các màu
thực.
Các màu đơn vị X,Y,Z đều không có thực vì độ sạch màu của chúng lớn hơn 100%. Để
đánh giá màu sắc của một nguồn sáng (không tính đến độ chói của nguồn sáng đó), người ta sử
dụng tam giác màu đơn vị với các tọa độ màu x , y, z : x + y + z = 1 (hình 3.1.16).
92
Chương 3 Kỹ thuật xử lý hình ảnh
Y
g
E
r
0
X
Z
b
1- Tất cả các màu thực đều nằm bên trong tam giác XYZ
Để thuận tiện cho việc sử dụng, tam giác màu đơn vị XYZ được biến đổi thành biểu đồ màu
trong hệ tọa độ vuông góc xy (hình 3.1.17).
y
1.0
yλ
520
y 0.8
0.6 y F1
550 1 580
500 0.6 0.4 E
yE C
0.4 600 700
E
700 0.2
0.2
x1
0
z x 0 0.2 xE 0.4 0.6 0.8 1.0 x
Hình 3.1.16 Biểu đồ màu trên mặt Hình 3.1.17 Biểu đồ màu XYZ theo CIE
93
Chương 3 Kỹ thuật xử lý hình ảnh
moáng maét
giaùc maïc voõng maïc
hoaøng ñieåm
thaáu kính
truïc nhìn thaàn kinh
ñieåm muø
thò giaùc
thuûy tinh
dòch
moâ maïc
Phạm vi các mức sáng mà mắt có thể cảm nhận được rất rộng. Các tế bào que bắt đầu cảm
nhận được hình ảnh có độ chói từ 10-4-10-5 cd/m2, các tế bào nón từ 1 cd/m2. Khi độ chói xấp xỉ
10 cd/m2 các tế bào que bị “loá” dần vì lúc này, tốc độ phân hủy rodopxin lớn hơn tốc độ tái tạo,
do đó lượng rodopxin trong các tế bào hình que giảm đi nhanh chóng. Ở độ chói từ 10-104 cd/m2,
chỉ còn các tế bào nón làm việc. Phản ứng quang - hoá học nói trên và cơ chế tự điều chỉnh lượng
ánh sáng đi vào võng mạc là nguyên nhân để mắt có phạm vi cảm nhận ánh sáng rộng như vậy
(~109).
Tuy nhiên mắt không thể cảm nhận được cùng một lúc tất cả mức sáng trong phạm vi rộng
như đã nói trên. Trên thực tế, mắt người chỉ có thể cảm nhận một khoảng nhỏ giới hạn từ
Lmin ÷ Lmax xung quanh mức chói trung bình của ảnh, khoảng này ta gọi là phạm vi động của
mắt. Đối với hình ảnh có mức chói trung bình nào đó, tất cả mức chói lớn hơn Lmax sẽ cảm nhận
như mức trắng, tất cả mức chói nhỏ hơn Lmin sẽ được cảm nhận như mức đen. Khi mức chói
94
Chương 3 Kỹ thuật xử lý hình ảnh
trung bình Ln thay đổi, mắt người sẽ tự động điều tiết để di chuyển phạm vi động theo Ln . Đây
chính là tính chất thích nghi với độ sáng của mắt người. Thí nghiệm cho thấy, khi mức sáng tăng
lên, thời gian mắt điều tiết để thích nghi với mức mới rất nhanh (khoảng vài giây). Ngược lại, khi
mức chiếu sáng giảm thì mắt điều tiết để thích nghi tương đối chậm (khoảng vài phút).
Khả năng mắt người cảm nhận sự thay đổi độ chói là không liên tục.
Hình 3.1.22 Khảo sát khả năng cảm nhận độ chói của mắt người
Nếu tăng dần độ chói của chi tiết trong một ảnh từ mức chói nền Ln (hình 3.1.22), lúc đầu
mặc dù đã có sự khác biệt về độ chói giữa chi tiết và nền, nhưng người quan sát không phát hiện
ra chi tiết này. Khi mức chênh lệch đạt tới ngưỡng nhất định, người quan sát bắt đầu nhận dạng
được chi tiết ảnh.
Người ta định nghĩa ngưỡng cảm nhận ánh sáng tuyệt đối của mắt ε
là đại lượng ngược
với giá trị độ chói nhỏ nhất của điểm sáng trên nền đen mà mắt phát hiện được trong bóng tối:
ε = 1 / Lmin . Trên thực tế ta thường gặp hình ảnh có khoảng chói động là Lmin ÷ Lmax và có độ
chói của nền là Ln . Độ tương phản của ảnh là tỷ lệ k = Lmax / Lmin .
Các chi tiết ảnh có độ chói khác với độ chói nền, mức chênh lệch độ chói là
ΔL = ( L − Ln ) , nếu ΔLmin là mức khác biệt nhỏ nhất mà mắt còn nhận biết được, thì tỷ lệ
ΔLmin / Ln = ( ΔL / Ln )mi n = σ gọi là ngưỡng tương phản. Giá trị σ phụ thuộc vào kích
thước của chi tiết hình ảnh và độ chói của nền.
Kết luận quan trọng rút ra được ở đây là giá trị ngưỡng tương phản của mắt người σ > 0 ,
hay nói cách khác, khả năng cảm nhận độ tương phản của mắt mang tính rời rạc (tương tự như độ
phân giải của mắt). Chính vì vậy, số lượng các mức xám cần có là hữu hạn trong dải động các
mức chói Lmin ÷ Lmax của ảnh số.
Số lượng mức xám mà mắt người cảm nhận được cùng một lúc phụ thuộc vào giá trị
ngưỡng tương phản và độ tương phản của ảnh:
ln k
m= +1 (3.1.15)
ln (1 + σ )
Thay vào công thức (3.1.15) giá trị độ tương phản trung bình của hình ảnh trên màn hình
hiển thị:k = 100 , giá trị ngưỡng tương phản σ = 0.03...0.04 , ta nhận được số sọc xám cực
đại để mắt cảm nhận được sẽ là m = 100 ÷ 150 .
Nguồn ánh sáng bên ngoài Lng chiếu vào màn hình sẽ làm giảm độ tương phản của ảnh
95
Chương 3 Kỹ thuật xử lý hình ảnh
Lmax + Lng L
k′ = < k = max , (3.1.16)
Lmin + Lng Lmin
3.1.5.6 Biểu diễn tín hiệu hình ảnh trong không gian và thời gian
3.1.5.6.1 Hình ảnh tương tự
Như đã đề cập tới ở phần trên, hình ảnh có thể biểu diễn bằng hàm 2 chiều f ( x , y ) . Giá
trị hàm f tại điểm có tọa độ không gian (x,y) là độ chói của điểm ảnh (x,y). Đa số ảnh sử dụng
trong tài liệu này này là ảnh đen – trắng, độ chói của các điểm ảnh nằm trong phạm vi nhất định
từ L min tới Lmax . Nếu ảnh được tạo ra bởi quá trình vật lý thì giá trị các điểm ảnh sẽ tỷ lệ thuận
với năng lượng của nguồn bức xạ, ví dụ năng lượng sóng điện từ, khi đó hàm f ( x , y ) là hữu
hạn: 0 < f ( x , y ) < ∞ .
Giá trị hàm f ( x , y ) phụ thuộc vào lượng ánh sáng rọi lên cảnh vật và lượng ánh sáng
phản xạ lại từ cảnh vật đó:
f ( x, y ) = i ( x, y ) r ( x, y ) (3.1.17)
i ( x , y ) - Hàm biểu diễn độ rọi sáng của nguồn lên bề mặt cảnh vật.
r ( x, y ) - Hàm mô tả tính phản xạ (hay hấp thụ) ánh sáng của các vật thể trong cảnh vật.
Giá trị độ lớn của điểm ảnh đen-trắng có tọa độ ( x0 , y0 ) được gọi là mức xám hay độ chói
của ảnh tại điểm này: l = ( x0 , y0 ) ; độ chói nằm trong khoảng L min < l < Lmax - được gọi là
thang xám. Thường mức xám nhỏ nhất được quy về mức 0 (mức đen) , còn mức trắng sẽ tương
ứng với giá trị độ chói lớn nhất l = L − 1 .
3.1.5.6.2 Quá trình lấy mẫu và lượng tử hóa tín hiệu hình ảnh
Tín hiệu hình ảnh nhận được từ cảm biến quang điện thường có dạng tương tự, ví dụ tín
hiệu điện áp có biên độ thay đổi liên tục theo độ chói của ảnh nguồn. Để có thể đưa tín hiệu hình
ảnh này vào xử lý bằng máy tính cần thực hiện quá trình số hóa thông qua ba giai đoạn: lấy mẫu,
lượng tử hóa và mã hóa.
Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 3.1.23. Tín hiệu mang tin
tức về độ chói của một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ
biến đổi liên tục (hình 3.1.23). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiều
đoạn bằng nhau. Giá trị tín hiệu tại các điểm lấy mẫu được đánh dấu ô vuông trên đồ thị. Theo
định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớn nhất trong phổ
tín hiệu tương tự, thì tập hợp các mẫu rời rạc nhận được hoàn toàn xác định tín hiệu đó.
96
uật xử lý hìnhh ảnh
Chươnng 3 Kỹ thu
Khi sử dụng
K g chip cảm biến CCD, tínn hiệu hình ảnh
ả đã đượcc rời rạc tronng không giaan hai
chiều. Cấu trúc kh
hung lấy mẫẫu hai chiều phụ thuộc vào
v phương pháp phân bố b các điểm
m cảm
quang theo chiều ngang
n và chiiều dọc trên bề mặt CCD
D. Chất lượngg hình ảnh số
s nhận đượcc phụ
thuộc vào số lượngg điểm ảnh cũng như sốố mức lượng tử được sử dụng trong quá trình mãã hóa
(hình 3.1.24).
3
a) b)
Hìnnh 3.1.24 Quá trình hình tthành ảnh rờii rạc trong chhip CCD
a - Ảnh tương tự
3
3.1.5.7 Tín hiệu
h video
động
hay tín
n hiệu video λ p
:
Chương 3 Kỹ thuật xử lý hình ảnh
L = f L ( x, y , z , t ) ; ⎫
⎪
λ = f λ ( x, y , z, t ) ; ⎬ (3.1.18 )
⎪
p = f p ( x, y , z, t ) . ⎭
Hình 3.1.25 Ma trận các điểm ảnh rời rạc ảnh và "phần tử" ảnh
Sau khi hình ảnh được rời rạc, các phần tử có thể được mã hoá và truyền đi riêng rẽ sang
bên thu. Nhưng chúng ta không thể truyền song song tất cả các phần tử vì khi đó cần đến rất nhiều
kênh truyền. Để giải quyết vấn đề này, trong hệ thống truyền hình người ta sử dụng nguyên tắc
quét hình: nguyên tắc truyền lần lượt theo thời gian từng phần tử hình ảnh. Nguyên tắc này dựa
trên đặc điểm lưu ảnh của mắt người. Sự lưu ảnh là khả năng mà người xem nhớ lại ấn tượng về
ảnh trong một thời gian nào đó (~0.1- 0.3 giây) sau khi tác động của ảnh đó đã chấm dứt. Chính vì
vậy, để truyền đi một hình ảnh tĩnh, ta “chiếu” lần lượt tất cả các phần tử của một ảnh tĩnh lên
màn hình, vào đúng vị trí tương đương của các phần tử đó như trong hình ảnh đã được truyền đi.
Nếu tốc độ “chiếu” một hình nhanh hơn thời gian lưu ảnh thì mắt người xem sẽ thu nhận và lưu
lại tất cả các phần tử đã truyền đi để tái tạo ra một ảnh tĩnh hai chiều. Quá trình truyền lần lượt các
phần tử của ảnh gọi là quá trình quét (scanning) ảnh.
Tiếp theo, khi "chiếu" nhiều ảnh tĩnh nhận được bằng phương pháp trên với tần số tương
đối lớn (trên 10 hình/giây), trong đó mỗi ảnh là một pha của hình ảnh chuyển động, thì người xem
sẽ có cảm giác như đang quan sát chuyển động liên tục. Tần số ảnh được lựa chọn để đáp ứng hai
yếu cầu: 1- Tạo cảm giác về quá trình chuyển động liên tục của ảnh; 2- Ảnh động tái tạo trên màn
98
Chương 3 Kỹ thuật xử lý hình ảnh
hình không bị chớp. Trong các hệ truyền hình đại chúng, tần số được chọn là 25 (hoặc 30)
ảnh/giây. Khi quét theo phương pháp xen kẽ, người ta chia ảnh thành 2 mành, trong mành đầu tiên
sẽ được truyền đi các dòng lẻ 1, 3, 5 …, trong mành tiếp theo truyền đi các dòng chẵn 2, 4, 6
…(hình 3.1.26). Như vậy toàn bộ ảnh sẽ được chia ra làm 2 mành. Tần số ảnh sẽ là 25 (30) Hz,
tần số mành là 50 (60) Hz.
Tín hiệu video được tạo ra tại ống ghi hình bằng phương pháp quét xen kẽ, tuyến tính từ trái
sang phải, trên xuống dưới là hàm của thời gian, giá trị hàm tỷ lệ thuận với độ chói của các phần
tử ảnh truyền hình. Tín hiệu video đầy đủ (hình 3.1.28) bao gồm các thành phần sau: tín hiệu
video, tín hiệu đồng bộ dòng và mành, tín hiệu xoá. Trong tín hiệu video màu còn có thêm thành
phần mang tin tức về màu sắc của các dòng ảnh.
- Tín hiệu video là tín hiệu đơn cực, có thành phần một chiều;
- Tín hiệu video có thể được coi là tín hiệu tuần hoàn với tần số lặp lại là
f H = 1/ T H ; fV = 1/ TV ;
Tín hiệu video tương tự cũng như tín hiệu ảnh tĩnh phải được số hóa trước khi đưa vào hệ
thống xử lý số. Cũng như trong các hệ thống xử lý tín hiệu một chiều, quá trình số hóa tín hiệu
99
Chương 3 Kỹ thuật xử lý hình ảnh
1- Rời rạc tín hiệu trong miền không gian 2 chiều, đây là quá trình lấy mẫu
2- Số lượng vô hạn các mức xám trong tín hiệu hình ảnh tương tự được thay bằng số lượng
hữu hạn các mức lượng tử, đây là quá trình lượng tử hóa tín hiệu
3- Mỗi mức lượng tử được biểu diễn bằng một số nhị phân - mã hóa tín hiệu
Quá trình số hóa tín hiệu hình ảnh trong không gian hai chiều có thể được thực hiện với
nhiều cấu trúc lấy mẫu khác nhau và các bước lượng tử khác nhau nhằm giảm dung lượng tín hiệu
số nhận được. Tuy nhiên, trên thực tế cấu trúc lấy mẫu trong đa số trường hợp có dạng trực giao
(hình chữ nhật) với giá trị bước lượng tử không thay đổi, vì khi đó quá trình số hóa sẽ đơn giản
nhất. Khi sử dụng cấu trúc lấy mẫu trực giao, ảnh số nhận được dưới dạng ma trận các điểm ảnh
phân bố theo dòng và cột.
Quá trình lấy mẫu tín hiệu video phải thỏa mãn định lý lấy mẫu Nyquist. Ví dụ: Tín hiệu
video hệ PAL có bề rộng phổ BPAL = 5.0 MHz , tần số lấy mẫu theo Nyquits phải ≥ 10MHz .
Trên thực tế, tần số lấy mẫu thường được lựa chọn cao hơn để tăng khoảng cách giữa dải
phổ chính và phổ phụ của tín hiệu video rời rạc, khi đó thành phần phổ chính có thể được tách ra
(trong quá trình khôi phục ảnh gốc) bằng các mạch lọc thông thấp đơn giản. Ngoài ra, tín hiệu
video tổng hợp (bao gồm thành phần màu) được lấy mẫu với tần số là bội số của tần số sóng mang
phụ fs (sóng mang màu). Với hệ PAL, tần số lấy mẫu sẽ là 3 fs (13,3 MHz) hoặc 4 fs (17,7 MHz).
Trong hệ thống số hóa tín hiệu video theo thành phần, ba tín hiệu R, G, B hoặc thành phần
chói Y và hai tín hiệu hiệu màu R-Y, B-Y sẽ được lấy mẫu với tần số đáp ứng định lý Nyquist và
là bội số của tần số dòng theo cả 2 tiêu chuẩn 525 và 625 dòng/ ảnh. Tiêu chuẩn CCIR-601 cho
phép sử dụng tần số lấy mẫu là 13,5 MHz. Số bít dùng để mã hóa tín hiệu video là 8 hoặc 10 bits.
Các tiêu chuẩn lấy mẫu video thành phần: có nhiều tiêu chuẩn lấy mẫu theo thành phần,
điểm khác nhau chủ yếu là tỷ lệ giữa tần số lấy mẫu của tín hiệu chói và tín hiệu màu (hoặc tín
hiệu hiệu màu CR và CB): đó là các tiêu chuẩn 4:4:4, 4:2:2, 4:2:0, 4:1:1.
- Tiêu chuẩn 4:4:4: Tín hiệu chói và màu được lấy mẫu tại tất cả các điểm lấy mẫu trên
dòng tích cực của tín hiệu video. Cấu trúc lấy mẫu trực giao (hình 3.1.29)
Tiêu chuẩn lấy mẫu 4:4:4 cho chất lượng hình ảnh tốt nhất, thuận tiện cho việc xử lý tín
hiệu video số. Tuy nhiên, với phương pháp lấy mẫu này, tốc độ dòng dữ liệu video số sẽ tương
đối cao, ví dụ khi số hóa tín hiệu video có độ phân giải 720x576 (hệ PAL), 8 bít lượng tử /điểm
ảnh, 25 ảnh/s luồng dữ liệu số nhận được sẽ có tốc độ : 3x720x576x8x25= 249Mbits/s.
100
Chương 3 Kỹ thuật xử lý hình ảnh
- Tiêu chuẩn 4:2:2: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích
cực của tín hiệu video. Hai tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng nửa tần số
lấy mẫu tín hiệu chói (hình 3.1.30)
101
Chương 3 Kỹ thuật xử lý hình ảnh
như trên hình 3.1.33. Tọa độ của các điểm ảnh (x,y) là rời rạc. Gốc tọa độ nằm tại góc trên bên
trái của ảnh ( x, y ) = ( 0,0 ) .
Như vậy, chúng ta có thể biểu diễn ảnh số nói trên như ma trận kích thước MxN:
⎡ f ( 0, 0 ) f ( 0,1) ... f ( 0, N − 1) ⎤
⎢ ⎥
f (1, 0 ) f (1,1) ... f (1, N − 1)
f ( x, y ) = ⎢⎢ ⎥
⎥ (3.1.19)
⎢ ⎥
⎢⎣ f ( M − 1, 0 ) f ( M − 1,1) ... f ( M − 1, N − 1) ⎥⎦
Mỗi phần tử của ma trận được gọi là 1 điểm ảnh (image element hay pixel).
M và N phải là số nguyên dương. Số lượng mức xám có thể gán cho 1 điểm ảnh (L) thường
được lựa chọn sao cho L = 2 k , k là số nguyên dương.
Như vậy, số lượng bits được sử dụng để biểu diễn 1 ảnh số sẽ được xác định theo công
thức: b = M× N×k.
Ví dụ: ảnh số hiển thị trên màn hình VGA với độ phân giải 640x480 điểm, số lượng các
mức xám là 256 (8 bits/mẫu) có thể được lưu lại trong bộ nhớ có kích thước M bằng:
M = 640 × 480 × 8 = 2 457 600 bits .
3.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số
Tín hiệu hình ảnh tĩnh sau khi được số hóa có thể được lưu trữ dưới dạng ma trận 2 chiều
các bits. Các dòng và cột của ma trận sẽ tương ứng với dòng và cột các phần tử ảnh (pixel). Đối
với ảnh động (video), kết quả quá trình số hóa sẽ là ma trận 3 chiều cho thấy phân bố các điểm
ảnh trong không gian theo hàng và cột cũng như quá trình biến đổi hình ảnh trong miền thời gian.
Quá trình biến đổi tín hiệu trong hệ thống xử lý ảnh số có thể được mô tả bằng các thuật
toán trong miền không gian và thời gian hoặc trong các không gian tín hiệu khác dựa trên các
phép biến đổi ánh xạ không gian, ví dụ biến đổi Fourier, biến đổi Karhumen Loeve v.v. Trong
phần này chúng ta sẽ làm quen với công cụ toán học thường dùng để mô tả quá trình xử lý ảnh
trong không gian và các phép biến đổi không gian một và hai chiều (được sử dụng rộng rãi trong
102
Chương 3 Kỹ thuật xử lý hình ảnh
Song song với việc trình bày lý thuyết toán, trong phần này sẽ đưa ra các ví dụ minh họa
một số kỹ thuật biến đổi hình ảnh cụ thể. Nhiều ví dụ sẽ được thực hiện dựa trên phần mềm
Matlab. Đây là một công cụ tính toán được xây dựng trên cơ sở các phép xử lý ma trận rất thích
hợp cho việc mô tả các giải thuật xử lý ảnh số.
y ( m, n ) = T ⎡⎣ x ( m, n ) ⎤⎦ (3.1.21)
Trong giáo trình này, chúng ta sẽ quan tâm chủ yếu đến các hệ thống tuyến tính. Hệ thống
biểu diễn bởi (3.1.21) được gọi là tuyến tính khi và chỉ khi:
T ⎡⎣ ax1 ( m, n ) + bx2 ( m, n ) ⎤⎦ = aT ⎡⎣ x1 ( m, n ) ⎤⎦ + bT ⎡⎣ x2 ( m, n ) ⎤⎦ =
(3.1.22)
= ay1 ( m, n ) + by2 ( m, n )
Các toán tử thực hiện với ảnh 2 chiều thường có tính chất tuyến tính, ví dụ các phép dịch
chuyển trong không gian, phép chập, các phép biến đổi thực hiện quá trình lọc tuyến tính mà
chúng ta sẽ xét ở các chương sau.
b) Xung đơn vị trong không gian 2 chiều
Xung đơn vị được sử dụng rộng rãi để mô tả các tác động trực tiếp lên điểm ảnh trong
không gian.
⎧1 khi m = n
δ ( m, n ) = ⎨ (3.1.23)
⎩0 khi m ≠ n
δ ( m − A, n − B ) là điểm ảnh có mức chói tối đa tại vị trí (A,B) trong không gian.
Đáp ứng xung của hệ thống là tín hiệu nhận được khi xung đơn vị tác động lên hệ thống:
h [ m, n ] = T ⎡⎣δ ( m, n ) ⎤⎦ (3.1.24)
c) Mô tả quá trình biến đổi tín hiệu trong không gian 2 chiều
Cho ảnh số gốc là ma trận các điểm ảnh có kích thước NxN. Trong trường hợp tổng quát,
đáp ứng của hệ thống tuyến tính đối với tín hiệu vào có thể tìm được thông qua đáp ứng xung như
sau:
103
Chương 3 Kỹ thuật xử lý hình ảnh
N −1 N −1
y ( m, n ) = ∑ ∑ x ( l , k ) h ( m, l ; n, k ) (3.1.25)
l =0 k =0
Khi hệ thống xử lý số là tuyến tính và bất biến, ta có thể tìm được ảnh kết quả thông qua
ảnh gốc và đáp ứng xung của hệ thống như sau:
N −1 N −1
y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k ) (3.1.26)
l =0 k =0
hay y ( m, n ) = x ( m, n ) ⊗ h ( m, n ) (3.1.27)
a) Vector
Vector cột (ma trận cột) f , kích thước Nx1 là tập hợp các phần tử f ( n ) với n=1, 2, ..., N
sắp xếp theo cột dọc:
⎡f (1) ⎤
⎢ ⎥
⎢f (2) ⎥
⎢ ⎥ (3.1.28)
f =⎢ ⎥
⎢f ( j) ⎥
⎢ ⎥
⎢ ⎥
⎢f
⎣ ( )⎥⎦
N
Vector dòng (ma trận dòng) h, kích thước 1xN là tập hợp các phần tử f ( n ) với n=1, 2, ...,
b) Ma trận
Ma trận F, kích thước MxN là tập hợp các phần tử F(m,n) với m=1,2,..,M, n=1,2,...,N được
sắp xếp thành M hàng và N cột như sau:
Lưu ý rằng, khi sử dụng phần mềm Matlab, địa chỉ của mỗi điểm ảnh được xác định khác so
với phương pháp biểu diễn ảnh số được quy định ở phần trên: điểm ảnh trên cùng bên trái trong
ma trận của Matlab là điểm F(1,1).
Ma trận NxN được gọi là ma trận vuông cấp N. Trong ma trận vuông, tập hợp các phần tử
F(1,1), F(2,2),..F(NN) được gọi là đường chéo chính, đường chéo còn lại gọi là đường chéo phụ.
104
Chương 3 Kỹ thuật xử lý hình ảnh
Ma trận vuông có các phần tử ngoài đường chéo chính bằng 0 gọi là ma trận chéo. Ma trận
chéo với các phần tử trên đường chéo bằng 1 gọi là ma trận đơn vị, ký hiệu là In.
c) Cộng ma trận
Tổng ma trận C=A+B chỉ xác được định khi A và B có cùng kích thước MxN. C cũng có
kích thước MxN, các phần tử của C là: C(m,n)= A(m,n)+B(m,n).
d) Nhân ma trận
Tích hai ma trận C=AB chỉ xác định khi số lượng cột của A bằng số dòng của B. Khi nhân
ma trận A có kích thước MxP với B - PxN ta nhận được C có kích thước MxN:
P
C ( m, n ) = ∑ A ( m, p )B ( p, n ) (3.1.31)
p =1
Tích của ma trận vuông A và ma trận đơn vị cùng cấp B chính là ma trận A.
Ma trận nghịch đảo của ma trận vuông A là ma trận A−1 nếu: AA−1 = I và A−1 A = I .
Nếu tồn tại ma trận nghịch đảo của ma trận A cấp n thì A được gọi là khả nghịch.
Ma trận chuyển vị của A thu được bằng cách đổi chỗ hàng thành cột và cột thành hàng và
giữ nguyên thứ tự các phần tử trên hàng. Ma trận chuyển vị của A ký hiệu là AT .
Nếu A = AT , ma trận A được gọi là ma trận đối xứng. Ma trận nhận được khi cộng A + AT
và nhân AAT là ma trận đối xứng.
g) Tích vô hướng (scalar product) hai vector f và g kích thước Nx1:
k = g Tf = f Tg ,
N (3.1.32)
k = ∑g(n)f (n)
n =1
h) Tích ma trận của hai vector f kích thước Mx1 và g kích thước Nx1 là ma trận:
A=gf T ,
(3.1.33)
A(m, n) = g ( m ) f ( n )
Như chúng ta đã biết, đối với các hệ thống xử lý tín hiệu rời rạc tuyến tính và bất biến quan
105
Chương 3 Kỹ thuật xử lý hình ảnh
hệ giữa đáp ứng (dãy ra) và kích thích (dãy vào) của hệ thống được mô tả theo (3.1.23):
N −1 N −1
y ( m, n ) = ∑∑ x ( l , k ) h ( m − l ; n − k ) (3.1.34)
l =0 k =0
Đối với hệ thống xử lý ảnh, tín hiệu vào và đáp ứng xung thường được biểu diễn dưới dạng
ma trận hai chiều, do đó để mô tả tác động của hệ thống lên tín hiệu ta cần tìm tích chập hai ma
trận. Tích chập hai ma trận kích thước M1 × N1 và M 2 × N 2 sẽ là ma trận có kích thước
( M1 + M 2 − 1) × ( N1 + N 2 − 1) .
Ví dụ:
Khi tìm giá trị tích chập cho các điểm nằm tại biên của ảnh ví dụ điểm y(1,1) (hình 3.1.34),
các điểm ảnh không tồn tại trong x(m,n) phải được chèn các giá trị nhất định. Có nhiều quy tắc
chèn giá trị mức xám như: mặc định bằng 0, lặp lại các giá trị mức xám trên đường biên của ảnh
v.v.
⎡0 ⎤ 1
⎢ ⎥
⎢ ⎥
⎢0 ⎥ n − 1
⎢ ⎥ (3.1.35)
vn = ⎢1 ⎥ n
⎢0 ⎥ n + 1
⎢ ⎥
⎢ ⎥
⎢0 ⎥ N
⎣ ⎦ 2
106
Chương 3 Kỹ thuật xử lý hình ảnh
⎡ [0] ⎤ ⎧
⎢ ⎥ ⎪
⎢ ⎥ ⎨( n − 1) zeros matrix (N1 × N1 )
⎢ [0] ⎥ ⎪
⎢ ⎥ ⎩
⎢ ⎡1 0 … 0 ⎤ ⎥ ⎧
⎢⎢ ⎥ ⎥ ⎪ th (3.1.36)
0 1 … 0 ⎥ ⎪ n unit matrix
Nn = ⎢⎢ ⎥ ⎨
⎢⎢ ⎥ ⎥
⎢⎢ ⎪
⎥⎥ ⎪⎩
⎢⎣ 0 0 … 1 ⎦⎥
⎢ ⎥
⎢ [0] ⎥ ⎧
⎢ ⎥ ⎪⎨( N 2 − n ) zeros matrix (N1 × N1 )
⎢ ⎥ ⎪
⎢⎣ [0] ⎥⎦ ⎩
Sở dụng công thức (3.1.37) và (3.1.38) có thể dễ dàng xác định quan hệ giữa hai phương
pháp biểu diễn hình ảnh thông qua ma trận và vector. Phương pháp biểu diễn dưới dạng vector
giúp thu gọn đáng kể các công thức mô tả quá trình xử lý ảnh và cho phép chúng ta áp dụng
những phương pháp xử lý tín hiệu một chiều trong xử lý ảnh.
⎡1 4 7⎤ ⎡1 ⎤ ⎡ 0⎤ ⎡ 0⎤
F = 2 5 8 , v1 = 0 ; v 2 = 1 ; v 3 = ⎢ 0 ⎥ ,
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ 3 6 9 ⎥⎦ ⎢⎣0 ⎥⎦ ⎢⎣ 0⎥⎦ ⎢⎣1 ⎥⎦
⎡1 0 0⎤ ⎡0 0 0 ⎤ ⎡0 0 0 ⎤
⎢0 1 0⎥ ⎥ ⎢ ⎥ ⎢0 0 0 ⎥
⎢ ⎢0 0 0 ⎥ ⎢ ⎥
⎢0 0 1⎥ ⎢0 0 0 ⎥ ⎢0 0 0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢1 0 0 ⎥ ⎢0 0 0 ⎥
N1 = ⎢ 0 0 0 ⎥ ; N 2 = ⎢0 1 0 ⎥ ; N 3 = ⎢0 0 0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢0 0 1 ⎥ ⎢0 0 0 ⎥
⎢0 0 0⎥ ⎢0 0 0 ⎥ ⎢1 0 0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢0 0 0 ⎥ ⎢0 1 0 ⎥
⎢0 0 0 ⎥⎦ ⎢0 0 0 ⎥ ⎢0 0 1 ⎥
⎣ ⎣ ⎦ ⎣ ⎦
N2
f= ∑ N n Fv n = N1 Fv1 + N 2 Fv 2 + N 3 Fv 3
n=1
107
Chương 3 Kỹ thuật xử lý hình ảnh
⎡1 0 0⎤ ⎡1 0 0⎤ ⎡1 ⎤
⎢0 1 0⎥⎥ ⎢0 1 0⎥⎥ ⎢2⎥
⎢ ⎢ ⎢ ⎥
⎢0 0 1⎥ ⎢0 0 1⎥ ⎢3 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0 ⎥ ⎡1 4 7 ⎤ ⎡1 ⎤ ⎢0 0 0 ⎥ ⎡1 ⎤ ⎢0 ⎥
N1 Fv1 = ⎢0 0 0 ⎥ ⎢⎢ 2 5 8 ⎥⎥ ⎢⎢0 ⎥⎥ = ⎢0 0 0 ⎥ ⎢⎢ 2 ⎥⎥ = ⎢0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0 ⎥ ⎢⎣ 3 6 9 ⎥⎦ ⎣⎢0 ⎦⎥ ⎢0 0 0 ⎥ ⎣⎢ 3 ⎦⎥ ⎢0 ⎥
⎢0 0 0⎥ ⎢0 0 0⎥ ⎢0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 0 0⎥ ⎢0 0 0⎥ ⎢0 ⎥
⎢0 0 0⎦⎥ ⎢0 0 0⎦⎥ ⎢0 ⎥
⎣ ⎣ ⎣ ⎦
⎡0 ⎤ ⎡0 ⎤ ⎡1 ⎤
⎢0 ⎥ ⎢0 ⎥ ⎢2⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 ⎥ ⎢0 ⎥ ⎢3 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢4⎥ ⎢0 ⎥ ⎢4⎥
Tương tự ta có: N 2 Fv 2 = ⎢5 ⎥ ; N 3Fv 3 = ⎢0 ⎥ ⇒ f = ⎢5 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢6 ⎥ ⎢0 ⎥ ⎢6 ⎥
⎢0 ⎥ ⎢7 ⎥ ⎢7 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢0 ⎥ ⎢8 ⎥ ⎢8 ⎥
⎢0 ⎥ ⎢9 ⎥ ⎢9 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Cho tín hiệu vào x ( m, n ) và đáp ứng xung h ( m, n ) là các ma trận vuông 3x3, ta có:
y ( m, n ) =
= x ( 0, 0 ) h ( m − 0, n − 0 ) + x (1, 0 ) h ( m − 1, n − 0 ) + x ( 2, 0 ) h ( m − 2, n − 0 ) +
(3.1.40)
x ( 0,1) h ( m − 0, n − 1) + x (1,1) h ( m − 1, n − 1) + x ( 2,1) h ( m − 2, n − 1) +
x ( 0, 2 ) h ( m − 0, n − 2 ) + x (1, 2 ) h ( m − 1, n − 2 ) + x ( 2, 2 ) h ( m − 2, n − 2 )
Vế phải của (3.1.40) là tích vô hướng của hai vector cột x và hm,n :
108
Chương 3 Kỹ thuật xử lý hình ảnh
⎡ x ( 0, 0 ) ⎤ ⎡ h ( m − 0, n − 0 ) ⎤
⎢ ⎥ ⎢ ⎥
⎢ x (1, 0 ) ⎥ ⎢ h ( m − 1, n − 0 ) ⎥
⎢ x ( 2, 0 ) ⎥ ⎢ h ( m − 2, n − 0 ) ⎥
⎢ ⎥ ⎢ ⎥
⎢ x ( 0,1) ⎥ ⎢ h ( m − 0, n − 1) ⎥
⎢ ⎥ ⎢ ⎥
x = ⎢ x (1,1) ⎥ hm ,n = ⎢ h ( m − 1, n − 1) ⎥ (3.1.41)
⎢ ⎥ ⎢ ⎥
⎢ x ( 2,1) ⎥ ⎢ h ( m − 2, n − 1) ⎥
⎢ x ( 0, 2 ) ⎥ ⎢ h ( m − 0, n − 2 ) ⎥
⎢ ⎥ ⎢ ⎥
⎢ x (1, 2 ) ⎥ ⎢ h ( m − 1, n − 2 ) ⎥
⎢ ⎥ ⎢ ⎥
⎢⎣ x ( 2, 2 ) ⎥⎦ ⎢⎣ h ( m − 2, n − 2 )⎥⎦
Có thể thấy rằng, ma trận hai chiều các điểm ảnh X ứng với hàm x ( m, n ) - được biến đổi
theo (3.1.37) để nhận được vector x. Nếu ma trận hai chiều ảnh Y ứng với y ( m, n ) cũng được
biểu diễn tương tự, thì vector hm,n sẽ biến đổi thành ma trận H:
⎡ h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) h ( 0, −1) h ( −1, −1) h ( −2, −1) h ( 0, −2 ) h ( −1, −2 ) h ( −2, −2 ) ⎤
⎢ ⎥
⎢ h (1,0 ) h ( 0,0 ) h ( −1,0 ) h (1, −1) h ( 0, −1) h ( −1, −1) h (1, −2 ) h ( 0, −2 ) h ( −1, −2 ) ⎥
⎢ h ( 2,0 ) h (1,0 ) h ( 0,0 ) h ( 2, −1) h (1, −1) h ( 0, −1) h ( 2, −2 ) h (1, −2 ) h ( 0, −2 ) ⎥
⎢ ⎥
⎢ h ( 0,1) h ( −1,1) h ( −2,1) h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) h ( 0, −1) h ( −1, −1) h ( −2, −1) ⎥
H = ⎢ h (1,1) h ( 0,1) h ( −1,1) h (1,0 ) h ( 0,0 ) h ( −1,0 ) h (1, −1) h ( 0, −1) h ( −1, −1) ⎥
⎢ ⎥
⎢ h ( 2,1) h (1,1) h ( 0,1) h ( 2,0 ) h (1,0 ) h ( 0,0 ) h ( 2, −1) h (1, −1) h ( 0, −1) ⎥
⎢ h ( 0, 2 ) h ( −1, 2 ) h ( −2, 2 ) h ( 0,1) h ( −1,1) h ( −2,1) h ( 0,0 ) h ( −1,0 ) h ( −2,0 ) ⎥
⎢ ⎥
⎢ h (1, 2 ) h ( 0, 2 ) h ( −1, 2 ) h (1,1) h ( 0,1) h ( −1,1) h (1,0 ) h ( 0,0 ) h ( −1,0 ) ⎥
⎢ ⎥
⎣ h ( 2, 2 ) h (1, 2 ) h ( 0, 2 ) h ( 2,1) h (1,1) h ( 0,1) h ( 2,0 ) h (1,0 ) h ( 0,0 ) ⎦
(3.1.42)
Khi đó, phương trình (3.1.40) được rút ngắn như sau:
y = Hx (3.1.43)
Đây là phương trình cơ bản trong lĩnh vực xử lý ảnh tuyến tính. Ma trận H có thể được chia
thành 9 ma trận nhỏ kích thước 3 × 3 có dạng:
⎡ H 00 H 01 H 02 ⎤
H = ⎢⎢ H10 H11 H12 ⎥⎥ (3.1.44)
⎣⎢ H 20 H 21 H 22 ⎦⎥
109
Chương 3 Kỹ thuật xử lý hình ảnh
⎡ ⎡ l→ ⎤ ⎡ l→ ⎤ ⎡ l→ ⎤⎤
⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎥
⎢ ⎢m ↓ ⎛ k = 0 ⎞⎥ ⎢m ↓ ⎛ k = 1 ⎞⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥
⎢ ⎢ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎥ ⎥
⎝ n = 0 ⎠ ⎥⎦ ⎢⎣ ⎝ n = 0 ⎠ ⎥⎦ ⎢⎣ ⎝n = 0 ⎠⎦
⎢ ⎣ ⎥
⎢ ⎡ l→ ⎤ ⎡ l→ ⎤ ⎡ l→ ⎤⎥
⎢ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎥ (3.1.45)
⎢ ⎢ ⎛ k = 0 ⎞⎥ ⎢ m ↓ ⎛ k = 1⎞ ⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥
H= m↓⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎥ ⎥
⎢ ⎢ ⎝ n = 1 ⎠ ⎥⎦ ⎢⎣ ⎝ n = 1 ⎠ ⎥⎦ ⎢⎣ ⎝n =1 ⎠⎦ ⎥
⎢ ⎣
⎢ ⎥
⎢ ⎥
⎢⎡ l→ ⎤ ⎡ l→ ⎤ ⎡ l→ ⎤⎥
⎢⎢ ⎛k = 0
⎥ ⎢ ⎥ ⎢ ⎥⎥
⎢⎢m ↓ ⎜
⎞⎥ ⎢m ↓ ⎛ k = 1 ⎞⎥ ⎢ m ↓ ⎛ k = N − 1⎞ ⎥ ⎥
⎢ ⎟ ⎜ ⎟ ⎜ ⎟
⎣⎢ ⎣ ⎝ n = N − 1⎠ ⎥⎦ ⎢⎣ ⎝ n = N − 1⎠ ⎥⎦ ⎢⎣ ⎝ n = N − 1 ⎠ ⎥⎦ ⎦⎥
Theo (3.1.37) vector y tương đương ma trận ảnh Y có thể tìm được thông qua ma trận X
như sau:
N
y = ∑ HN n Xv n (3.1.46)
n =1
Ngoài ra, sử dụng (3.1.38) chúng ta cũng có thể biếu diễn ma trận Y thông qua vector y của
ảnh:
N
Y= ∑ M Tm y u Tm (3.1.47)
m=1
Từ (3.1.46) và (3.1.47) chúng ta có thể tìm ra quan hệ giữa ma trận ảnh vào và ra của hệ
thống tuyến tính:
N N
(
Y= ∑∑ M Tm HN n X v n u Tm ) ( ) (3.1.48)
m=1 n =1
T
Có thể chứng minh được rằng việc nhân H với ma trận M m và N n sẽ tách ra các ma trận
circulant H m,n , như vậy ta có:
N N
Y= ∑∑ H m,n X v n u Tm ( ) (3.1.49)
m=1 n =1
Đối với hệ thống tuyến tính tách được (separable), quá trình tìm tổng chập (3.1.39) có thể
được thực hiện lần lượt bằng cách tính tổng theo m, sau đó theo n. Ta có thể viết:
h ( m, l ; n, k ) = hc ( m, l ) hr ( n, k ) (3.1.50)
N −1 N −1
y ( m, n ) = ∑ hc ( m, l ) ∑ x ( l , k ) hr ( n, k ) (3.1.51)
l =0 k =0
Theo (3.1.50) ta thấy trong các ma trận circulant (3.1.45) thành phần hr ( n, k ) là constant
và có thể đưa ra ngoài ma trận. Do đó ma trận circulant khối H có thể biến đổi như sau (để rút
gọn, chúng ta viết tắt hn , k = h ( n, k ) ):
110
Chương 3 Kỹ thuật xử lý hình ảnh
Ma trận H được gọi là tích Kronecker của hai ma trận hrT và hcT .
∞
f (x) = ∫ F (u) e
j 2π ux
du (3.1.54)
−∞
Công thức (3.1.53) được gọi là khai triển Fourier thuận còn (3.1.54) – khai triển Fourier
nghịch.
Trong trường hợp tổng quát, hàm F(u) là hàm phức, do đó nó có thể được biểu diễn dưới
dạng:
F (u) = F (u) e
jΦ ( u )
(3.1.55)
Modul F ( u ) = ⎡⎣ R 2 ( u ) + I 2 ( u ) ⎤⎦
1/ 2
được gọi là phổ biên độ, còn hàm
⎡ I (u) ⎤
Φ ( u ) = arctg ⎢ ⎥ gọi là phổ pha của hàm f(u). R(u) và I(u) là thành phần thực và ảo
⎣ R (u) ⎦
của F(u).
Một đại lượng khác có thể suy ra từ phổ Fourier là phổ công suất của tín hiệu P(u):
P ( u ) = F ( u ) = R2 ( u ) + I 2 ( u )
2
(3.1.56)
Phổ công suất cho chúng ta thấy phân bố công suất của tín hiệu trong miền tần số.
Đối với tín hiệu rời rạc, một biến, cặp khai triển Fourier thuận và nghịch có dạng như sau:
111
Chương 3 Kỹ thuật xử lý hình ảnh
M −1 ux
1 − j 2π
F (u) =
M
∑
x =0
f ( x)e M
với u = 0,1, 2...M − 1 , (3.1.57)
M −1 ux
j 2π
f ( x ) = ∑ F (u)e M
với x = 0,1,2...M − 1 (3.1.58)
u =0
Để thực hiện khai triển Fourier, chúng ta phải sử dụng M2 phép nhân và phép cộng. Cũng
như tín hiệu rời rạc f ( x ) , khai triển Fourier của nó cho kết quả là M các thành phần rời rạc. Dễ
dàng nhận thấy rằng, mỗi thành phần rời rạc trong F(u) là tổng của tích tất cả các giá trị của hàm
f ( x ) nhân với các hàm cosin và sin có M tần số khác nhau. Như vậy có thể nói F(u) là biểu diễn
tín hiệu f(x) trong miền tần số vì biến u xác định các tần số tạo nên tín hiệu rời rạc f(x). Có thể
nói, khai triển Fourier cho phép chúng ta mô tả một hàm thông qua các thành phần tần số chứa
trong hàm đó. Chính vì vậy khai triển Fourie có thể được sử dụng như một công cụ quan trọng để
mô tả và phân tích các phương pháp lọc tuyến tính.
Trong trường hợp tổng quát, phổ của tín hiệu rời rạc là hàm phức, do đó nó có thể được
biểu diễn dưới dạng:
F (u) = F (u) e
jΦ ( u )
(3.1.59)
P ( u ) = F ( u ) = R2 ( u ) + I 2 ( u )
2
(3.1.60)
Biến đổi Fourier có thể được mở rộng cho hàm f ( x , y ) có hai biến. Khi f ( x , y ) liên tục
và lấy tích phân được thì cặp biến đổi Fourier hai chiều thuận và nghịch sẽ là:
∞
F ( u, v ) = ∫ ∫ f ( x, y ) e
− j 2π ( ux+vy )
dxdy (3.1.61)
−∞
∞
f ( x, y ) = ∫ ∫ F ( u, v ) e
j 2π ( ux+vy )
dudv (3.1.62)
−∞
Cũng như trường hợp biến đổi Fourier một chiều, ta có phổ biên độ, phổ pha và phổ công
suất cho tín hiệu hai chiều:
F ( u, v ) = ⎡⎣ R 2 ( u, v ) + I 2 ( u, v ) ⎤⎦
1/ 2
(3.1.63)
⎡ I ( u,v ) ⎤
Φ ( u, v ) = arctg ⎢ ⎥ (3.1.64)
⎣ R ( u, v ) ⎦
P ( u , v ) = F ( u , v ) = R 2 ( u, v ) + I 2 ( u, v )
2
(3.1.65)
Ví dụ: Biến đổi Fourier của xung hình chữ nhật trong không gian 3 chiều (hình 3.1.35a) có
112
Chương 3 Kỹ thuật xử lý hình ảnh
a) b)
Hình 3.1.35 Phổ Fourier của xung hình chữ nhật trong không gian 3 chiều.
M −1 N −1 ⎛ ux vy ⎞
1 − j 2π ⎜ + ⎟
F ( u, v ) =
MN
∑ ∑ f ( x, y ) e
x =0 y =0
⎝M N⎠
(3.1.66)
Nếu có F(u,v) chúng ta có thể tìm ra f(x,y) bằng khai triển Fourier thuận:
M −1 N −1 ⎛ ux vy ⎞
j 2π ⎜ + ⎟
f ( x, y ) = ∑ ∑ F ( u, v ) e
u =0 v =0
⎝M N⎠
(3.1.67)
Phổ biên độ, phổ pha và phổ công suất cũng được xác định như sau:
F ( u, v ) = ⎡⎣ R 2 ( u, v ) + I 2 ( u, v ) ⎤⎦
1/ 2
(3.1.68)
⎡ I ( u, v ) ⎤
Φ ( u, v ) = arctg ⎢ ⎥ (3.1.69)
⎣ R ( u, v ) ⎦
P ( u , v ) = F ( u , v ) = R 2 ( u, v ) + I 2 ( u, v )
2
(3.1.70)
Nếu f(x,y) là hàm biểu diễn độ chói của ảnh số thì F(0,0) chính là giá trị trung bình của độ
chói ảnh. Vì (0,0) là điểm gốc tọa độ của không gian tần số, nơi tần số bằng 0, nên thành phần
F(0,0) còn được gọi là thành phần một chiều (DC) của phổ tín hiệu.
Ví dụ: Trên hình 3.1.36a là ảnh chi tiết hình chữ nhật màu trắng, kích thước 20x40 nằm
trên ảnh phông màu đen. Phổ 2 chiều của ảnh trên nhận được bằng khai triển Fourie (3.1.66)
biểu diễn trên hình 3.1.36b.
Các thành phần phổ của tín hiệu sẽ được đánh số theo thứ tự từ u=1 tới u=M, v=1 tới v=N.
Để thành phần một chiều của phổ nằm tại trung tâm của ảnh, chúng ta phải thực hiện dịch phổ
113
Chương 3 Kỹ thuật xử lý hình ảnh
khai triển Fourier, phổ của ảnh sẽ dịch chuyển đến vị trí u = ( M / 2 ) và v = ( N / 2 ) :
⎛ M N⎞
f ( x, y )( −1)
x+y
↔ F ⎜ u − ;v − ⎟ (3.1.72)
⎝ 2 2⎠
Phổ của ảnh sau khi dịch chuyển được biểu diễn trên hình 3.1.36c.
Phạm vi dải động (khoảng biến thiên) của giá trị các hệ số khai triển Fourier có thể cao hơn
nhiều so với giá trị của thành phần chói. Vì vậy, để ảnh phổ hiển thị rõ hơn trên màn hình, đôi khi
người ta biến đổi các giá trị phổ theo hàm logarit như sau:
c- hằng số.
Ảnh phổ sau khi biến đổi bằng (3.1.73) biểu diễn trên hình 3.1.36d.
114
uật xử lý hìnhh ảnh
Chươnng 3 Kỹ thu
3.2 PHÂ
ÂN TÍCH CÁ
ÁC KỸ THU
UẬT XỬ LÝ
Ý ẢNH VÀ V
VIDEO
ký hiệu
u là N4 ( p ) . Mỗi điểm lân
l cận nằm cách điểm (xx,y) 1 đơn vịị. 4 điểm ảnhh lân cận với điểm
1) Liên
n kết 4: hai điểm
đ ảnh p vàà q có các giáá trị từ V có liên
l kết 4 nếuu q nằm tronng tập N4 ( p ) .
2) Liên
n kết 8: hai điểm
đ ảnh p vàà q có các giáá trị từ V có liên
l kết 8 nếuu q nằm tronng tập N8 ( p ) .
3) Liên
n kết m (hỗn hợp): hai điểểm ảnh p và q có các giá trị từ V có liên kết m nếuu:
- q nằm trong tập N D ( p ) và tập N 4 ( p ) ∩ N 4 ( q ) không chhứa các giá trị trong V.
Hìnnh 3.2.1 M
Minh họa liên kết 8 và liên
n kết m.
Chương 3 Kỹ thuật xử lý hình ảnh
Đường kết nối (rời rạc) giữa hai điểm ảnh p có tọa độ (x,y) và q có tọa độ là (s,t) là chuỗi
các pixel khác nhau với các tọa độ: ( x 0 , y 0 ) , ( x1 , y1 ) ,..., ( x n , y n ) , trong đó:
( x 0 , y0 ) = ( x, y )
( x n , yn ) = ( s, t )
( x i , yi ) và ( x i−1 , yi−1 ) là các điểm liên kết với 1 ≤ i ≤ n . n được gọi là chiều dài của đường
kết nối. Khi ( x 0 , y 0 ) = ( x n , y n ) , đường nối được gọi là khép kín.
Tùy theo phương pháp xác định liên kết,chúng ta có đường kết nối 4, 8 hoặc đường kết nối
m. Trên hình 3.2.1 mô tả hai loại đường kết nối với liên kết m và 8.
Cho S là một tập các điểm ảnh, hai pixel p và q được gọi là liên kết trong S, nếu tồn tại
đường kết nối giữa hai điểm p và q được tạo ra chỉ bởi các điểm trong tập S.
Với bất cứ điểm p nào từ S, tất cả các pixel liên kết với p trong S sẽ được gọi là thành phần
liên kết của S. Nếu S trong chỉ tồn tại một thành phần liên kết, thì tập S gọi là tập liên kết.
Cho R là tập con các điểm ảnh, R được gọi là vùng ảnh nếu R là tập liên kết. Đường biên
của vùng R được tạo ra từ tập nhỏ các điểm ảnh. Các điểm này có một hoặc nhiều hơn các điểm
lân cận không nằm trong tập R.
D ( p, q ) ≥ 0 , D ( p, q ) = 0 nếu p=q
D ( p, q ) = D ( q, p )
D ( p, z ) ≤ D ( p, q ) + D ( q, z )
D 4 ( p,q ) = x − s + y − t (3.2.2)
Các pixels nằm cách điểm (x,y) một khoảng D4 nhỏ hơn hoặc bằng giá trị r sẽ tạo ra hình
116
uật xử lý hìnhh ảnh
Chươnng 3 Kỹ thu
thoi cóó tâm điểm tạại (x,y).Ví dụụ: pixels nằm m khoảng D 4 ≤ 2 tạo ra
m cách (x,y) một r hình thoi sau:
s
x(x −s , y− t )
D8 ( p, q ) = max (3.2.3)
P
Pixels nằm cách
c (x,y) mộột khoảng D 8 ≤ 2 tạo ra hình
h vuông ccó tâm điểm tại
t điểm (x,y)):
P
Pixels với khhoảng cách D 8 = 1 là 8 điểm lân cận của
c pixel (x,yy).
f ( x, y ) - ảnnh số gốc; g ( x, y ) - ảnhh đã được xử lý; T – toánn tử dùng để biến đổi ảnhh gốc.
Toán tử
t T có thể được
đ thực hiệện cho một vùng
v ảnh xung quanh điểểm ( x0 , y0 ) và cho nhiềuu ảnh
hường, vùng lân cận với điểm ( x0 , y0 ) thường đư
liên tiếếp. Thông th ược chọn có dạng hình vuông
v
hoặc hình
h ữa là ( x0 , y0 ) - vùng này còn
chữ nhậtt có điểm giữ c được gọi là mặt nạ. (hhình 3.2.2).
Mặt nạ
T
Toán tử T được
đ thực hiệện cho các đđiểm ảnh bên
n trong mặt nạ, tâm mặtt nạ sẽ được dịch
Chương 3 Kỹ thuật xử lý hình ảnh
chuyển lần lượt qua tất cả các điểm ảnh, thường là từ trái sang phải, từ trên xuống dưới.
Sau đây là một số biện pháp xử lý ảnh dùng toán tử không gian.
3.2.2.1.1 Tăng độ tương phản
Khi vùng lân cận có kích thước 1x1, hàm g sẽ chỉ phụ thuộc vào f tại điểm (x,y). Toán tử T
sẽ là hàm biến đổi mức xám:
s = T [r] (3.2.5)
Ví dụ: Quá trình biến đổi mức xám đơn giản được mô tả trên hình 3.2.3. Ảnh gốc "Lena"
(hình 3.2.3a) được tăng cường độ tương phản khi áp dụng hàm biến đổi có đặc tuyến trên hình
3.2.3b. Mục đích đạt được khi các điểm ảnh có mức xám lớn hơn mức trung bình m sẽ được làm
“sáng” thêm, ngược lại các điểm ảnh có độ chói dưới mức m sẽ được làm tối đi. Trên hình 3.2.3c,
ảnh được xử lý sẽ biến thành dạng nhị phân: chỉ có 2 mức cố định, đen hoặc trắng.
Lena
Hình 3.2.3 Biến đổi mức
xám làm tăng độ tương phản
a)
b)
c)
118
Chương 3 Kỹ thuật xử lý hình ảnh
Hình 3.2.5 Nén dải động của ảnh bằng biến đổi logarithm
Ví dụ: Hệ số khai triển Fourie của ảnh 3.2.5 (kích thước 512x512) có giá trị nằm trong dải
động ⎡⎣0 ÷ 35 ⋅ 10 ⎤⎦ , vì vậy khi trực tiếp hiển thị ảnh phổ nói trên lên màn hình máy tính (tín hiệu
6
đầu vào có 256 mức xám) chúng ta sẽ có ảnh màu gần như trắng hoàn toàn (hình3.2.5b). Sau khi
nén dải động theo hàm logarithm, chúng ta nhận được ảnh 3.2.5c. Do dải động của tín hiệu sau
khi nén và dải động của thiết bị hiển thị tương đương với nhau, chúng ta có thể quan sát được
dạng 2-D của ảnh phổ.
3.2.2.1.4 Tách ảnh theo mức chói
Có hai phương pháp tách ảnh theo mức chói: đó là tách có nền và tách không nền. Tách
không có nền được thực hiện với toán tử sau:
⎧ Lmax A<r <B
T (r) = ⎨ (3.2.8)
⎩ Lmin với các r khác
Với phương pháp này, các mức xám trong phạm vi [A-B] được thay thế bằng lên mức Lmax ,
còn các mức khác sẽ được gán mức Lmin . Tách mức chói có nền dùng phép ánh xạ sau:
⎧L A<r<B
T ( r ) = ⎨ max (3.2.9)
⎩r với các r khác
Toán tử (3.2.9) thay đổi mức chói cho các điểm ảnh trong dải [A-B] và giữ nguyên mức
chói ở các điểm khác.
119
Chương 3 Kỹ thuật xử lý hình ảnh
Tám mặt phẳng bit được tách ra từ hình gốc "Lena" được biểu diễn trên hình 3.2.8. Có thể
nhận thấy rằng các bit bậc cao (nhất là MSB) chứa phần lớn tin tức về hình dạng ảnh. Các bít bậc
thấp hơn tập trung ở các chi tiết nhỏ. Cách chia ảnh theo phương pháp tách mặt phẳng bit được
sử dụng trong một số phương pháp nén dư thừa trong ảnh.
Hình 3.2.8 Tám mặt phẳng bit được tách ra từ ảnh gốc "Lena"
3.2.2.1.6 Xử lý lược đồ xám (histogram)
Lược đồ xám của một ảnh số (histogram) có các mức xám biến thiên trong khoảng
120
Chương 3 Kỹ thuật xử lý hình ảnh
[0, L − 1] là hàm rời rạc h ( rk ) = nk , với rk là mức xám thứ k, nk - là số lượng điểm ảnh, có mức
xám rk . Thông thường, histogram được chuẩn hóa bằng cách chia các giá trị nk cho tổng số điểm
ảnh n, khi đó histogram chuẩn sẽ bằng:
p ( rk ) = nk / n (3.2.10)
với k=0,1,2...L-1.
Nói cách khác p ( rk ) là xác suất xuất hiện các điểm ảnh có mức xám rk. Tổng các giá trị rời
rạc p ( rk ) bằng 1. Ngoài các thông tin thống kê về mức xám, histogram còn chứa nhiều tin tức
quan trọng có thể sử dụng trong các quá trình xử lý khác như nén hay phân vùng ảnh.
Hàm cơ bản nhất dùng để tìm histogram của ảnh trong Matlab là hàm: imhist(I, n), trong
đó,toàn bộ dải động các mức xám được chia ra thành n đoạn.
Trên hình 3.2.9 thể hiện 4 ảnh có độ chói và độ tương phản khác nhau cùng với histogram
của chúng. Lược đồ xám được biểu diễn trong hệ tọa độ vuông góc, trục hoành biểu diễn các giá
trị mức xám từ [0,255], trục tung biểu diễn số lượng điểm ảnh có cùng mức xám.
Dễ dàng thấy rằng, khi ảnh có độ tương phản cao (hình 3.2.9a), các mức xám phân bố đều
trên trục rk. Với ảnh có độ chói thấp (hình 3.2.9b), các mức xám tập trung tại miền giá trị độ chói
thấp và ngược lại với ảnh có độ chói cao (hình 3.2.9c). Với ảnh có độ tương phản thấp, nhạt màu
trên lược đồ xám các vạch xám tập trung tại trung tâm dải chói (hình3.2.9d).
121
Chương 3 Kỹ thuật xử lý hình ảnh
Điều kiện (a) cần thiết để tồn tại biến đổi nghịch: r = T −1 ( s ) 0 ≤ s ≤ 1 . Ngoài ra, nếu
hàm T(r) không đồng biến, trong ảnh kết quả có thể xuất hiện một phần dải chói là "âm bản" so
với ảnh gốc. Điều kiện (b) cho thấy dải động của ảnh vào và ra giống nhau.
Hình 3.2.10 Hàm biến đổi mức xám đồng biến T(r)
Mức xám xuất hiện trong ảnh là đại lượng ngẫu nhiên trong khoảng [0,1]. Cho pr ( r ) và
ps ( s ) là các hàm mật độ phân bố xác suất (PDF) của biến ngẫu nhiên r và s, hai hàm này có quan
hệ như sau:
dr
ps ( s ) = pr ( r ) (3.2.12)
ds
Như vậy, mật độ phân bố xác suất mức xám của ảnh ra phụ thuộc vào mật độ phân bố xác
suất mức xám của ảnh vào và hàm biến đổi s = T ( r ) .
Trong lĩnh vực xử lý ảnh, hàm biến đổi sau đây có ý nghĩa rất quan trọng:
r
s = T ( r ) = ∫ pr (τ ) dτ (3.2.13)
0
Vế phải của (3.2.13) chính là tích phân phân bố xác suất (CDF) của biến ngẫu nhiên r. Hàm
này là hàm đơn ánh và đồng biến trong khoảng 0 ≤ r ≤ 1 , đáp ứng yêu cầu (a) và (b) trong
(3.2.11). Lấy đạo hàm của s theo r ta có:
ds dT ( r )
= (3.2.14)
dr dr
ds d ⎡ ⎤
r
= ⎢ ∫ pr (τ ) dτ ⎥ = pr ( r ) (3.2.15)
dr dr ⎣ 0 ⎦
Thay (3.2.15) vào (3.2.12) ta có:
dr 1
ps ( s ) = pr ( r ) = pr ( r ) =1 0 ≤ s ≤1 (3.2.16)
ds pr ( t )
Như vậy, PDF của ảnh ra trong khoảng [0-1] là đồng đều. Nói cách khác, nếu hàm biến đổi
mức xám có dạng (3.2.13) thì histogram ảnh kết quả sẽ có dạng phân bố đều và không phụ thuộc
vào hàm PDF của ảnh gốc.
Quá trình cân bằng lược đồ xám cho ảnh số được thực hiện với các biến ngẫu nhiên rời rạc
122
Chương 3 Kỹ thuật xử lý hình ảnh
Hàm biến đổi mức xám dùng để cân bằng histogram cho tín hiệu rời rạc tương đương với
(3.2.13) trong trường hợp này sẽ có dạng:
k k nj
sk = T ( rk ) = ∑ pr ( rj ) = ∑ k = 0,1,2,......, L − 1 (3.2.18)
j =0 j =0 n
Phương pháp biến đổi ảnh theo (3.2.18) cho phép nới rộng dải động mức xám của ảnh số
chỉ dựa trên các thông tin có trong ảnh gốc.
a) b)
c) d)
Hình 3.2.11 Minh họa quá trình cân bằng lược đồ xám
a) Ảnh có độ chói thấp, trước và sau khi cân bằng
b) Ảnh có độ chói cao, trước và sau khi cân bằng
c) Ảnh có độ tương phản thấp, trước và sau khi cân bằng
d) Hàm biến đổi T(r) dùng để cân bằng các ảnh:
(a) - đồ thị 1, (b)- đồ thị 2, (c) - đồ thị 3
Trên hình 3.2.11 biểu diễn ba ảnh có độ chói thấp, cao và có độ tương phản thấp. Ba ảnh
trên được cân bằng histogram theo (3.2.18), hàm biến đổi của từng ảnh khác nhau và được biểu
123
Chương 3 Kỹ thuật xử lý hình ảnh
diễn trên hình 3.2.11d. Có thể thấy rằng, các ảnh nhận được sau khi áp dụng phương pháp cân
bằng hisrogram có độ tương phản cao hơn. Đặc biệt, kết quả nhận được sau khi cân bằng lược đồ
cho cả ba ảnh là tương đối giống nhau. Lí do vì trong ví dụ trên, các ảnh gốc đều có nội dung
giống nhau, chỉ khác nhau về độ chói và độ tương phản. Sau khi được cân bằng histogram, độ
tương phản được tăng lên làm cân bằng cả mức chói giữa các ảnh, do đó các ảnh kết quả, dưới
mắt người quan sát, trở nên gần giống nhau.
Kỹ thuật xấp xỉ histogram (Histogram matching)
Kỹ thuật cân bằng mức xám là quá trình biến đổi tự thích nghi với ảnh gốc để tạo ra ảnh
mới có histogram đồng đều. Trong một số trường hợp, chúng ta cần biến đổi ảnh gốc sao cho ảnh
biến đổi có dạng histogram mong muốn, kỹ thuật này gọi là xấp xỉ histogram.
Nhắc lại công thức mô tả kỹ thuật cân bằng mức xám (3.2.18):
k k nj
sk = T ( rk ) = ∑ pr ( rj ) = ∑ k = 0,1,2,......, L − 1
j =0 j =0 n
(3.2.19)
Mức xám rk trong ảnh gốc được ánh xạ thành mức sk trong ảnh mới. Histogram ảnh mới
( )
sẽ có dạng đồng đều. Hàm pr rj là histogram của ảnh gốc.
Bài toán đặt ra là cần biến đổi ảnh gốc thành ảnh mới sao cho histogram của nó có dạng
mong muốn: pz ( zi ) . Thực hiện biến đổi (3.2.19) với pz ( zi ) ta có:
k
vk = G ( zk ) = ∑ pz ( zi ) k = 0,1,2,......, L − 1 (3.2.20)
i =0
Biến đổi theo (3.2.20) có ý nghĩa là ảnh với histogram pz ( zi ) , sau khi biến đổi sẽ có
histogram đồng đều.
Biến đổi nghịch của (3.2.20):
zk = G −1 ( vk ) k = 0,1,2,......, L − 1 (3.2.21)
Biến đổi theo (3.2.21) thực hiện quá trình ánh xạ các mức chói vk của ảnh có histogram
đồng đều thành ảnh có histogram pz ( zi ) . Nếu sk = vk , ta có:
⎡ k ⎤
z k = G − 1 ⎢ ∑ p r ( rj ) ⎥ (3.2.23)
⎣ j =0 ⎦
Có thể thấy rằng quá trình biến đổi theo (3.2.23) sẽ ánh xạ mức xám rk của ảnh gốc (có
( )
histogram pr rj ) thành mức xám zk của ảnh mới, histogram của ảnh mới sẽ có dạng là pz ( zi ) .
Như vậy phép biến đổi mức xám theo (3.2.23) đã cho phép chúng ta tạo xấp xỉ histogram theo
dạng cho trước.
Các bước thực hiện xấp xỉ histogram:
Trên thực tế, quá trình thực hiện biến đổi mức xám thuận và nghịch theo (3.2.20) và
(3.2.21) được thực hiện cho hình ảnh số bằng cách tra bảng. Ví dụ, bảng tra cứu sẽ chứa tập giá trị
các mức chói rk với k = 0,1,2,......, L − 1 của ảnh gốc và các mức xám sk của ảnh kết quả. sk là
124
Chương 3 Kỹ thuật xử lý hình ảnh
mức xám trung gian được sử dụng để tìm ra zk trong biến đổi (3.2.23). Dải biến thiên của sk tính
theo (3.2.14) sẽ là [0,1]. Quá trình xấp xỉ theo (3.2.23) được minh họa trên hình 3.2.12.
Hình 3.2.12
a) Minh họa quá trình ánh xạ
rk ⎯⎯
T
→ sk
Trên hình 3.2.12a biểu diễn hàm biến đổi s = T ( r ) . Đặc tuyến T(r) có thể tìm ra dựa trên
histogram của ảnh gốc thông qua (3.2.19). Dựa trên đặc tuyến T(r), điểm ảnh gốc có mức xám rk
của sẽ được thay bằng mức xám sk . Biến đổi này chính là quá trình cân bằng mức xám.
Biến đổi thuận G ( z ) là quá trình cân bằng xám cho ảnh gốc có histogam dạng pz ( zi ) ,
biến đổi thuận có thể mô tả bằng công thức: zq ⎯⎯
G
→ vq . Khi thực hiện biến đổi nghịch
−1
sk ⎯⎯→
G
zk , mỗi giá trị sk được ánh xạ ngược thành giá trị zk (hình 3.2.12b). Đặc tuyến G(z)
được tìm ra dựa trên histogram cho trước và (3.2.20).
Hàm (3.2.23) mô tả quá trình biến đổi kết hợp T ( r ) và G −1 ( sk ) , với giá trị trung gian sk .
Biến đổi nghịch G −1 ( sk ) có thể được thực hiện bằng phương pháp dò tìm z sao cho:
*
⎣ ( )
⎡G s* − sk ⎤ ≥ 0
⎦ k = 0,1,2,......, L − 1 (3.2.24)
khi đó, z k = z * . Quá trình dò tìm với giá trị sk (hình 3.2.12b) được bắt đầu thực hiện khi
z* = 0 , ta tăng dần z* đến khi bất đẳng thức (3.2.24) được thực hiện.
Tóm lại, quá trình xấp xỉ histogram thực hiện theo các bước sau:
1. Tính histogram của ảnh gốc
2. Sử dụng (3.2.19) để tìm các giá trị sk
3. Sử dụng (3.2.20) và hàm rời rạc pz ( z ) để tính hàm biến đổi G.
4. Dựa trên bất đẳng thức (3.2.24) dò tìm zk theo các giá trị sk .
5. Tạo ra bảng tra (Look Up Table - LUT) để thực hiện quá trình ánh xạ rk ⎯⎯
→ zk
theo (3.2.23).
125
Chương 3 Kỹ thuật xử lý hình ảnh
Dưới dây là một ví dụ minh họa quá trình xấp xỉ histogram theo dạng cho trước. Ảnh gốc
(hình 3.2.13a) [15] chụp từ vệ tinh. Do điều kiện ánh sáng, trên ảnh gốc tồn tại chủ yếu hai vùng
tối và sáng. Điều này cũng thể hiện trên lược đồ xám của ảnh. Các mức xám tập trung tại vùng có
độ chói cao hoặc rất thấp.
Hình 3.2.13 So sánh hai phương pháp nâng cao chất lượng ảnh bằng kỹ thuật cân bằng
mức xám và xấp xỉ histogram
Quá trình cân bằng xám được thực hiện bởi hàm biến đổi có đồ thị như trên hình 3.2.14a.
Hàm này được tìm ra dựa trên công thức (3.2.19) và histogram của ảnh gốc. Có thể thấy rằng, để
cân bằng histogram, các điểm ảnh có mức xám nằm gần mức đen sẽ được biến đổi thành mức gần
trắng. Trong ảnh gốc, các điểm ảnh có mức xám thấp chiếm đa số, do đó, ảnh nhận được sau khi
cân bằng sẽ có mức chói trung bình rất cao (hình 3.2.13b), độ tương phản của ảnh sẽ bị giảm.
Hình 3.2.14 a) Đồ thị hàm biến đổi T ( r ) dùng để cân bằng mức xám cho ảnh trên
hình 3.2.13.
b) Histogram mong muốn của ảnh kết quả (được cho trước).
c) Hàm biến đổi thuận G ( z k ) và nghịch G −1 ( vk ) .
Để ảnh có chất lượng tốt hơn, cần biến đổi làm sao cho histogram của ảnh kết quả không
khác nhiều so với histogram của ảnh gốc, nhưng không có sự biến đổi quá nhanh trong khu vực
mức xám thấp. Với ảnh cụ thể, ta lựa chọn histogram mong muốn có dạng:
126
Chương 3 Kỹ thuật xử lý hình ảnh
⎛ ( z − m1 )2 ⎞ ⎛ ( z − m2 )2 ⎞
− ⎜ ⎟ −⎜ ⎟
1 ⎜ 2σ12 ⎟⎠ 1 ⎜ 2σ 22 ⎟
p ( z ) = A1 e⎝ + A2 e ⎝ ⎠
(3.2.25)
σ 1 2π σ 2 2π
Thay đổi các thông số σ 1 , m1 ,σ 2 , m2 , A1 , A2 có thể nhận được histogram mong muốn theo
những tiêu chí nói trên (hình 3.2.14b). Trong ví dụ trên sử dụng các giá trị sau:
m1 =0.02; σ 1 =0.025; m 2 =0.75; σ 2 =0.05; A1=3; A2=0.08
Đồ thị hàm biến đổi G ( z k ) tính theo (3.2.20) là đường cong 1 trên hình 3.2.14c. Đường
cong 2 (hình 3.2.14c) là đồ thị hàm biến đổi nghịch G −1 ( vk ) nhận được theo phương pháp dò tìm
đã trình bày ở trên.
Ảnh kết quả nhận được khi thực hiện biến đổi nghịch G −1 ( sk ) với các giá trị sk và
histogram của nó được hiển thị trên hình 3.2.13c. So sánh ảnh 3.2.13b và 3.2.13c, dễ dàng nhận
thấy chất lượng 3.2.13c tốt hơn. Để đạt được kết quả tối ưu nhất, chúng ta phải thực hiện biến đổi
ảnh với các dạng histogram khác nhau, ví dụ, bằng cách thay đổi các thông số trong (3.2.25).
3.2.2.1.7 Kỹ thuật triệt nhiễu dựa trên cơ sở trung bình hóa ảnh
Khi ảnh f ( x, y ) bị tác động bởi nhiễu cộng η ( x, y ) , ảnh kết quả sẽ là:
g ( x, y ) = f ( x, y ) + η ( x, y ) (3.2.26)
Nhiễu η ( x, y ) tại từng điểm (x,y) là các quá trình ngẫu nhiên độc lập tương hỗ và có giá trị
trung bình thống kê bằng 0 (moment gốc cấp 1: mx , y = 0 ). Nếu chúng ta có tập M ảnh f ( x, y ) bị
tác động bởi nguồn nhiễu ngẫu nhiên nói trên, thì ảnh trung bình cộng sẽ là:
1 M
g ( x, y ) = ∑ gi ( x, y )
M i −1
(3.2.27)
Giá trị trung bình thống kê của g tại mỗi điểm (x,y) bằng:
E {g ( x, y )} = f ( x, y ) (3.2.28)
Phương sai σ g2( x , y ) (chính là công suất nhiễu trong từng điểm của ảnh trung bình cộng)
1 2
bằng: σ g2( x , y ) = σ (3.2.29)
M η( x, y)
Theo (3.2.29), khi M tăng lên, công suất trung bình của nhiễu tại mỗi điểm ảnh giảm đi;
công thức (3.2.28) cũng cho thấy trong trường hợp này g ( x , y ) sẽ tiến dần tới f ( x, y ) . Như
vậy, có thể kết luận rằng, khi số lượng ảnh tham gia vào quá trình trung bình cộng càng nhiều, ảnh
kết quả g ( x, y ) sẽ càng giống với ảnh gốc f ( x, y ) .
Trên hình 3.2.15 và 3.2.16 minh họa kỹ thuật triệt nhiễu phân tích ở trên.
Ảnh gốc 3.2.15a được tổng hợp với nhiễu cộng (nhiễu Gaussian với m=0, độ lệch chuẩn
bằng 0.01) để tạo tập ảnh có nhiễu dùng để thực hiện trung bình cộng. Hai ảnh chịu tác động của
nhiễu được hiển thị trên hình 3.2.15b và 3.2.15c. Ảnh trung bình cộng với M= 4, 8 và 16 biểu diễn
trên hình 3.2.15d,e,f. Có thể thấy rõ ràng ảnh 3.2.15f có chất lượng gần với ảnh gốc nhất. Để thấy
rõ hơn tác dụng của quá trình trung bình ảnh, trên hình 3.2.16 biểu diễn các ảnh sai số (tuyệt đối)
giữa ảnh 3.2.15d,e,f và ảnh gốc cùng histogram của chúng. Dễ dàng nhận thấy độ lệch chuẩn của
127
Chương 3 Kỹ thuật xử lý hình ảnh
Hình 3.2.15 a- Ảnh gốc. b,c) ảnh bị tác động bởi nguồn nhiễu η ( x, y ) (tại các thời điểm
khác nhau). d,e,f ) kết quả trung bình của 4, 8 và 16 ảnh có nhiễu.
Hình 3.2.16 Từ trái sang phải: ảnh sai số giữa ảnh gốc (3.2.15a) và ảnh 3.2.15d,e,f
và histogram của chúng.
3.2.2.2 Nâng cao chất lượng ảnh bằng toán tử không gian
Một cách tổng quát, toán tử không gian trong xử lý ảnh được thực hiện tại vùng xung quanh
điểm ảnh theo các bước sau:
1- Xác định điểm ảnh trung tâm.
2- Thực hiện tính toán với các điểm ảnh nằm trong vùng lân cận điểm ảnh trung tâm (kích
thước và hình dạng vùng ảnh này được xác định trước).
3- Kết quả tính toán ở bước 2 (còn gọi là đáp ứng của quá trình xử lý) sẽ được gán cho điểm
ảnh trung tâm.
4- Thực hiện các bước trên cho toàn bộ các pixels của ảnh.
Nếu toán tử biến đổi là tuyến tính, thì quá trình trên được gọi là quá trình lọc tuyến tính.
128
Chương 3 Kỹ thuật xử lý hình ảnh
Có hai cách thực hiện quá trình lọc tuyến tính, đó là thực hiện phép nhân chập như đã nói ở
trên hoặc thực hiện phép tính tương quan. Khi tính tương quan chúng ta di chuyển mặt nạ lọc qua
các điểm ảnh; khi tính tích chập, mặt nạ phải được xoay 1800 trước khi thực hiện nhân với ma trận
điểm ảnh. Ảnh f có kích thước MxN được lọc bởi mặt nạ w ( x , y ) kích thước (mxn) theo biểu
thức tổng quát sau:
a b
g ( x, y ) = ∑ ∑ w ( s, t ) f ( x + s , y + t )
s =− a t =− b
(3.2.30)
Phép lọc tuyến tính trong Matlab được thực hiện bằng hàm: B = imfilter(A, H,
option1, option2,...); H- ma trận lọc với các thông số tùy chọn option1, option2.
Bộ lọc trung bình không gian thực hiện theo (3.2.30) thường được sử dụng để lọc nhiễu
hoặc làm mờ (blurring) ảnh. Ví dụ: quá trình làm mờ ảnh có thể được sử dụng để lược bỏ các chi
tiết nhỏ trước khi đưa vào nhận dạng những chi tiết có kích thước lớn trong ảnh. Trên hình 3.2.18
là hai mặt nạ dùng để thực hiện quá trình trung bình trong không gian, về bản chất, đó là mặt nạ
lọc thông thấp. Đáp ứng mặt nạ hình 3.2.18a là giá trị trung bình của 9 điểm ảnh. Dễ dàng nhận
129
uật xử lý hìnhh ảnh
Chươnng 3 Kỹ thu
thấy, thành
t phần nhiễu, là nhữnng điểm ảnh có độ chói biếnb đổi bất tthường so vớới mức chói trung
t
bình trrong vùng ảnnh rộng, sẽ bịị làm "trơn" sau khi bị tác động bởi m
mặt nạ nói trêên. Tuy nhiênn, tác
động của
c mặt nạ sẽẽ làm cho cácc đường biênn hoặc các chii tiết nhỏ tronng ảnh bị "lààm mờ".
a) b)
Hìình 3.2.19 Ảnh
Ả kết quả kkhi lọc thông thấp bằng ma
m trận 3x3 (aa) và 5x5 (b)
Với mặt nạ hình
V h 3.2.18b,, các pixel khhác nhau đượợc nhân với hhệ số khác nhau,
n làm nhưư vậy
ta có th
hể xác định "trọng
" lượngg" riêng (mứcc độ quan trọọng) cho từngg pixel. Tronng mặt nạ 3.22.18b,
điểm trung
t tâm có
ó "trọng lượnng" lớn nhất,, các điểm ảnh
ả nằm càngg xa tâm, "trrọng lượng" càng
nhỏ. Cách
C phân bốố "trọng lượnng" này làm m giảm hiệu ứng
ứ nhòe đư ường biên kh hi thực hiện trung
t
bình hóa ảnh.
K kích thư
Khi ước cửa sổ tănng lên, băng thông của bộ lọc thông tthấp sẽ giảm, nên mức độộ làm
"trơn" ảnh sẽ tăng lên, điều nàyy thấy rõ trênn hình minh họa
h kết quả llọc thông thấấp với hai maa trận
3x3 vàà 5x5 (hình 3.2.19a và 3.22.19b).
T dụng lọcc nhiễu của bộ
Tác m trận 3x3 thhể hiện trên hình 3.2.20. Ảnh
b lọc thôngg thấp với ma
gốc bị tác động củủa nhiễu Gaussian được lọọc tuyến tính
h bằng ma trận 3x3, đúngg như phân tích
t ở
nh kết quả cóó mức nhiễu thấp hơn như
trên, ản ưng độ nét suuy giảm so với ảnh gốc.
N
Nhiễu Gausian được tổngg hợp với ảnhh I bởi hàm Matlab:
M
J = imnoi aussian',m,v); m - trung bình tthống kê, v- độ
ise(I,'ga đ lệch chuẩnn của
hàm Gausian.
G
Ưu điểm của bộ lọc phi tuyến so với các bộ lọc thông thấp ta đã xét ở trên là khả năng lọc
nhiễu xung (nhiễu có dạng điểm đen trắng trên ảnh) tốt, đồng thời ít ảnh hưởng tới độ nét của ảnh.
Ưu điểm nêu trên được minh họa trên hình 3.2.21. Ảnh gốc 3.2.21a bị ảnh hưởng của nhiễu xung.
Ảnh có nhiễu (hình 3.2.21b) được đưa qua mạch lọc thông thấp (lấy trung bình không gian với
ma trận (3x3) và mạch lọc trung vị với ma trận có cùng kích thước. Nhiễu xung được tạo ra trong
ảnh bởi hàm Matlab: J = imnoise(I,'salt & pepper',d); d - mật độ nhiễu trong
ảnh. Hàm lọc trung vị: J = medfilt2(I,[m n]);[m n]- kích thước ma trận lọc.
Kết quả lọc trung vị (hình 3.2.21c) cho thấy nhiễu xung bị triệt gần như hoàn toàn, các
đường biên hầu như không bị biến dạng. Bộ lọc thông thấp trong trường hợp này cho kết quả kém
hơn rất nhiều (hình 3.2.21d): biên độ nhiễu giảm đi, nhưng kích thước của các điểm nhiễu lớn lên,
các đường biên nhòe đi rõ rệt.
131
Chương 3 Kỹ thuật xử lý hình ảnh
∂2 f ∂2 f
∇2 f = + (3.2.31)
dx 2 dy 2
∂2 f
= f ( x + 1, y ) + f ( x − 1, y ) − 2 f ( x, y )
∂x 2
(3.2.32)
∂2 f
= f ( x, y + 1) + f ( x, y − 1) − 2 f ( x, y )
∂y 2
Như vậy Laplacian tại điểm (x,y) tìm được theo biểu thức:
∇2 f = ⎡⎣ f ( x + 1, y ) + f ( x − 1, y ) + f ( x, y + 1) + f ( x, y − 1) ⎤⎦ − 4 f ( x, y ) (3.2.33)
Toán tử Laplace được sử dụng rộng rãi trong kỹ thuật xác định đường biên và sẽ được phân
tích trong phần 3.2.4. Tại đây, chúng ta sẽ chỉ xét kỹ thuật làm rõ ảnh sử dụng toán tử Laplace.
Về mặt bản chất, đây là phương pháp ứng dụng đạo hàm bậc hai để làm tăng độ nét của ảnh.
Toán tử Laplace hai chiều cho tín hiệu rời rạc thường được thực hiện với mặt nạ kích thước
3x3. Hai mặt nạ lọc trên hình 3.2.22a và b thực hiện toán tử Laplacian rời rạc theo công thức
(3.2.33) đều cho các ảnh kết quả giống nhau.
a) b)
a) b) c)
Hình 3.2.23 Làm nét ảnh bằng toán tử Laplace
a- ảnh gốc; b- ảnh các đường biên được làm nổi
c- ảnh tổng hợp
132
Chương 3 Kỹ thuật xử lý hình ảnh
Tóm lại, công thức tổng quát để làm nét ảnh với toán tử Laplace là:
⎪⎧ f ( x, y ) − ∇ f ( x, y )
2
g ( x, y ) = ⎨ (3.2.34)
⎪⎩ f ( x, y ) + ∇ f ( x, y )
2
Khi thực hiện Laplacian với mặt nạ trên hình 3.2.22a (mặt nạ với hệ số trung tâm nhỏ hơn
0), ảnh kết quả sẽ là hiệu giữa ảnh gốc và ảnh Laplacian và ngược lại, với mặt nạ 3.2.22b ảnh kết
quả sẽ là tổng hai ảnh. Quá trình làm nét theo (3.2.34) được thực hiện theo hai bước: tìm
Laplacian của ảnh gốc và tổng hợp ảnh gốc và ảnh kết quả với nhau. Tuy nhiên, chúng ta có thể
thực hiện quá trình biến đổi này nhanh hơn. Dựa vào (3.2.33) và (3.2.34) ta có đáp ứng của bộ lọc
làm tăng độ nét là:
g ( x, y ) = f ( x, y ) − ∇ 2 f ( x, y ) =
(3.2.35)
= 5 f ( x, y ) − ⎡⎣ f ( x + 1, y ) + f ( x − 1, y ) + f ( x, y + 1) + f ( x, y − 1) ⎤⎦
Mạt nạ lọc thực hiện biểu thức (3.2.35) có dạng:
Nếu H là toán tử tuyến tính và bất biến, thì ảnh bị nhiễu g ( x, y ) có dạng như sau:
g ( x, y ) = H ⎣⎡ f ( x, y ) ⎦⎤ + η ( x, y ) = h ( x, y ) ∗ f ( x, y ) + η ( x, y ) (3.2.36)
h ( x, y ) - hàm đáp ứng đặc trưng cho toán tử H trong không gian.
133
Chương 3 Kỹ thuật xử lý hình ảnh
Trong miền tần số, dựa trên tính chất của biến đổi Fourier ta có:
G ( u, v ) = H ( u, v ) ⋅ F ( u, v ) + N ( u, v ) (3.2.37)
với G ( u , v ) , H ( u, v ) , F ( u, v ) , N ( u, v ) là kết quả biến đổi Fourie của các hàm tương ứng.
b(4 −π )
Giá trị trung bình và phương sai có dạng m = a + π b / 4 và σ =
2
.
4
Đồ thị hàm phân bố xác suất Rayleigh có dạng không đối xứng (hình 3.2.26), do đó phân bố
này thường được dùng để xấp xỉ histogram có dạng tương đương.
3.2.3.2.3 Nhiễu Erlang (Gamma)
Hàm mật độ phân bố xác suất của nhiễu Erlang có dạng:
⎧ a b z b −1 − az
⎪ e khi z ≥ 0
p ( z ) = ⎨ ( b − 1) ! (3.2.40)
⎪0 khi z < 0
⎩
với a>0, b- số nguyên dương.
b b
Giá trị trung bình và phương sai bằng m = và σ 2 = 2 .
a a
3.2.3.2.4 Nhiễu có phân bố là hàm mũ
Hàm mật độ phân bố xác suất của nhiễu này là trường hợp đặc biệt của phân bố Erlang khi
b=1:
134
Chương 3 Kỹ thuật xử lý hình ảnh
⎧ ae − az khi z ≥ 0
p(z) = ⎨ (3.2.41)
⎩0 khi z < 0
với a>0
1 1
Giá trị trung bình và phương sai bằng m = và σ 2 = 2
a a
3.2.3.2.5 Nhiễu có phân bố đều
Hàm mật độ phân bố xác suất của nhiễu có dạng:
⎧ 1
⎪ khi a≤ z≤b
p (z) = ⎨b − a (3.2.42)
⎪⎩0 với các z khác
( a − b) .
2
a+b
Giá trị trung bình của biến ngẫu nhiên z là m = , phương sai σ 2 =
2 12
3.2.3.2.6 Nhiễu dạng xung
Hàm mật độ phân bố xác suất của nhiễu xung có thể mô tả như sau:
⎧ Pa khi z=a
⎪
p ( z ) = ⎨ Pb khi z=b (3.2.43)
⎪0
⎩ với các z khác
Pa và Pb là xác suất xuất hiện z = a hoặc z = b . Hàm mật độ phân bố có dạng
p ( z ) = Paδ ( z − a ) + Pbδ ( z − b ) .
Hình 3.2.26 Một số hàm mật độ phân bố xác suất quan trọng.
135
Chương 3 Kỹ thuật xử lý hình ảnh
Trong các bộ lọc dưới đây, ta sử dụng ma trận lọc S xy có tâm nằm tại điểm (x,y) có kích
1
fˆ ( x, y ) = ∑ g ( s, t )
mn ( s ,t )∈S xy
(3.2.46)
Bộ lọc này có khả năng triệt nhiễu xung dạng "đốm trắng" và nhiễu Gaussian khá tốt.
Nhưng bộ lọc này không có khả năng lọc các thành phần nhiễu xung dạng "đốm đen".
¾ Bộ lọc contraharmonic (Contraharmonic mean filter)
Biến đổi trong bộ lọc contraharmonic được mô tả bằng biểu thức:
136
Chương 3 Kỹ thuật xử lý hình ảnh
∑ g ( s, t )
Q +1
( s ,t )∈S xy
fˆ ( x, y ) = (3.2.49)
∑ g ( s, t )
Q
( s ,t )∈S xy
Q - gọi là bậc của bộ lọc. Bộ lọc này thích ứng tốt với ảnh có nhiễu xung. Với Q là số
dương, nhiễu xung "đốm đen" sẽ bị triệt, ngược lại, thành phần nhiễu xung "đốm trắng" được lọc
bớt khi Q là số âm. Có thể thấy rằng khi Q=0, ta có bộ lọc trung bình cộng; với Q= -1 ta có bộ lọc
trung bình hài.
Nhìn chung, các bộ lọc trung bình cộng và nhân thích ứng tốt với các loại loại nhiễu có
phân bố Gaussian, Rayleigh hay nhiễu có phân bố đều. Bộ lọc contraharmonic cho phép triệt
nhiễu xung khá tốt, tuy nhiên, như đã phân tích ở trên, chúng ta phải xác định được dạng nhiễu
xung là "đốm đen" hay "đốm trắng".
3.2.3.3.2 Các bộ lọc dựa trên thống kê thứ tự
¾ Bộ lọc trung vị
Trong phần 3.2.2.2.2 đã đề cập tới kỹ thuật lọc trung vị, cho phép loại nhiễu xung trong
ảnh. Đây là bộ lọc phi tuyến có đáp ứng là giá trị bằng giá trị điểm trung vị trong ma trận lọc:
fˆ ( x, y ) = med {g ( s, t )} (3.2.50)
( s ,t )∈S xy
Bộ lọc trung vị được sử dụng rất rộng rãi vì nó một mặt cho phép loại bỏ hiệu quả các loại
nhiễu xung lưỡng cực cũng như đơn cực, mặt khác bộ lọc này ít làm trơn ảnh so với các bộ lọc sử
dụng toán tử lấy trung bình như đã xét ở phần trên.
¾ Bộ lọc dựa trên phép lựa trọn giá trị cực đại và cực tiểu
Quá trình biến đổi dựa trên thống kê thứ tự và chọn giá trị cực đại được gọi là bộ lọc cực
đại:
fˆ ( x, y ) = max {g ( s, t )} (3.2.51)
( s ,t )∈S xy
Bộ lọc cực đại cho phép phát hiện những điểm sáng nhất trong ảnh, đồng thời có tác dụng
triệt nhiễu xung dạng "đốm đen".
Bộ lọc cực tiểu được mô tả bằng biểu thức:
fˆ ( x, y ) = min {g ( s, t )} (3.2.52)
( s ,t )∈S xy
Bộ lọc này cho phép phát hiện những vùng tối của ảnh và làm giảm nhiễu xung "trắng".
¾ Bộ lọc giả trung vị
Đáp ứng của bộ lọc này là giá trị trung bình giữa hai điểm cực đại và cực tiểu trong ma trận
lọc:
1
fˆ ( x, y ) = ⎡ max {g ( s, t )} + min {g ( s, t )}⎤ (3.2.53)
2 ⎢⎣ ( s ,t )∈S xy ( s ,t )∈S xy ⎥⎦
3.2.3.4 Triệt nhiễu trong miền tần số
Các bộ lọc trong miền không gian đề cập tới ở các phần trên là các bộ lọc thông thấp hoặc
thông cao. Lọc không gian có thể được sử dụng để khôi phục ảnh có nhiễu hoặc để làm tăng chất
lượng ảnh. Trong phần này chúng ta sẽ đề cập tới vấn đề xử lý ảnh trong miền tần số: đó là một số
137
Chương 3 Kỹ thuật xử lý hình ảnh
bộ lọc dải, bộ lọc chặn dải và ứng dụng của chúng để khôi phục ảnh có nhiễu tuần hoàn.
¾ Lọc chặn dải và lọc thông dải
Đặc tuyến tần số của bộ lọc chặn dải lý tưởng được mô tả bằng biểu thức sau:
⎧ W
⎪1 khi D ( u, v ) < D0 −
2
⎪
⎪ W W
H ( u , v ) = ⎨0 khi D0 − ≤ D ( u, v ) ≤ D0 + (3.2.54)
⎪ 2 2
⎪ W
⎪⎩1 khi D ( u, v ) > D0 +
2
D ( u, v ) - Khoảng cách tính từ tâm điểm của không gian tần số (điểm 0) (hình 3.2.27d);
W - bề rộng băng chặn của bộ lọc;
D0 - bán kính đường tròn đi qua tâm của băng chặn (hình 3.2.27d)
Hàm đáp ứng tần số của bộ lọc chặn dải Butterworth bậc n có dạng:
1
H ( u, v ) = 2n (3.2.55)
⎡ D ( u, v ) W ⎤
1+ ⎢ 2 2⎥
⎣ D ( u, v ) − D0 ⎦
Trên hình 3.2.27 a,b,c minh họa đáp ứng tần số của ba bộ lọc nêu trên (trong không gian 3
chiều).
Bộ lọc thông dải có đáp ứng tần số H td ( u, v ) ngược lại so với bộ lọc chặn dải H cd ( u, v ) :
138
Chương 3 Kỹ thuật xử lý hình ảnh
H td ( u, v ) = 1 − H cd ( u, v ) (3.2.57)
¾ Notch filter
Các bộ lọc Notch cho phép lọc một số thành phần phổ trong không gian phổ hai chiều của
ảnh. Khác với các bộ lọc chặn dải có đặc tuyến tần số đẳng hướng (hình 3.2.27b,c), notch filter
cho phép lọc bỏ các thành phần nhiễu theo hướng nhất định trong không gian tần số.
Đặc tuyến tần số của notch filter (lọc chặn) lý tưởng có dạng đối xứng qua điểm gốc của
không gian tần số, với đỉnh nằm tại các điểm ( u0 , v0 ) và ( −u0 , −v0 ) có thể được mô tả bằng biểu
thức sau:
⎧0 khi D1 ( u, v ) ≤ D0 hay D2 ( u, v ) ≤ D0
H ( u, v ) = ⎨ (3.2.58)
⎩1 với các trường hợp khác
D0- bán kính miền chặn dải của bộ lọc.
D1 ( u, v ) = ⎡( u − M / 2 − u0 ) + ( v − N / 2 − v0 ) ⎤
2 2
(3.2.59)
⎣ ⎦
D2 ( u, v ) = ⎡( u − M / 2 + u0 ) + ( v − N / 2 + v0 ) ⎤
2 2
(3.2.60)
⎣ ⎦
Đặc tuyến tần số của Butterworth notch filter bậc n có dạng:
1
H ( u, v ) = n (3.2.61)
⎡ D02 ⎤
1+ ⎢ ⎥
⎣ D1 ( u, v ) ⋅ D2 ( u, v ) ⎦
với D1 ( u, v ) và D2 ( u , v ) tính theo (3.2.59) và (3.2.60)
Có thể thấy rằng, khi u0 = v0 = 0 notch filter trở thành bộ lọc thông cao. Notch pass filter
(lọc thông dải) có đáp ứng tần số H ntd ( u, v ) ngược lại so với bộ lọc chặn dải H ncd ( u, v ) :
Ở đây, chúng ta xét trường hợp tín hiệu bị làm méo bởi toán tử H tuyến tính, bất biến và
nhiễu cộng η ( x, y ) . Dựa trên hàm đáp ứng xung của hệ thống h ( x , y ) ta có:
g ( x, y ) = h ( x, y ) ∗ f ( x, y ) + η ( x, y ) (3.2.64)
Trong miền tần số, ứng dụng các tính chất của biến đổi Fourier ta có quan hệ sau:
G ( u , v ) = H ( u, v ) ⋅ F ( u , v ) + N ( u, v ) (3.2.65)
F ( u, v ) , G ( u, v ) , N ( u, v ) là phổ của ảnh gốc, ảnh kết quả và nhiễu. H ( u, v ) - hàm đáp
ứng tần số (tương ứng với toán tử H).
Trong trường hợp khi hàm H ( u, v ) được cho trước, kỹ thuật khôi phục đơn giản và chính
139
Chương 3 Kỹ thuật xử lý hình ảnh
xác nhất là lọc ngược. Hàm đáp ứng tần số của bộ lọc ngược là 1 / H ( u, v ) , khi đó phổ của ảnh
Fˆ ( u, v ) = G ( u, v ) / H ( u, v ) (3.2.66)
Fˆ ( u, v ) = F ( u, v ) + N ( u, v ) / H ( u, v ) (3.2.67)
Có thể thấy rằng, ngay cả khi biết trước H ( u, v ) , chúng ta vẫn không thể khôi phục chính
xác được ảnh gốc, vì nhiễu cộng là tín hiệu ngẫu nhiễn và hàm mật độ phổ N ( u, v ) không xác
định chính xác được. Một nhược điểm nữa của lọc ngược là khi hàm H ( u, v ) có giá trị bằng
hoặc gần bằng 0, bộ lọc này trở nên không ổn định. Trong trường hợp này, thành phần thứ hai của
(3.2.67) sẽ có giá trị lớn hơn nhiều so với tín hiệu ảnh gốc. Để không xảy ra hiện tượng nói trên,
trên thực tế băng thông của bộ lọc ngược được hạn chế trong dải tần thấp, nơi hàm H ( u, v ) có
giá trị lớn hơn 0.
3.2.3.6 Lọc Wiener
Phương pháp lọc ngược tuy đơn giản, nhưng kết quả không tối ưu khi ảnh chịu tác động của
nhiễu. Bộ lọc Wiener cho phép khôi phục ảnh dựa trên hàm biến đổi H ( u, v ) và đặc điểm của
nguồn nhiễu. Trong kỹ thuật lọc Wiener, ảnh số f ( u, v ) và nhiễu được mô tả như các các tín
hiệu ngẫu nhiên; Tín hiệu ở đầu ra của bộ lọc là fˆ ( u, v ) phải đáp ứng được điều kiện sao cho lỗi
trung bình bình phương (MSE - mean square error) của fˆ ( u, v ) và f ( u, v ) phải là nhỏ nhất. Giá
trị MSE tính theo công thức sau:
e2 = E {( f − fˆ ) }
2
(3.2.68)
khi đó, có thể chứng minh được MSE sẽ là nhỏ nhất khi đáp ứng của bộ lọc được xác định
theo biểu thức sau:
⎛ H * ( u, v ) S f ( u, v ) ⎞
F ( u, v ) =
ˆ ⎜ ⎟ G ( u, v ) =
⎜ S f ( u, v ) H ( u, v ) + Sη ( u, v ) ⎟
2
⎝ ⎠
(3.2.69)
⎛ 1 H ( u, v )
2
⎞
= ⎜ ⋅ ⎟ G ( u, v )
⎜ H ( u, v ) H ( u, v ) 2 + Sη ( u, v ) / S f ( u, v ) ⎟
⎝ ⎠
S f ( u, v ) = F ( u, v ) - Hàm mật độ phổ công suất của tín hiệu ảnh gốc;
2
140
Chương 3 Kỹ thuật xử lý hình ảnh
Kết quả trên do N. Wiener thu được năm 1942. Bộ lọc có đáp ứng tần số mô tả trong
(3.2.69) được gọi là bộ lọc trung bình bình phương cực tiểu. Nếu nhiễu không tồn tại trong hệ
thống, mật độ phổ công suất Sη ( u , v ) bằng 0, bộ lọc Wiener sẽ biến thành bộ lọc ngược.
Có thể xác định hai đại lượng quan trọng là công suất trung bình của ảnh gốc và của nhiễu
là:
1
fA =
MN
∑∑ S ( u, v )
u v
f (3.2.70)
1
và ηA =
MN
∑∑ Sη ( u, v )
u v
(3.2.71)
MxN là kích thước ma trận ảnh và nhiễu. Tỷ lệ R = η A / f A (là hằng số) đôi khi được sử
dụng thay cho tỷ lệ NSPR trong (3.2.69), khi không thể tìm được hàm mô tả mật độ phổ công suất
của nhiễu cũng như của tín hiệu hình ảnh. Tất nhiên, cách xấp xỉ này tương đối thô, nhưng ảnh
khôi phục thường có chất lượng cao hơn so với ảnh nhận được khi lọc ngược. Phổ ảnh kết quả
được mô tả bằng biểu thức sau:
⎛ 1 H ( u, v )
2
⎞
F ( u, v ) = ⎜
ˆ ⋅ ⎟ G ( u, v ) (3.2.72)
⎜ H ( u, v ) H ( u, v ) 2 + R ⎟
⎝ ⎠
Để so sánh khả năng khôi phục ảnh của các bộ lọc ngược và lọc Wiener, ta quan sát các ảnh
được biểu diễn trên hình 3.2.28. Hình 3.2.28a là ảnh gốc dạng hình bàn cờ. Trong quá trình chụp
ảnh, nếu camera bị dịch chuyển so với ảnh gốc, hình ảnh thu được sẽ bị nhòe. Trên hình 3.2.28b
là ảnh bị làm nhòe theo cách trên, ảnh này được mổ phỏng bằng các hàm Matlab
PSF=fspecial('motion',len,theta)và g=imfilter(f,PSF,'circular'); len - độ dịch chuyển của camera;
theta - góc dịch chuyển;
Trên hình 3.2.28c là ảnh đã bị làm nhòe được tổng hợp với nhiễu Gaussian với giá trị trung
bình bằng 0, độ lệch chuẩn 0.005. Hình 3.2.28d là kết quả lọc ngược từ ảnh 3.2.28b. Quá trình này
được thực hiện bằng hàm: fr0=deconvwnr(g,PSF); đây chính là hàm thực hiện bộ lọc
Wiener với NSPR bằng 0. Vì ảnh 3.2.28b không bị ảnh hưởng của nhiễu, nên lọc ngược cho phép
khôi phục chính xác ảnh gốc.
Trên hình 3.2.28e là ảnh kết quả lọc ngược ảnh có nhiễu cộng, hình 3.2.28f là kết quả thực hiện
lọc Wiener: fr2=deconvwnr(g,PSF,R), với giá trị R = η A / f A = 0,07 (được tính theo
(3.2.70) và (3.2.71).
141
Chương 3 Kỹ thuật xử lý hình ảnh
a) b)
Hình 3.2.29 Minh họa khái niệm đường biên của ảnh. a- Đường biên giữa hai vùng ảnh
trong không gian 2 chiều b- Sự thay đổi độ chói trên đường biên.
Trong trường hợp lý tưởng, độ chói giữa hai vùng ảnh thay đổi đột ngột hoặc tăng dần đều.
142
Chương 3 Kỹ thuật xử lý hình ảnh
Tuy nhiên, trên thực tế, mức xám giữa các vùng ảnh thay đổi tương đối ngẫu nhiên (hình 3.2.29b).
Chính vì vậy quá trình phát hiện đường biên thường không đơn giản và kết quả thường không
hoàn toàn chính xác.
Hình 3.2.30 Sơ đồ khối tổng quát của hệ thống phát hiện đường biên
Sơ đồ khối tổng quát của hệ thống phát hiện đường biên biểu diễn trên hình 3.2.30.
Ảnh gốc f(x,y) được đưa vào khối làm nổi đường biên. Ở đây, bằng phương pháp xử lý
tuyến tính hoặc phi tuyến, ảnh f(x,y) được làm tăng mức chênh lệch độ chói giữa các vùng ảnh.
Ảnh G(x,y) là ảnh đã được xử lý đường biên. Tại khối so sánh, người ta so sánh giá trị các điểm
ảnh G(x,y) với mức ngưỡng T để xác định vị trí các điểm nằm ở vùng có mức thay đổi độ chói lớn
tức các điểm ảnh nằm trên đường biên. Ví dụ: khi f(x,y) được xử lý bằng đạo hàm bậc hai, ảnh kết
quả G(x,y) sẽ được so sánh với các mức ngưỡng TL (thấp) và TH (cao). Nếu G ( x, y ) < TL thì
điểm (x,y) là điểm biên, nằm vùng có độ chói thấp. Và ngược lại nếu G ( x, y ) > TH - điểm (x,y)
nằm ở vùng có mức chói cao.
Việc lựa chọn giá trị ngưỡng rất quan trọng trong quá trình xác định đường biên. Khi giá trị
T quá cao, các đường biên có độ tương phản thấp sẽ bị mất đi, ngược lại, khi T quá thấp, dễ xảy ra
hiện tượng xác định biên sai khi ảnh chịu tác động của nhiễu.
⎡ ∂f ⎤
G ⎡Gx ⎤ ⎢ ∂x ⎥
∇f = ⎢ ⎥ = ⎢ ⎥ (3.2.73)
⎣G y ⎦ ⎢ ∂f ⎥
⎢⎣ ∂y ⎥⎦
143
Chương 3 Kỹ thuật xử lý hình ảnh
∂f ( x, y ) f ( x + dx, y ) − f ( x, y )
Gx = = (3.2.74)
∂x dx
∂f ( x, y ) f ( x, y + dy ) − f ( x, y )
Gy = = (3.2.75)
∂y dy
dx và dy là khoảng cách giữa các điểm theo hướng lấy đạo hàm x và y. Trên thực tế thường
dùng dx=1, dy=1.
Modul của vector gradient ∇ f chính là giá trị thay đổi lớn nhất của hàm f tại điểm A (hình
G
3.2.31) theo hướng của vector ∇f :
G
∇f = ∇f = Gx2 + G y2 (3.2.76)
Việc xác định modul gradient theo công thức trên đòi hỏi thực hiện phép tính bình phương
và lấy căn bậc hai. Để đơn giản hóa quá trình tính toán, mà vẫn có kết quả tương đối chính xác khi
tìm biên, người ta xấp xỉ giá trị gradient như sau:
G
∇f ≅ ∇f = Gx + G y (3.2.77)
Hướng của vector gradient tại điểm A có tọa độ (x,y) cũng là một thông số quan trọng, nó
G
được xác định thông qua góc α ( x, y ) giữa vector ∇f và trục x:
⎛ Gy ⎞
α ( x, y ) = arctg ⎜ ⎟ (3.2.78)
⎝ Gx ⎠
G
Hướng của đường biên ảnh là đường vuông góc với vector gradient ∇f , trên hình được
biểu diễn như vector n.
Khi ảnh số được biểu diễn như ma trận các điểm ảnh phân bố theo dòng và cột, gradient rời
rạc theo hướng x sẽ bằng:
Gx ( x, y ) = f ( x + 1, y ) − f ( x, y ) (3.2.79)
Gy ( x, y ) = f ( x, y + 1) − f ( x, y ) (3.2.80)
144
uật xử lý hìnhh ảnh
Chươnng 3 Kỹ thu
a
a) b)
Hình 3.2.32 L
Làm nổi đườnng biên
ssử dụng phươ
ơng pháp graadient.
a- Ảnnh gốc;
b- Grradient theo cchiều x (Gx);;
c- Grradient theo cchiều y (Gy);;
c)
Đ làm nổi những
Để n đườngg biên dọc, taa phải lấy đạạo hàm rời rạạc theo chiềuu ngang và ngược
n
n đường bbiên theo phhương pháp gradient thểể hiện trên hình
lại. Kếết quả quá trình làm nổi
3.2.32.
C nhiều cácch tìm đạo hààm bậc một ccủa ảnh, đơn giản nhất là phương phááp sử dụng tooán tử
Có
Robertt.
z1 z2 z3
Hình 3.2.33 Ma trận n 9 điểm
ảnh và cácc mặt nạ dùng để tìm z4 z5 z63
gradient tạại điểm z5 z7 z8 z93
a- Ma trận các điểm ảnhh
-1 -1 -1
z3 -1 0 z13 -1 -2 -1
z3 -1 0 z13
-1 z03 0 z3
-1 0 0 z03 -1 0 z13 0 0 z03 -2 0 z23
b Mặt nạ Ro
b- obert c - Mặt
M nạ Prew
witt d- mặtt nạ Sobel
G1 = z9 − z5
(3.2.81)
G2 = z8 − z6
Do mặt nạ 2x2
D 2 không cóó điểm trung tâm, người ta thường dùùng các mặt nạ có kích thước
t
3x3 hooặc 5x5. Toáán tử Prewittt được thực hhiện với các mặt nạ như
ư trên hình (3
3.2.34c). Graadient
tính thheo chiều ngaang và chiều dọc sẽ bằng:
G x = ( z7 + z8 + z9 ) − ( z1 + z2 + z3 ) (3.2.82)
G y = ( z3 + z6 + z9 ) − ( z1 + z4 + z7 ) (3.2.83)
T
Toán tử Sobel được biểuu diễn trên hìình 3.2.33d có
c tác dụng gần
g giống nhhư mặt nạ Preewitt,
điểm khác
k biệt là các
c hệ số nằm hiều ngang vvà dọc với z5 tức N 4 ( z5 ) có
m tại vị trí lâân cận theo ch
giá trị ±2 (hình 3.2
2.33d). Mặt nạ
n nói trên cũũng cho phépp thực hiện quá
q trình tìm đạo hàm theeo hai
hướngg:
G x = ( z7 + 2 z8 + z9 ) − ( z1 + 2 z2 + z3 ) (3.2.84)
G y = ( z3 + 2 z6 + z9 ) − ( z1 + 2 z4 + z7 ) (3.2.85)
a)
c)
d)
Chương 3 Kỹ thuật xử lý hình ảnh
Có thể thấy rằng tổng các hệ số trong các mặt nạ nói trên bằng 0, như vậy tại những vùng
ảnh có độ chói không đổi, đáp ứng của bộ lọc sẽ bằng 0, điều này hoàn toàn phù hợp với tính chất
của toán tử tìm đạo hàm.
Toán tử Prewitt và Sobel được sử dụng rộng rãi hơn so với Robert vì chúng ít nhậy cảm với
nhiễu nhờ tháo tác lấy trung bình cục bộ trong vùng rộng hơn (9 điểm ảnh)
Kết quả nhận được khi thực hiện toán tử Prewitt và Sobel được thể hiện trên hình
(3.2.34c,d).
Dễ dàng nhận thấy các đường biên ngang và dọc được làm nổi bằng toán tử Sobel có biên
độ lớn hơn so với kết quả của toán tử Prewitt.
Mặt nạ Prewitt và Sobel được mô tả ở trên cho phép làm nổi đường biên cục bộ nằm theo
chiều ngang và chiều dọc. Có thể thay đổi cấu trúc những mặt nạ nói trên để chúng cho đáp ứng
mạnh nhất với các đường biên nằm theo góc 450 và 1350 so với trục x.
Hai cặp mặt nạ bổ xung Prewitt và Sobel dùng để làm nổi biên theo đường chéo có dạng
như trên hình 3.2.35 và 2.3.36.
Hình 3.2.35 Cặp mặt nạ Prewitt (bổ xung) Hình 3.2.36 Cặp mặt nạ Sobel (bổ xung)
147
Chương 3 Kỹ thuật xử lý hình ảnh
Trong hình dưới đây là một số ảnh đã được xử lý nổi biên bằng các mặt nạ trên:
Hình 3.2.38 Minh họa quá trình làm nổi biên bằng toán tử la bàn.
Có thể thấy rằng, các mặt nạ trên có tổng giá trị các hệ số bằng 0, do đó đáp ứng của mặt nạ
tại vùng ảnh có độ chói không đổi sẽ bằng 0.
Toán tử la bàn Kirsh cũng cho phép làm nổi biên theo tám hướng. 8 mặt nạ Kirsh có dạng
như sau:
148
Chương 3 Kỹ thuật xử lý hình ảnh
∂2 f ∂2 f
∇2 f = + (3.2.86)
dx 2 dy 2
Việc xấp xỉ đạo hàm bậc hai cho tín hiệu rời rạc (tạm thời xét tín hiệu một chiều) được thực
hiện như sau:
∂2 f
= f ( x + 1) + f ( x − 1) − 2 f ( x ) (3.2.87)
∂x 2
Để thấy sự khác biệt, chúng ta quan sát tác động của đạo hàm bậc một và bậc hai tới tín
hiệu:
Hình 3.2.40 Minh họa ứng dụng đạo hàm bậc một và bậc hai trong quá trình tách biên
Nhìn trên đồ thị kết quả đạo hàm bậc một và hai (hình 3.2.40 và 3.2.41) ta thấy đạo hàm
bậc một trong vùng mức xám giảm dần có giá trị khác không, trong khi đạo hàm bậc hai chỉ khác
không ở vị trí đầu và cuối vùng này. Vùng biên trên ảnh thực thường có sự thay đổi độ chói tương
đối chậm, do đó có thể thấy đạo hàm bậc hai cho phép xác định vị trí đường biên tốt hơn đạo hàm
bậc một. Tại vị trí điểm ảnh riêng rẽ, đạo hàm bậc hai cho đáp ứng mạnh hơn, do đó các chi tiết
nhỏ (và cả nhiễu) sẽ được làm nổi rõ nét hơn. Đường nét tương đối mảnh trên hình ảnh cũng được
làm nổi nhiều hơn khi sử dụng đạo hàm bậc hai. Cuối cùng, đối với tín hiệu dạng "bậc sáng" (hình
3.2.40) đáp ứng của cả đạo hàm bậc một và hai gần giống nhau. Tuy nhiên đạo hàm bậc hai có thể
cho giá trị âm và dương. Do đó kết quả xác định biên dựa trên đạo hàm bậc hai có thể cho hiệu
ứng đường biên đôi.
Hình 3.2.41 Dạng tín hiệu nhận được sau khi lấy đạo hàm bậc 1 và bậc 2
149
Chương 3 Kỹ thuật xử lý hình ảnh
Các hệ thống phân tích ảnh dựa trên đạo hàm bậc hai thường rất nhạy cảm với nhiễu, điều
này được minh họa trên hình (3.2.42). Trên hình (3.2.42a) là ba ảnh từ trái sang phải có độ chói
tăng dần. Ảnh thứ hai và thứ ba bị tác động bởi nguồn nhiễu Gausian với tỷ lệ S/N tương ứng là
25 và 15 dB. Hình (3.2.42b) biểu diễn phân bố độ chói dọc theo từng dòng ảnh. Kết quả đạo hàm
bậc một và hai của ảnh được biểu diễn trên các hình 3.2.42c và 3.2.42d. Dễ dàng nhận thấy hiệu
ứng đường biên đôi, cũng như khả năng chống nhiễu kém của phương pháp tìm biên bằng đạo
hàm bậc hai so với đạo hàm bậc một.
Hình 3.2.42 Minh họa quá trình phát hiện biên bằng đạo hàm bậc một và bậc hai.
Đối với tín hiệu 2 chiều, đạo hàm riêng theo trục x và y bằng:
∂2 f
= f ( x + 1, y ) + f ( x − 1, y ) − 2 f ( x, y ) (3.2.88)
∂x 2
∂2 f
= f ( x, y + 1) + f ( x, y − 1) − 2 f ( x, y ) (3.2.89)
∂y 2
Thông thường, toán tử Laplace hai chiều rời rạc được thực hiện với mặt nạ kích thước 3x3.
Có hai cách xấp xỉ đạo hàm bậc 2 rời rạc cho vùng ảnh 3x3: theo công thức (3.2.90) và (3.2.91).
∇2 f = 4z5 − [ z2 + z4 + z6 + z8 ] (3.2.90)
∇2 f = 8z5 − [ z1 + z2 + z3 + z4 + z6 + z7 + z8 + z9 ] (3.2.91)
Để thực hiện các công thức trên, chúng ta sử dụng hai mặt mạ tương ứng như trên hình
3.2.43.
a) b) c)
150
uật xử lý hìnhh ảnh
Chươnng 3 Kỹ thu
3.2.43cc. Biên độ cáác đường biêên thu được ddựa trên bộ lọc
l bằng mặtt nạ hình 3.2..43c có giá trrị lớn
hơn.
a) b)
Hìình 3.2.44 Minh
M họa quá trình làm nổii đường biênn bằng toán tử
ử Laplace
T
Trong thực tế
t toán tử Laaplace ít đượ ợc sử dụng trrực tiếp do tính nhạy cảảm với nhiễuu đặc
trưng cho đạo hàm m bậc hai. Ngoài
N ra, như
ư đã phân tícch ở trên, viiệc sử dụng đạo hàm bậậc hai
thườngg dẫn đến hiệện tượng xuấất hiện các biiên kép, gây khó khăn choo việc phân đoạn
đ ảnh. Vìì vậy,
để làm
m giảm ảnh hưởng
h của nhhiễu, trước kkhi thực hiện toán tử Lapplace người ta
t thường làm m mờ
ảnh bằằng bộ lọc Gaausian. Ảnh đưa vào xử lý l trong trườờng hợp này ssẽ được nhânn chập với tooán tử
Laplacce của hàm Gausse
G hai chhiều có dạng như
n sau:
x2 + y2 r2
− −
h(r) = e 2σ 2
=e 2σ 2
(3.2.92)
⎟e (3.2.93)
⎝ σ
4
⎠
Trên hình 3.22.45a, b, c làà đồ thị 3 chiều, ảnh nhìn từ phía trên và hình cắt hàm
T h đáp ứngg của
hệ thốnng thực hiện toán tử Lapllacian-Gaussian (gọi tắt làà Laplacian of
o a Gaussiann – LoG).
152
Chương 3 Kỹ thuật xử lý ảnh
điểm ảnh có nằm trên cùng đường cong (hoặc đường thẳng) cho trước hay không. Khác với
phương pháp liên kết trong phần (3.2.5.2.1), để xấp xỉ đường biên, chúng ta phải xét đến quan hệ
giữa các điểm ảnh nằm trong toàn ảnh.
- Xấp xỉ đường biên bằng đa thức
Xét tập hợp các điểm ảnh có tọa độ ( xi , yi ) với i = 0,1,2,..... M nằm trên ranh giới giữa
hai vùng ảnh. Các điểm ảnh được đánh số theo thứ tự sao cho điểm ( xi , yi ) nằm cạnh điểm
( xi+1 , yi+1 ) . Quá trình xấp xỉ đường cong trên tập điểm ảnh là quá trình xác định hàm ŷ = g ( x )
sao cho sai số xấp xỉ, tức độ khác biệt giữa điểm ( xi , yi ) và ⎡⎣ xi , g ( xi ) ⎤⎦ , là nhỏ nhất. Sai số xấp
xỉ có thể được đánh giá thông qua:
M
¾ Sai số tuyệt đối: ε = ∑ yi − g ( xi )
i =1
M
ε = ∑ ⎡⎣ yi − g ( xi ) ⎤⎦
2
¾ Sai số trung bình bình phương:
i =1
Trong trường hợp tổng quát, ta có thể dùng đa thức bậc N để xấp xỉ đường biên:
yˆ = a0 + a1 x + a2 x 2 + ... + aN x N (3.2.96)
ai - hệ số của đa thức.
Sau khi đặt tọa độ của các điểm ảnh trên đường biên vào (3.2.96) ta có hệ phương trình
tuyến tính:
⎡1 x0 x02 ... x0N ⎤ ⎡ a0 ⎤ ⎡ yˆ 0 ⎤
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢1 x1 x12 ... x1N ⎥ ⎢ a1 ⎥ ⎢ yˆ1 ⎥
⎢1 x2 x22 ... x2N ⎥ ⎢ a2 ⎥ = ⎢ yˆ 2 ⎥ (3.2.97)
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢1 # # # ⎥ ⎢# ⎥ ⎢# ⎥
⎢⎣1 xM xM2 ... xMN ⎥⎦ ⎢⎣ a N ⎥⎦ ⎢⎣ yˆ 0 ⎥⎦
Hệ phương trình trên có thể viết gọn thành:
Xa = yˆ (3.2.98)
Giải hệ phương trình trên, ta có thể tìm ra được tập hệ số ai của đa thức ŷ .
Sai số trung bình bình phương là:
ε = ( y − yˆ ) ( y − yˆ )
T
(3.2.99)
153
Chương 3 Kỹ thuật xử lý ảnh
Hình 3.2.46 Minh họa xấp xỉ đường biên bằng các đoạn thẳng
- Xấp xỉ đường biên bằng biến đổi Hough (Hough transform)
Để xấp xỉ đường biên bằng các đoạn thẳng, chúng ta phải xác định được tập hợp các điểm
ảnh nằm trên hoặc gần một đường thẳng nào đó. Để giải quyết bài toán này chúng ta có thể sử
dụng phép biến đổi do Hough đề nghị năm 1962. Một đường thẳng trong mặt phẳng (x,y) có thể
được biểu diễn bằng hệ tọa độ góc thông qua khoảng cách r từ đường thẳng tới điểm 0 và góc θ
như trên hình 3.2.46a:
r = x cos θ + y sin θ (3.2.100)
Như vậy, mỗi đường thẳng có thể biểu diễn trong mặt phẳng (r, θ ) bằng 1 điểm duy nhất
(hình 3.2.47b).
Biến đổi Hught là quá trình ánh xạ các điểm nằm trên một đường thẳng thành một điểm trên
mặt phẳng (r, θ ). Một tập các đường thẳng cắt nhau tại một điểm (hình 3.2.47c) sau khi được biến
154
Chương 3 Kỹ thuật xử lý ảnh
đổi sẽ tạo ra 1 đường cong trên mặt phẳng (r, θ ) (hình 3.2.47d).
Chúng ta xét ba điểm A, B, C trong mặt phẳng (x,y). Biến đổi Hough đối với các đường
thẳng đi qua từng điểm A, B, C sẽ tạo ra ba đường cong trên mặt phẳng như trên hình 3.2.47f. Có
thể thấy rằng điểm cắt của ba đường cong tại X ( r0 ,θ 0 ) ánh xạ sang mặt phẳng (x,y) sẽ cho
đường thẳng đi qua cả ba điểm A, B và C.
Khi ba điểm A,B,C không nằm cùng trên một đường thẳng, 3 đường cong nói trên sẽ không
cắt nhau ở cùng một điểm. Tuy nhiên, có thể thấy rằng đối với các điểm nằm gần đường thẳng AC
trên mặt phẳng (x,y), biến đổi Hough sẽ cho kết quả là các đường cong cắt nhau trong khu vực lân
cận với điểm X ( r0 ,θ 0 ) (hình 3.2.47f). Tính chất này được sử dụng để xấp xỉ đường biên trong
ảnh số. Tất cả các điểm biên rời rạc trong ảnh (trên mặt phẳng (x,y)) sẽ được biến đổi thành
đường cong trên bề mặt (r, θ ). Mặt phẳng (r, θ ) được chia thành các ô nhỏ (cells) như trên hình
3.2.48. “Trọng lượng” của từng ô nói trên sẽ tỷ lệ thuận với số đường cong Hough đi qua nó.
Chúng ta sẽ khảo sát để tìm ra các ô có “trọng lượng” lớn. Các đường cong đi qua những ô này
tương ứng với những điểm có thể xấp xỉ gần đúng bằng một đường thẳng với tọa độ góc (ri, θ i) là
tọa độ của ô đó. Những ô có “trọng lượng” nhỏ là ánh xạ của một số ít điểm ảnh nằm độc lập
trong mặt phẳng (x,y) nên có thể loại bỏ trong kết quả mô tả đường biên. Ô vuông nằm tại
M ( r0 ,θ 0 ) có "trọng lượng" tương đối lớn nhất vì có 3 đường cong chạy qua (hình 3.2.48).
Hình 3.2.48 Chia nhỏ mặt phẳng (r, θ ) để xấp xỉ đường biên
Quá trình xấp xỉ đường biên sử dụng biến đổi Hough được minh họa trên trên hình 3.2.49.
Các bước thực hiện quá trình xấp xỉ đường biên với biến đổi Hough có trình tự như sau:
1- Tìm giá trị gradient cho các điểm trên ảnh gốc; So sánh giá trị modul gradient với
ngưỡng (cho trước) để tạo ra ảnh nhị phân hiển thị vị trí của các điểm biên.
2- Chia mặt phẳng (r, θ ) thành các ô nhỏ.
3- Tìm ánh xạ của tất cả các điểm khác 0 trong ảnh nhị phân sang mặt phẳng (r, θ ) và tiến
hành đánh giá "trọng lượng" từng ô trong mặt phẳng đó.
4- Chọn ra các ô có trọng lượng lớn nhất; tìm ra các điểm ảnh biên có thể xấp xỉ bằng
đường thẳng có cùng tọa độ góc với tọa độ của ô có trọng lượng lớn, tương ứng với những đường
cong đi qua ô đó.
155
Chương 3 Kỹ thuật xử lý ảnh
f(x,y)- giá trị mức xám tại điểm (x,y), p(x,y) - hàm biểu diễn tính chất của vùng ảnh xung
quanh điểm (x,y), ví dụ, giá trị mức xám trung bình của vùng ảnh, có tâm là điểm (x,y). Kết quả
so sánh được tổng hợp trên ảnh g(x,y) theo quy luật sau:
⎧⎪1 f ( x, y ) > T
g ( x, y ) = ⎨ (3.2.102)
⎪⎩0 f ( x, y ) ≤ T
Chúng ta gọi các điểm ảnh trong g(x,y) có giá trị bằng 1 là các điểm ảnh thuộc vật thể (hay
vùng ảnh chi tiết), các điểm có giá trị bằng 0 sẽ thuộc vùng ảnh nền. Nếu T chỉ phụ thuộc vào
f(x,y) và không thay đổi trong toàn bộ quá trình xử lý ảnh thì T được gọi là ngưỡng toàn cục. Nếu
T phụ thuộc vào toạ độ không gian (x,y) ta gọi T là ngưỡng cục bộ. Nếu ngưỡng cục bộ T phụ
thuộc vào p(x, y) hay nói cách khác, T thay đổi theo tính chất của từng vùng ảnh, ta gọi mức T là
ngưỡng thích nghi.
156
Chương 3 Kỹ thuật xử lý ảnh
157
Chương 3 Kỹ thuật xử lý ảnh
Hình 3.2.53 a) Ảnh gốc. b) Phân vùng với ngưỡng toàn cục.
c) Ảnh được chia vùng d) Phân vùng với ngưỡng thích nghi.
Hình 3.2.53a là ảnh gốc bao gồm nền và chi tiết có độ chói thay đổi trong phạm vi nhỏ. Histogram của
ảnh không phân vùng rõ rệt, do đó, khi dùng ngưỡng toàn cục, tức ngưỡng duy nhất để phân vùng sẽ
không cho kết quả tốt (hình 3.2.53b). Một phương pháp làm tăng chất lượng phân tích ảnh là chia ảnh
gốc ra thành nhiều vùng nhỏ (segment) (hình 3.2.53c), trong mỗi vùng chúng ta sẽ tìm giá trị ngưỡng
cục bộ theo phương pháp đã mô tả ở trên. Giá trị T ban đầu được chọn bằng giá trị trung bình giữa
158
Chương 3 Kỹ thuật xử lý ảnh
mức chói cao nhất và mức chói thấp nhất trong vùng. Như vậy có thể nói rằng, ảnh gốc đã được xử lý
với mức ngưỡng thích nghi theo từng vùng ảnh. Kết quả nhận dạng vùng theo ngưỡng thích nghi biểu
diễn trên hình 3.2.53d, dễ dàng nhận thấy vùng ảnh chi tiết được hiển thị chính xác hơn nhiều so với
trường hợp dùng ngưỡng toàn cục.
3.2.5.3.4 Phân vùng với ngưỡng toàn cục tối ưu
Trong phần này chúng ta sẽ phân tích kỹ thuật tìm ngưỡng toàn cục tối ưu theo tiêu chí tối
thiểu hóa sai số phân vùng trung bình. Giả thiết ảnh chỉ có hai vùng có độ chói khác nhau, gọi là
vùng sáng (ảnh chi tiết) và vùng tối (ảnh nền). Mức xám z của các điểm ảnh là biến ngẫu nhiên,
được đặc trưng bởi hàm mật độ phân bố xác suất p ( z ) . Như chúng ta đã biết p ( z ) chính là
histogram của ảnh. Hàm mật độ phân bố xác suất mức xám trong vùng sáng và vùng tối là p1 ( z )
và p2 ( z ) . Mật độ phân bố xác suất của toàn ảnh sẽ bằng tổng hai hàm trên:
p ( z ) = P1 ⋅ p1 ( z ) + P2 ⋅ p2 ( z ) (3.2.103)
P1 , P2 - xác suất để điểm ảnh nằm trong vùng sáng hoặc vùng tối.
Vì ảnh chỉ bao gồm hai vùng sáng tối nên P1 + P2 = 1 .
Bài toán đặt ra là cần tìm giá trị ngưỡng toàn cục Topt (hình 3.2.54) để tách chi tiết ảnh, sao
cho sai số dự đoán trung bình là nhỏ nhất.
Hình 3.2.54 Mật độ phân bố xác suất mức xám của hai vùng ảnh
Xác suất để điểm ảnh nền bị xác định nhầm thành điểm ảnh chi tiết là:
T
E1 ( T ) = ∫ p2 ( z ) dz (3.2.104)
−∞
Xác suất để điểm ảnh chi tiết bị xác định nhầm thành điểm ảnh nền là:
∞
E2 (T ) = ∫ p1 ( z ) dz (3.2.105)
T
Để có được ngưỡng tối ưu Topt khi sai số E(T) là nhỏ nhất, đạo hàm của (3.2.106) theo T
phải bằng 0, ta có:
P1 ⋅ p1 ( T ) = P2 ⋅ p2 ( T ) (3.2.107)
159
Chương 3 Kỹ thuật xử lý ảnh
Trường hợp khi P1 = P2 , ngưỡng tối ưu sẽ nằm tại điểm cắt đồ thị hàm p1 ( z ) và p2 ( z ) .
Trong trường hợp tổng quát, để tìm ra Topt , ta cần biết hai hàm phân bố xác suất p1 ( z ) và
p2 ( z ) . Thông thường mật độ phân bố mức xám được qui về dạng phân bố Gausian:
−
( z − μ1 )2 −
( z − μ2 )2
P1 P2
p( z) = e 2σ 12
+ e 2σ 22
(3.2.108)
2πσ 1 2πσ 2
μ1 và σ 1 là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh chi tiết,
μ2 và σ 2 là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh nền.
Sử dụng (3.2.107 ) và (3.2.108) ta suy ra phương trình:
AT 2 + BT + C = 0 (3.2.109)
với: A = σ 12 − σ 22 (3.2.110)
(
B = 2 μ1σ 22 − μ 2σ 12 )
C = μ2σ 12 − μ1σ 22 + 2σ 12 2σ 22 ln (σ 2 P1 / σ 1 P2 )
Phương trình bậc hai có thể có hai nghiệm, do đó, trong một số trường hợp có thể có hai giá
trị ngưỡng tối ưu. Nếu phương sai của hai hàm phân bố như nhau: σ 12 = σ 22 = σ 2 thì Topt là duy
nhất:
μ1 + μ2 σ2 ⎛P ⎞
Topt = + ln ⎜ 2 ⎟ (3.2.111)
2 μ1 − μ 2 ⎝ P1 ⎠
Nếu P 1 = P2 , ta có:
μ1 + μ2
Topt = (3.2.112)
2
3.2.6 Xử lý ảnh màu
Trong phần 3.1.5 đã giới thiệu sơ bộ về màu sắc và các thông số đặc trưng của màu sắc.
Dựa trên các phân tích về cơ chế cảm nhận màu sắc của hệ thống thị giác ta thấy mọi màu sắc
trong thiên nhiên có thể được tạo ra từ các màu cơ bản bằng các phương pháp pha trộn màu khác
nhau. Không gian màu RGB hoặc XYZ thường được sử dụng để mô tả quá trình pha trộn màu
sắc. Ta có thể xác định được mọi màu sắc được tạo ra từ tổ hợp ba màu bất kỳ bằng cách xác định
vị trí ba màu đó trong không gian RGB (XYZ) sau đó nối chúng lại, để tạo ra tam giác màu; Tam
giác có đỉnh là ba điểm nói trên sẽ chứa tất cả các màu sắc có thể được tạo ra bằng cách pha trộn
ba màu trên (hình 3.2.55).
3.2.6.1 Các hệ màu cơ bản
Hiện nay có khá nhiều hệ màu (không gian màu) được sử dụng với các mục đích khác nhau.
Không gian màu RGB thường được sử dụng để mô phỏng các hệ thống tạo ảnh màu như màn
hình TV màu, camera màu; hệ màu CMYK (Cyan-Magenta-Yellow-BlacK) thường được dùng
trong kỹ thuật in ấn. Hệ màu HSI (Hue-Saturation-Intensity) hay còn gọi là HSB (Hue-Saturation-
Bright) được sử dụng rộng rãi trong lĩnh vực xử lý ảnh. Hệ màu HSI cho phép mô tả ảnh màu
160
Chương 3 Kỹ thuật xử lý ảnh
thông qua các thành phần sắc màu và thành phần chói của ảnh. Phương pháp mô tả này tương đối
phù hợp với cách cảm nhận màu sắc của hệ thống thị giác, đồng thời hệ HSI cũng có thể dùng khi
phân tích ảnh đen-trắng (chỉ có các mức xám). Sau đây chúng ta nhắc lại một số đặc điểm chính
của ba hệ màu nói trên.
Hình 3.2.55 Tam giác màu đơn vị XYZ trong hệ tọa độ vuông góc xy
a) b)
Hình 3.2.56 Không gian màu RGB
Số lượng bít sử dụng để mã hóa 1 điểm ảnh màu được gọi là độ sâu của màu. Trường hợp
nói trên, độ sâu màu sẽ là 24 bits khi đó số sắc màu tối đa có thể được hiển thị sẽ là
(2 )
8 3
= 16777216 . Trên hình 3.2.56b là không gian màu RGB 24 bits.
161
Chương 3 Kỹ thuật xử lý ảnh
⎡C ⎤ ⎡1⎤ ⎡ R ⎤
⎢ M ⎥ = ⎢1⎥ − ⎢G ⎥ (3.2.113)
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣⎢Y ⎦⎥ ⎣⎢1⎦⎥ ⎣⎢ B ⎦⎥
Khi C=M=Y chúng ta sẽ nhận được màu đen. Tuy nhiên, trên thực tế màu nhận được không
hoàn toàn đen. Do đó trong các hệ thống in ấn, người ta sử dụng thêm một loại mực nữa có màu
đen (BlacK) - ký hiệu là K. Như vậy hệ màu CMY được mở rộng thành CMYK.
3.2.6.1.3 Hệ màu HSI
Trong không gian màu HSI, mỗi điểm màu được mô tả dựa trên các thông số về: sắc màu
(bước sóng trội), độ bão hòa màu (độ sạch màu) và độ chói. Hai thông số đầu tiên đặc trưng cho
"màu sắc", còn thông số thứ ba cho ta thấy độ sáng của điểm ảnh. Cách mô tả các điểm ảnh như
vậy tương đối giống với thói quen quan sát và phân tích màu sắc của hệ thống thị giác.
162
Chương 3 Kỹ thuật xử lý ảnh
⎧ 1 ⎫
⎪ ⎡⎣( R − G ) + ( R − B ⎤⎦ ⎪
θ = arccos ⎨ 2
với 1/2 ⎬ (3.2.115)
⎪ ⎡( R − G ) + ( R − B ) ( G − B ) ⎤ ⎪
2
⎩⎣ ⎦ ⎭
- Xác định độ bão hòa màu:
3
S =1− ⎡ min ( R, G, B ) ⎤⎦ (3.2.116)
(R + G + B) ⎣
- Xác định độ chói I:
1
I= (R + G + B) (3.2.117)
3
B = I (1 − S ) (3.2.118)
⎡ S cos H ⎤
R = I ⎢1 + ⎥ (3.2.119)
⎢⎣ cos ( 60 − H ) ⎥⎦
0
G = 3I − ( R + B ) (3.2.120)
⎡ S cos H ⎤
G = I ⎢1 + ⎥ (3.2.123)
⎢⎣ cos ( 60 − H ) ⎥⎦
0
B = 3I − ( R + G ) (3.2.124)
163
Chương 3 Kỹ thuật xử lý ảnh
G = I (1 − S ) (3.2.126)
⎡ S cos H ⎤
B = I ⎢1 + ⎥ (3.2.127)
⎢⎣ cos ( 60 − H ) ⎥⎦
0
R = 3I − ( G + B ) (3.2.128)
Các công thức (3.2.114) –(3.2.128) nhận được thông qua phép biến đổi hình học như đã mô
tả trên hình 3.2.58.
Trên hình 3.2.59 là các thành phần ảnh H, S, I được tách ra từ ảnh màu RGB theo công thức
3.2.114, 3.2.116, 3.2.117.
Có thể thấy rằng, mức sáng của ảnh I chính là độ chói (Intensity) của ảnh màu. Mức sáng
của ảnh H phụ thuộc vào góc vector màu với trục R, ví dụ, đối với màu đỏ H=0 nên vùng đỏ trên
ảnh H sẽ có màu đen.
Hình 3.2.59 Ảnh màu RGB (24 bít) và các thành phần H,S,I tương ứng.
164
Chương 3 Kỹ thuật xử lý ảnh
Hình 3.2.60 Minh họa quá trình lượng tử theo mức chói và mã hóa bằng màu
giả
Hàm biến đổi mức xám-màu có đặc tuyến dạng bậc thang như trên hình 3.2.61.
165
Chương 3 Kỹ thuật xử lý ảnh
thuật lượng tử mức xám có thể được sử dụng để tách các vật thể hiển thị trong ảnh dựa trên tính
chất vật lý của chúng. Ví dụ, trên hình 3.263a, ta có ảnh X quang thu được trong hệ thống giám
sát chất lượng các mối hàn [15].
Hình 3.2.63 a- ảnh chụp bằng tia X quang mối hàn ống thép
b- ảnh kết quả sau khi mã hóa bằng màu giả.
Trong đường hàn nằm ngang (sẫm màu) có vết rạn nứt, các vết rạn hiển thị như các vệt sáng
chói, nằm theo chiều ngang ở giữa màn hình. Các vết nứt hiển thị trên ảnh có mức chói tối đa là
255, vì tia X đi qua các vết nứt sẽ làm thiết bị cảm biến (dùng để ghi nhận ảnh X quang) bị bão
hòa. Để người kiểm tra có thể dễ dàng phát hiện ra các vết nứt, người ta có thể biến đổi mức 255
thành một màu, còn tất cả các mức xám còn lại thành một màu khác (hình 3.2.63). Dễ dàng thấy
rằng, việc phát hiện lỗi hàn sẽ được thực hiện chính xác hơn khi sử dụng ảnh màu nhận được theo
phương pháp nói trên.
3.2.6.2.2 Biến đổi thành phần chói thành màu
Các phương pháp xử lý ảnh dựa trên biến đổi thành phần chói thành màu mang tính tổng
quát hơn kỹ thuật tạo màu giả. Mỗi điểm màu trong ảnh được phân tích thành ba màu cơ bản tùy
theo hệ màu được xử dụng (ví dụ R, G, B). Sau khi phân tích, chúng ta nhận được ba ảnh đơn sắc,
ba ảnh này có độ chói nằm trong khoảng [0-255], các ảnh đơn sắc đó có thể được hiển thị lên màn
hình dưới dạng ảnh đen trắng. Như vậy, ảnh màu có thể được xử lý dựa trên các phép biến đổi độc
lập với 3 ảnh đen trắng nói trên. Ảnh kết quả sẽ được tập hợp lại từ ba ảnh đen trắng khi đưa
chúng vào các kênh màu tương ứng. Quá trình xử lý được mô tả bằng sơ đồ khối hình 3.2.64.
Phương pháp xử lý nói trên được thực hiện cho từng điểm ảnh mà không phụ thuộc vào vị trí của
chúng trong ảnh số.
Kỹ thuật tạo màu giả là trường hợp đặc biệt của phương pháp biến đổi thành phần chói
thành màu khi hàm biến đổi mức xám-màu có dạng bậc thang như trên hình 3.2.61.
Hình 3.2.64 Quá trình xử lý ảnh độc lập trên từng kênh màu
3.2.6.2.3 Biến đổi màu
Kỹ thuật xử lý ảnh màu được chia thành hai nhóm. Nhóm thứ nhất bao gồm các phương
pháp phân tích ảnh màu thành ba ảnh đơn sắc (ví dụ: ảnh R, G, B), sau đó xử lý từng ảnh đơn sắc
riêng rẽ; ảnh kết quả sẽ được tổng hợp từ các ảnh vừa được xử lý. Chúng ta gọi đây là các phương
166
Chương 3 Kỹ thuật xử lý ảnh
pháp xử lý ảnh theo thành phần. Nhóm thứ hai là các kỹ thuật xử lý tác động trực tiếp lên các
điểm ảnh màu. Trong không gian màu RGB, mỗi điểm màu có thể được biểu diễn như vector nối
G
gốc tọa độ và điểm màu đó. Vector màu c có thể được biểu diễn thông qua các vector cơ bản
R,G,B như sau:
⎡ R ( x, y ) ⎤
⎢ ⎥
c ( x, y ) = ⎢G ( x, y ) ⎥ (3.2.129)
⎢ B ( x, y ) ⎥
⎣ ⎦
G
Công thức (3.2.129) cho thấy: các thành phần của vector màu c là tọa độ của điểm màu
trong không gian R, G, B. Cần lưu ý rằng R ( x, y ) , G ( x, y ) , B ( x, y ) còn phụ thuộc vào tọa độ
trong không gian ảnh (x,y).
Các điểm màu trong ảnh kích thước MxN được biểu diễn bằng MxN vector màu c ( x, y ) , x
và y là vị trí của điểm màu trong ảnh. Quá trình xử lý ảnh dựa trên các thành phần đơn sắc và dựa
trên các vector màu có thể cho kết quả khác nhau.
Hình 3.2.65 Kỹ thuật lọc bằng mặt nạ trong không gian ảnh
a- ảnh đen - trắng b- ảnh màu
Trên hình 3.2.65 mô tả quá trình lọc (trung bình hóa) ảnh trong miền không gian. Trên ảnh
đen trắng, chúng ta cộng giá trị mức xám của các điểm ảnh bên trong mặt nạ rồi chia cho tổng số
điểm ảnh của mặt nạ, giá trị trung bình này sẽ được gán cho điểm ảnh (x,y) (hình 3.2.65a). Trong
ảnh màu RGB, quá trình trung bình hóa được thực hiện với các vector màu ứng với các điểm ảnh
trong mặt nạ. Vector màu trung bình tại điểm (x,y) có các thành phần
R ( x, y ) , G ( x, y ) , B ( x, y ) bằng với giá trị trung bình trong mặt nạ xung quanh tọa độ (x,y) trên
mặt phẳng R, G và B (hình 3.2.65b). Do đó, trong trường hợp này, cả hai phương pháp xử lý: với
các thành phần màu hay với các vector màu đều cho kết quả như nhau.
Quá trình biến đổi ảnh màu có thể được biểu diễn giống như trường hợp ảnh đen-trắng:
g ( x, y ) = T ⎣⎡ f ( x, y ) ⎦⎤ (3.2.130)
167
Chương 3 Kỹ thuật xử lý ảnh
Biến ri và si là giá trị các thành phần màu của ảnh f ( x, y ) và g ( x, y ) tại một điểm
(x,y) bất kỳ. n - số lượng thành phần màu. Ti - toán tử biến đổi cho từng thành phần màu. n được
xác định bởi hệ màu đang sử dụng. Ví dụ: trong không gian màu RGB n=3, trong không gian
CMYK n=4. Tập hợp các toán tử Ti sẽ xác định toán tử T trong (3.2.130).
Trên hình 3.2.66 là ảnh màu và ảnh các thành phần trong không gian R,G,B. Ở đây, các
thành phần có giá trị lớn nhất là 1 (mức trắng) , nhỏ nhất là 0 (mức đen). Trên ảnh đen-trắng biểu
diễn thành phần R, ta thấy cánh hoa màu đỏ (gần bão hòa) sẽ có độ chói lớn nhất. Thành phần G
và B trong vùng cánh hoa có giá trị rất thấp.
168
Chương 3 Kỹ thuật xử lý ảnh
Thành phần H đặc trưng cho sắc màu của ảnh tính theo (3.2.114) có thể có các giá trị xung
đột ở các điểm ảnh có góc H bằng 00 và 3600; ngoài ra, giá trị H cũng không được xác định tại các
điểm ảnh đen, trắng hoặc xám. Các điểm ảnh có giá trị H bằng 00 và 3600 hiển thị trên ảnh H
(hình 3.2.67) như các điểm đen hoặc trắng ngẫu nhiên trong vùng cánh hoa màu đỏ.
Các biến đổi màu sắc ảnh có thể được thực hiện trong các hệ màu khác nhau, tuy nhiên, trên
thực tế tùy theo ứng dụng, chúng ta nên chọn hệ màu phù hợp nhất.
Ví dụ: để thực hiện quá trình biến đổi độ sáng của ảnh:
g ( x, y ) = k ⋅ f ( x, y ) với 0 < k < 1 (3.2.132)
Trong hệ màu HSI, theo nguyên tắc, biến đổi trên được thực hiện cho ba thành phần H, S, I
bởi toán tử sau si = Ti ( ri ) i = 1,2... n , với n=3. Trên thục tế để thay đổi độ sáng, trong hệ
HSI, chúng ta chỉ cần áp dụng biến đổi đối với thành phần I:
s3 = k ⋅ r3 (3.2.133)
Các thành phần khác của ảnh màu sẽ được giữ nguyên: s1 = r1; s2 = r2 .
Cũng bài toán trên, nếu thực hiện trong hệ màu RGB, chúng ta phải biến đổi cả ba thành
phần màu R, G và B: si = k ⋅ ri i = 1,2,3
3.2.6.2.4 Tách ảnh theo các mức màu
Tương tự như kỹ thuật tách ảnh theo mức chói, khi xử lý ảnh màu, chúng ta có thể tách
những chi tiết có màu nhất định ra khỏi ảnh gốc. Những thành phần màu khác trong ảnh kết quả
sẽ được biến đổi thành màu nền (làm nổi những chi tiết màu cần tách). Nếu các màu được quan
tâm nằm trong hình khối con có cạnh là D0, tâm hình khối nằm tại điểm ( a1, a2 , a3 ) trong không
gian màu R, G, B, khi đó kỹ thuật tách ảnh theo các mức màu được mô tả theo biểu thức:
⎧ D0
⎪⎪0,5 rj − a j >
si = ⎨ 2 (3.2.134)
⎪r D
rj − a j ≤ 0
⎪⎩ j 2
với các i=1, 2, 3; j=1, 2, 3;
Biến đổi (3.2.134) cho ảnh kết quả bao gồm các màu nằm trong hình khối có cạnh D0, các
màu nằm ngoài hình khối sẽ được thay thế bằng mức xám trung bình.
Nếu vùng màu quan tâm nằm trong hình cầu, biểu thức (3.2.134) sẽ biến đổi thành:
⎧ n
∑ ( rj − a j )
2
⎪0,5 > R02
⎪ j =1
si = ⎨ n
(3.2.135)
⎪r
∑ ( rj − a j )
2
≤ R02
⎪ j
⎩ j =1
i = 1, 2,....n , j = 1, 2,....n
Biểu thức (3.2.135) có thể ứng dụng cho không gian màu n-chiều. Các thành phần màu
được tách biệt nằm trong hình cầu (khi n=3) có bán kính R0, tâm nằm tại điểm ( a1, a2 , a3 ).
Trên hình 3.2.68 mô tả quá trình tách thành phần màu xung quanh màu đỏ có tọa độ
169
uật xử lý ảnh
Chươnng 3 Kỹ thu
a) b)
c) d)
H
Hình 3.2.68 Minh họa kỹỹ thuật tách ảnh
ả theo các mức màu
a- Ảnh màu gốc,
g b- Vùngg màu được táách trong khôông gian màuu RGB
c- Ảnh kết quả khi tách cáác màu nằm trrong hình lậpp thể
d-- Ảnh kết quả khi tách cáác màu nằm trrong hình cầuu
3
3.2.6.2.5 Hiệệu chỉnh ảnhh màu
Q trình hiệệu chỉnh ảnh
Quá m hình mááy tính trước khi đưa tới các thiết bị in ấn
h màu trên màn
thườngg được thực hiện
h từng bước theo hai ggiai đoạn: hiệệu chỉnh độ sáng và hiệu chỉnh
c màu.
• Hiệu chỉnh độ sánng
Hiệu chỉnh độ
H đ sáng là quuá trình thay đổi độ sáng và độ tương phản của ảnnh để làm tănng tối
đa khảả năng hiển thhị các chi tiếết nhỏ của ảnhh. Các thôngg số về màu sắc t giai đoạn xử lý
s của ảnh tại
này khhông được thhay đổi. Tronng hệ màu RG GB hay CMY YK quá trìnhh biến đổi phải được thựcc hiện
giống nhau hoàn to oàn cho từngg kênh màu. T Thông thườn ng có ba loại ảnh cần hiệuu chỉnh: thiếuu ánh
sáng (hhình 3.2.69a)), thừa ánh sáng
s (hình 3.22.69b) và thiiếu độ tươngg phản (hình 3.2.69c). Các đặc
tuyến sử dụng để hiệu
h chỉnh ản nh trong từngg trường hợp p và kết quả hiệu chỉnh được
đ hiển thịị trên
hình 3.2.69.
3 Ví dụ
ụ: đặc tuyến dạng đường cong chữ S có thể đượcc dùng để cảải thiện độ ttương
phản của
c ảnh; với đặcđ tuyến biếến đổi như trrên hình 3.2.669c, các điểm m ảnh gốc sẫẫm màu hoặcc nhạt
màu sẽẽ trở nên sẫmm hơn hoặc nhạt n hơn trong ảnh kết quả,
q do đó độộ tương phảnn của ảnh sẽẽ tăng
lên. Quuan sát các ảnh
ả và histoggram của chúúng trên hìnhh 3.2.69 có tthể thấy rằng g, chất lượngg hiển
thị độ sáng (ảnh tốối, quá sáng hay thiếu tư ương phản) có thể đánh giá g trực tiếp khi quan sátt ảnh,
hoặc thhông qua lượợc đồ xám (hiistogram) củủa ảnh.
Chương 3 Kỹ thuật xử lý ảnh
3.2.69 a) Ảnh thiếu ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
b) Ảnh thừa ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
c) Ảnh tương phản thấp, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
• Hiệu chỉnh màu
Sau khi ảnh đã được hiệu chỉnh độ chói, bước xử lý tiếp theo là hiệu chỉnh màu. Đây là quá
trình cân bằng màu với mục đích làm cho màu sắc hiển thị trên ảnh trở nên trung thực. Ví dụ:
tuyết phải có màu trắng, cỏ phải có màu xanh lá cây v.v. Thường thì quá trình hiệu chỉnh màu
được thực hiện trên các mảng hình có màu trắng, khi đó các thành phần màu R, G, B sẽ phải
giống nhau. Ngoài ra, màu da mặt người cũng có thể dùng để hiệu chỉnh, vì hệ thống thị giác rất
nhạy cảm với màu này.
Khi tiến hành hiệu chỉnh theo từng kênh màu, nhất thiết cần phải hiểu rõ quá trình hiệu
chỉnh tác động thể nào tới màu sắc tổng hợp của ảnh. Để thấy được ảnh hưởng của sự thay đổi
mỗi thành phần màu tới màu sắc chung của ảnh có thể dựa trên vòng tròn màu (hình 3.2.70). Để
làm tăng một thành phần màu trong ảnh có thể: hoặc làm giảm màu bổ xung với nó, hoặc tăng
cùng lúc hai màu nằm cạnh màu đó. Ví dụ, trong hình màu hệ RGB có quá nhiều màu xanh lam
(B), để làm giảm màu này, chúng ta có thể: (1) tăng màu bổ xung với nó là màu vàng (Y) hoặc (2)
giảm các màu xanh lơ (C) và màu mận chín (M).
Một ví dụ cụ thể được biểu diễn trên hình 3.2.71. Ảnh gốc trên hình 3.2.71a sau khi truyền
qua kênh bị mất cân bằng màu. Thành phần màu xanh lam trở nên vượt trội hơn so với các màu
khác (hình 3.2.71b). Để làm giảm màu xanh lam trên ảnh, chúng ta chuyển đổi ảnh từ hệ màu
RGB sang hệ màu CMYK, tăng màu Y bằng cách áp dụng đặc tuyến hiệu chỉnh kênh Y như trên
hình 3.2.71c. Ảnh kết quả nhận được (hình 3.2.71d) tương đối giống với ảnh gốc (hình 3.2.71a).
171
uật xử lý ảnh
Chươnng 3 Kỹ thu
Hình
H 3.2.70 Vòng tròn màu
m
Hình
H 3.2.71 Hiệu chỉnh màu
a) b)
a- Ảnh ggốc
b- Ảnh nnhiều màu Blue
B
c- Đặc ttuyến hiệu chỉnh
kênh Y
d- Ảnh kkết quả
c) d)
3
3.2.6.2.6 Xử
ử lý histogram
m ảnh màu
N chúng ta
Như t đã biết, kỹỹ thuật cân bbằng lược đồ
ồ xám (histoogram equalization) trongg ảnh
đen-trắắng làm cho phân bố các mức xám trở thành đồngg đều. Đối vớ ới ảnh màu, được tổng hợ ợp từ
nhiều ảnh đơn sắcc, việc thực hiện
h cân bằnng lược đồ "xám" cho từừng ảnh đơn sắc rồi tổngg hợp
chúng thành ảnh màum kết quả có thể dẫn ttới hiện tượnng mất cân bằng màu. Trrên hình 3.2.72 là
một víí dụ điển hình
h. Ảnh màu gốc
g có độ tươ ơng phản thấấp (xem lược đồ xám) đượợc tách ra thàành 3
ảnh đơ
ơn sắc R, G, B.
B
Hình 3.2.72 C
Cân bằng
lược đồ xám cho từng
t kênh
màu R, G
G, B
động khác
k nhau, kếết quả quá trrình cân bằngg cũng sẽ kháác nhau. Khi tổng hợp ản nh màu từ cácc ảnh
đơn sắắc nhận đượcc sau khi cân bằng, tỷ lệ bba thành phầần R, G, B tạại mỗi điểm ảnh
ả bị thay đổi
đ so
với ảnhh gốc, chính vì vậy, so sáánh hai ảnh m
màu gốc và kết
k quả, ta thấấy có sự khácc biệt về màuu sắc.
Tuy nhhiên, độ tươn
ng phản của ảnh b đổi cân bằng
ả kết quả ttăng lên rõ rệệt, đó cũng làà hệ quả của biến
lược đồ xám.
Để tránh tình
Đ h trạng trên, quá trình cânn bằng lược đồ
đ xám đượcc thực hiện ch ho ảnh màu trong
t
hệ màuu HSI. Khi đó,đ cân bằng mứcm xám chỉỉ được thực hiệnh cho ảnh I (kênh chóii), các ảnh H và S
được giữ
g nguyên. Chính
C vì vậy
y, độ tương phhản của ảnh sẽ được cải tthiện trong khi
k sắc màu không
k
bị thayy đổi. Trên hình
h 3.2.73 mô
m tả quá trình cân bằngg lược đồ xáám trong khôông gian HSI. Dễ
dàng nhận
n thấy ảnnh kết quả cóó độ tương phản
p cao và màu
m sắc "thậật" hơn so kếết quả nhận được
trên hìình 3.2.71.
H
Hình 3.2.73 Cân
C bằng lượ
ợc đồ xám troong hệ màu H
HSI
3
3.2.6.2.7 Kỹ thuật làm trơ
ơn ảnh màu
Trong phần 3.2.2.2 chúnng ta đã nói đđến quá trìnhh làm trơn ảảnh đen-trắng
T g bằng các bộ lọc
không gian. Đặc tuuyến bộ lọc phụ
p thuộc vàoo các hệ số trrong mặt nạ llọc (hình 3.22.74a). Khi m mặt nạ
di chuuyển trong ản
nh, giá trị điểm ảnh tại ttâm mặt nạ đượcđ thay bằằng giá trị trrung bình củaa các
điểm ảnh
ả bao trùm m bởi mặt nạ. Lọc tuyến tíính bằng phư ương pháp nhhân chập tron ng không giann còn
sử dụnng để làm nổii các chi tiết nhỏ, hay nổi biên ảnh (lọọc thông cao) (xem 3.2.4).
Q trình lọcc tuyến tính nói
Quá n trên có thhể được áp dụ
ụng cho ảnh màu
m (hình 3..2.74b).
C S xy là tập
Cho t hợp tọa độ
đ của K điểm
m ảnh nằm lâân cận điểm ảảnh màu trunng tâm (x,y) trong
t
không gian RGB. Giá trị trung
g bình của cáác vector mààu trong khônng gian ba chiều
c ứng vớ
ới các
điểm ảnh ộ trong S xy làà:
ả có tọa độ
1
c ( x, y ) = ∑ c ( x, y )
K ( x , y )∈S xy
(3.2.136)
Chương 3 Kỹ thuật xử lý ảnh
a) b)
Hình 3.2.74 Mô tả kỹ thuật làm trơn ảnh màu theo từng thành phần
Quá trình làm trơn ảnh có thể được thực hiện trong các không gian màu khác nhau. Hình
3.2.75b là ảnh kết quả, nhận được sau khi làm trơn ảnh trong không gian RGB theo phương pháp
mô tả trên hình 3.2.75b. Các ảnh R. G và B được làm trơn một cách độc lập, sau đó tổng hợp lại
thành ảnh màu kết quả.
Trong không gian màu HSI, thành phần được làm trơn là ảnh mang tin tức về độ chói I.
Ảnh H và S được giữa nguyên. Kết quả nhận được (hình 3.2.75c) cũng là ảnh gốc đã bị làm "mờ".
174
Chương 3 Kỹ thuật xử lý ảnh
Tuy nhiên khi so sánh với ảnh được làm mờ trong hệ RGB, chúng ta nhận thấy rằng chúng có sự
khác nhau. Ảnh sai số được hiển thị trên 3.2.75d. Vấn đề ở chỗ, màu của các điểm ảnh được làm
trơn trong hệ RGB không hoàn toàn giống màu sắc thực vì thành phần R, G và B bằng giá trị
trung bình trong không gian ma trận lọc (giá trị trung bình thường khác so với giá trị gốc của điểm
ảnh màu). Trong khi đó, thành phần màu (H và S) của các điểm ảnh trong hệ HSI khi làm trơn
không thay đổi. Cũng chính vì lý do vừa nêu trên, có thể đưa ra kết luận rằng mức độ sai số giữa
các ảnh được làm trơn trong không gian RGB và HSI sẽ tăng khi kích thước ma trận lọc tăng.
3.2.6.3 Nhiễu trong ảnh màu
Mô hình nhiễu được trình bày trong phần 3.2.3.2 có thể được áp dụng cho trường hợp ảnh
màu. Tuy nhiên, tác động nhiễu tới ảnh màu có đặc thù riêng. Trong một số trường hợp, nhiễu tác
động lên các kênh màu một cách khác nhau, ví dụ trong bộ cảm biến CCD, kênh R (màu đỏ) nhạy
cảm với nhiễu nhiều hơn so với hai kênh màu còn lại. Tác động của nhiễu sẽ thay đổi mạnh khi
chúng ta thực hiện phép biến đổi không gian biểu diễn ảnh màu. Trên hình 3.2.76, ảnh màu bị tác
động bởi nhiễu Gaussian với độ lệch chuẩn 0.005 được phân tích thành các thành phần trong
không gian RGB và HSI. Có thể thấy rằng thành phần H (sắc màu) và S (độ bão hòa màu) bị biến
dạng rất nhiều dưới tác động của nhiễu, lý do chính vì trong công thức (3.2.114, 3.2.115, 3.2.116)
tính H và S chứa các hàm phi tuyến là arccos và hàm tìm minimum.
Hình 3.2.76 Biểu diễn ảnh nhiễu (a) trong không gian màu RGB (b, c, d)
và HSI (e, f,g)
Quá trình triệt nhiễu cho ảnh màu có thể được thực hiện trên cở sở lọc trong không gian hay
trong miền tần số như đã xét trong phần 3.2.3. Các bộ lọc nói trên có thể áp dụng cho các thành
phần màu riêng rẽ hay áp dụng trực tiếp tới các vector màu. Một số bộ lọc, thí dụ bộ lọc trung
bình không gian sẽ cho kết quả giống nhau. Các bộ lọc dựa trên nguyên tắc thống kê thứ tự điển
hình là bộ lọc median thường chỉ được thực hiện cho từng thành phần màu. Quá trình thống kê
thứ tự trong không gian vector màu nhiều chiều tương đối phức tạp nên không được giới thiệu ở
đây.
175
Chương 3 Kỹ thuật xử lý hình ảnh
Sự phát triển của kỹ thuật số và việc sử dụng công nghệ số vào kỹ thuật truyền hình làm cho
khái niệm “nén video” trở thành đề tài nóng hổi trong những năm gần đây. Như chúng ta đã biết,
tiêu chuẩn định dạng video thành phần 4:2:2 ( CCIR-601) với quy định bề rộng băng tần tín hiệu
chói và màu là 5,75 MHz và 2,75 MHz (± 0,1 dB). Sau khi số hóa với tần số lấy mẫu tiêu chuẩn
13.5 MHz (cho kênh chói), tốc độ bit tổng cộng của tín hiệu chói và màu là 270 Mbps. Dòng dữ
liệu video số có tốc độ cao như trên không thể được truyền qua vệ tinh với độ rộng dải tần mỗi
kênh 27 MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với quy định 7÷8 MHz cho
một kênh truyền hình tiêu chuẩn. Do vậy, nén tín hiệu video là công đoạn không thể thiếu để khắc
phục được những khó khăn trên. Từ những năm 1980, các nhà khoa học đã đạt được những thành
tựu quan trọng trong việc nén tín hiệu video và audio. Có rất nhiều hãng sản xuất thiết bị nén tín
hiệu video, chủ yếu các thiết bị này làm việc với hai định dạng nén được coi là tiêu chuẩn là JPEG
(Joint Photographic Experts Group) – áp dụng cho ảnh tĩnh và MPEG (Moving Picture Experts
Group) - áp dụng cho ảnh động.
176
Chương 3 Kỹ thuật xử lý hình ảnh
Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Độ dư thừa được xác định như sau:
nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùng được dùng để biễu diễn lượng thông
tin cho trước thì độ dư thừa số liệu tương đối RD của tập số liệu thứ nhất so với tập số liệu thứ hai
có thể được định nghĩa như sau:
Chất lượng ảnh nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh.
Có thể đánh giá chất lượng ảnh nén theo số bit cho một điểm trong ảnh nén (Nb). Nb được xác
định bằng tổng số bit dùng để mô tả ảnh nén chia cho tổng số điểm ảnh:
Nb = Số bit nén/Số điểm
Trong lý thuyết nén ảnh số,có thể phân biệt ba loại dư thừa số liệu khác nhau, đó là:
Nếu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết thì tín
hiệu nhận được sẽ có độ dư thừa mã. Để giảm độ dư thừa mã, có thể sử dụng các mã VLC
(Variable-Length Coding) như mã Huffman, mã LZW(Lempel-Ziv-Welch) v.v...
Dựa trên các nghiên cứu về hệ thống thị giác, chúng ta biết rằng mắt người chỉ cảm nhận
được một phần thông tin chứa trong ảnh quang học. Nói cách khác, ảnh có thể được tách ra thành
hai phần: một phần chứa các tin tức quan trọng cho người xem, phần khác là các thông tin mà
người xem hầu như không cảm nhận được. Thành phần thứ hai có thể được loại bỏ mà không ảnh
hưởng đáng kể đến chất lượng thu nhận ảnh.
177
Chương 3 Kỹ thuật xử lý hình ảnh
Sai số trung bình bình phương được tính theo công thức sau:
1/2
⎡ 1 M −1 N −1 2⎤
eRMS =⎢ ∑ ∑ ( fˆ ( x, y ) − f ( x, y ) ) ⎥ (3.3.2)
⎢⎣ MN x =0 y =0 ⎥⎦
Thông thường, khi giá trị RMS thấp, chất lượng ảnh nén sẽ tốt. Tuy nhiên, trong một số
trường hợp chất lượng hình ảnh nén không nhất thiết phải tỷ lệ thuận với giá trị RMS.
Một phương pháp đánh giá chất lượng ảnh nén khác dựa trên tỷ lệ tín hiệu/nhiễu được tính
theo công thức sau:
M −1 N −1 1/2
⎡ ⎤
∑ ∑ fˆ ( x, y )
2
⎢ ⎥
SNR = ⎢ M −1 N −1 ⎥
x =0 y =0
(3.3.3)
⎢ 2⎥
(
⎢ ∑ ∑ f ( x, y ) − f ( x, y )
ˆ ) ⎥
⎣ x =0 y =0 ⎦
SNR (Signal to Noise Ratio) - tỷ lệ tín hiệu/ nhiễu.
Các thông số nêu trên chỉ cho phép đánh giá chất lượng ảnh nén một cách gần chính xác.
Trên thực tế chất lượng hình ảnh phụ thuộc rất nhiều vào cảm nhận tâm sinh lý của con người.
Chính vì vậy, trong một số trường hợp người ta sử dụng phương pháp đánh giá chất lượng ảnh
một cách chủ quan: ảnh được trình chiếu cho một số lượng lớn người quan sát. Dựa trên kết quả
thống kê đánh giá của cả nhóm người quan sát, có thể đưa ra kết luận tương đối chính xác về chất
lượng ảnh nén.
3.3.3 Mô hình hệ thống nén tín hiệu
178
Chương 3 Kỹ thuật xử lý hình ảnh
- Bộ lượng tử hoá: sử dụng phương pháp lượng tử không đồng đều nhằm triệt tiêu các
hệ số biến đổi có năng lượng thấp hoặc đóng vai trò không quan trọng khi khôi phục ảnh. Quá
trình lượng tử không có tính thuận nghịch: ảnh khôi phục sẽ bị biến dạng so với ảnh gốc.
- Bộ mã hoá: gán một từ mã (một dòng bit nhị phân) cho một mức lượng tử.
179
Chương 3 Kỹ thuật xử lý hình ảnh
điển" quá nhỏ, số lượng chuỗi ký tự được mã hóa sẽ ít, ngược lại khi "từ điển" quá lớn từ mã sẽ có
độ dài lớn do đó hiệu quả nén cũng bị giảm. Cần lưu ý rằng, "từ điển" sử dụng khi mã hóa không
cần phải chuyển sang phía giải mã, trong quá trình giải mã LZW, "từ điển" này sẽ được khôi phục
tự động. Giải thuật nén LZW thường được sử dụng cho các loại ảnh nhị phân. Chuẩn nén này
được sử dụng để tạo ra các dạng ảnh GIF và TIFF.
3.3.4.3 Phương pháp mã hóa loạt dài (RLC - Run Length Coding)
Kỹ thuật mã hóa RLC được pháp triển ban đầu để nén ảnh nhị phân như ảnh scan từ văn
bản, ảnh nhận được từ máy Fax. Kỹ thuật nén này dựa trên nguyên lý tìm trong tín hiệu số nhị
phân chuỗi bít "1" hoặc "0" liên tiếp, sau đó mã hóa chuỗi đó bằng hai thông số: giá trị bit lặp và
số lượng bít lặp (chiều dài chuỗi). Đôi khi, để nâng cao hiệu quả nén, giá trị chiều dài các chuỗi
có thể được mã hóa bằng mã có chiều dài thay đổi (ví dụ mã Huffman). Chiều dài chuỗi bits trong
ảnh nhị phân đôi khi có thể lớn hơn 255. Vì thế, để có thể dùng 1 byte để mã hóa giá trị số bit lặp
lại, người ta hạn chế chiều dài chuỗi bằng 255. Phương pháp nén RLC được sử dụng để lưu trữ
các ảnh Bitmap theo dạng PCX, BMP.
3.3.4.4 Phương pháp mã hóa theo vùng đồng trị
Đây là phương pháp khá đơn giản và hiệu quả khi mã hóa ảnh nhị phân hoặc ảnh mặt phẳng
bit (xem phần 3.2.2.1.5). Ảnh gốc được chia thành nhiều khối nhỏ có kích thước mxn pixel.
Chúng ta phân biệt ba loại khối ảnh: khối toàn màu trắng, toàn màu đen và khối có độ sáng hỗn
hợp. Sau đó, các khối ảnh có tần suất cao được mã hóa với từ mã ngắn nhất, ví dụ từ mã "0". Hai
khối còn lại được mã hóa bằng từ mã 2 bits: "01" và "10". Như vậy, thay vì phải truyền đi giá trị
mxn điểm ảnh trong mỗi khối, với khối toàn trắng và toàn đen ta chỉ cần truyền đi các từ mã có độ
dài 1 hoặc 2 bits.
3.3.4.5 Phương pháp mã dự đoán không tổn thất
Phương pháp mã hóa này dựa trên tính tương quan giữa hai điểm ảnh nằm kề nhau và kỹ
thuật tách và truyền thông tin "mới" chứa trong mỗi pixel ảnh. Theo những nghiên cứu thống kê
về phân bố biên độ tín hiệu video, mức độ tương quan giữa các điểm ảnh nằm gần nhau trong
miền không gian là khá cao, điều này có nghĩa là sự khác biệt giữa hai điểm ảnh kế bên rất nhỏ
hoặc bằng 0, vì thế khi mã hóa độ chênh lệch này cần số lượng bit ít hơn so với khi mã hóa toàn
bộ biên độ các mẫu.
Thông tin "mới" trong điểm ảnh được xác định bằng hiệu giữa điểm ảnh thực và điểm ảnh
dự đoán. Phương pháp mã dự đoán còn gọi là điều xung mã vi sai (DPCM – Differential Pulse
Code Modulation). Trong bộ mã hóa DPCM cũng sử dụng thêm các kỹ thuật lượng tử hóa thích
nghi và mã hóa entropy để tăng hệ số nén. Các thành phần chính của hệ thống DPCM được mô tả
trên hình 3.3.4.
Hệ thống DPCM bao gồm bộ mã hóa (hình 3.3.4a) và bộ giải mã (hình 3.3.4b).
en = fn − fˆn
fn
fˆn
a) mã hóa DPCM
180
Chương 3 Kỹ thuật xử lý hình ảnh
en fn
fˆn
b) giải mã DPCM
en = f n − fˆn (3.3.4)
Giá trị sai số (thường là nhỏ) được mã hóa bằng mã có độ dài thay đổi (mã Entropy) trước
khi đưa vào đường truyền.
Ở phí thu, sau khi dữ liệu nén được giải mã Entropy, giá trị sai số en được đưa tới bộ dự
đoán để khôi phục giá trị điểm ảnh f n :
f n = fˆn + en (3.3.5)
Để có được giá trị fˆn dựa trên các mẫu tới trước, có thể sử dụng các phương pháp xấp xỉ
cục bộ, toàn cục hoặc phương pháp thích nghi. Thông thường, fˆn được xác định dựa trên giá trị
của m mẫu đến trước như sau:
⎡m ⎤
fˆn = round ⎢ ∑ α i f n−i ⎥ (3.3.6)
⎣ i =1 ⎦
α i - hệ số dự đoán với i = 1,2,...m ;
round ( ⋅ ) - toán tử làm tròn tới số nguyên gần nhất.
3.3.5 Các phương pháp nén tổn hao (loss data reduction)
Các phương pháp nén có tổn hao thường có hiệu quả nén cao hơn rất nhiêu so với nén
không tổn hao. Đặc điểm của các phương pháp nén này là hiệu quả nén càng cao thì mức độ tổn
hao càng lớn, nói cách khác chất lượng ảnh nén sẽ giảm đi khi hệ số nén tăng lên. Một số phương
pháp nén ảnh có tổn hao có thể đạt hệ số nén tới 100 lần trong khi chất lượng ảnh nén vẫn còn
chấp nhận được. Cần chú ý rằng hệ số nén cũng như chất lượng ảnh nén trong trường hợp nén tổn
hao phụ thuộc tương đối nhiều vào tính chất của hình ảnh gốc.
Sau đây chúng ta sẽ đề cập tới một số phương pháp nén ảnh tổn hao tiêu biểu.
3.3.5.1 Phương pháp mã dự đoán có tổn hao
Sơ đồ khối của bộ mã hóa dự đoán có tổn thất khác với bộ mã hóa không tổn thất (hình
3.3.5) do có thêm bộ lượng tử hóa . Quá trình lượng tử hóa sẽ làm tròn giá trị en tới mức lượng tử
gần nhất là en . Hiệu quả nén của hệ thống mã hóa và sai số giữa ảnh nén và ảnh gốc sẽ phụ thuộc
vào số mức lượng tử được sử dụng trong coder.
181
Chương 3 Kỹ thuật xử lý hình ảnh
Để kết quả dự đoán ở coder và decoder như nhau, các mẫu tới trước dùng để dự đoán tại
coder phải chứa cả thành phần sai số do lượng tử hóa tạo ra vì sai số này tồn tại trong tín hiệu đưa
tới bộ dự đoán trong decoder:
Trong bộ giải mã, giá trị các điểm ảnh giải nén cũng được xác định bởi (3.3.7).
en en
fn
fn
fˆn
a) mã hóa DPCM
en fn
fˆn
b) giải mã DPCM
Hình 3.3.5 Hệ thống mã hóa dự đoán có tổn thất
3.3.5.2 Các phương pháp nén sử dụng phép biến đổi không gian tín hiệu
Trong phần này chúng ta sẽ phân tích kỹ thuật nén ảnh số sử dụng các phép biến đổi không
gian tín hiệu. Nguyên lý chung của các phương pháp nén này là sử dụng các phép biến đổi tuyến
tính (như biến đổi Fourier, biến đổi Cosin, biến đổi DCT - Discrete Cosine Transform v.v.) để ánh
xạ ảnh số sang không gian khác. Tập hệ số kết quả của các biến đổi tuyến tính sau đó được lượng
tử hóa và mã hóa. Ưu điểm quan trọng của các phép biến đổi là các hệ số khai triển thường có
mức tương quan nhỏ hơn so với mức độ tương quan giữa các điểm ảnh trong không gian thực.
Ngoài ra, phần lớn năng lượng của tín hiệu tập trung tại các hệ số nằm trong miền tần số thấp.
Quá trình nén dữ liệu có thể được thực hiện trong giai đoạn lượng tử hóa: khi lựa chọn mức lượng
tử tương đối lớn, các hệ số biến đổi có năng lượng nhỏ (thường nằm ở miền tần số cao) sẽ bị loại
bỏ bớt. Ảnh nén nhìn chung sẽ không hoàn toàn giống được ảnh gốc, tuy nhiên có thể dự đoán
rằng, ảnh hưởng của các thành phần cao tần bị loại bỏ thường không lớn, do đó chất lượng ảnh
hầu như không bị thay đổi kể cả khi tín hiệu bị nén khá nhiều. Hình 3.3.6 mô tả sơ đồ khối tổng
quát hệ thống nén ảnh sử dụng phép biến đổi không gian. Coder thực hiện bốn bước cơ bản: 1-
Chia ảnh thành các block (để tiện xử lý trong máy tính, các block thường có kích thước 8x8
pixel); 2- Thực hiện phép biến đổi với từng block; 3- Lượng tử hóa các hệ số biến đổi; 4- Mã hóa.
Decoder thực hiện quá trình biến đổi ngược lại (ngoài việc lượng tử hóa).
182
Chương 3 Kỹ thuật xử lý hình ảnh
Hình 3.3.6 Sơ đồ khối hệ thống nén ảnh sử dụng phép biến đổi không gian
a- Bộ mã hóa (coder)
b- Bộ giải mã (decoder)
3.3.5.3 Các chuẩn nén ảnh tính và ảnh động
• Các chuẩn nén ảnh tĩnh
Hiện nay trong lĩnh vực ảnh số có khá nhiều chuẩn nén đang được sử dụng. Một số định
dạng nén không tổn hao được hầu hết các phần mềm xử lý ảnh số chuyên nghiệp như Photoshop
(hãng Adobe Systems) hay Photo Paint (Corel Corp.) hỗ trợ là: BMP, PCX, GIF, TIFF…. Tuy
nhiên như đã phân tích ở trên, các chuẩn nén không tổn hao thường có hệ số nén rất thấp, do đó
chúng chỉ được sử dụng để nén ảnh có kích thướng nhỏ. Phương pháp nén ảnh có tổn hao được sử
dụng rộng rãi vì có hiệu quả nén cao hơn nhiều so với nén không tổn hao. Hai phương pháp nén
đáng chú ý nhất hiện nay đều dựa trên các phép biến đổi không gian, đó là phương pháp nén theo
JPEG và nén ảnh sử dụng biến đổi Wavelet (Wavelet transform). Cả hai phương pháp nén nói trên
có hiệu quả nén rất cao, tuy nhiên, chuẩn nén JPEG được sử dụng rộng rãi hơn. Tiêu chuẩn nén
JPEG được hỗ trợ trong nhiều chương trình xử lý ảnh, trên các web browser; kỹ thuật nén JPEG
còn được tích hợp trong các hệ thống nén ảnh động MPEG, là chuẩn nén thông dụng cho tín hiệu
truyền hình số hiện nay. Phần sau của tài liệu này chúng ta sẽ nghiên cứu kỹ hơn về tiêu chuẩn
nén JPEG và MPEG.
• Các chuẩn nén ảnh động
1- Chuẩn H.261
ITU (CCITT) H.261 được phát triển để nén tín hiệu hình ảnh cho dịch vụ truyền hình hội
nghị và video phone qua đường truyền ISDN ở tốc độ px64kbps (p=1..30). Trên đường truyền
64kbps, luồng 48kbps dùng để truyền tín hiệu video, 16kbps – dành cho audio. Kỹ thuật nén ảnh
được sử dụng trong chuẩn H.261 sẽ làm nền tảng cho các chuẩn nén sau này như MPEG 1, 2.
Trong chuẩn nén H.261 có sử dụng các kỹ thuật nén trong ảnh dựa trên biến đổi DCT, nén
liên ảnh với bộ bù chuyển động. H.261 hỗ trợ hai độ phân giải CIF (Common Intermediate
Format) và QCIF (Quarter Common Intermediate Format) (hình 3.3.7). Phương pháp lấy mẫu tín
hiệu chói và màu: YCbCr 4:2:0.
2- Chuẩn H.263
Đây là chuẩn nén được cải tiến từ H.261 tạo ra luồng video tốc độ thấp, có thể truyền trên
mạng điện thoại công cộng PSTN. Chuẩn nén H.263 được công nhận năm 1996.
Giống như H.261, H.263 sử dụng biến đổi DCT cho quá trình nén trong ảnh và ảnh sai số
(là hiệu của ảnh gốc và ảnh nén). Chuẩn H.263 hỗ trợ các độ phân giải SQCIF, QCIF, CIF, 4 CIF
và 16CIF.
183
Chương 3 Kỹ thuật xử lý hình ảnh
Hệ số nén ảnh tĩnh theo phương pháp JPEG có thể đạt từ 10 – 50 (lần) mà không làm ảnh
hưởng nhiều đến chất lượng hiển thị của ảnh. Khai triển DCT được chọn là kỹ thuật then chốt
trong JPEG vì nó cho phép nén ảnh với chất lượng tốt nhất tại tốc độ bit thấp, giải thuật chuyển
đổi nhanh và dễ dàng thực hiện bằng phần cứng. Trên hình 3.3.8 là sơ đồ khối bộ mã hóa ảnh theo
chuẩn JPEG.
f ( i, j ) F ( u, v ) Fq ( u, v )
Bộ chuyển đổi DCT biến đổi ma trận ảnh f ( i , j ) 8x8 thành ma trận hệ số F ( u, v ) cùng
kích thước. Ma trận F(u,v) được đưa tới bộ lượng tử. Các hệ số DCT sẽ được lượng tử hóa dựa
trên bảng lượng tử. Tín hiệu chói và tín hiệu màu sẽ được lượng tử theo các bảng lượng tử khác
184
Chương 3 Kỹ thuật xử lý hình ảnh
nhau. Ma trận các hệ số DCT nhận được sau bộ lượng tử là Fq ( u , v ) . Hệ số Fq ( 0,0 ) là thành
phần trung bình (thành phần DC) của mỗi block được đưa tới bộ mã hóa vi sai (DPCM). Các hệ
số khác (thành phần AC) trong từng block được đọc ra theo trình tự zigzag và đưa tới bộ mã hóa
loạt dài (RLC). Cuối cùng chuỗi dữ liệu từ hai bộ mã hóa DPCM và RLC được mã hóa một lần
nữa bằng mã entropy. Dữ liệu nén cùng các bảng mã và bảng lượng tử được kết hợp lại thành file
ảnh nén theo chuẩn JPEG.
Sau đây chúng ta sẽ phân tích từng khâu xử lý trong quá trình nén ảnh JPEG.
3.3.5.4.1 Biến đổi DCT
Công đoạn đầu tiên của quá trình nén theo JPEG là biến đổi cosin rời rạc DCT (Discrete
Cosine Transform). DCT biến đổi dữ liệu từ miền không gian sang miền tần số. DCT được sử
dụng tương đối rộng rãi vì nó có đặc tính "gói" năng lượng tốt, biến đổi DCT cho kết quả là các số
thực, ngoài ra có các thuật toán nhanh để thực hiện biến đổi này.
Biến đổi DCT được thực hiện trong phạm vi các khối 8×8 mẫu tín hiệu chói Y và các khối
tương ứng của tín hiệu hiệu màu (UV hoặc IQ).
Biến đổi DCT hai chiều (2-D) được dùng cho các khối ảnh có kích thước 8×8. Quá trình
biến đổi thuận DCT (Forward DCT) dùng trong tiêu chuẩn JPEG được định nghĩa như sau:
C (u )C (v ) 7 7
(2 j + 1)uπ (2k + 1)vπ
F(u,v)=
4
∑∑ f ( j, k ) cos
j =0 k =0 16
cos
16
(3.3.8)
trong đó:
f(j,k)- các mẫu của ảnh gốc trong block 8×8 pixel.
⎪⎧1 / 2 u, v = 0
C (u ) , C (v ) = ⎨
⎪⎩1 u, v ≠ 0
Phương trình trên là kết quả liên kết của hai phương trình DCT một chiều, một cho tần số
ngang và một cho tần số dọc. Trong ma trận hệ số DCT hai chiều, hệ số thứ nhất F ( 0,0 ) bằng
giá trị trung bình của các điểm ảnh trong block 8x8:
1 7 7
F ( 0,0) = ∑
8 j=0
∑ f ( j, k)
k =0
(3.3.9)
Các hệ số nằm ở các dòng dưới thành phần một chiều, đặc trưng cho các tần số cao hơn của
tín hiệu theo chiều dọc. Các hệ số nằm ở các cột bên phải của thành phần một chiều đặc trưng cho
các tần số cao hơn theo chiều ngang. Hệ số F(0,7) là thành phần có tần số cao nhất theo chiều
ngang của block ảnh 8×8, và hệ số F(7,0) đặc trưng cho thành phần có tần số cao nhất theo chiều
dọc. Còn các hệ số khác ứng với những phối hợp khác nhau của các tần số theo chiều dọc và
chiều ngang.
Phép biến đổi DCT hai chiều là biến đổi đối xứng và biến đổi nghịch cho phép tái tạo lại
các giá trị mẫu f(j,k) trên cơ sở các hệ số F(u,v) theo công thức sau:
185
Chương 3 Kỹ thuật xử lý hình ảnh
7 7
C ( u) C ( v) (2 j + 1)uπ (2k + 1)vπ
f ( j, k ) = ∑∑ F (u, v)cos cos (3.3.10)
u=0 v=0 4 16 16
Bản thân phép biến đổi DCT không nén được dữ liệu, từ 64 mẫu ta nhận được 64 hệ số.
Trong các hệ số DCT, thành phần DC thường có giá trị lớn nhất, các hệ số nằm kề nó ứng với tần
số thấp có giá trị nhỏ hơn, các hệ số còn lại ứng với tần số cao thường có giá trị rất nhỏ.
Trên hình vẽ 3.3.9 là một ví dụ minh họa quá trình biến đổi DCT hai chiều cho một block
8×8 điểm ảnh (chói) được trích ra từ một ảnh thực. Thành phần chói Y sau khi số hóa sẽ có biên
độ các mẫu nằm trong khoảng 0-255, các mẫu của thành phần màu CR,CB có biên độ cực đại là
±128. Để có thể sử dụng một bộ mã hóa DCT cho cả tín hiệu chói và màu, tín hiệu Y được dịch
mức xuống dưới bằng cách trừ 128 từ mỗi giá trị pixel trong block 8x8. Ở bộ giải mã DCT, giá trị
này sẽ được cộng thêm vào các giá trị chói sau khi giải nén. Giá trị hệ số DC của khối DCT dao
10 10
động trong khoảng từ −2 đến 2 − 1.
3.3.5.4.2 Lượng tử hóa
Bước tiếp theo của quá trình nén ảnh là bước lượng tử hóa các hệ số DCT F(u,v) với mục
đích làm giảm số lượng bit cần thiết dùng để mô tả những hệ số đó. Các hệ số tương ứng với tần
số thấp thường có giá trị lớn, những hệ số này chứa phần lớn năng lượng của tín hiệu, do đó
chúng phải được lượng tử hóa với độ chính xác cao. Riêng hệ số DC cần mã hóa với độ chính xác
cao nhất, bởi lẽ hệ số này là giá trị độ chói trung bình của từng block ảnh. Sự thay đổi độ chói
trung bình của các block sẽ ảnh hưởng rất nhiều tới chất lượng của ảnh nén.
Để thực hiện quá trình nén dữ liệu, ma trận các hệ số khai triển sau DCT phải được chia cho
bảng trọng số Q(u,v) để loại bỏ một phần các hệ số DCT có biên độ nhỏ (thường là các thành
phần cao tần).
Hình 3.3.9 Kết quả các bước nén ảnh theo JPEG và bảng lượng tử Q(u,v).
186
Chương 3 Kỹ thuật xử lý hình ảnh
JPEG sử dụng phương pháp lượng tử không đồng đều, các hệ số có tần số thấp được chia
cho các giá trị nhỏ, các hệ số ứng với tần số cao được chia cho các giá trị lớn hơn, kết quả sẽ được
làm tròn (bỏ đi các phần thập phân):
⎡ F (u, v) ⎤
Fq(u,v)=round ⎢ ⎥ (3.3.11)
⎣ Q(u, v) ⎦
Trên hình 3.3.9 mô tả quá trình biến đổi DCT: ảnh gốc (a), ma trận hệ số DCT trước (b) và
sau khi lượng tử hóa (d) bằng cách chia cho bảng lượng tử Q(u,v) (c).
187
Chương 3 Kỹ thuật xử lý hình ảnh
ΔDC . ("loại" chính là chiều dài từ mã dùng để mã hóa thành phần ΔDC ); 2- Dùng bảng mã
Huffman cho thành phần DC để tìm ra từ mã cho "loại" ΔDC tìm được ở bước 1; 3- Mã hóa nhị
phân giá trị ΔDC ; 4- Ghép từ mã Huffman và giá trị nhị phân của ΔDC để có được từ mã cho
thành phần DC.
Trên hình 3.3.12 và 3.3.13 là các bảng tra cần thiết để thực hiện mã hóa thành phần DC.
Ví dụ: Thành phần DC trong block trên hình 3.3.14 có giá trị DCn=15. Giả sử thành phần
DC của block trước đó là DCn-1=12. Như vậy kết quả mã hóa DPCM sẽ là giá trị
ΔDC = DCn − DCn−1 = 3 . Trên bảng 3.3.12, ta có ΔDC = 3 thuộc "loại" 2.
188
Chương 3 Kỹ thuật xử lý hình ảnh
189
Chương 3 Kỹ thuật xử lý hình ảnh
DC AC EOB
Có thể thấy rằng chỉ cần 35 bits để truyền đi block 64 điểm ảnh, như vậy hiệu quả nén của
phương pháp JPEG trong trường hợp này là 0.5 bit/điểm ảnh.
3.3.5.4.6 Giải nén theo JPEG
Sơ đồ khối bộ giải nén ảnh JPEG biểu diễn trên hình 3.3.17. Quá trình giải nén JPEG được
thực hiện với trình tự ngược với quá trình mã hóa. Đầu tiên, bộ giải mã tách các thông tin ghi
trong phần Header của ảnh nén: đó là bảng mã và bảng lượng tử.
YUV, YIQ
f ( i, j ) F ( u, v ) Fq ( u, v )
Lượng tử
IDCT
ngược
8x8
Bảng lượng
tử ngược
Header Bảng mã
Bảng mã DC
Giải mã
DPCM
Giải mã
entropy
Giải mã AC
RLC
Phương pháp nén JPEG lũy tiến thực hiện ghi dữ liệu theo cách đặc biệt để decoder có thể
giải mã toàn bộ ảnh ở "mức thô" ngay mà không cần chờ đến khi quá trình truyền ảnh kết thúc.
190
Chương 3 Kỹ thuật xử lý hình ảnh
Các hệ số DCT ứng với tần số thấp của các block 8x8 được truyền đi trước, ví dụ, tất cả các hệ số
F (0,0) của các block được truyền lần lượt theo thứ tự từ trái sang phải, từ trên xuống dưới. Kế
tiếp là chuỗi các hệ số F ( 0,1) , F (1,0 ) v.v. Phía thu sau khi nhận được các hệ số F (0,0) ,
decoder đã có thể nhanh chóng khôi phục được ảnh thô, với độ phân giải thấp hơn 64 lần ảnh gốc,
vì các điểm ảnh trong khối 8x8 điểm đều có giá trị bằng F ( 0,0 ) (tức giá trị trung bình của
block). Với cách khôi phục ảnh như vậy, người quan sát sẽ không thấy khó chịu khi phải ngồi chờ
trước màn hình trống trong một thời gian dài. Hơn nữa khi quan sát được nội dung chính của ảnh,
người nhận có thể nhanh chóng đưa ra quyết định tải tiếp hay ngừng quá trình tải ảnh. Với cơ chế
làm việc như vậy, bộ mã hóa và giải mã JPEG lũy tiến phải có bộ nhớ đệm, kích thước bộ nhớ
đệm phải đủ lớn để chứa tất cả các hệ số DCT của ảnh. Trên hình vẽ 3.3.18 là các ảnh cho thấy sự
khác nhau trong quá trình giải nén JPEG lũy tiến và JPEG tuần tự.
a) b)
c) d) e)
Hình 3.3.18 So sánh quá trình giải mã JPEG lũy tiến và tuần tự
a- Ảnh gốc.
b- Ảnh nén theo JPEG tuần tự đang được giải mã.
c, d, e- Các pha giải mã ảnh nén theo JPEG lũy tiến
Nén JPEG lũy tiến có thể thực hiện theo 3 giải thuật sau:
1) Giải thuật lựa chọn phổ (progressive spectral selection algorithm).
2) Giải thuật xấp xỉ thành công (progressive successive approximation algorithm).
3) Giải thuật kết hợp (combined progresssive algorithm).
Giải thuật lựa chọn phổ vừa được mô tả ở trên. Trong giải thuật xấp xỉ, tất cả các hệ số
DCT được gởi đi trước có độ chính xác thấp hơn, thí dụ: bước 1 truyền 4 bits, bước hai truyền
thêm 4 bits, bước ba truyền nốt 2 bits còn lại của số nhị phân biểu diễn biên độ hệ số AC.
Giải thuật kết hợp dựa trên nguyên tắc kết hợp cả hai giải thuật chia phổ và xấp xỉ. Hệ
thống JPEG lũy tiến hiệu quả trong việc truyền các ảnh có kích thước lớn. Hệ thống này hướng
đến những ứng dụng yêu cầu truyền nhanh các ảnh có độ phân giải cao qua mạng có băng thông
giới hạn: ví dụ truyền ảnh y học, ảnh chụp từ vệ tinh cũng như truyền hình ảnh qua mạng Internet.
191
Chương 3 Kỹ thuật xử lý hình ảnh
3.3.5.6 Các tham số tiêu chuẩn của phương pháp nén JPEG
Tiêu chuẩn JPEG xác định các tham số trong bảng sau:
• Các thiết bị sử dụng phương pháp nén theo định dạng M – JPEG không thể sử dụng
cho truyền dẫn, phát sóng vì tốc độ dòng bit sau khi nén còn cao.
• Kỹ thuật nén M-JPEG chưa được chuẩn hóa như các định dạng nén khác (JPEG,
MPEG-2 v.v.), nên thiết bị nén của các hãng khác nhau thường không có tính tương thích cao, do
đó khó có thể trao đổi trực tiếp số liệu cho nhau.
• Các phần mềm giải mã video hỗ trợ định dạng M-JPEG còn chưa phổ biến.
192
Chương 3 Kỹ thuật xử lý hình ảnh
Audio Layer 3 là tiêu chuẩn nén audio số được sử dụng rộng rãi hiện nay.
Sau đây chúng ta sẽ phân tích các kỹ thuật nén ảnh tiêu biểu được sử dụng trong chuẩn nén
ảnh động MPEG.
193
Chương 3 Kỹ thuật xử lý hình ảnh
các vector chuyển động (các đường thẳng màu xanh). Chỉ tiết ảnh có tốc độ dịch chuyển nhanh
(cánh tay vận động viên) sẽ tạo ra các vector chuyển động có độ dài lớn hơn các vector chuyển
động trong vùng ảnh nền.
Là ảnh được mã hóa trong ảnh bằng kỹ thuật nén giống JPEG. Ảnh I là ảnh tham khảo để
dự đoán các ảnh B,P. Quá trình truy cập tới một vị trí nào đó trong đoạn video được bắt đầu từ
frame I. Tỷ lệ nén của ảnh I thấp hơn so với các ảnh P và B.
Là ảnh được mã hóa với vector chuyển động, được xấp xỉ từ ảnh I hay P trước nó. Ảnh P
cung cấp hệ số nén cao hơn ảnh I và có thể sử dụng như ảnh tham khảo để xấp xỉ chuyển động
trong các ảnh P và B khác.
Ảnh 1
Ảnh 2
Chi tiết được dự đoán
từ ảnh sau
Ảnh 3
194
Chương 3 Kỹ thuật xử lý hình ảnh
Là ảnh được sử dụng trong MPEG-1 và MPEG-4 nhưng không được sử dụng trong MPEG-
2. Ảnh D được mã hóa giống như ảnh I, tuy nhiên chỉ có thành phần một chiều (DC) được lưu lại.
Các ảnh D được sử dụng khi cần tua nhanh video vì tốc độ giải mã ảnh D cao, tuy nhiên, độ phân
giải của ảnh D rất thấp.
Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc ở một ảnh trước ảnh trước ảnh I tiếp
theo, khi đó ảnh B cuối cùng của GOP sẽ dùng ảnh đầu tiên của GOP tiếp theo làm ảnh tham khảo
(hình 3.3.23).
Trong hình 3.3.23, ảnh P (ảnh số 4) được dự báo trước trên cơ sở ảnh I. Ảnh B (3 và 4)
được dự đoán từ I (1) và P (4). Ảnh B (5 và 6) được dự đoán từ ảnh P (4) và ảnh I của GOP tiếp
theo (ảnh 7). Một điều cần chú ý là thứ tự truyền các ảnh trong GOP và thứ tự hiển thị ảnh giải
nén lên màn hình không giống nhau. Ví dụ: để có thể giải mã được chuỗi ảnh trên hình 3.3.23,
ảnh I(1) và P(4) phải được truyền trước, sau đó là hai ảnh B(3 và 4). Tiếp đến là ảnh ảnh I(7) sau
đó là hai ảnh B (6 và 7) còn lại.
Đối với cấu trúc khép kín (đóng), việc dự đoán ảnh không sử dụng thông tin của GOP khác.
Trong trường hợp này, theo quy định, ảnh cuối cùng của một GOP bao giờ cũng là ảnh P (hình
3.3.24).
195
Chương 3 Kỹ thuật xử lý hình ảnh
GOP được xác định bởi hai thông số M và N. Thông số M xác định số ảnh có trong một
GOP. Số N là khoảng cách giữa hai ảnh P (hay giữa hai ảnh I và P). GOP trong hình 3.3.27, có
M=4, N=3.
Tỷ lệ nén video của MPEG phụ thuộc rất nhiều vào độ dài của GOP. GOP càng dài tỷ lệ
nén càng lớn. Tuy nhiên, GOP dài sẽ ảnh hưởng tới quá trình tua video, dừng ảnh (freeze-frame),
sửa lỗi... Do đó tùy thuộc vào từng ứng dụng cụ thể (sản xuất video, dựng hình, truyền dẫn, phát
sóng v..v) cần lựa chọn độ dài GOP thích hợp. Ví dụ, trong kỹ thuật dựng hình, nhu cầu thiết yếu
là truy cập ngẫu nhiên tới bất cứ ảnh nào trong đoạn video, vì vậy trong GOP sẽ chỉ có các ảnh I,
tất nhiên khi đó tỷ lệ nén sẽ rất thấp.
196
Chương 3 Kỹ thuật xử lý hình ảnh
định. Vì thế, ở đầu ra bộ mã hóa có bộ nhớ đệm. Luồng dữ liệu ở đầu ra bộ trộn được ghi vào bộ
nhớ đệm, khi bộ nhớ đệm gần đầy, tín hiệu điều khiển sẽ được đưa tới khối Lượng tử hóa để điều
chỉnh các hệ số trong bảng lượng tử theo chiều hướng tăng lên. Như vậy hệ số nén sẽ tăng, tốc độ
luồng video nén sẽ giảm xuống. Một cơ chế điều khiển tốc độ luồng video khác dựa trên nguyên
tắc thay đổi cấu trúc GOB cũng có thể được sử dụng. Trong trường hợp này, tín hiệu điều khiển từ
bộ nhớ đệm phải được đưa tới khối xác định vector chuyển động.
2. Lớp macroblock: Ảnh số trong MPEG được chia ra thành các Macroblock kích thước
16x16. Trong một macroblock có thông tin về 4 block Y, 1 block Cr và 1 block Cb (theo chuẩn
lấy mẫu 4:2:0).
3. Mảng (Slice): là một chuỗi macroblock kề nhau. Kích thước lớn nhất của mảng có thể
bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một macroblock. Slice header chứa
đựng vị trí của mảng trong toàn bộ ảnh, và hệ số lượng tử dùng để xác định ma trận lượng tử
trong quá trình giải mã slice.
4. Ảnh (Picture): có 3 loại ảnh là ảnh P, I hay ảnh B. Picture header chứa thông tin về: thứ
tự ảnh trong nhóm ảnh (thông tin này dùng để sắp xếp các lại thứ tự ảnh ở decoder), loại ảnh, kích
thước vùng tìm kiếm vector chuyển động.
5. Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều ảnh I, P và B. Như đã đề cập ở phần
trên, cấu trúc nhóm ảnh được xác định bằng hai tham số M và N. Mỗi một nhóm ảnh bắt đầu bằng
một khung I. GOP header chứa mã xác định thời gian của ảnh đầu tiên trong nhóm.
197
Chương 3 Kỹ thuật xử lý hình ảnh
6. Đoạn ảnh (Sequence of pictures): Đoạn ảnh bắt đầu bằng sequence header, sau đó là
một hoặc nhiều GOP, cuối cùng là từ mã "end-of-sequence". Sequence header chứa đựng các
thông số như: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độ bit của dòng video số, tần số ảnh và
kích thước bộ nhớ đệm.
Hình 3.3.27 Cấu trúc luồng video nén theo chuẩn MPEG-1
3.3.6.5 Tiêu chuẩn nén MPEG-2
MPEG-2 là dự án giai đoạn 2 của ủy ban ISO/IEC MPEG. MPEG-2 là chuẩn nén được phát
triển từ MPEG-1, cho phép nén video với tốc độ bit cao hơn 4 Mbps. MPEG-2 hỗ trợ mã hóa
video số chất lượng cao, dùng trong các ứng dụng như lưu trữ video và audio số (trên đĩa quang
DVD), truyền hình số mặt đất DTTB (digital terrestrial television broadcast), truyền hình số vệ
tinh, truyền hình cáp, HDTV (truyền hình có độ phân giải cao) v.v
MPEG-2 là giải pháp mã hóa tín hiệu có tính co dãn (scalability) và tính tương hợp
(compatibility). Phương pháp mã hóa có tính "co dãn" (Scalable Coding) trong MPEG-2 dựa trên
nguyên tắc nén tín hiệu video ở mức cơ bản và một số mức nâng cao. Khi mức cơ bản được giải
mã, chúng ta sẽ nhận được hình ảnh có chất lượng trung bình. Nếu thực hiện giải mã thêm các
mức nâng cao, chất lượng hình ảnh sẽ được cải thiện. Với kỹ thuật scalable coding, tín hiệu
MPEG-2 có thể được giải mã trên decoder MPEG-1, ngược lại, tín hiệu MPEG-1 cũng có thể
được giải mã trên decoder MPEG-2. Như vậy, MPEG-1 và MPEG-2 là hai chuẩn nén có tính
tương hợp.
MPEG-2 hỗ trợ 3 dạng scalable coding dựa trên nguyên tắc phân cấp chất lượng theo tỷ lệ
SNR, theo độ phân giải trong không gian (spartial scalability) và thời gian (temporal scalability).
Trường hợp phân cấp theo SNR, tại mức cơ bản, các hệ số DCT được mã hóa với mức lượng tử
thô, do đó lượng dữ liệu nén sẽ có tốc độ thấp. Ở mức nâng cao, tín hiệu được truyền đi là hiệu
giữa các hệ số DCT chưa được lượng tử và các hệ số DCT tại mức cơ bản. Như vậy, bộ giải mã
có thể sử dụng một hoặc cả hai luồng dữ liệu để khôi phục hình ảnh có hai mức chất lượng cơ bản
hoặc nâng cao. Với tín hiệu được phân cấp chất lượng theo độ phân giải trong không gian,
decoder có thể tạo ra hình ảnh với các độ phân giải từ thấp đến cao. Tại mức cơ bản, tín hiệu được
đưa vào mã hóa được lấy mẫu với tốc độ thấp. Tại mức nâng cao, người ta mã hóa và truyền đi
198
Chương 3 Kỹ thuật xử lý hình ảnh
ảnh sai số giữa ảnh có độ phân giải thấp và ảnh có độ phân giải cao (được lấy mẫu với tốc độ cao
hơn). Như vậy, nếu giải mã cả hai luồng dữ liệu chúng ta sẽ nhận được ảnh có độ phân giải cao.
Nếu chỉ sự dụng luồng dữ liệu cơ bản, có tốc độ chậm (phù hợp với các đường truyền tốc độ thấp)
ảnh khôi phục sẽ có độ phân giải thấp hơn. Cuối cùng, MPEG-2 cho phép mã hóa phân cấp theo
thời gian: tín hiệu giải nén có thể có các tần số ảnh khác nhau. Tại mức cơ bản, tín hiệu video đưa
vào mã hóa có tần số ảnh thấp. Tại mức nâng cao, thông tin về các vector chuyển động sẽ được
truyền sang phía thu, decoder (dựa trên các ảnh được truyền trong mức cơ bản ) thực hiện quá
trình nội suy ảnh, làm tăng tần số ảnh của tín hiệu giải nén.
Trên hình 3.3.28 là hai bảng dữ liệu cho thấy 6 profiles và 4 mức nén với các độ phân giải
khác nhau trong chuẩn nén MPEG-2.
Như vậy MPEG-2 cho phép mã hóa tín hiệu với 24 tiêu chuẩn chất lượng khác nhau. Tốc
độ truyền của dòng dữ liệu MPEG-2 thay đổi tùy theo các tiêu chuẩn chất lượng được lựa chọn.
- dưới 64 kbps
199
Chương 3 Kỹ thuật xử lý hình ảnh
chuẩn quốc tế đầu tiên cho phép mã hoá các đối tượng (object) video. Kỹ thuật mã hoá đối tượng
làm tăng hiệu quả nén và tính linh động của MPEG-4.
Trong MPEG-4, các đối tượng của ảnh được tách rời và mã hoá riêng rẽ sau đó truyền tới
bộ giải mã. Việc tách rời các đối tượng video như vậy làm tăng tính mềm dẻo khi thực hiện mã
hoá thích nghi và đồng thời làm tăng hiệu quả nén tín hiệu. Các đối tượng khác nhau như video
object và audio object và được kết hợp tại bộ giải mã. Các loại object khác nhau sẽ được mã hóa
với những kỹ thuật khác nhau và với các công cụ phù hợp nhất. Trong MPEG-4, một số object có
thể được tạo ra một cách độc lập trên máy tính (ví dụ các nhân vật hoạt hình hay dòng phụ đề) và
trong một vài trường hợp một cảnh có thể phân tích riêng thành object nền (background) và
object cận cảnh.
Hình 3.3.29 cho thấy quá trình mã hóa và giải mã các đối tượng độc lập trong chuẩn nén
MPEG-4.
Hình 3.3.29 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4
Nhìn chung, không có kỹ thuật nén ảnh nào có thể gọi là tối ưu hoàn toàn. DCT và phép
lương tử dùng trong MPEG-1 và 2 chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh có
mức chói thay đổi chậm nhưng sẽ không tối ưu với ảnh có nhiều chi tiết nhỏ. Ví dụ, khi một cảnh
quay có xen các dòng phụ đề (subtitle) thì một hệ thống mã hoá thông thường sẽ xem các chữ như
là các chi tiết nhỏ của ảnh. Khi mã hóa bằng MPEG-1 hay MPEG2, các chi tiết nhỏ sau biến đổi
DCT sẽ tạo ra các hệ số cao tần với biên độ lớn. Nếu nén ảnh trên với hệ số nén cao, các dòng chữ
sẽ bị biến dạng đến mức không thể đọc được. Do đó việc thêm phụ đề hoặc các thành phần đồ họa
(có độ nét cao) vào tín hiệu video ảnh hưởng rất lớn đến hiệu quả nén theo chuẩn MPEG. Tuy
nhiên có thể mã hóa dòng chữ một cách hiệu quả hơn khi truyền các ký tự bằng mã ASCII, vị trí,
font, kích thước, màu, thông tin về vị trí dòng chữ trong ảnh có thể được truyền đi với số bit
tương đối nhỏ. Nhưng để làm được điều này bộ giải mã phải có khả năng tạo ra các title từ những
thông tin được cung cấp. Quá trình giải mã trong MPEG-4 tương đối phức tạp, bộ giải mã phải có
nhiều cơ chế giải mã và khả năng thực hiện các hoạt động đa hợp. Trong MPEG-4 có thể truyền
nhiều luồng text hoặc các thông tin phụ khác và việc lựa chọn luồng cụ thể để thực hiện giải mã
có thể do người xem quyết định hoặc dựa trên các thông tin được truyền trong luồng bit.
1- Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở bộ giải mã.
2- Các object có thể là các cảnh tự nhiên có được từ camera hay các cảnh tạo ra trên máy
tính như text hay cảnh hoạt hình 2 hoặc 3-D.
3- Từ luồng bit MPEG-4, bộ giải mã có thể tách ra các thông tin khác nhau tùy theo lựa
chọn người xem chẳng hạn như ngôn ngữ thuyết minh hay thành phần video được lọc
bớt các thông tin không cần thiết (dành riêng cho trẻ em) v.v.
Việc mã hóa độc lập các object trong MPEG-4 sẽ cho hiệu suất nén cao hơn đồng thời cho
200
Chương 3 Kỹ thuật xử lý hình ảnh
phép tương tác các object với nhau đặc biệt trong các chương trình giáo dục và các trò chơi. Khi
các object được truyền riêng rẽ, chúng ta có thể thay đổi tỷ lệ nén giữa các thành phần ảnh: chẳng
hạn như vẫn duy trì độ phân giải của các object cận cảnh quan trọng nhưng giảm độ phân giải ảnh
nền trong trường hợp băng thông kênh truyền bị hạn chế hoặc thiếu tài nguyên ở bộ giải mã (bộ
nhớ, tốc độ tính).
Tuy nhiên MPEG-4 có một nhược điểm lớn là bộ giải mã MPEG-4 phức tạp hơn nhiều so
với bộ giải mã MPEG-2. Hiện nay tín hiệu nén MPEG-4 thường được xử lý (nén và giải nén) trên
PC sử dụng các phần mềm chuyên dụng, các bộ giải mã bằng phần cứng còn chưa phổ biến do giá
thành còn tương đối cao và chưa được chuẩn hoá triệt để.
Lớp trên của VOP là GOV (Group of video object planes). GOV tương tự như GOP (group
of pictures) trong MPEG-2. Các nhóm GOV được mã hoá độc lập, do đó nó cung cấp các điểm
truy xuất ngẫu nhiên trong luồng bit MPEG-4.
Trong lớp VOL (Video object layer) chúng ta có thể thay đổi tỷ lệ mã hóa chuỗi các VOP
hoặc GOV. Mức video object (VO) bao gồm các VOL dùng để dùng để mô tả đối tượng video.
Cuối cùng là Video session (VS) là mức cao nhất của cảnh MPEG-4 bao gồm tất cả đối tượng
video cả tự nhiên và tự tạo trong một cảnh.
201
Chương 3 Kỹ thuật xử lý hình ảnh
Dạng chữ nhật chỉ đơn thuần là kích thước vùng ảnh. Trong MPEG-2 kích thước vùng ảnh không
thay đổi, thông tin này được mã hóa trong phần header của luồng bit. Trong MPEG-4 có thể có
nhiều đối tượng video với kích thước khác nhau. Ví dụ: truyền hình ảnh trong ảnh (picture in
picture -PIP) khi ảnh full frame và các ảnh nhỏ được truyền đi cùng lúc.
Trong mặt phẳng ảnh, đường nét của đối tượng video xác định phạm vi hiển thị của đối
tượng đó. Đường nét dạng chữ nhật được gọi là mask, kích thước của mask tương đương với kích
thước ngang và dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc của mask thường
được chọn là bội số của 16 pixel.
Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám. Đường nét nhị
phân là dạng đơn giản nhất, nó chỉ ra vùng hiển thị của đối tượng video.
3.3.7.5 Sprites
MPEG-4 có một loại đối tượng đặc biệt được dùng làm cảnh nền gọi là sprite. Sprite là đối
tượng video có kích thước lớn hơn màn hình hiển thị. Sprite là đối tượng được sử dụng liên tục
trong một cảnh (tương tự như cảnh trên sân khấu diễn kịch). Sprite thường dùng để mã hoá các trò
chơi điện tử (video game). Thông thường một cảnh trong game bao gồm ảnh nền và một số đối
tượng nhân tạo di chuyển theo kịch bản của game và hành động của người chơi. MPEG-4 cho
phép truyền toàn bộ cảnh nền như sprite và ảnh nền tức thời được đọc ra từ sprite dựa trên các
thông tin cropping và wraping được truyền tới decoder. Như vậy, ảnh nền tức thời hiển thị trên
màn hình chỉ là một vùng nhỏ (bằng kích thước cửa sổ màn hình) trong cảnh nền (hình 3.3.30).
Trong video game, các thành phần của một sprite có thể được sử dụng nhiều lần vì thế lượng dữ
liệu cần truyền sẽ giảm đáng kể.
Hình 3.3.30 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng hiển thị
của màn hình
Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả nhưng sẽ làm
tăng băng thông tức thời và quá trình khởi động decoder sẽ kéo dài. Vì vậy, trong MPEG-4 người
ta có thể truyền sprite theo từng phần. Phần ảnh nền cần thiết tại thời điểm tức thời sẽ được truyền
đi, tất cả các ảnh thu được sẽ ghi nhớ ở bộ giải mã như một phần của sprite. Theo phương pháp
khác, sprite có thể được mã hóa và truyền đi toàn bộ với độ phân giải thấp và thành phần tín hiệu
dùng để khôi phục ảnh có độ phân giải cao hơn sẽ được truyền sau.
Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG-2 và luôn
202
Chương 3 Kỹ thuật xử lý hình ảnh
3.3.7.6 Scalability
MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối tượng. Trong
cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base layer), lpưos này cho chất
lượng ảnh thấp nhất có thể tái tạo từ luồng bit và một hoặc nhiều lớp tăng cường (enhancement
layer). Chất lượng hình ảnh có thể được điều chỉnh bằng hai cách khác nhau. Nếu băng thông bị
giới hạn thì luồng bit truyền đi sẽ chỉ bao gồm lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường
bậc thấp. Một cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết định
những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải thấp hoặc tài
nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua.
Hình 3.3.31 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp chất lượng với 2
mức cố định. Các VOP ngõ vào được biến đổi xuống (down-converted) tới độ phân giải thấp và
mã hóa để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ Multiplexer. Lớp cơ sở còn
được giải mã tại chỗ và đưa tới bộ up-converted để có cùng độ phân giải như ngõ vào. Tín hiệu có
độ phân giải cao này sẽ được so sánh với tín hiệu ngõ vào tại bộ trừ (Subtract), ảnh sai biệt ở đầu
ra bộ trừ được mã hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi luồng VOP sau khi mã
hóa tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra và Inter trong khi lớp tăng
cường chỉ sử dụng mã hóa dự đoán.
Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP được chia
thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa lớp cơ sở, phần còn lại
được gửi đến một hoặc nhiều bộ mã hóa tăng cường.
Quá trình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối tượng cơ
sở. Điều này làm cho quá trình mã hóa và giải mã trở nên linh động hơn nhưng cũng phức tạp
hơn. Chẳng hạn một bộ giải mã trong hệ thống chơi game không có đủ khả năng để giải mã tất cả
các đối tượng ở tốc độ cao nhất có thể nên nó chọn phương pháp giải mã cảnh nền với tốc độ thấp
và chấp nhận việc chuyển động nền bị giựt, đồng thời giải mã với tốc độ cao đối với các đối tượng
cận ảnh làm cho chuyển động của chúng mịn hơn.
3.3.8 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén
Trong bảng dưới đây tập hợp các ứng dụng của một số tiêu chuẩn nén.
203
Chương 3 Kỹ thuật xử lý hình ảnh
Việc ra đời chuẩn MPEG-2 đã khẳng định ưu thế của MPEG so với MJPEG khi nó đáp ứng
được từ khâu sản xuất đến truyền dẫn và phát sóng. Với tiềm năng kinh tế mạnh thì việc đầu tư
thiết bị theo chuẩn MPEG cho tất cả các khâu trong lĩnh vực truyền hình là điều tất yếu. Nhưng
khả năng đầu tư cho truyền hình Việt Nam còn hạn chế, chúng ta lại đang ở giai đoạn nghiên cứu
và thử nghiệm, cho nên việc tìm giải pháp thích hợp đảm bảo điều kiện kinh tế, chất lượng hình
ảnh phù hợp cho từng công đoạn là vấn đề cần thiết.
Trong khâu phát sóng, chuẩn MPEG-2 MP@ML (4:2:0) là sự lựa chọn tối ưu. MPEG-2
MP@ML sử dụng các ảnh I, P, B và nén với hệ số nén rất cao, do đó với chuẩn này, người ta có
thể tiết kiệm tối đa dải thông của đường truyền, tăng số lượng chương trình.
Khi nén video trong máy ghi hình, vấn đề cần ưu tiên là giữ chất lượng tín hiệu tốt nhất để
phục vụ cho quá trình gia công xử lý trong studio sau này. Các phương pháp nén trong máy ghi
hình số được thực hiện tại chỗ để giảm vận tốc dòng số ghi lên băng hoặc đĩa quang. Về mặt chất
lượng, nếu sử dụng máy ghi công nghệ nén MPEG dùng một loại ảnh I (tương đương M-JPEG) sẽ
tạo ra nhiều thuận lợi cho quá trình dàn dựng. Như vậy, ta có thể thấy rằng chuẩn M-JPEG khá
tiện dụng cho việc xử lý, làm kỹ xảo trong studio với giá thành hệ thống phù hợp.
204
Chương 3 Kỹ thuật xử lý hình ảnh
pháp biểu diễn tín hiệu ảnh số và video số. Tín hiệu video trong hệ thống truyền hình quảng bá.
2- Phần tiếp của chương 3 giới thiệu một số công cụ toán học dùng để phân tích quá trình
xử lý ảnh số và video số trong không gian và trong miền tần số: đó là các phép tính thực hiện với
từng điểm ảnh, phép tính với ma trận các điểm ảnh, phép tính tổng chập dùng để mô tả quan hệ
vào ra của hệ thống xử lý ảnh số, các phép biến đổi không gian 1 và 2 chiều thông dụng trong lĩnh
vực xử lý ảnh như: biến đổi Fourier, biến đổi DCT. Biến đổi DCT rời rạc được sử dụng rất rộng
rãi trong các phương pháp nén ảnh tĩnh và ảnh động có tổn thất như JPEG, M-JPEG, MPEG1, 2,
4, 7 v.v.
3- Phần lớn chương ba (3.2) được dành để phân tích một số kỹ thuật xử lý ảnh từ mức thấp
đến mức cao: xử lý để nâng cao chất lượng hình ảnh (tăng tương phản, mức chói, cân bằng
histogram v.v), khôi phục ảnh bị làm méo hoặc bị ảnh hưởng của nhiễu, các kỹ thuật lọc nhiễu,
các phương pháp làm nổi và dự đoán đường biên, phân vùng ảnh. Hầu hết các kỹ thuật xử lý ảnh
số trong phần này đều được minh họa bằng hình ảnh, cho phép người đọc quan sát và đánh giá
quá trình biến đổi ảnh từ lúc đưa vào hệ thống cho đến khi có ảnh kết quả. Trong từng ví dụ minh
họa còn giới thiệu các hàm Matlab dùng để trợ giúp quá trình xử lý ảnh. Ngoài ra, các học viên có
thể thực hiện lập trình (trong Matlab hoặc sử dụng các ngôn ngữ lập trình khác như C++, Pascall
v.v) để kiểm chứng lại những vấn đề nêu trong tài liệu này.
Phần xử lý ảnh màu được trình bày sau khi phân tích các kỹ thuật xử lý ảnh đen-trắng. Quá
trình mô tả ảnh màu có thể được thực hiện trong các không gian màu khác nhau tùy theo mục đích
sử dụng: ảnh trong các hệ thống truyền hình màu thường được biểu diễn trong không gian RGB,
trong kỹ thuật in ấn - CMYK, trong lĩnh vực xử lý ảnh thì không gian màu HSI được sử dụng
nhiều hơn cả. Quá trình xử lý ảnh màu có thể được thực hiện với từng điểm màu: khi mỗi điểm
ảnh được biểu diễn như vector trong không gian màu được chọn, hoặc được thực hiện lần lượt với
từng ảnh màu đơn sắc. Các phương pháp xử lý ảnh màu cũng được phân loại thành phương pháp
biến đổi trong không gian và trong miền tần số. Trong phần này chúng ta nói đến các phương
pháp xử lý đã được áp dụng cho ảnh đen trắng (lọc không gian, hiệu chỉnh, xử lý histogram v.v)
cũng như một số kỹ thuật biến đổi chỉ áp dụng cho ảnh màu (kỹ thuật tạo màu giả, tách ảnh theo
các mức màu, phép biến đổi màu v.v).
4- Phần cuối cùng của chương ba (3.3) giới thiệu về các phương pháp nén ảnh tĩnh và ảnh
động. Trong phần này chỉ đề cập tới các phương pháp nén ảnh số tương đối thông dụng. Đó là các
kỹ thuật nén không tổn thất như kỹ thuật mã hóa Entropy, mã LZW, mã RLC, mã DPCM không
tổn thất v.v. và nén có tổn thất như DCPM, JPEG, MPEG v.v.
Đặc biệt, quá trình nén theo JPEG và MPEG được phân tích tương đối kỹ, vì đấy là các
phương pháp nén được sử dụng rộng rãi trong các hệ thống truyền thanh, truyền hình chất lượng
cao.
5- Phần cuối chương 3 tập hợp một số bài tập và câu hỏi. Việc thực hiện các bài tập này
giúp cho người đọc nắm vững hơn những kiến thức được trình bày trong toàn bộ chương "Kỹ
thuật xử lý ảnh".
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 3
Bài 1
Camera được trang bị bộ cảm biến CCD có kích thước 5,4x7,2mm, độ phân giải
2140x1560 điểm. Ống kính camera có tiêu cự 35mm. Ảnh được hội tụ lên CCD nằm
cách ống kính 0,5m. Tìm mật độ điểm ảnh (số điểm/mm) trên ảnh nhận được.
205
Chương 3 Kỹ thuật xử lý hình ảnh
Bài 2
Tìm số lượng bits cần thiết để lượng tử hóa tín hiệu truyền hình số khi màn hình máy
thu trong hệ thống truyền hình số nói trên có độ chói thay đổi trong khoảng từ Lmin = 2
cd/m2 đến Lmax =150 cd/m2, nguồn sáng bên ngoài chiếu lên bề mặt màn hình có độ
chói 5 cd/m2. Giá trị ngưỡng tương phản σ = 0.03 .
Bài 3
Bề mặt có hệ số phản chiếu bằng 1, được chiếu sáng bởi nguồn sáng có mật độ phân bố
độ sáng như sau:
− ⎡( x − x0 ) +( y − y0 ) ⎤
2 2
i ( x, y ) = Ke ⎣ ⎦
với K=255.
Ảnh phản chiếu từ bề mặt nói trên được số hóa. Số bits dùng để lượng tử hóa là k. Xác
định k nhỏ nhất sao cho ảnh số nhận được có độ chói biến đổi liên tục trong mắt người
quan sát. Được biết mắt người chỉ phân biệt được hai vùng ảnh tách biệt, khi độ chói
giữa hai vùng đó chênh lệch trên 10%. Biểu diễn ảnh nhận được khi k=2.
Bài 4
Hệ thống truyền hình chất lượng cao với số dòng z=1080, khổ ảnh 16:9, tần số quét là
60 mành/giây (quét xen kẽ). Tín hiệu video được số hóa với độ phân giải giống nhau
theo chiều ngang và chiều dọc. Ảnh được lấy mẫu theo tiêu chuẩn 4:2:2. Mức lượng tử
là 256 cho thành phần chói và 128 cho hai thành phần màu. Tìm khối lượng thông tin
số nhận được sau khi số hóa chương trình truyền hình có thời gian là 2 giờ.
Bài 5
Cho ma trận điểm ảnh sau:
⎡2 2 1 3⎤
⎢8 1 3 4⎥
I =⎢ ⎥
⎢1 4 2 9⎥
⎢ ⎥
⎣3 1 7 5⎦
Cho V {1} , xác định xem S1 và S2 có phải là hai vùng liên kết 4,8 hay m không.
Bài 7
Cho V {0,1} , tìm khoảng cách D4, D8 nhỏ nhất giữa 2 điểm ảnh (p) và (q):
206
Chương 3 Kỹ thuật xử lý hình ảnh
Bài 8
Biểu diễn tập hàm biến đổi, cho phép tách các mặt phẳng bit từ ảnh đen trắng (với 256
mức xám).
Bài 9
Histogram của ảnh sẽ thay đổi thế nào khi bit nhỏ nhất (LSB) hoặc lớn nhất (MSB) của
các điểm ảnh được gán mức 0.
Bài 10
Ảnh gốc được xử lý bằng phương pháp tách mức chói có nền và không nền. Vẽ đặc
tuyến hàm biến đổi. Histogram của hai ảnh kết quả sẽ thay đổi thế nào so với ảnh gốc?
Bài 11
Ảnh số được cân bằng mức xám để có được ảnh kết quả. Chứng minh rằng khi cân
bằng mức xám cho ảnh kết quả đó một lần nữa, ảnh nhận được sẽ không thay đổi.
Bài 12
Cho hình ảnh có mật độ phân bố xác suất mức xám được biểu diễn bằng hàm:
( r − m )2
1 −
pr = e 2σ 2
2πσ
Tìm hàm biến đổi sk = T ( rk ) cho quá trình cân bằng mức xám ảnh nói trên.
Bài 13
Cho ảnh f ( x, y ) , g ( x, y ) và histogram h f , hg của chúng. Tìm historam của ảnh
được tạo ra sau các biến đổi sau:
a) f ( x, y ) + g ( x, y ) b) f ( x, y ) − g ( x, y )
,
c) f ( x, y ) ⋅ g ( x, y ) d) f ( x, y ) / g ( x, y )
,
Trong trường hợp nào các biến đổi trên có thể được thực hiện?
Bài 14
Trình bày nguyên lý biến đổi ảnh số bằng phương pháp tra bảng, ưu điểm của phương
pháp này.
Bài 16
Chứng minh toán tử thực hiện quá trình lọc trong không gian theo (3.2.30) là toàn tử
tuyến tính.
Bài 17
Chứng minh toán tử tìm median là toán tử phi tuyến
Bài 18
207
Chương 3 Kỹ thuật xử lý hình ảnh
Trình bày giải thuật tìm giá trị trung vị cho ma trận nxn điểm ảnh.
Bài 19
Giải thích vì sao quá trình làm mờ ảnh có thể mô tả bằng tích chập ảnh gốc và đáp ứng
xung của hệ thống làm mờ, như trong công thức (3.2.36)?
Bài 20
Ảnh gốc được lọc nhiễu bằng kỹ thuật trung bình hóa trong không gian, sau đó dùng
mặt nạ Laplacian để tăng cường độ nét. Nếu thứ tự lọc được đổi ngược, ảnh kết quả sẽ
thay đổi thế nào?
Bài 21
Tại sao không thể khôi phục chính xác được ảnh gốc trong các hệ thống xử lý ảnh thực
tế?
Bài 22
Trong trường hợp nào bộ lọc ngược cho phép khôi phục tín hiệu với độ chính xác cao?
Bài 23
Tại sao bộ lọc Wiener ít nhạy cảm với nhiễu hơn so với bộ lọc ngược?
Bài 24
Chứng minh biến đổi Fourier thuận và nghịch là biến đổi tuyến tính.
Bài 25
Cho hàm đáp ứng xung của hệ thống là H ( x, y ) = A , A > 0 . Ảnh f ( x, y ) sẽ được
biến đổi thế nào khi đưa qua hệ thống nói trên?
Bài 26
Bộ lọc trong miền không gian được thực hiện với ma trận lọc sau:
⎡0 1 0 ⎤
1⎢
h= 1 0 1⎥
4⎢ ⎥
⎣⎢0 1 0 ⎦⎥
Tìm đáp ứng tần số của bộ lọc và chứng tỏ rằng đây là bộ lọc thông thấp.
Bài 27
Đạo hàm của tín hiệu rời rạc thường được tính theo công thức gần đúng sau:
∂f
= f ( x + 1, y ) − f ( x, y )
∂x
Tìm đáp ứng tần số H(u,v) của hệ thống thực hiện toán tử trên. Chứng minh đây là bộ
lọc thông cao.
Bài 28
Viết chương trình thực hiện toán tử la bàn cho một ảnh bất kỳ.
Bài 29
Cho hệ thống xử lý tín hiệu đặc trưng bởi hàm biến đổi sau:
− ⎡( x −α ) +( y − β ) ⎤
2 2
h ( x − α, y − β ) = e ⎣ ⎦
Tín hiệu đưa tới hệ thống có dạng: f ( x, y ) = δ ( x − a ) . Tìm đáp ứng của hệ thống
208
Chương 3 Kỹ thuật xử lý hình ảnh
H ( u, v ) = − 2πσ ( u 2 + v 2 ) e
(
−2π 2σ 2 u 2 + v 2 )
Tìm hàm biến đổi của bộ lọc Wiener trong trường hợp tỷ lệ năng lượng nhiễu chia cho
tín hiệu là hằng số.
Chứng minh nếu đáp ứng xung của hệ thống là h ( r ) = ⎡ r 2 − σ 2 / δ 4 ⎤ e − r ( )
2
/2σ 2
,
⎣ ⎦
r 2 = x 2 + y 2 thì hàm truyền đạt của nó là H ( u, v ) .
Bài 31
Viết chương trình thực hiện biến đổi Hough cho ảnh nhị phân (gồm các điểm trắng trên
nền đen)
Bài 32
Xác định vị trí của màu xám trên tam giác màu đơn vị XYZ (hình 3.2.58).
Bài 33
Tìm các bước sóng trội và độ sạch màu của điểm màu "PINK" trên hình 3.2.58, lấy
màu trắng chuẩn là màu "COOL WHITE"
Bài 34
Cho ba màu c1 ( x1 , y1 ) , c2 ( x2 , y2 ) , c3 ( x3 , y3 ) nằm trong tam giác màu XYZ (hình
3.2.55). Ba màu trên tạo ra một tam giác màu con. Tìm công thức trộn màu để biểu
diễn các màu trong tam giác con thông qua tọa độ của ba màu c1 , c2 , c3 .
Bài 35
Trong không gian màu RBG, mỗi màu cơ bản được số hóa với 256 mức lượng tử (từ 0
đến 255). Cho biết có bao nhiêu mức xám thể hiện được trong không gian màu này?
Bài 36
Không gian màu RGB được mô tả dưới dạng khối lập phương (hình 3.2.56b).
1- Mô tả quá trình thay đổi độ chói của các điểm màu nằm dọc theo các
cạnh phía trước của khối màu.
2- Chúng ta đổi ba màu RGB thành CMY. Ảnh khối màu mới được hiển
thị lên màn hình RGB. Xác định các màu nằm ở đỉnh hình khối trên màn hình.
Bài 37
Xác định biểu thức cho phép tìm màu bổ xung trong không gian CMY
Bài 38
Mô tả hàm biến đổi cho phép làm giảm độ tương phản trong không gian màu RGB.
Bài 39
Ảnh màu có nhiễu được biểu diễn trong không gian màu HSI. Mô tả và giải thích hiện
tượng biến đổi màu dưới tác động của nhiễu trong các thành phần H và S.
Bài 40
209
Chương 3 Kỹ thuật xử lý hình ảnh
Phân tích ưu và nhược điểm của phương pháp nén ảnh tổn hao và không tổn hao
Bài 41
Viết chương trình nén và giải nén theo phương pháp RLC
Bài 42
Viết thủ tục thực hiện biến đổi DCT thuận.
Bài 43
Viết thủ tục thực hiện biến đổi DCT nghịch.
Bài 44
Chuỗi điểm ảnh 8 bits có giá trị 10, 14, 25, 240, 195, 32 được đưa tới bộ mã hóa
DPCM. Thành phần sai số được lượng tử với 32 mức. Tìm tín hiệu nhận được sau khi
giải mã DPCM. Không thực hiện mã hóa entropy. Giá trị ban đầu trong bộ dự đoán
bằng 0. Tìm sai số RMS giữa chuỗi kết quả và chuỗi điểm ảnh gốc.
Bài 45
Thực hiện quá trình mã hóa hệ số DC theo phương pháp mô tả trong phần 3.3.5.4.4. giá
trị DC block hiện tại bằng 32, giá trị DC của block trước là 20.
Bài 46
Chuỗi các hệ số AC của khai triển DCT nhận được sau khi quét zig-zag bằng: 3,1,1,0,
0,1,0,0,0,0,2. Thực hiện quá trình mã hóa chuỗi hệ số AC theo phương pháp mô tả
trong phần 3.3.5.4.5. Sử dụng kết quả bài tập 51 để tạo ra chuỗi tín hiệu nén JPEG. Tìm
hệ số nén trong trường hợp này.
Bài 47
So sánh sự khác biệt giữa MPEG-2 và MPEG-1.
Bài 48
So sánh sự khác biệt giữa MPEG-4 và MPEG-2.
210
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
211
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Năm 1987, JVC đưa ra chuẩn Super VHS cho phép ghi và phát tín hiệu video có bề rộng
phổ lên tới 5MHz tương đương 420 TVL (để so sánh video ghi trên đĩa quang DVD có ~500
dòng). Tín hiệu video màu tương tự trong SVHS được xử lý tương tự như tín hiệu màu trong hệ
NTSC: thành phần màu được hạn chế phổ tới mức 0.4 MHz, và ghép với tín hiệu chói bằng
phương pháp điều chế QAM.
Cạnh tranh với VHS của JVC là chuẩn Betamax (1984) của Sony. Cũng ghi trên băng từ 1/2
inch, tín hiệu Betamax có các thông số gần giống VHS: tốc độ băng 4cm/s, 250TVL. Kích thước
băng Betamax nhỏ hơn VHS: 156x96x25mm. Thời gian ghi tối đa 4 giờ. Vì nhiều lý do, chuẩn
Betamax không cạnh tranh được với VHS. Tới năm 1986, Sony Betamax chỉ chiếm 7.5% thị phần
trên thị trường VCR, do đó Sony đã cải tiến Betamax để sử dụng trong các máy ghi hình gia đình
(Camcoders), và đổi tên thành Video-8. Ưu điểm của Video-8 là casette nhỏ gọn (93x60x14mm);
trên băng từ 8mm, theo chuẩn Video-8 có thể ghi được 4 tiếng video chất lượng VHS. Để so sánh,
băng VHS-C (Compact) của JVC dùng cho camcoders chỉ cho phép ghi 2 tiếng video. Tuy nhiên,
nhược điểm của Video-8 là kích cỡ băng không tương thích với các đầu VCR thông dụng (sử
dụng băng từ 1/2 inch).
Trong lĩnh vực lưu trữ hình ảnh chuyên nghiệp, chuẩn Betacam của Sony (ghi video tương
tự) được sử dụng rất phổ biến. Theo chuẩn Betacam, tín hiệu video thành phần được ghi băng từ
1/2 inch. Thành phần chói Y và hai thành phần màu được ghi trên các đường ghi khác nhau. Chất
lượng video vì vậy được cải thiện rất nhiều, hiện tượng nhiễu xuyên kênh màu - chói được loại trừ
hoàn toàn. Tín hiệu Y cho phép hiển thị tối đa 500TVL. Chuẩn Betacam SP (Superior
Performance) được sử dụng rất rộng rãi trong studio. Băng Betacam cho phép lưu trữ từ 30-90
phút video chất lượng cao (625/50). Cassette Betacam có hai loại là Small Size (156x96x25mm)
hoặc Large Size (254x145x25mm).
Các tiêu chuẩn ghi hình nói trên cho phép ghi trực tiếp lên băng tín hiệu video tương tự.
Việc lưu trữ tín hiệu dưới dạng analog có nhiều nhược điểm: chất lượng tín hiệu sẽ giảm dần theo
thời gian, tỷ lệ SNR cũng giảm dần sau mỗi lần sao chép, không thể thực hiện truy xuất nhanh tới
vị trí bất kỳ trên đoạn video v.v. Để khắc phục các nhược điểm nói trên, dữ liệu âm thanh và hình
ảnh được chuyển sang lưu trữ dưới dạng số. Tuy nhiên, cần lưu ý rằng, sau khi số hóa, chất lượng
tín hiệu số sẽ không còn tốt như tín hiệu gốc (hiệu quả của quá trình lượng tử hóa), hơn thế nữa,
dung lượng tín hiệu số thường lớn hơn nhiều lần so với dung lượng tín hiệu analog. Vì vậy, trong
các hệ thống truyền dẫn và lưu trữ âm thanh, hình ảnh, vai trò của bộ nén tín hiệu là rất lớn. Như
chúng ta đã biết, các chuẩn nén âm thanh và video được sử dụng rộng rãi trong hệ thống truyền
hình quảng bá là MPEG1, 2, 4. Tùy theo nhu cầu sử dụng tín hiệu tại từng công đoạn trong quá
trình sản xuất và truyền hình, người ta sẽ lựa chọn phương pháp nén phù hợp. Ví dụ, trong studio,
khi cần có tín hiệu gốc chất lượng cao nhất và khả năng truy cập ngẫu nhiên để thực hiện dàn
dựng chương trình, video sẽ được nén và lưu trữ theo chuẩn MPEG-2 chỉ với các frame I; khi ghi
video thành phẩm lên đĩa DVD, người ta chọn phương pháp nén MPEG-2 với các ảnh IPB, chọn
chiều dài GOP tương đối lớn để nâng cao hiệu quả nén v.v.
Giai đoạn phát triển tiếp theo của hệ thống lưu trữ dữ liệu âm thanh và hình ảnh là lưu trữ
dữ liệu số trên băng từ. Các chuẩn video số cho thiết bị dân dụng xuất hiện từ những năm 90.
Chuẩn video số DV được giới thiệu năm 1996. Cassette dùng để lưu trữ DV có 2 loại L-size
(120x90x12mm) và M-size (65x48x12) còn được gọi là MiniDV. Băng từ dùng trong chuẩn DV
có bề rộng 1/4 inch (6,35mm). Với tốc độ ghi/đọc chuẩn (SP) băng MiniDV cho phép lưu trữ
212
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
~13GB dữ liệu số tương đương với 60 phút video chất lượng cao (720x480).
Chuẩn DV sử dụng phương pháp nén ảnh theo MPEG-2 với các ảnh I (tương đương với
chuẩn MJPEG). Chuẩn lấy mẫu tín hiệu hình ảnh trong DV là 4:1:1 hoặc 4:2:0. Tín hiệu hình ảnh
được nén với tốc độ không đổi là 25.146 Mbps, âm thanh được mã hóa 2 kênh, 16 bits, tần số lấy
mẫu 48 KHz hoặc 4 kênh, 12 bits, tần số lấy mẫu 32KHz, tạo ra luồng số 1.536 Mbps.
Năm 1998, hãng JVC giới thiệu chuẩn D-VHS (Digital VHS). Tiêu chuẩn nén video sử
dụng trong D-VHS là MPEG-2. D-VHS cho phép ghi video với chất lượng khác nhau (tương
đương với thời lượng khác nhau): HS (Hi Speed), STD (Standard Speed) và LS (Low Speed). D-
VHS cho phép ghi chậm hơn STD 3 và 5 lần, hai chế độ ghi này ký hiệu là LS3 và LS5. Độ phân
giải của tín hiệu video ghi với STD là 720x480, dòng bits có tốc độ 14.1 Mbps. Máy ghi hình D-
VHS (ví dụ JVC HM-DR 10000) cho phép ghi và phát tín hiệu D-VHS lên băng hình tiêu chuẩn
SVHS. Trong bảng 4.1 là các thông số của băng ghi hình theo chuẩn D-VHS.
Bảng 4.1 Các loại băng từ ghi dữ liệu số theo chuẩn D-VHS
Chuẩn Digital-8 được Sony sử dụng trong các camcoder của hãng có các thông số tương tự
như DV và D-VHS. Băng từ được sử dụng trong Digital-8 có bề rộng truyền thống là 8mm. Thời
gian ghi hình tối đa trên 1 cassette ở chế độ standard là 130 phút. Băng cassette Digital-8 có kích
thước (95x62x15 mm).
Trong lĩnh vực ghi hình chuyên nghiệp, chuẩn DVCPRO25 và DVCPRO50 do hãng
Panasonic nghiên cứu và đề xướng cho phép ghi dữ liệu video nén với tốc độ 25 hoặc 50 Mbps.
Tiêu chuẩn lấy mẫu trong DVCPRO 25 là 4:1:1 và DVCPRO 50 là 4:2:2. Chuẩn DVCPRO HD
hay DVCPRO 100 được sử dụng để ghi các tín hiệu truyền hình chất lượng cao HDTV: tín hiệu
hình ảnh số ghi theo chuẩn này có độ phân giải lên tới 1440x1080 điểm ảnh, 50 mành/giây, quét
hình theo phương pháp xen kẽ. Video được lấy mẫu với tần số 74.25MHz cho tín hiệu chói và nén
theo tiêu chuẩn MPEG-2 với các ảnh I. Sau khi nén, tốc độ dòng bits sẽ xấp xỉ 100 Mbps. Thành
phần âm thanh được ghi với 8 kênh, 16 bits với tần số lấy mẫu 48KHz. Dải tần tín hiệu âm thanh
20-20000Hz.
Băng từ dùng để ghi dữ liệu theo chuẩn DVCPRO có hai cỡ: nhỏ (65x48x12mm) và lớn
(120x90x12) với chiều dài băng khác nhau, cho phép lưu trữ từ 12 phút đến 253 phút video số với
tốc độ 25Mbps.
Chuẩn HDCAM của Sony được đưa ra vào năm 1997, đây là định dạng ghi tín hiệu HDTV
với độ phân giải 1440x1080 điểm ảnh, 24 hình/giây, tốc độ luồng bits lên tới 144 Mbps.
Năm 2003 HDCAM được nâng cấp lên thành chuẩn HDCAM-SR. Tín hiệu video được
lượng tử hóa với 10 bits/ mẫu theo phương pháp 4:2:2 hoặc 4:4:4. Tốc độ dòng video số
HDCAM-SR có thể lên tới 600 Mbps. Tín hiệu HDCAM-SR sẽ đáp ứng đầy đủ tiêu chuẩn High
Definition Serial Digital Interface (HD-SDI) (1920x1080). Trong chuẩn HDCAM-SR có thể sử
213
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
dụng phương pháp nén MPEG-2 hoặc MPEG-4 (Studio profile). Âm thanh trong chuẩn
HDCAM-SR bao gồm 12 kênh âm thanh được mã hóa với 48KHz/24bits.
Băng từ HDCAM-SR cho phép ghi từ 6 phút (BCT-6SR) đến 124 phút (BTC-124SRL)
video 4:4:4. Như vậy, với tốc độ luồng bits của tín hiệu HDCAM-SR là 600 Mbps, trên một cuốn
băng HDCAM-SR dài 693m, rộng 12.65 mm, có thể lưu trữ được ~560GB dữ liệu số. Kích thước
cassette HDCAM-SR tương tự như Betacam.
Hiện nay, các hãng truyền hình lớn đều sử dụng hệ thống lưu trữ dữ liệu audio và video số
có dung lượng rất lớn. Ví dụ, hãng truyền hình Anh Chanel 4 Television sở hữu hệ thống lưu trữ
Isilion có dung lượng 36TB, video được lưuu trữ dưới dạng MPEG-2 ( nén trong ảnh I với tốc độ
50Mbps). Chanel 4 có thể thực hiện tất cả các công đoạn truyền tin thẳng từ thư viện hình ảnh số
trong bộ lưu trữ theo thời gian thực. Hệ thống Isilion còn được kết nối với cơ sở dữ liệu Sony
Petasite. Hệ thống Sony Petasite ghi dữ liệu lên băng từ theo chuẩn LTO-3 (Linear Tape-Open -
LTO) (400GB/ băng dài 680m). Tổng dung lượng của hệ thống Sony Petasite lên tới 1 PB (Peta
Byte - 1015 Byte) - đây là hệ thống lưu trữ trên băng từ có dung lượng lớn nhất châu Âu hiện nay.
Băng từ chuyên dùng trong các hệ thống lưu trữ dung lượng lớn ra đời từ năm 1997. Có hai
loại băng được sử dụng: Accelis - 8mm và Ultrium- 1/2 inch. Băng Ultrium có các thông số giống
băng từ theo chuẩn Digital Linear Tape (DLT) của hãng Quantum được công bố từ năm 1989.
Kích thước hộp băng Ultrium là 102x105x21,5 mm. Tốc độ đọc dữ liệu từ băng Ultrium có thể
đạt 30-40 MBps, nhanh hơn nhiều loại ổ cứng trên thị trường hiện nay.
Tiêu chuẩn nén dữ liệu được dùng trong các băng LTO là Streaming Lossless Data
Compression (SLDC), đây là chuẩn nén dựa trên phương pháp mã LZW (đã phân tích trong phần
3.3.4.2 của tài liệu này). Hệ số nén dữ liệu theo chuẩn SLDC là ~2:1.
Một số thông số của băng được liệt kê trong bảng 4.2.
Bảng 4.2 Các thông số cơ bản của họ băng từ trong tiêu chuẩn LTO
Chuẩn DTF (Digital Tape Format) với băng từ 1/2 inch của hãng Sony cũng được sử dụng
tương đối rộng rãi trong các hệ thống lưu trữ dung lượng lớn. Khác với băng LTO, dữ liệu số
được ghi lên băng DTF trên các đường chéo so với chiều chuyển động của bằng từ. Tốc độ
ghi/đọc dữ liệu trên các băng DTF-2 có thể lên tới 24 MBps. Dung lượng một băng DTF cỡ lớn
(Large Size) là 200GB.
4.1.1.2 Đĩa quang
Lưu trữ dữ liệu tương tự cũng như số trên băng và đĩa từ có rất nhiều nhược điểm, có thể
liệt kê một số vấn đề chính như sau:
- Nhạy cảm với tác động cơ học
214
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
- Để có giữ được chất lượng tín hiệu ghi trên băng từ trong thời gian dài, băng từ phải được
bảo quản trong môi trường có nhiệt độ, độ ẩm luôn ở mức tối ưu. Ngay cả trong trường hợp này,
tuổi thọ của băng từ cũng không lớn: khoảng 25-30 năm. Như vậy, theo chu kỳ ~25 năm cần phải
sao chép lại toàn bộ cơ sở dữ liệu hình ảnh và âm thanh, điều này rất bất tiện và tốn kém.
- Thiết bị ghi và đọc băng từ thường công kềnh và đắt tiền (chủ yếu do hệ thống kéo băng
tương đối phức tạp.
- Tốc độ di chuyển của băng từ tương đối cao nên thời gian truy cập tới vị trí cần thiết
trong đoạn video lớn.
Những năm gần đây, dữ liệu mutimedia thường được lưu trữ trên đĩa quang. Quá trình ghi
và đọc được thực hiện bởi tia laser có các bước sóng khác nhau. Có khá nhiều loại đĩa quang khác
nhau, tuy nhiên chúng thường có đường kính 12cm, dầy ~1mm. Loại đĩa mini được dùng trong
camcoder có đường kính 8cm. Hệ thống lưu trữ dữ liệu trên đĩa quang cho phép khắc phục các
nhược điểm của băng từ đã nêu ở trên, do đó đĩa quang ngày càng được sủ dụng rộng rãi. Hiện có
khá nhiều tiêu chuẩn ghi dữ liệu trên nhiều loại đĩa có dung lượng khác nhau. Sau đây chúng ta sẽ
đề cập tới một số loại đĩa thông dụng nhất.
4.1.1.2.1 Compact disk (CD)
Đĩa quang CD làm từ nhựa tổng hợp, có độ dày ~1.2 mm nặng ~16 grams. Trên bề mặt đĩa
CD phủ một lớp nhôm hoặc vàng mỏng làm lớp phản chiếu. Phủ lên trên lớp phản chiếu là lớp
sơn bảo vệ. Mặt trên lớp bảo vệ có thể được dùng để in tên (Label) đĩa. Dữ liệu số (nhị phân) trên
CD được lưu dưới dạng chuỗi các điểm "lõm" pits trên bề mặt lớp phản chiếu. Khoảng cách giữa
các pits được gọi là "lands". Mỗi pits có kích thước ~500nm (rộng), 850nm -3500nm (dài), và
~100 nm (sâu). Chuỗi pits phân bố trên bề mặt đĩa theo đường spiral. Dữ liệu trên CD được đọc
bằng tia laser 780nm, hội tụ lên trên bề mặt phản chiếu của đĩa. Ánh sáng phản chiếu từ bề mặt
CD sẽ thay đổi khi tia laser chạy qua pits hay lands, như vậy sử dụng photodiode để thu nhận
chùm ánh sáng phản chiếu nói trên, ta sẽ "đọc ra" lại được chuỗi bít nhị phân ghi trên CD. Tốc độ
đọc/ghi dữ liệu trên CD lên tới 52X (1X = 150KB/s).
Dữ liệu được ghi trên CD từ tâm đĩa ra ngoài. Hai loại CD chuẩn có (1) - đường kính
120mm, đủ ghi 74-80 phút nhạc chất lượng cao, hoặc 650-700 MB dữ liệu và (2) - đường kính
80mm Mini CD, ghi được 21 phút nhạc hay 184 MB.
4.1.1.2.2 Digital Versatile Disc (DVD)
Trong thời gian gần đây, đĩa DVD được sử dụng rộng rãi trong lĩnh vực lưu trữ dữ liệu số.
Đĩa DVD có kích thước tương tự đĩa CD nhưng có dung lượng lưu trữ lớn gấp 6 lần. Đĩa DVD có
hai kích cỡ: DVD Standard size có đường kính 12cm, Mini DVD có đường kính 8cm. Mini DVD
được sử dụng cho các máy quay video số ghi trực tiếp lên đĩa.
Định dạng DVD cho phép ghi dữ liệu lên một mặt đĩa (SS- Single Sided) hoặc lên cả hai
mặt (DS- Double Sided), ngoài ra trên một mặt đĩa có thể ghi được một hoặc hai lớp dữ liệu (SL-
Single layer hoặc DL- Dual/Double layer). Kỹ thuật ghi hai lớp dữ liệu lên một mặt của đĩa được
mô tả trong hình 4.1.1. Giữa hai lớp ghi (Recording Layer 0 và Recording Layer 1) được ngăn
cách bởi lớp phản chiếu "gần trong suốt" (Semi-transparent REFLECTIVE Layer) và lớp nhựa
polycarbonate trong suốt.
215
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Lưu ý rằng đơn vị GB và GiB có sự khác biệt: 1GB= 109 bytes, 1GiB = 230 =
1,073,741,824 bytes.
Trong DVD-DL thông tin được đọc và ghi từ 2 lớp bằng laser có bước sóng 450nm, nhỏ
hơn bước sóng dùng trong CD và DVD SL. Quá trình ghi/đọc dữ liệu trên đĩa DVD SL được thực
hiện bởi tia laser 650nm, tiết diện tia laser trên bề mặt đĩa DVD là 1,32 μm (so với CD là 2,11
μm). Tốc độ ghi/đọc dữ liệu từ đĩa DVD có thể lên tới 20X (với chuẩn DVD, 1X = 1350KB/s).
DVD có thể được phân loại theo đặc tính không ghi được - DVD-ROM (Read-Only
Memory, ghi được một lần (DVD Recordable) và ghi được nhiều lần (DVD Rewritable).
Chuẩn ghi DVD-R (ghi một lần) ra đời năm 1996, cho phép ghi 4,7GB dữ liệu trên DVD
single side, single layer. Tới năm 2002, DVD-R được cải tiến thành chuẩn DVD+R (Plus R).
DVD+R sử dụng một số biện pháp kỹ thuật mới, cho phép tăng độ tin cậy của đĩa trong quá trình
216
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
ghi dữ liệu.
Chuẩn đĩa DVD-RW (ghi nhiều lần) được hãng Pioneer phát triển và công bố năm 1999,
được sử dụng trong 75% DVD Player. DVD-RW có thể ghi được tới 1000 lần, dung lượng đĩa
DVD-RW SL, SS là 4.7 GB. Đặc điểm DVD-RW là trước khi ghi dữ liệu mới, cần phải thực hiện
quá trình xóa hết dữ liệu cũ.
Chuẩn ghi DVD+RW (ra đời năm 1997) được cải tiến để khi ghi dữ liệu không cần phải
format lại đĩa như DVD-RW. Hiện nay, hầu hết các đầu đọc đĩa quang đều nhận dạng được cả hai
loại đĩa trên.
Hai chuẩn đĩa quang thế hệ cuối cùng, có mật độ ghi dữ liệu cao đang cạnh tranh trên thị
trường là High-Definition DVD (HD DVD) và Blu-ray Disc.
Đĩa HD DVD được đề xuất bởi hai hãng sản xuất thiết bị điện tử Toshiba and NEC năm
2003. HD DVD ROM có thể có 1 đến 3 lớp ghi, dữ liệu có thể được ghi trên một hoặc cả hai mặt
đĩa. Dung lượng của các loại đĩa HD DVD được nêu trên bảng 4.4.
Bảng 4.4 Dung lượng đĩa HD DVD
Để có thể ghi dữ liệu với mật độ cao hơn đĩa DVD, tia laser sử dụng trong HD DVD có
bước sóng nằm trong vùng "Blue violet" ~405nm. Tốc độ đọc dữ liệu có thể đạt được là 36.55
Mbps. Đĩa HD DVD có thể được sử dụng để ghi các chuẩn video số khác nhau, từ DVD-Video
đến HDTV 720p, 1080i và 1080p. HD-DVD hỗ trợ chuẩn nén video thông dụng là MPEG-2 và
MPEG-4.
Công nghệ lưu trữ cạnh tranh với HD DVD hiện nay là Blue-Ray. Đĩa quang có tên Blue-
Ray bởi vì tia laser "Blue violet" ~405nm được sử dụng để ghi thông tin lên đĩa. Chuẩn này do
các nhà chế tạo thiết bị điện tử dân dụng như: Sony, Philips Electronics và Matsushita thống nhất
và công bố. Những công ty cùng tham gia phát triển chuẩn DVD này là Hitachi, Pioneer, Sharp,
LG và hãng Thomson Multimedia của Pháp.
Đĩa Blue-Ray Single Layer có dung lượng 25GB, Dual Layer chứa được 50GB dữ liệu số.
Như vậy, trên một đĩa Blue-Ray có thể lưu trữ được trên 20 giờ video chất lượng DVD hay
khoảng 4.5 giờ video chất lượng cao (HDTV). Tốc độ đọc dữ liệu từ đĩa Blue-Ray Dual Layer có
thể lên tới 72Mbps. Blue-Ray Disc hổ trợ các tiêu chuẩn nén hình MPEG-2, MPEG-4 AVC
(H.264), và VC-1 (Windows Media Video codec).
Tháng 8 năm 2006, hãng TDK công bố đã chế tạo thành công Blu-Ray Disc Single Side có
dung lượng 200 GB với sáu lớp ghi, mỗi lớp chứa 33 GB.
Hai định dạng HD DVD và Blue-Ray disc đang cạnh tranh khốc liệt trên thị trường đĩa
quang. Tuy nhiên, với sự hậu thuẫn mạnh mẽ của Sony và một loạt hãng sản xuất phim lớn, định
dạng Blue-Ray đang dần chiếm ưu thế trước HD DVD. Hãng Sony khẳng định đến cuối tháng
217
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
8/2007, họ đã dẫn đầu thị trường với 1 triệu đĩa Blu-ray được tiêu thụ ở Mỹ và 250.000 ở châu
Âu, chiếm thị phần 69%.
Trong những năm gần đây, với mục đích đưa đĩa quang dung lượng cao đến người tiêu
dùng, các hãng sản xuất đã nỗ lực không ngừng để giảm giá thành các thiết bị đọc/ghi đĩa quang
có dung lượng cao cũng như giá thành các loại đĩa HD-DVD hay Blue-Ray. Đầu năm 2006,
Toshiba tung ra thị trường Mỹ đầu đĩa HD DVD HD-A1 có chi phí sản xuất ~700 USD (để phát
triển định dạng HD DVD, Toshiba đã bán sản phẩm này với giá rẻ hơn chi phí gần 200USD). Đầu
đĩa Blu-ray được Sony bán ra cùng thời điểm tại Mỹ có giá 1.000 USD. Đến năm 2007, giá bán lẻ
đầu đọc đĩa HD DVD mã hiệu HDA2-W của Toshiba đã hạ xuống còn 198 USD.
So với băng từ, lưu trữ dữ liệu trên đĩa quang có nhiều ưu điểm vượt trội:
- Độ bền cơ khí cao, dễ sử dụng
- Bảo quản dễ dàng hơn băng từ
- Tuổi thọ đĩa quang theo dự đoán lên tới 100 năm (cao hơn nhiều so với băng từ)
- Thiết bị ghi/đọc đĩa quang đơn giản, gọn nhẹ và có giá thành thấp.
- Hệ thống lưu trữ dữ liệu tự động lên đĩa quang có cấu tạo đơn giản hơn và giá thành rẻ
hơn hệ thống băng từ.
- Hệ thống lưu trữ trên đĩa quang cho phép truy cập dữ liệu theo bất kỳ thứ tự nào với tốc độ
cao.
- Giá thành đĩa quang ngày càng giảm vì lượng đĩa được sản xuất và tiêu thụ ngày càng
tăng.
4.1.1.3 Lưu trữ dữ liệu trên hệ thống đĩa từ (hard disk)
Hiện nay, đa số các hãng truyền hình sử dụng hệ thống điều khiển tự động quá trình truyền
phát chương trình mutimedia dựa trên cơ sở dữ liệu được lưu trong các server đĩa cứng dung
lượng cao. Tất cả các khâu xử lý tín hiệu trong quá trình thu phát, từ lúc dàn dựng, xem duyệt
chương trình, lập trình thời gian phát và lưu trữ dữ liệu đều được thực hiện dưới sự điều khiển của
hệ thống quản lý chung.
Hệ thống lưu trữ trên ổ cứng hiện nay có kích thước nhỏ gọn, tốc độ ghi/đọc cao. Tuy
nhiên, do giá thành (giá thành lưu trữ 1 GB dữ liệu) so với băng từ còn tương đối cao, nên hệ
thống lưu trữ trên ổ cứng thường có dung lượng vừa phải và được sử dụng như bộ nhớ đệm giữa
hệ thống lưu trữ dài hạn (băng từ dung lượng cao) và hệ thống xử lý video. Các ổ đĩa cứng (Hard
Disk Drive- HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới 300MBps qua giao thức
SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng không qua giai đoạn nén dữ
liệu (làm mất chất lượng video gốc). Để có thể thiết lập được hệ thống lưu trữ với các thông số
cần thiết về dung lượng, độ tin cậy và tốc độ truy cập dữ liệu, người ta thường sử dụng công nghệ
RAID (Redundant Array of Independent Disks). RAID là hệ thống bao gồm 8, 16 hoặc nhiều hơn
nữa các ổ cứng. Ví dụ, hãng Seagate đã sản xuất các ổ cứng SATA-2 có dung lượng 750 GB với
giá bán lẻ ~250$. Như vậy, hệ thống 16 đĩa sẽ có dung lượng 12 TB, hệ thống này cho phép ghi
tới ~2700 giờ video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén
(216Mbps). Có thể thấy rằng, giá thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào
năm 2005, giá thành ổ cũng khoảng 1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps.
Hệ thống RAID cho phép tăng tốc quá trình chuyển tài dữ liệu của đĩa cứng theo nguyên tắc
đổi dung lượng lấy tốc độ: nghĩa là tốc độ chuyển tải dữ liệu sẽ tăng nếu luồng dữ liệu được chia
218
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
đều cho các đĩa cứng hoạt động đồng thời. Mặt khác, nếu cần nâng cao độ tin cậy của hệ thống
lưu trữ, dữ liệu cũng có thể được ghi cùng một lúc lên 2 hay nhiều ổ cứng. Để tạo ra các hệ thống
lưu trữ với đặc tính cần thiết về độ an toàn, tốc độ truy cập và dung lượng, RAID cho phép cấu
hình theo các mức khác nhau.
RAID-0 (hình 4.1.8): Trong chuẩn RAID-0, các đĩa cứng được xếp thành các dãy (arrays).
Dữ liệu được bộ điều khiển (RAID controller) phân bổ đều trên các đĩa trên dãy theo hàng ngang
(data stripping). Dung lượng của một hệ thống RAID sẽ bằng tổng dung lượng các đĩa cứng. Như
vậy RAID-0 không có cơ chế bảo vệ dữ liệu. Ưu điểm của RAID-0 là dữ liệu được chuyển tải rất
nhanh nhưng nhược điểm của nó là chỉ cần một trong các đĩa của hệ thống bị trục trặc thì dư liệu
sẽ bị mất. RAID-0 được sử dụng nhiều ở các ứng dụng máy tính để bàn.
219
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Trong phần này, chúng ta đã tìm hiểu sơ bộ về các hệ thống lưu trữ dữ liệu trên băng từ, đĩa
từ và đĩa quang. Tại mỗi thời điểm lịch sử, mỗi loại vật liệu dùng để ghi dữ liệu có những ưu điểm
riêng. Xét trên khía cạnh giá thành (chi phí để lưu trữ một đơn vị dữ liệu), hệ thống lưu trữ dữ liệu
trên đĩa quang đang có ưu thế vì giá đĩa quang ngày càng hạ (do sức ép cạnh tranh và do số lượng
đĩa được sản xuất ngày càng lớn), đồng thời các chuẩn đĩa mới ra đời có dung lượng ngày càng
cao. Tuy nhiên, để tạo ra các "kho" dữ liệu có kích thước rất lớn với mục đích lưu trữ khối lượng
thông tin audio và video số khổng lồ cho các hãng truyền thông, băng từ vẫn được được sử dụng
rộng rãi. Các hệ thống lưu trữ trên băng từ hiện hữu sử dụng băng ghi chuyên nghiệp theo tiêu
chuẩn DFT và DLT có dung lượng lên tới nhiều PB ((Peta Byte). Nhược điểm chính của hệ thống
ghi dữ liệu trên băng từ, hạn chế khả năng sử dụng trực tiếp chúng trong các hệ thống truyền
thông, là thời gian tìm dữ liệu lớn, bảo quản khó và thời hạn sử dụng ngắn. Hệ thống lưu trữ tự
động trên đĩa cứng được thiết lập theo công nghệ RAID thường được sử dụng để lưu các thông tin
cần truy cập nhanh khi dàn dựng chương trình hoặc các chương trình được chuẩn bị để phát sóng.
Ưu điểm quan trọng của hệ thống này là tốc độ truy cập nhanh, nguồn dữ liệu có thể thay đổi linh
hoạt với độ tin cậy cao (điều này rất quan trọng khi dữ liệu được lưu với mục đích đưa vào kênh
truyền). Các nhà phân tích dự đoán rằng, trong tương lai không xa, đĩa ghi quang học sẽ được sử
dụng chủ yếu trong các hệ thống lưu trữ dung lượng lớn, vì xét trên góc độ kinh tế, hệ thống lưu
trữ quang (bao gồm các thiết bị ghi/đọc tự động và đĩa trắng) có giá thành lưu trữ trên một GB dữ
liệu thấp nhất, hơn thế nữa, đĩa quang là mặt hàng dân dụng, được sản xuất với số lượng nhiều
nên giá thành của chúng cũng sẽ hạ xuống chóng.
4.1.2 Phân phối nội dung qua mạng viễn thông
Trong mạng viễn thông hiện nay, thông tin về âm thanh và hình ảnh có thể được phân phối
tới người sử dụng qua nhiều môi trường truyền dẫn khác nhau. Phần này sẽ giới thiệu về các kênh
phân phối tiêu biểu đang được sử dụng trên thực tế.
4.1.2.1 Phân phối nội dung qua kênh vô tuyến
Hình 4.1.4 Phân chia băng tần cho theo bước sóng
Dải tần số được sử dụng để truyền thông tin có bề rộng hữu hạn và được phân chia cho các
dịch vụ truyền dữ liệu khác nhau. Mỗi băng tần được đặt tên như trên hình.. Những dải tần sau
đây được quy định để truyền tín hiệu viễn thông:
Dải sóng trung tần MF (Medium Frequency) tần số từ 300 - 3000 kHz. Tại đây thực hiện
phát thanh vô tuyến điều biên (AM)
Dải sóng cao tần HF (High Frequency) có tần số từ 3 đến 30MHz. Ứng dụng của dải tần
này là vô tuyến truyền thanh nghiệp dư, dân dụng, các loại thông tin vô tuyến di động.
Dải sóng cực ngắn VHF (Very High Frequency) có tần số từ 30 đến 300MHz. Ứng dụng
trong vô tuyến nghiệp dư, thông tin di động, đài phát FM thương mại (88MHz đến 108MHz), vô
tuyến truyền hình.
220
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Dải sóng siêu ngắn UHF (Ultra High Fequency) có tần số từ 300 đến 3GHz. Dải tần này sử
dụng trong vô tuyến truyền hình (470-806 MHz), viba, mạng không dây WLAN v.v.
Dải sóng SHF (Super high frequency) 3Ghz-30 Ghz được sử dụng để truyền tín hiệu truyền
hình quảng bá qua vệ tinh, vi ba..
4.1.2.2 Truyền thanh quảng bá
Phát thanh là quá trình tổ chức và chuyển tới khán giả các chương trình phát thanh thông
qua các phương tiện viễn thông. Tại các trung tâm phát thanh người ta thực hiện việc dàn dựng
chương trình trong các phòng thu (studio) và chuyển chúng vào mạng truyền thanh. Mạng truyền
thanh bao gồm các thiết bị truyền và phân phối chương trình phát thanh trong phạm vi khu vực
phục vụ.
Tín hiệu âm thanh trong hệ thống phát thanh quảng bá có thể được truyền theo mạng cáp
truyền thanh (hữu tuyến) hoặc qua sóng vô tuyến. Thời gian gần đây, dịch vụ này được thực hiện
chủ yếu qua đường truyền vô tuyến. Sơ đồ tổng quát một hệ thống phân phối âm thanh được mô
tả trên hình
Ñöôøng truyeàn
Ñöôøng truyeàn
Heä thoáng Thueâ bao
truyeàn
Trung taâm phaùt thanh thanh
caùp
Phoøng thu
(Studio) Khueách
M ñaïi
Heä thoáng
voâ tuyeán
truyeàn Maùy thu
thanh
221
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
222
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Keânh traùi
L
0 15 19 38 f
kHz kHz kHz
Keânh traùi
mS ( t ) (2L)
LTT L+R
0-15 kHz ∑
S FM ( t ) Maùy thu L−R
FM Keânh phaûi
LTD LTT (2R)
23-53 kHz 0-15 kHz ∑
TSÑB
LTT
19 MHz 38 MHz
1:2 MTS
Hình 4.1.6 Sơ đồ khối hệ thống truyền thanh FM stereo với tín hiệu pilot
223
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Hình 4.1.7 Mô hình trung tâm truyền hình và mạng lưới phân phối tín hiệu
Các trung tâm truyền hình lớn có khả năng tự sản xuất chương trình:
- Ca nhạc, kịch tại phim trường dựng cảnh
- Các chương trình tin tức tại phim trường ảo
- Chương trình có khán giả tại phim trường
Các trung tâm truyền hình nhỏ chỉ có khả năng tiếp nhận và phát lại tín hiệu để phục vụ cho
một vùng nhất định.
Việc thực hiện chuyển tiếp cũng như phân phối các chương trình truyền hình giữa các trung
tâm hay trực tiếp đến khán giả có thể sử dụng đường truyền radio, đường truyền vệ tinh, vi ba,
hoặc cáp quang, hệ thống cáp đồng trục. Hiện nay, ở nước ta các chương trình truyền hình trong
nước và quốc tế có thể thu qua hệ thống truyền hình mặt đất, truyền hình số vệ tinh (DTH- Direct
To Home), truyền hình số mặt đất DVB-T (VTC), truyền hình MMDS (Multimedia Microwave
Distribution System), hệ thống truyền hình cáp thành phố CATV (Community Access Television)
và truyền hình qua internet (IPTV).
Hệ truyền hình dân dụng sử dụng dải tần từ 47 MHz đến khoảng 960 MHz. Trong các tiêu
chuẩn truyền hình khác nhau, băng tần trên được phân chia cho các kênh truyền hình một cách
khác nhau. Dải tần trên được chia thành băng tần VHF, và băng tần UHF (dải tần VHF nằm trong
khoảng 30 ÷ 300 MHz, dải tần UHF – 300 ÷ 3000 MHz).
Dải tần quy định dành cho hệ thống truyền hình đại chúng theo tiêu chuẩn FCC được phân
chia như sau:
VHF -L: 54-88 MHz (5 kênh)
VHF -H: 174-216 MHz (6 kênh)
224
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Hình 4.1.8 Cấu trúc một kênh truyền hình màu (bao gồm kênh âm thanh) theo ba tiêu
chuẩn FFC, CCIR, OIRT
Trong hệ thống truyền hình, do bề rộng dải phổ tín hiệu hình rất lớn và để tiết kiệm băng
225
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
thông kênh truyền người ta chỉ truyền đi toàn bộ dải trên của tín hiệu hình AM (nơi chứa toàn bộ
thông tin về tín hiệu hình ảnh) và một phần nhỏ (0.75 MHz) dải biên dưới để giảm hiện tượng
méo do “thành phần vuông góc” cho các thành phần phổ thấp của tín hiệu hình ảnh. Các thành
phần phổ thấp tương ứng với các chi tiết lớn trong ảnh truyền hình nên ảnh hưởng nhiều tới chất
lượng hình ảnh.
4.1.2.3.2 Truyền hình qua kênh vệ tinh
Hệ thống truyền tín hiệu qua vệ tinh có các ưu điểm sau:
- Đường truyền vệ tinh không bị ảnh hưởng bởi điều kiện địa hình, địa vật.
- Việc thiết lập một đường vệ tinh có thể thực hiện trong thời gian tương đối ngắn.
Vệ tinh có thể sử dụng trong hệ thống điểm - đa điểm, phủ sóng trên diện rộng, thuận tiện
cho việc thiết lập các mạng truyền hình cáp (CATV), cũng như cung cấp dịch vụ truyền hình trực
tiếp đến từng nhà (DTH - Direct To Home).
Thành phần hệ thống truyền tin vệ tinh bao gồm:
Trạm phát sóng mặt đất: truyền tín hiệu về hướng vệ tinh (uplink). Anten phát phải có tính
định hướng rất cao (búp chính rất hẹp ~0.10- để tránh nhiễu loạn giữa các vệ tinh) nên kích thước
thường rất lớn (hàng chục mét). Các búp phụ của anten phải cực tiểu. Anten hướng thường trực
tới vệ tinh với độ chính xác đến vài phút. Cần có hệ thống điều chỉnh góc độ anten. Độ lợi anten
khoảng 60 dB. Anten thường được dùng là loại "Cassegrain", có bề mặt bức xạ chính là parabol,
nguồn sóng phát ra từ mặt phản xạ thứ cấp dạng hyperbol. Hướng phát của anten có thể được thay
đổi bằng cách điều chỉnh mặt phản xạ thứ cấp. Công suất máy phát khoảng 50 watt (tại tần số 14 -
14.5GHz).
Vệ tinh: có nhiệm vụ nhận tín hiệu, khuyếch đại và dịch chuyển tần số tín hiệu xuống dải
tần số phát xuống qua bộ chuyển đổi (transponder) . Trên vệ tinh tín hiệu không được giải điều
chế tới băng tần gốc. Vệ tinh có chức năng giống trạm trung chuyển trong hệ thống viba.
Trạm thu mặt đất: tiếp nhận tín hiệu theo đường truyền xuống (downlink)
Hệ thống truyền hình vệ tinh quảng bá sử dụng các dải tần sau để truyền tín hiệu:
226
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Hình 4.1.9 Vệ tinh Measat dùng để truyền tín hiệu DTH cho lãnh thổ VN
Truyền hình vệ tinh DTH có những ưu điểm sau:
- Vùng phủ sóng rộng, không phụ thuộc vào địa hình, chất lượng cao - cường độ trường tại
227
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
điểm thu ổn định, đồng đều trên toàn quốc- và có khả năng thông tin băng rộng.
- Sử dụng ở băng tần Ku, kích thước anten thu nhỏ gọn (khoảng 0.6m), phù hợp với điều
kiện thu tại các hộ gia đình.
- DTH sử dụng công nghệ truyền dẫn số (nén theo chuẩn MPEG-2) nên đảm bảo chất
lượng tín hiệu hình ảnh cũng như âm thanh, có thể truyền nhiều chương trình truyền hình có độ
phân giải cao cùng một lúc, hệ thống âm thanh stereo hay âm thanh lập thể AC3.
- Hệ thống DTH tương thích với nhiều loại hình dịch vụ khác như truyền dữ liệu, Internet,
truyền hình tương tác sẽ được phát triển sau này.
228
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
Hệ thống cỡ nhỏ sử dụng dải tần 50-220 MHz có từ 12-22 kênh truyền hình, đường cáp trục
dài trên 30 Km, với khoảng 50 bộ khuyếch đại đường trục. Số thuê bao có thể lên tới 10000 máy.
Hệ thống cỡ trung (ví dụ: thành phố San Antonio ở Mỹ) sử dụng dải tần 50-330 MHz có 40
kênh, tổng chiều dài đường cáp lên tới 6000 Km, với trên 2000 bộ khuyếch đại đường trục, 11000
bộ khuyếch đại thuê bao. Số thuê bao có thể lên tới 420000 máy.
Hệ thống cỡ lớn có thể truyền tải tới 150 kênh truyền hình trên đường trục có băng thông
950 MHz.
Mạng cáp trong CATV thường có cấu trúc dạng "cây" sử dụng cáp đồng trục hoặc dạng
229
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
hỗn hợp, sử dụng cáp quang và cáp đồng trục (Hybrid Fiber Coaxial system). Trong mạng HFC,
cáp quang được sử dụng thay cho cáp đồng trục trên đường trục. Việc sử dụng cáp quang cho
phép nâng cao dung lượng đường truyền, nâng cao chất lượng tín hiệu, giảm chi phí lắp đặt.
Hình 4.1.11 Sơ đồ khối mạng CATV tiêu biểu, sử dụng cáp quang và cáp đồng
trục (Hybrid Fiber Coaxial system).
Hiện nay, ở nước ta có 16 đơn vị ứng dụng triển khai truyền hình cáp tại các địa phương
như: Hà Nội, Hải Phòng,Thái Bình, TPHCM, Đà Nẵng, Cần Thơ... Theo số liệu của Bộ VHTT, hệ
thống truyền hình cáp phục vụ khoảng 350000 thuê bao trên cả nước. Các nhà cung cấp dịch vụ
CATV ở Việt Nam đang dùng công nghệ tương tự (analog) để cung cấp các chương trình truyền
hình qua đường cáp đồng trục.
Tín hiệu trong các hệ thống CATV hiện nay thường không bị mã hóa, do đó các thuê bao có
thể chia sẻ chương trình cho nhiều máy thu trong nhà. Tại Tp HCM, SCTV là công ty đầu tiên
phát triển hệ thống truyền hình cáp qua mạng cáp quang và cáp đồng trục hỗn hợp CATV. Truyền
hình cáp SCTV cho phép tiếp nhận ~50 kênh quốc tế và kênh trong nước, phát sóng liên tục 24/24
giờ hàng ngày.
Ngoài công nghệ CATV, hiện nay tại nước ta, các chương trình truyền hình còn được
chuyển tải bằng nhiều công nghệ khác như vi ba nhiều kênh (MMDS), DTH, truyền hình số mặt
đất DVB-T và truyền hình qua mạng Internet. Truyền hình cáp MMDS (Multi-media Microwave
Distribution System) là một hệ thống dịch vụ truyền hình qua hệ thống viba nhiều kênh, làm việc
trên dải tần 2.7 GHz. Năm 1995 dịch vụ MMDS được Đài THVN đưa vào sử dụng. Đây là hệ
thống dịch vụ truyền hình sử dụng công nghệ analog tương đối lạc hậu. Một kênh truyền hình
MMDS chiếm dải tần khoảng 8 Mhz. Hiện nay hệ thống MMDS không còn được phát triển, thay
vào đó là các hệ thống phân phối tiên tiến hơn như truyền hình cáp hay truyền hình qua vệ tinh.
230
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
231
Chươnng 4 Ứng dụụng kỹ thuậtt xử lý âm thhanh và hình ảnh trong viễn
v thông
nhiều loại công ngghệ, giao thứức và phương pháp điều chế xDSL khác k nhau. Mạng
M người dùng
gồm một
m cổng vàoo (Home gateeway – có thểể là modem ADSL,A bộ địịnh tuyến), giao tiếp với mạng
m
của nhhà cung cấp có
c nhiệm vụ nhận nguồnn hình IPTV, VoD và phâân phát đến các c STB (Sett Top
Box). Thiết
T bị đầu cuối (End pooint) : STB, P
Phone, Mobiile….có thể dùng
d cáp đồnng CAT5e – UTP-
U
4 pair hoặc đườngg truyền vô tuuyến (WiFi , Digital Enhhanced Corddless Telecom mmunicationns) để
kết nốii vào Home gateway.
g
Với tốc độ phát
V p triển củaa mạng Interrnet băng thô
ông rộng (ADDSL) hiện naay, thì nhu cầầu sử
dụng các
c dịch vụ gia
g tăng trên mạng là xu hướng tất yếếu. IPTV và VoD là dịchh vụ gia tăngg mới
xuất hiện ở Việt Nam.
N Dịch vụụ này không nằm ngoài xu x hướng tíchh hợp công nghệ
n (Triple Play:
Data - Voice - Viddeo) của ngàành công nghhệ truyền thô ông trong tươ
ơng lai. Các chuyên gia nhận
định dịch vụ này sẽẽ thật sự “bùnng nổ” trong một vài nămm tới.
Ngoài các tiệện ích về nhu
N u cầu giải trí trực tuyến thhì trong tươnng lai các tiệnn ích đáp ứngg cho
nhu cầầu thiết thực của khách hàng cũng sẽ được triển khai k như : muua sắm trực tuyến , dự báob tỷ
giá ngooại tệ, dự báoo thời tiết, traao đổi thông tin giữa khácch hàng với nnhau thông qua q giao diệnn TV.
232
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
233
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
G.722.1 cho phép nén dữ liệu với tốt độ bit thấp. Một biến thể mới của G722.1 là G.722.2,
được biết dưới tên là AMR-WB (Adaptive Multirate Wideband), cho phép nén với tốc độ thấp
hơn nữa, có thể đáp ứng tốt với các kiểu nén khác nhau cũng như thích nghi với tính chất của
mạng. Trong trường hợp sau, khi mạng bị nghẽn, coder sẽ tăng hệ số nén để tạo ra dòng bits có
tốc độ thấp, khi mạng hết nghẽn sẽ quay trở về trạng thái bình thường,khi đó chế độ tốc độ bit cao
và mức nén thấp hơn được phục hồi.
Chuẩn G.722 xử lý dữ liệu âm thanh tại tốc độ lấy mẫu 16kHz, gấp đôi tốc độ xử lý tại các
giao tiếp thoại truyền thống, kết quả là chất lượng thoại tốt hơn.
Chuẩn G.722.1, được biết qua tên khác là “Siren™”, là một chuẩn quốc tế cho mã hóa âm
thanh băng rộng ở tốc độ 24 và 32 kbps (băng thông thoại 50Hz-7kHz, tần số lấy mẫu là 16 kHz),
sử dụng trong các hệ thống hội nghị truyền hình được phê chuẩn vào 30 tháng 09 năm 1999.
Chuẩn G.722.1 là bộ nén dựa trên sự biến đổi tối ưu hóa cho cả âm thoại lẫn nhạc. Độ phức
tạp tính toán tương đối thấp đối với bộ nén chất lượng cao, độ trễ của giải thuật tại hai điểm đầu
cuối là 40ms.
Phiên bản G.722.1/Annex C, được phê chuẩn bởi ITU-T vào 14 tháng 05 năm 2005, còn
được biết thông qua tên Siren14™, được phát triển bởi Polycom cho phép truyền không cần bản
quyền với tần số lấy mẫu 14kHz.
Thực tế, có ba loại mã hóa ITU đều có chung một tên là G.722. Đầu tiên, G.722 là mã hóa
với tần số 7kHz, sử dụng ADPCM hoạt động với tốc độ truyền 48-64kbps. Một phiên bản khác
G.722.1 hoạt động với tốc độ dữ liệu bằng một nửa nhưng có chất lượng tốt như G.722 với
phương pháp mã hóa dựa vào nền tảng chuyển đổi. Và chuẩn G.722.2, hoạt động với âm thoại
băng tần rộng với tốc độ bit truyền rất thấp, sử dụng giải thuật CELP-based.
Về vấn đề bản quuyền, đến thời điểm này, giấy đăng ký bản quyền cho G.722 đã hết hạn,
cho nên hiện tại chuẩn này được xem như là chuẩn miễn phí. G.722.1 thuộc bản quyền của tập
đoàn Polycom và chuẩn G.722.2 còn có tên là AMR-WB, thuộc quyền sở hữu của tập đoàn
VoiceAge.
G.722.2 (GSM AMR WB)
Adaptive Multi Rate - WideBand hay AMR-WB là một chuẩn mã hóa tiếng nói được phát
triển sau khi AMR sử dụng cùng công nghệ tương tự như ACELP. Mã cung cấp chất lượng âm
thoại tốt vì sử dụng băng tần thoại rộng hơn 50-7000 Hz khi so với các mã âm thoại băng hẹp hiện
đang dùng rộng rãi trong các POTS với 300-3400Hz. AMR-WB được hệ thống hóa thành
G.722.2, là một chuẩn mã hóa âm thoại chuẩn ITU-T.
Các trạng thái hoạt động của ẢM: AMR-WB hoạt động tương tự AMR với nhiều tốc độ bit
khác nhau gồm: 6.60; 8.85; 12.65; 14.25; 15.85; 18.25; 19.85; 23.05 và 23.85 kbps. Tín hiệu
truyền với tốc độ thấp nhất cho chất lượng thoại tốt nhất ứng với môi trường không nhiễu là 12.65
kbps. Tốc độ bit cao rất hữu dụng trong môi trường có nhiễu và trong trường hợp tín hiệu truyền
là âm nhạc. Tốc độ bit 6.60 và 8.85 cung cấp chất lượng chấp nhận được so với mã hóa băng tần
hẹp.
AMR-WB được chuẩn hóa cho việc sử dụng trong tương lai trong các hệ thống mạng như
UMTS. Chuẩn này cung cấp chất lượng thoại tốt hơn rất nhiều và được chọn dùng cho nhiều
mạng cũ hỗ trợ cho băng rộng. Tháng 10 năm 2006, kiểm nghiệm AMR-WB lần đầu tiên được
thực hiện trên hệ thống mạng thực do T-Mobile và Ericssion phối hợp tại Đức.
234
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
G.723 là một chuẩn ITU-T mã hóa âm thoại băng tần rộng, là chuẩn mở rộng của G.721
điều chế xung sai phân tương thích với tốc độ truyền 24 và 40 kbps. Hiện nay G.723 được thay
thế bởi chuẩn G.276, do đó hiện tại chuẩn này là lỗi thời.
Chuẩn G.723.1 là chuẩn mã hóa âm thanh cho thoại với tính năng nén thoại trong khung 30
ms hoặc 7.5ms. Chuẩn G.723.1 chủ yếu dùng trong các ứng dụng Voice over IP (VoIP) vì yêu cầu
băng thông thấp.
Có hai tốc độ bit mà G.723.1 có thể hoạt động:
6.3 kbit/s (sử dụng khung 24 byte), dùng giải thuật MPC-MLQ (MOS 3.9)
5.3 kbit/s (sử dụng khung 20 byte) dùng giải thuật ACELP (MOS 3.62)
G.726 là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các tốc độ 16, 24,
32, và 40 kbps. Là chuẩn thay thế cho cả G.721 (ADPCM tốc độ 32kbps) và chuẩn G.723
(ADPCM với tốc độ 24 và 40 kbps). G.726 hoạt động với tần số là 16 kbps. Bốn tốc độ bit thường
sử dụng cho chuẩn G.726 tương ứng với kích thước của một mẫu theo thứ tự là 2-bits, 3-bits, 4-
bits, và 5-bits. Tốc độ thường dùng là 32 kbps, bằng một nửa so với chuẩn G.711, như vậy,dung
lượng của mạng sẽ tăng lên 50%. Thông thường chuẩn này được dùng trong các mạng điện thoại
quốc tế cũng như hệ thống điện thoại không dây DECT.
G.721 được giới thiệu lần đầu tiên vào năm 1984, trong khi chuẩn G.723 được giới thiệu
vào năm 1988. Cả hai được gộp chung thành chuẩn G.726 vào năm 1990.
G.727 được giới thiệu cùng thời điểm với G.726, cùng tốc độ bít nhưng tối ưu hơn cho môi
trường PCME Packet Circuit Multiplex Equipment. Điều này đạt được bằng cách nhúng bộ lượng
tử hóa 2 bit vào bộ lượng tử hóa 3 bit, cho phép hủy bỏ bit có trọng số nhỏ nhất trong chuỗi bit
truyền mà không có ảnh hưởng xấu đến tín hiệu âm thoại.
G.728 là chuẩn ITU-T mã hóa âm thoại với tốc độ 16kbps. Công nghệ sử dụng là LD-
CELP, Low Delay Code Excited Linear Prediction. Độ trễ của mã chỉ 5 mẫu ( 0.625 ms). Dự đoán
tuyến tính được thực hiện tính toán với bộ lọc LPC ngược bậc 50. Ngõ vào kích thích được tạo ra
để đảm bảo nhận được độ lợi VQ. Chuẩn được đưa ra vào năm 1992 dưới dạng giải thuật mã dấu
chấm động. Năm 1994, bản dùng cho dấu chấm tĩnh được phát hành. G.728 có tốc độ lên đến
2400 bps.
G.729 là một giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm thanh
với khung 10 ms. G.729 đa số dùng trong các ứng dụng Voice over IP (VoIP) với yêu cầu băng
tần thấp. Chuẩn G.729 hoạt động ở tốc độ 8 kbps, nhưng các phiên bản mở rộng có thể hoạt động
tại 6.4 kbps đối với môi trường truyền xấu và 11.8 kbps với yêu cầu chất lượng thoại tốt hơn.
Trong thực tế, người ta thường dùng chuẩn G.729a, tương tự như G.729 nhưng có độ tính toán
đơn giản hơn, tuy nhiên chuẩn này có chất lượng thoại kém hơn.
Phiên bản G.729b là một chuẩn có bản quyền, sử dụng module VAD để phát hiện tín hiệu
thoại hay phi thoại. Nó cũng bao gồm một module DTX dùng để quyết định nâng cấp các thông
số nhiễu nền cho tín hiệu phi thoại (các khung nhiễu). Các khung này được truyền để thực hiện
việc nâng cấp này được gọi là các khung SID. Một bộ tạo nhiễu (CNG) cũng được tích hợp trong
chuẩn này, bởi vì trong một kênh truyền, nếu việc truyền bị dừng lại vì lý do tín hiệu là tín hiệu
phi thoại, thì site còn lại sẽ xem như đường kết nối này bị đứt. Vì thế khi sử dụng chuẩn này cần
phải thận trọng.
Những năm gần đây, chuẩn G.729 đã được nghiên cứu mở rộng để hỗ trợ cho tín hiệu âm
235
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
thoại băng tần rộng và mã hóa âm thanh thành chuẩn G.729.1. Bộ mã hóa G.729.1 được thiết kế
theo mô hình phân cấp, tốc độ bit và chất lượng điều hiệu chỉnh đơn giản bằng cách thức cắt giảm
chuỗi bit truyền.
G.729.1 thêm chức năng băng tần rộng so với G.729 thông qua các lớp được nhúng vào.
Lớp đầu tiên trên cùng G.729 (12kps) vẫn là dạng băng tần hẹp. Lớp kế tiếp có tốc độ 14 kbps
(tốc độ truyền tăng lên 2kbps). Các lớp khác sẽ có tốc độ tăng dần từng bước 2 kbps làm gia tăng
chất lượng tín hiệu.
Các mã được phát triển bởi sự phối hợp của các tổ chức: France Telecom, tập đoàn
Mitsubishi Electric, tập đoàn Nippon Telegraph và Telephone (NTT), và Université de
Sherbrooke.
4.2.2 Các tiêu chuẩn của ITU- T cho ảnh tĩnh và video.
4.2.2.1 Chuẩn H261
Chuẩn H.261 là chuẩn ITU mã hóa tín hiệu video năm 1990 được đưa ra để truyền trên hệ
thống đường dây ISDN với các tốc độ dữ liệu là số nhân của 64 kbps. Tốc độ dữ liệu của giải
thuật mã hóa được đưa ra để có thể hoạt động được giữa 40 kbps và 2 Mbps. Chuẩn hỗ trợ các
khung video CIF và QCIF với độ phân giải 352x288 và 176x144 theo thứ tự tương ứng (và 4:2:0
mẫu với độ phân giải màu là 176x144 và 88x72 theo thứ tự tương ứng). Chuẩn này được hiệu
chỉnh năm 1994, cho phép nâng chất lượng tín hiệu video nén lên tới độ phân giải 704x576.
Chuẩn H.261 là chuẩn mã hóa tín hiệu video số đầu tiên được áp dụng trong thực tế. Việc
thiết kế chuẩn H.261 là một nỗ lực tiên phong, các chuẩn mã hóa video toàn cầu sau này (MPEG-
1, MPEG-2/H.262, H.263, và ngay cả H.264) cũng chủ yếu dựa trên chuẩn này. Ngoài ra, cac
phương pháp được sử dụng bởi hội đồng phát triển H.261 (đứng đầu là Sakae Okubo) cộng tác
phát triển chuẩn vẫn được ứng dụng trong các việc mã hóa theo các chuẩn sau này: đó là giải thuật
mã hóa dùng kỹ thuật bù chuyển động và mã hóa trong không gian ảnh (được ứng dụng trong
chuẩn JPEG).
Trong H261, dự đoán hình ảnh nội tại sẽ được thực hiện với cơ chế để loại bỏ dư thừa trong
thời gian dựa trên các vector chuyển động. Khi mã hóa trong ảnh, các block 8x8 điểm ảnh sẽ được
chuyển đổi cosin rời rạc 8x8 (DCT) dùng để loại bỏ các dư thừa không gian, các hệ số biến đổi
lượng tử được đọc ra theo đường zig-zag và mã hóa entropy để loại bỏ các dư thừa thống kê.
Chuẩn H.261 không chỉ định rõ phương pháp mã hóa video (ví dụ: phương pháp dò tìm vector
chuyển động). Các nhà thiết kế bộ mã hóa được tự do trong việc đưa ra các giải thuật mã hóa của
riêng họ.
4.2.2.2 Chuẩn H.262
Chuẩn H.262 là một chuẩn mã hóa video số ITU-T. Chuẩn này liên quan đến phần video
của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2). Chuẩn này được phát
triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1, và trở thành chuẩn chung cho cả hai
tổ chức này. ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát triển và phát hành
dưới dạng là chuẩn quốc tế. Hai tài liệu này mô tả hầu hết tất cả các khía cạnh của chuẩn.
4.2.2.3 Chuẩn H263
Chuẩn H.263 là chuẩn mã hóa ITU-T thiết kế vào năm 1995/1996 dùng cho giải pháp mã
hóa nén tốc độ truyền thấp cho các dịch vụ hội nghị truyền hình.
Mã đầu tiên được thiết kế trong các hệ thống H.324 (PSTN hoặc các mạch chuyển mạch
236
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
mạch khác truyền dịch vụ hội nghị truyền hình và điện thoại truyền hình), cũng như trong các hệ
thốgn dùng mã H.323 (hội nghị truyền hình RTP/IP-based), H.320 (hội nghị truyền hình ISDN-
based), RTSP (phương tiện truyền thông dạng streaming) và SIP (hội nghị Internet). Hầu hết nội
dung Flash Video( dùng trên các site như YouTube, Google Video, MySpace, v.v….) được mã
hóa dưới dạng định dạng này, tuy vẫn có site sử dụng mã hóa VP6, hỗ trợ phiên bản Flash 8. Tín
hiệu video H.263 có thể được giải mã bằng thư viện phi bản quyền LGPL-licensed dùng trong các
chương trình như VLC media player và MPlayer.
Chuẩn H.263 được phát triển như là một phiên bản nâng cấp dựa trên chuẩn H.261, và
chuẩn MPEG-1, MPEG-2. Phiên bản đầu tiên được hoàn thành vào năm 1995 và hoàn toàn có thể
thay thế cho H.261 với tất cả các tốc độ truyền. Hiện tại có thêm các phiên bản H.263v2 (còn gọi
là chuẩn H.263+ 1998) và chuẩn H.263v3 (H.263++ 2000).
4.2.2.4 Chuẩn H264
Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một
chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts Group
(VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là sản phẩm
thương mại Joint Video Team (JVT). Chuẩn ITU-T H.264 và ISO/IEC MPEG-4 Part 10(ISO/IEC
14496-10) ứng dụng các công nghệ nén ảnh tiên tiến. Phiên bản nháp đầu tiên được hoàn thành
vào tháng 05 năm 2003.
Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi tên
AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án là H.26L. Chuẩn còn được gọi
bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 AVC nhằm
nhấn mạnh tính kế thừa. Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ chức JVT phát
triển.
Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu video
chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ của các
chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong thực tế.
Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn được ứng
dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấp hoặc độ phân giải
cao hoặc thấp, và chạy ổn định trong nhiều hệ thống cũng như mạng (mục đích broadcast, lưu trữ
DVD, truyền qua mạng gói RTP/IP, và các hệ thống tổng đài)
4.2.2.5 Chuẩn JVT
Chuẩn JVT đã hoàn thành việc nâng cấp, phát triển một số tính năng mở rộng so với chuẩn
nguyên thuỷ, được biết dưới tên là Fidelity Range Extensions (FRExt). Các phiên bản mở rộng hỗ
trợ mã hóa video với độ trung thực cao bằng cách thức gia tăng độ chính xác lấy mẫu (bao gồm
mã hóa 10-bit và 12-bit) với thông tin màu độ phân gải cao (gồm các cấu trúc lấy mẫu như YUV
4:2:2 và YUV 4:4:4). Một số tính năng khác trong dự án Fidelity Range Extensions ( như phép
biến đổi số nguyên chuyển mạch tương thích 4×4 và 8×8, các ma trận trọng số lượng tử hóa dựa
trên giác quan, mã hóa không mất mát hình nội tại hiệu quả, hỗ trợ các không gian màu cộng thêm
và phép biến đổi màu số dư). Công việc thiết kế trong dự án được hoàn thành vào tháng 7 năm
2004 và phiên bản nháp được ra mắt vào tháng 09 năm 2004.
237
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
238
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
6. Nêu ra các ưu điểm và các nhược điểm của chuẩn ghi hình Video-8 của Sony.
7. Cho biết sự khác biệt giữa các chuẩn ghi hình DVCPRO-25, DVCPRO-50 và DVCPRO-
100.
8. Tín hiệu video 1920x1080i/60 4:4:4, 10 bits/mẫu dài 15 phút được ghi lên băng hình
HDCAM-SR. Tín hiệu video nói trên được nén theo chuẩn MPEG-4 với tỷ lệ nén 2:1. Thành phần
âm thanh bao gồm 12 kênh được mã hóa với 48kHz/24 bits. Tính khối lượng dữ liệu được lưu trên
băng hình trên.
9. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu lên đĩa quang.
10. Trình bày nguyên lý ghi đĩa quang nhiều lớp. Cho biết nguyên nhân chính hạn chế số
lượng lớp ghi trên một mặt đĩa quang?
11. So sánh khác biệt của các loại đĩa quang CD, DVD, HD DVD, Blue-Ray.
12. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu trên hệ thống ổ cứng
13. Trình bày cơ chế làm việc của hệ thống RAID-0 ...5. So sánh ưu và nhược điểm của
từng cấu hình. Cấu hình RAID nào thường được sử dụng trong hệ thống lưu trữ thông tin hình
ảnh?
15. Phân tích phương pháp mã hóa tín hiệu FM stereo sử dụng tín hiệu pilot.
16. Cho biết phương pháp điều chế tín hiệu video trong hệ thống truyền hình quảng bá
(truyền hình analog, phát sóng trên mặt đất).
17. Phân tích ưu điểm và nhược điểm của hệ thống phân phối chương trình sử dụng kênh
truyền vô tuyến.
18. Phân tích chức năng các thành phần trong hệ thống truyền thông tin qua vệ tinh.
19.Tổng hợp các đặc điểm chính của hệ thống truyền tin qua vệ tinh. So sánh với hệ thống
truyền tin viba.
20. Trình bày cấu trúc hệ thống truyền hình cáp CATV. Phân tích ưu điểm và nhược điểm
của hệ thống truyền hình cáp.
21. Trong trường hợp nào nên sử dụng cấu trúc mạng cáp quang và cáp đồng trục hỗn hợp
(Hybrid Fiber Coaxial system) cho hệ thống CATV?
22. Những dịch vụ nào có thể tích hợp trong mạng xDSL.
23. Cho biết những phương pháp nén tín hiệu được sử dụng trong hệ thống IPTV. Yếu tố
nào quyết định chất lượng dịch vụ truyền hình IPTV?
TÀI LIỆU THAM KHẢO
[1.] John Watkinson, “An Introduction To Digital Audio”, Focall Fress, 1994.
[2.] Mark Kahrs, “Applications of Digital Signal Processing to Audio and Acoustics”, Kluwer
Academic Publisher, 2002.
[3.] L. R. Rabiner, R. W. Schafer, “Digital Processing of Speech Signals“, Prentice-Hall, Inc.,
Englewood Cliffs, New Jersey, 1978.
[4.] Yiteng (Arden) Huang Jacob Benesty, “Audio Signal Processing for Next-Generation
Multimedia Communication System”, Kluwer Academic Publisher.
[5.] Davide Rocchesso, “Introduction to Sound Processing”. http://www.sci.univr.it/~rocchess
239
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
[6.] Giáo trình xử lý tín hiệu số - Đại Học Bách Khoa TP. HCM.
[7.] Wai C. Chu, “Speech coding Algorithms”, Wiley-Interscience, 2003
[8.] Website: http://www.dcs.shef.ac.uk/~stu/com326/index.html
[9.] Website: http://www.generation5.org/content/2001/markov.asp
[10.] Anil K. Jain, Fundamentals of Digital Image Processing, Prentice Hall, 1988.
[11.] J. R. Parker, Algorithms for Image Processing and Computer Vision, Wiley, 1996.
[12.] Alan C. Bovik , Handbook of Image and Video Processing, Academic Press, 2000.
[13.] John R. Deller, John H. L. Hansen, John G. Proakis, Discrete-Time Processing of Speech
Signals, Wiley-IEEE Press, 1999.
[14.] R. C. Gonzalez, R. E. Woods, Steven L. Eddins, Digital Image Processing Using
MATLAB, Prentice Hall, 2003.
[15.] R. C. Gonzalez, R. E. Woods Digital Image Processing , Prentice Hall, 2002.
[16.] William K. Pratt, Digital Image Processing: PIKS Inside, Third Edition © 2001 John
Wiley & Sons, Inc.
[17.] Michael Robin & Michel Poulin, Digital Television Fundamental, McCraw-Hill
Companies. Inc.
[18.] Đỗ Hoàng Tiến, Dương Thanh Phương Truyền hình kỹ thuật số. NXB Khoa học và kỹ
thuật, 2004.
[19.] Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, NXB Khoa học và kỹ
thuật, 1999.
MỤC LỤC
CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ XỬ LÝ TÍN HIỆU
1.1 CÁC KHÁI NIỆM VÀ LÝ THUYẾT CƠ BẢN ......................................................... 3
1.1.1 Tín hiệu và phân loại tín hiệu ................................................................................... 4
1.1.2 Tín hiệu rời rạc ......................................................................................................... 4
1.1.2.1 Biểu diễn tín hiệu rời rạc ....................................................................................... 5
1.1.2.2 Các phép biến đổi tín hiệu rời rạc .......................................................................... 5
1.1.3 Phân loại hệ thống .................................................................................................... 6
1.1.3.1 Hệ thống tương tự .................................................................................................. 6
1.1.3.2 Hệ thống rời rạc ..................................................................................................... 8
1.2 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH VÀO MẠNG BĂNG
THÔNG ĐA DỊCH VỤ ............................................................................................................... 11
1.2.1 Đặc điểm của multimedia ......................................................................................... 11
1.2.2 Nén tín hiệu trong mạng đa dịch vụ ......................................................................... 12
1.2.3 Lưu trữ ...................................................................................................................... 12
240
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
241
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
2.3.1.2 Phân tích dự đoán tuyến tính cho tín hiệu động .................................................... 46
2.3.1.3 Giải thuật Levison-Durbin ..................................................................................... 48
2.3.1.4 Giải thuật Leroux-Gueguen ................................................................................... 48
2.3.1.5 So sánh giải thuật Levison-Durbin và Leroux-Gueguen ....................................... 49
2.3.2 Dự đoán tuyến tính trong xử lý thoại........................................................................ 50
2.3.2.1 Mô hình xử lý tín hiệu thoại .................................................................................. 50
2.3.2.2 Cấu trúc của giải thuật dùng mô hình LPC ........................................................... 53
2.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI .......................................................... 54
2.4.1 Các phương pháp mã hoá ......................................................................................... 54
2.4.2 Các tham số liên quan đến chất lượng thoại ............................................................. 55
2.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản................................................. 55
2.4.3.1 Phương pháp đánh giá chủ quan (MOS) ............................................................... 57
2.4.3.2 Các phương pháp so sánh dựa trên mô hình giác quan ......................................... 58
2.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI................................................................... 62
2.5.1 Mô hình thời gian động ............................................................................................ 62
2.5.1.1 Tổng quan .............................................................................................................. 62
2.5.1.2 Giải thuật DTW đối xứng ...................................................................................... 63
2.5.1.3 Giải thuật DTW bất đối xứng ................................................................................ 65
2.5.2 Mô hình chuỗi markov ẩn ......................................................................................... 67
2.5.2.1 Tổng quan .............................................................................................................. 67
2.5.2.2 Định nghĩa mô hình Markov ẩn ............................................................................. 67
2.5.2.3 Ứng dụng HMM trong việc nhận dạng âm thoại liên tục ...................................... 68
2.5.3 Mạng nơron .............................................................................................................. 69
2.5.3.1 Tổng quan .............................................................................................................. 69
2.5.3.2 Phương pháp học của não người ........................................................................... 69
2.5.3.3 Từ neuron người đến neuron nhân tạo................................................................... 70
2.5.3.4 Ứng dụng mạng neuron trong nhận dạng tiếng nói ............................................... 71
CHƯƠNG 3 KỸ THUẬT XỬ LÝ HÌNH ẢNH......................................................... 80
3.1 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ .......................................................................... 80
3.1.1 Khái niệm cơ bản về xử lý ảnh ................................................................................. 80
3.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh...................................................................... 80
3.1.3 Các giai đoạn chính trong xử lý ảnh ......................................................................... 82
3.1.4 Các phần tử của hệ thống xử lý ảnh số ..................................................................... 83
3.1.5 Biểu diễn ảnh số ....................................................................................................... 85
3.1.5.1 Ánh sáng, màu sắc và hình ảnh ............................................................................. 85
3.1.5.2 Màu sắc và các thông số đặc trưng ........................................................................ 88
3.1.5.3 Các định luật trộn màu cơ bản ............................................................................... 89
242
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
243
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
244
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
245