Bao Cao

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Bộ môn truyền thông và mạng máy tính

********************
Bài tập lớn môn học

Truyền thông đa phương tiện
Giáo viên hướng dẫn : PGS-TS Nguyễn Thị Hoàng Lan
Sinh viên thực hiện : Nguyễn Thành Nam B (trưởng nhóm) - 20062201
Đào Việt Phương - 20062418
Vũ Văn Thành - 20062900
Nguyễn Hoài Nam - 20062194
Phạm Ngọc Quang - 20062504
Hoàng Anh Minh - 20062101
Trịnh Ngọc Đức - 2006C078
Nguyễn An Hưng - 20061531
Lớp : Truyền thông và Mạng máy tính – K51

Mục lục
Mục lục................................................................................................................2
CHUẨN MPEG 1 và MPEG 2..................................................................................9
Tổng quan về MPEG ........................................................................................9
MPEG 1.............................................................................................................9
Phân cấp cấu trúc của MPEG 1...................................................................10
Các kĩ thuật nén của MPEG 1......................................................................11
MPEG 2...........................................................................................................16
Sơ đồ nén và giải nén của MPEG 2..............................................................16
Các kĩ thuật nén của MPEG 2......................................................................18
.......................................................................................................................19
Biến đổi DCT được thực hiện trên một một macroblock của ảnh thật đã lấy
mẫu để cho ra một ma trận 8 x 8 với các điểm là các hệ số DCT.Phép DCT
thực hiện chuyển các hệ số không gian sang miền tần số .Mỗi một phần tử
điểm ảnh ở ma trận gốc được biểu diễn bằng một hệ số tần số nào đó. Có
nhiều năng lượng ảnh tập trung ở vùng tần số thấp ( ví dụ như các cảnh bầu
trời, cảnh nền,..), các chi tiết của ảnh lại thể hiện ở tần số cao.Mắt người tập
trung trước hết vào phần tần số thấp của ảnh vì năng lượng tập trung chủ
yếu vào phần này.Nhưng vùng mang hệ số tần số cao lại mang nhiều thông
tin hơn vùng tần số thấp. Vì vậy phép DCT sắp xếp lại thông tin, thuận tiện
cho các bước mã hóa khác sau Các hệ số DCT nói lên sự biến đổi tần số giữa
các mẫu theo chiều ngang và dọc. ...............................................................19
Phép toàn DCT được mô tả như sau :.............................................................19
.......................................................................................................................19
.......................................................................................................................19
.......................................................................................................................20
Lượng tử hoá là quá trình bỏ bớt các hệ số tần số, lượng tử hoá là quy cho
(phân định) độ phân giải cho từng hệ số tần số (số lượng tử bit), sau đó nén
số liệu bằng cánh quy các bit có trọng lượng thấp cho hệ số tầng số cao, điều
này ít có nghĩa đối với người xem..................................................................20
Thực chất của lượng tử hóa là quá trình chia các hệ số F(u,v) cho các hệ số
lớn hơn 1 ở các vị trí tương ứng, trong đó các hệ số ứng với tần số xuất hiện
thấp của phần tử ảnh được chia cho các giá trị nhỏ (10, 11, 12, ...), ứng với
tần số cao được chia cho các giá trị lớn (100, 120, 121, ...) và bỏ đi phần thập
phân (chính là sai số lượng tử hoá). Quá trình lượng tử hoá tạo ra nhiều giá trị
0 trong ma trận các hệ số, và làm nhỏ đi các giá trị còn lại, nhờ vậy số lượng
các bit của dữ liệu được mã hoá giảm đi đáng kể mà không gây ra sự khác
biệt đáng kể dưới góc độ cảm nhận của mắt người so với ảnh gốc ban đầu.. 20
2
Lượng tử hóa được thực hiện bởi công thức sau :..........................................20
T’[u][v] = ....................................................20
Trong đó:........................................................................................................20
T : ma trận DCT.............................................................................................20
T’: ma trận sau lương tử hóa.........................................................................20
QM : ma trận lượng tử hóa được xác định bởi chuẩn MPEG 2.........................20
QS = 40, Quantizer scale...............................................................................20
.......................................................................................................................20
Ảnh hưởng của kĩ thuật nén lên chất lượng hình ảnh.....................................25
So sánh giữa MPEG 1 và MPEG 2....................................................................34
H261 và H262...................................................................................................36
H261..............................................................................................................36
Group of Block (GOB)..................................................................................37
Mô hình mã hóa và giãi mã của H261.........................................................40
Các kĩ thuật nén của H261..........................................................................41
H262..............................................................................................................47
Mô hình mã hóa H262.................................................................................47
Loại ảnh...................................................................................................... 49
Kiểm soát bộ đệm.......................................................................................49
Các profiles và các bậc...............................................................................50
Kết luận...................................................................................................... 53
So sánh H261 và H262...................................................................................54
So sánh giữa MPEG và H26X..........................................................................56
MPEG 4..............................................................................................................58
Giới thiệu chung.............................................................................................58
Phạm vi và tính năng của chuẩn MPEG-4.......................................................58
Kĩ thuật mã hóa Video của chuẩn MPEG4......................................................59
Sự tổ hợp khung hình trong MPEG 4...........................................................59
Cấu trúc bộ mã hóa và giải mã của MPEG 4...............................................61
Các Profiles và Levels trong chuần MPEG-4................................................62
MPEG 4 video.................................................................................................62
Khả năng mở rộng mã hóa các đối tượng Video ........................................64
Khả năng khắc phục lỗi mạnh mẽ..............................................................64
3
Cải thiện sự ổn định với độ phân giải thời gian trễ thấp.............................67
Thuật toán nén của MPEG 4........................................................................68
So sánh MPEG 4 với MPEG 2 .........................................................................71
H264.................................................................................................................74
Tổng quan về H264........................................................................................74
Sự phát triển của H264..................................................................................74
Sơ đồ mã hóa khối của H264.........................................................................75
Các phương pháp nén của H264....................................................................77
Giảm bớt độ dư thừa...................................................................................77
Chọn chế độ, phân chia và chế ngự............................................................78
Nén theo miền thời gian............................................................................79
Nén theo miền không gian..........................................................................80
Các ưu điểm nổi bật của chuẩn nén H264....................................................81
Ưu điểm của nén không gian......................................................................81
Ưu điểm của nén thời gian..........................................................................81
Kích cỡ khối.................................................................................................81
Ưu điểm về lượng tử hoá và biến đổi..........................................................83
Ưu điểm đối với mã hoá entropy................................................................83
So sánh H264 với các chuẩn nén khác...........................................................84
Kết luận về H264...........................................................................................85
KẾT LUẬN..........................................................................................................86
TÀI LIỆU THAM KHẢO.........................................................................................87
Danh mục hình vẽ

Hình 1 Hệ thống giải mã của MPEG...................................................................10
Hình 2 Video Sequence.....................................................................................10
Hình 3 Thành phần độ sáng và thành phần độ màu..........................................11
4
Hình 4 Các khung hình trong chuẩn MPEG........................................................13
Hình 5 Các khung hình trong 1s........................................................................13
Hình 6 Mã hóa Macroblock................................................................................15
Hình 7 SCRs.......................................................................................................16
Hình 8 Sơ đồ mã hóa.........................................................................................17
Hình 9 Sơ đồ giải mã.........................................................................................17
Hình 10 Hai tiêu chuẩn lấy mẫu 4:2:0 và 4:2:2.................................................18
Hình 11 Biến đổi DCT........................................................................................19
Hình 12 Sơ đồ biến đổi DCT...............................................................................20
Hình 13 Một số ví dụ về biến đổi DCT...............................................................20
Hình 14 Sơ đồ mã hóa VLC................................................................................21
Hình 15 Blocks trước và sau khi quét Zig-zag...................................................22
Hình 16 Bit rate control.....................................................................................23
Hình 17 Ba ma trận lượng từ hóa: (a) MQUANT = 2, (b) MQUANT = 4, (c)
MQUANT = 6.....................................................................................................23
Hình 18 Dung lượng dữ liệu nén ứng với lượng tử hóa của hình 17...................24
Hình 19 Hai ma trận lượng tử hóa tiêu chuẩn W(u,v) với MQUANT = 2.............24
Hình 20 Dung lượng dữ liệu nén với ma trận lượng tử hóa trên hình 19............25
Hình 21 MPEG 2 Profiles....................................................................................26
Hình 22 MPEG 2 Levels......................................................................................27
Hình 23 Trật tự của một GOB trong ảnh............................................................37
Hình 24 Cấu trúc của GOB header....................................................................37
Hình 25 Trật tự của macroblock trong một GOB................................................38
Hình 26 Cấu trúc của một lớp Macroblock.........................................................38
Hình 27 Trật tự của blocks trong Macroblock.....................................................39
Hình 28 Sơ đồ mã hóa H261.............................................................................40
Hình 29 Sơ đồ giải mã H261..............................................................................40
Hình 30 Intra frame và Inter frame...................................................................41
Hình 31 Intra-frame coding...............................................................................41
Hình 32 Inter-frame coding...............................................................................42
Hình 33 H261 frame encoder............................................................................43
Hình 34 Phương pháp tìm kiếm Motion Vector..................................................44
Hình 35 Two-Dimensional Logarithmic..............................................................45
5
Hình 36 Hierarchical Motion Estimation............................................................46
Hình 37 (a) Hệ thống mã hóa bù chuyển động DCT..........................................47
Hình 38 Cấu trúc của chuỗi các bit video mã hóa theo chuẩn H262.................48
Hình 39 (a)Bộ mã hóa video SNR......................................................................51
Hình 40 (a) Bộ mã hóa video sử dụng profile đánh giá không gian...................52
Hình 41 H262 levels: Giới hạn kích thước ảnh, tốc độ frame, tốc độ bit, kích
thước bộ đệm....................................................................................................53
Hình 42 Sự tổ hợp khung hình trong MPEG-4....................................................60
Hình 43 Cấu trúc của bộ mã hoá và giải mã video MPEG-4...............................61
Hình 44 Sơ đồ cấu trúc giải mã video MPEG-4..................................................61
Hình 45 The VLBV Core and the Generic MPEG-4 Coder....................................63
Hình 46 Phân loại các hình ảnh MPEG-4 và Video Coding thuật toán và công cụ
..........................................................................................................................67
Hình 47 Sơ đồ khối cơ bản của MPEG-4 Video coder.........................................68
Hình 48 Ví dụ về Sprite mã của chuỗi Video.....................................................70
Hình 49 Sơ đồ mã hóa khối của H264...............................................................76
Hình 50 Sơ đồ mã hóa H264.............................................................................76
Hình 51 Sơ đồ giải mã H264..............................................................................77
Hình 52 Multiple Reference Frames...................................................................78
Hình 53 Profiles của H264.................................................................................79
Hình 54 Sơ đồ khối mã hoá MPEG, đường đứt nét đặc trưng cho phần bổ sung
của H264...........................................................................................................80
Hình 55 H264 có thể phân chia thành phần chói của từng MacroBlock............82
6
7
LỜI MỞ ĐẦU
Hiện nay, chúng ta đang sống trong thời đại khoa học kĩ thuật và công nghệ
cao, con người đã đạt nhiều thành tựu trong rất nhiều lĩnh vực, đặc biệt là trong công
nghệ thông tin. Truyền thông đa phương tiện là một một ngành trong công nghệ
thông tin, có mặt ở hầu hết mọi nơi, đóng vai trò quan trọng trong việc truyền tải
thông tin, xóa nhòa các khoảng cách địa lý và mang lại cho con người nhiều lợi ích
to lớn.
Trong truyền thông đa phương tiện, nén video là một công nghệ vô cùng quan
trọng. Tại sao ta phải nén video? Những video gốc với dung lượng lớn không thể
truyền tải nếu không có nén. Tùy theo nhu cầu và các kĩ thuật thực hiện, chúng ta đã
phát minh ra nhiều chuẩn nén video khác nhau, phù hợp với nhiều mục đích sử
dụng.
Có các loại chuẩn nén video nào, chúng hoạt động ra sao, chất lượng hình ảnh
và các ứng dụng của chúng trong thực tế như thế nào, sự khác biệt giữa chúng như
thế nào, đây chính là chủ đề mà chúng em sẽ tìm hiểu trong tiểu luận này:
“So sánh các chuẩn nén video trong truyền thông đa phương tiện.”
Tiểu luận này của chúng em sẽ được chia thành 4 phần:

• Chuẩn Mpeg 1 và Mpeg 2, phần này sẽ trình bày về các kĩ thuật nén, ảnh
hưởng của phương nén tới chất lượng nén video, và một số so sánh giữa 2
chuẩn nén này.
• Chuẩn H261 và H262, phần này sẽ trình bày về các kĩ thuật nén, ảnh hưởng
của phương pháp nén tới chất lượng nén video, và so sánh giữa kĩ thuật nén
của dòng H26X (ITU-T) với dòng MPEG (ISO).
• Chuẩn MPEG 4, phần này sẽ trình bày về các khía cạnh của chuẩn nén
MPEG 4 và so sánh phương pháp nén giữa MPEG 4 với MPEG 1 và MPEG
2.
• Phần cuối cùng là chuẩn H264, tìm hiểu về các kĩ thuật, các cải tiến trong
phương pháp nén của H264 với các chuẩn khác, một số so sánh giữa H264
với MPEG và các chuẩn H26X khác.
Cách thực hiện mỗi phần trên do các bạn thực hiện phần đó quyết định tùy theo
hướng tìm hiểu của từng người.
Chúng em xin cảm ơn cô Nguyễn Thị Hoàng Lan đã giúp chúng em hoàn
thành tiểu luận này.
8
Nhóm 4 - lớp Truyền thông và mạng máy tính K51
CHUẨN MPEG 1 và MPEG 2
Tổng quan về MPEG
Chuẩn MPEG (moving picture experts group) là chuẩn nén, giải nén và đồng
bộ hóa các tín hiệu video và audio. Với các tỉ lệ nén 1.2 Mbps, với độ phân giải
352x240 quét 30Hz thông thường thì chất lượng video có thể so sánh được với
chuẩn VHS
Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữ
liệu lớn hơn mà không cần thay đổi độ phân giải. MPEG không phải là công cụ nén
đơn lẻ mà ưu điểm của nén MPEG chính là ở chỗ nó có một tập hợp các công cụ mã
hóa chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục vụ cho
một loạt các ứng dụng khác nhau.
Các chuẩn MPEG hiện có gồm:
• MPEG-1 là chuẩn lưu trữ và phục hồi ảnh động và Audio trong lưu trữ
Media. MPEG-1 có thể nén tín hiêu video tới 1.5 Mbps với chất lượng VHS
và âm thanh lập thể (stereo audio) với tốc độ 192 bps. NÓ được dùng để lưu
trữ video và âm thanh trên CD-ROM.
• MPEG-2 là chuẩn cho TV số.
• MPEG-4 là chuẩn cho các ứng dụng Multmedia. MPEG-4 trở thành 1 tiêu
chuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ họa và video
tương tác hai chiều (Games, Video conferencing) và các ứng dụng
Multimedia tương tác hai chiều (world wide web hoặc các ứng dụng nhằm
phân phát dữ liệu video như truyền hình cáp, internet video…). MPEG-4 đã
trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phân phố và truy
cập vào các hệ thống video. Nó đã góp phần giải quyết vấn đề dung lượng
cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đường truyền tín
hiệu video hoặc kết hợp cả hai vấn đề trên.
• MPEG-7 chứa đặc tả thông tin, giao diện cho việc tìm kiếm thông tin
MPEG-1 và MPEG-2 đã được chuẩn hóa trong khi MPEG-4 và MPEG-7 đang
được phát triển.
MPEG 1
Dữ liệu MPEG gồm 2 lớp:

• Lớp hệ thống (System layer) chứa thông tin về thời gian (Timing) và các
thông tin khác cần thiết cho việc tách các dòng dữ liệu Video và Audio đồng
thời đồng bộ hóa Video và Audio trong quá trình phát (Playback)
9
• Lớp dữ liệu nén (Compress Layer) bao gồm các dòng dữ liệu Video và
Audio.
Hình 1 Hệ thống giải mã của MPEG
Hệ thống giải mã sẽ tách các thông tin về thời gian từ dữ liệu hệ thống MPEG
và gửi nó đến các thiết bị hệ thống khác (việc đồng bộ hóa sẽ cần thêm nhiều thông
tin về thời gian). Hệ thống giải mã cũng tách các dữ liệu Video và Audio từ dữ liệu
ban đầu, sau đó gửi chúng đến bộ giải mã thích hợp.
Bộ giải mã Video (Video Decoder) và Audio (Audio Decoder) giải nén các
dòng dữ liệu Video và Audio. Hầu hết các sơ đồ nén MPEG đều dùng kỹ thuật lấy
mẫu bổ xung (subsampling) và lượng tử hóa (Quantization) trước khi mã hóa. Lấy
mẫu bổ xung nhằm mục đích để làm giảm kích thước khung hình đầu vào theo cả
chiều ngang và chiều dọc, như vậy sẽ giảm số lượng các điểm ảnh trước mã hóa.
Trong một số trường hợp người ta còn lấy mẫu bổ xung theo thời gian để giảm số
lượng các khung hình trước khi mã hóa. Đây được xem như là một kỹ thuật rất cơ
bản nhằm loại bỏ sự dư thừa dựa vào khả năng lưu ảnh của mắt người cảm thụ.
Phân cấp cấu trúc của MPEG 1

Chuẩn MPEG định nghĩa một kiểu phân cấp cấu trúc trong dữ liệu Video như
sau:
• Video Sequence (Cảnh): bắt đầu với một Sequence Header, bao gồm một
hoặc một nhóm khung hình và kết thúc với mã End-of-sequence.
Hình 2 Video Sequence
• GOP (Group of picture): một dãy liên tiếp các ảnh (picture) trong cảnh.
• Frame/Picture (khung hình): là thành phần mã hóa chính, thường chúng ta có
thể phân biết sự thay đổi về độ sáng của ảnh (Brightness) tốt hơn sự thay đổi
10
về màu (Chromiance), do đó trước hết các sơ đồ nén MPEG sẽ tiến hành

chia khung hình thành các thành phần độ sáng Y và thành phần độ màu Cb,
Cr; một khung hình sẽ gồm có ba ma trận ứng với các thành phần về độ sáng
Y và độ màu Cb, Cr
Hình 3 Thành phần độ sáng và thành phần độ màu
Ma trận Y có số hàng và cột bằng nhau (ma trận vuông). Ma trận Cb và Cr có

số hàng và cột bằng nửa ma trận Y. Cứ 4 giá trị Y lại có 2 giá trị kết hợp một
của Cb và một của Cr (Vị trí của giá trị Cb và Cr là tương đương).
• Slice: Dãy các Macroblock, thứ tự của Macroblock bên trong Slice được xác
định từ trái qua phải, từ trên xuống dưới. Slice rất quan trong trong việc định
lỗi. Nếu dòng dữ liệu (Bitstream) có chứa lỗi, bộ giải mã có thể bỏ qua và
tiếp tục ở Slice kế tiếp. Nhiều slice trên dòng dữ liệu cho phép che giấu lỗi tốt
hơn và được dùng để cải thiện chất lượng hình ảnh.
• Macroblock: 16 pixel trong 16 hàng của thành phần Y tương ứng với 8 pixel
trong 8 hàng của thành phần Cb và Cr. Một Macroblock chứa 4 Y Block với
1 Cb Block và 1 Cr Block với các con số ứng với thứ tự trong các dòng dữ
liệu.
• Block: là tập hợp 8 pixel trong 8 hàng các giá trị của thành phần Y hoặc Cb,
C
Các kĩ thuật nén của MPEG 1
Nén MPEG là sự kết hợp hài hóa của 4 kỹ thuật cơ bản: Preprocessing (tiền
xử lý), Temporal Prediction (đoán trước sự chuyển động của các frame ở bộ mã
hóa), Motion compensation (bù chuyển động ở bộ giải mã), Quantization Coding
(lượng tử hóa).
Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệu
Video và những thông tin khó mã hóa những không quan trọng cho sự cảm thụ của
mắt người. Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các khung hình trong
một cảnh video (video sequence) dường như có quan hệ mật thiết với nhau theo thời
gian: Mỗi khung hình tại mỗi thời điểm nhất định sẽ có nhiều khả năng giống với
các khung hình đững ngay trước và ngay sau nó. Các bộ mã hóa sẽ tiến hành quét
11
lần lượt từng phần nhỏ trong mỗi khung hình gọi là Macroblock, sau đó nó sẽ phát
hiện Macroblock nào không thay đổi từ khung hình này đến khung hình khác. Bộ
mã hóa sẽ tiên đoán trước sự xuất hiện của các Macroblock khi biết vị trí và hướng
chuyển động của nó. Do dó chỉ những sự thay đổi giữa các Macroblock trong khung
hình hiện tại và các Macroblock được tiên đoán mới được truyền tới bên phía thu.
Phía thu (bộ giải mã) đã lưu trữ sẵn những thông tin mà không thay đổi từ khung
hình này tới khung hình khác trong bộ nhớ đệm của nó và chúng được dùng để điền
thêm một cách đều đặn vào các vị trí trống trong khung hình được khôi phục.
Nén tín hiệu video được thực hiện nhờ việc loại bỏ cá sự dư thừa về không
gian (Spatial Coding) và thời gian (Temporal Coding). Trong MPEG, việc loại bỏ
dư thừa về thời gian được thực hiện nhờ sử dụng các tính chất giống nhau giữa các
khung hình liên tiếp. Chúng ta có thể sử dụng tính chất này để tạo ra các khung hình
mới nhờ vào những thông tin từ những khung hình mới nhờ vào những thông tin từ
những khung hình đã gửi trước nó. Do vậy ở phía bộ mã hóa chỉ cần gửi những
khung hình có thay đổi so với những khung hình trước, sau đó dùng phương pháp
nén về không gian để loại bỏ sự dư thừa về không gian trong chính những khung
hình sai khác này. Nén về không gian dựa trên nguyên tắc là phát hiện sự giống
nhau của các điểm ảnh lân cận nhau.
Các kiểu khung hình trong MPEG 1

Chuẩn MPEG định nghĩa cụ thể 3 kiểu khung hình: I-frame, B-frame, P-frame.
• I-frame (Intra frame - khung hình độc lập): I-frame là khung hình được mã
hóa độc lập mà không cần tham khảo tới các khung hình khác. Hiệu quả nén
tín hiệu đạt được do loại bỏ sự dư thừa về không gian (không có yếu tố thời
gian tham gia quá trình). I-frame được dùng một cách tuần hoàn để tạo các
điểm tựa cho dòng dữ liệu trong quá trình giải mã. I-frame cung cấp khả năng
truy xuất ngẫu nhiên các điểm trong dữ liệu video nén và cung cấp độ nén
vừa phải được dùng với 2 bit mỗi pixel.
• P-frame (Predicted frame - khung hình dự đoán): P-frame có thể sử dụng các
I-frame hay P-frame ngay trước nó để bù chuyển động. Công nghệ này gọi là
công nghệ dự đoán tiếp (Forward prediction). Mỗi Macroblock trong P-
frame có thể được mã hóa hóa theo kiểu tiên đoán (Predicted) hoặc được mã
hóa độc lập (intra-coded)Cũng như I-frame, P-frame được dùng như một
tham chiếu cho việc dự đoán B-frame và P-frame kế tiếp. P-frame dùng để bù
chuyển động và cũng cấp nhiều khả năng nén hơn I-frame do sử dụng cả nén
không gian và thời gian. P-frame có thể sinh ra các lỗi do P-frame được dự
đoán từ I-frame hoặc P-frame trước đó.
12
• B-frame (Bidirectional frame - khung hình hai hướng): B-frame là các khung
hình sử dụng các khung hình trong quá khứ và tương lại để tham khảo. B-
frame cung cấp khả năng nén lớn hơn và không sinh ra lỗi do nó không được
dùng cho việc tham chiếu.
Hình 4 Các khung hình trong chuẩn MPEG
Thuật toán MPEG cho phép mã hóa để chọn ra các tần số và vị trí của I-frame.
Việc lựa chôm này dựa vào sự cần thiết của ứng dụng trong truy xuất ngẫu nhiên và
vị trí của cảnh. Đối với các ứng dụng mà việc truy xuất ngẫu nhiên quan trọng thì I-
frame luôn được sử dụng 2 lần một giây.
B-frame có thể sử dụng các ảnh I-frame hoặc P-frame phía trước hoặc phía sau
nó cho việc bù chuyển động và do vậy cho kết quả nén cao nhất. Mỗi khối trong B-
frame có thể được tiên đoán theo chiều ngược, xuôi, cả hai hướng hoặc được mã
một cách độc lập. Để có thể tiên đoán ngược từ một khung hình phía sau nó, bộ mã
hóa sẽ tiến hành sắp xếp lại các khung hình từ thứ tự xuất hiện một cách tự nhiên
sang một thứ tự khác của các khung hình trên đường truyền. Do vậy từ đầu ra của bộ
mã hóa, B-frame được truyền sau các khung hình dùng để tham khảo ở phía trước và
phía sau của nó. Điều này sẽ tạo độ trể do phải sắp xếp lại thông tin, độ trễ này lớn
hay nhỏ là tùy thuộc vào số các B-frame liên tiếp nhau được truyền
Hình 5 Các khung hình trong 1s
Bộ mã hóa chọn số B-frame nằm giữa mỗi cặp tham chiếu (I-frame hoặc P-
frame). Việc lựa chọn này dựa vào các yếu tố như khối lượng bộ nhớ trong bộ mã
hóa và đặc trưng của thành phần được mã hóa. Chẳng hạn một dãy khung hình
thường có hai khung hình hai hướng xen giữa các khung hình tham chiếu.
13
Motion compensation
Bù chuyển động là công nghệ cải tiến việc nén P-frame và B-frame bằng việc
loại bỏ dư thừa, thuật toán bù chuyển động làm việc ở mức Macroblock. Khi
macroblock được bù chuyển động, file nén chứa các thông tin sau:
• Vector không gian giữa Macroblock tham chiếu và Macroblock được mã hóa
(Motion vertor).
• Sự khác nhau giữa Macroblock tham chiếu và Macroblock được mã hóa
(Error Term).
Kỹ thuật tiên đoán bù chuyển động được sử dụng như là một trong những công
cụ mạnh để làm giảm sự dư thừa về không gian giữa các khung hình. Khái niệm về
bù chuyển động của các khung hình tức là các khung hình thành phần trong cảnh
video sẽ được thay thế gần đúng. Kỹ thuậ tiên đoán bù chuyển động giữa các khung
hình được xem như là biện pháp để hạn chế bớt các thông số của chuyển động bởi
việc dùng các Vector chuyển động để mô tả sự dịch chuyển các điểm ảnh. Kết quả
tiên đoán tốt nhất của một điểm ảnh là dựa trên sự tiên đoán bù chuyển động từ một
khung hình đã mã hóa được truyền phía trước của nó. Cả hai thông số, sai dố chuyển
động (biên độ) và các vector chuyển động (hướng chuyển động) đều được truyền tới
phía bên nhận. Tuy nhiên do có mối quan hệ tương quan chặt chẽ giữa các điểm ảnh
về không gian (trùng về không gian), một vector chuyển động có thể được dùng cho
một khố các điểm ảnh gồm các pixel lân cận nhau (MPEG-1 và MPEG-2 dùng các
khối 16x16 pixels).
Không phải tất cả các thông tin trong khung hình có thể được dự đoán từ
khung hình trước. Chằng hạn một cảnh với của phòng mở: các chi tiết của căn
phòng không thể dự đoán được từ các khung hình trước (khi cửa đóng). Trong
trường hợp này Macroblock trong P-frame không thể được miêu tả hiệu quả bởi bù
chuyển động.
Sự khác nhau giữa bù chuyển động của B-frame và P-frame là các Macroblock
trong P-frame chỉ được tham chiếu từ các khung hình trước còn các Macroblock
trong B-frame được mã hóa phối hợp giữa các khung hình tham chiếu trước và sau
nó.
Mã hóa trong Mpeg 1
4 kiểu mã hóa cho mối Macroblock trong B-frame:

• Intra Coding: không bù.
• Forward Prediction: khung hình trước được dùng để tham chiếu.
• Backward Prediction: khung hình tiếp theo được dùng để tham chiếu.
• Bidirection Prediction: cả hai khung hình trước và sau đều được sử dụng.
14
Backward Prediction có thể được sử dụng để dự đoán những vị trí không xuất
hiện trong khung hình trước. Các phương pháp dùng để tiên đoán các Macroblock
trong cùng một khung hình cũng có thể không giống nhau. Hai trường (fields) trong
cùng một Macroblock cũng có thể được tiên đoán theo hai cách khác nhau dùng các
vector độc lập nhau hoặc có thể dùng chung một vector. Đối với mỗi Macroblock,
bộ mã hóa sẽ chon các phương pháp tiên đoán thích hợp, cố gắng đảm bảo chất
lượng ảnh tốt nhất khi được giải mã. Các thông số liên quan tới việc chon phương
pháp tiên đoán cũng được truyền tới bộ giải mã cùng với dự đoán sai số nhằm khôi
phục gần chính xác khung hình gốc.
Thuật toán mã hóa biến đổi MPEG gồm các bước:

• Biến đổi Cosine rời rác (DCT).
• Lượng tử hóa.
• Mã hóa dọc (Run-length Encoding).
Cả Block ảnh và Block dự đoán lỗi đều có không gian dư thừa rất lớn. Để giảm
sự dư thừa, thuật toán MPEG biến đổi Block từ miền không gian sang miền tần số
với biến đổi Cosine.
Tiếp theo, thuật toán lượng tử hóa các hệ số tần số. Lượng tử hóa là quá trình
làm xấp xỉ mỗi hệ số tần số thành các số hữu hạn. Bộ mã hóa chọn mã hóa trận
lượng tử hóa xác định mỗi hệ số tần số trong Block được lượng tử hóa như thế nào.
Hình 6 Mã hóa Macroblock
Sự kết hợp giữa DCT và lượng tử hóa cho kết quả là rất nhiều tần số có giá trị
0, nhất là các hệ số có tần xuất lớn. Để tận dụng tối đa điều này, các hệ số được tổ
chức theo đường zigzag, sau đó các hệ số được chuyển thành dãy các cặp chỉ số biên
độ, mỗi cặp biểu thị số lượng các hệ số 0 và biện độ của các hệ số khác 0. Các cặp
chỉ số biên độ sau đó được mã hóa bằng các mã có độ dài thay đổi, các mã có độ dài
ngắn hơn cho các cặp hay xuất hiện còn các mã dài hơn cho các cặp ít xuất hiện hơn.
Một vài Macroblock cần mã hóa chính xác hơn. Để giải quyết sự không đồng
đều giữa các block, thuật toán MPEG cho phép khối lượng lượng tử có thể thay đổi
cho mỗi Macroblock. Cơ chế này có thể được dùng để cung cấp sự điều chỉnh tỉ lệ
Bit rate (tỉ lệ truyền bit).
Chuẩn MPEG cung cập cơ chế timing để đảm bảo đồng bộ giữa video và
audio. Chuẩn bao gồm hai tham số SCR (system clock reference) và PTS
15
(Presentation Timestamp). Theo lý thuyết của MPEG, SCR chạy ở mức 90kHz. Các
giá trị SCR và PTS được mã hóa trong dòng dữ liệu MPEG sủ dụng 33 bit.
SCR là ảnh của xung nhịp bộ mã hóa. Trong quá trình giải mã, các giá trị này
được dùng để cập nhật vào bộ đếm xung nhịp CL480.
Hình 7 SCRs
PTS là những mẫu của xung nhịp bộ mã hóa được kết hợp giữa bộ phát video
và Audio. Bộ phát giải mã cảnh Video hoặc Audio. PTS thể hiện thời gian khung
hình Video được hiển thị hoặc thời gian bắt đầu phát đoạn Audio.
Bộ giải mã cũng giữ hoặc phát lại các khung. Nếu PTS sớm hơn (có giá rị nhỏ
hơn) SCR hiện thời thì bộ giải mã sẽ bỏ qua khung hình. Nếu PTS chậm hơn (có giá
trị lớn hơn) SCR hiện tại, bộ giải mã sẽ lặp lại khung hình.
MPEG 2
MPEG 2 là chuẩn nén trong bộ tiêu chuẩn MPEG dùng để mã hóa luồng dữ liệu
video kết hợp với các thông tin về âm thanh. Đây là phương pháp mã hóa dữ liệu có
tổn hao cho phép lưu trữ và truyền phim ảnh trên nền hệ thống và băng thông hiện
thời.
Chuẩn nén MPEG 2 được nhóm MPEG phát triển tiếp sau chuẩn nén MPEG 1,
nó được mở rộng và kế thừa nhằm mục đích hỗ trợ việc truyền video số tốc độ bít
lớn hơn 4 Mb/s, bao gồm các ứng dụng DSM (phương tiện lưu trữ số), các hệ thống
truyền hình hiện tại (PAL, NTSC, SECAM), cáp, thu lượn tin tức điện tử, truyền
hình trực tiếp từ vệ tinh, truyền hình mở rộng (EDTV), truyền hình độ phân giải cao
(HDTV),…
Sơ đồ nén và giải nén của MPEG 2
Dưới đây là sơ đồ nén và giải nén của chuẩn MPEG 2:
16
Hình 8 Sơ đồ mã hóa
Hình 9 Sơ đồ giải mã
17
Các kĩ thuật nén của MPEG 2
Video filtering
Là kỹ thuật nén tổn hao dùng để giảm dư thừa không gian giữa các khối
macroblock trong một frame. Đây là công đoạn xử lý các frame nguyên gốc trước
khi thực hiện biến đổi DCT. Các frame hệ màu RBG sẽ được chuyển sang hệ màu
YCbCr , công thức chuyển đổi :
Y= 0.299R + 0.587G + 0.114B

Cb = 0.296 (B-Y ) +0.5 ; V = 0.435 ( R-Y ) =0.5
Việc chuyển từ hệ RGB sang YCbCr loại bỏ được cở bản ‘mutual

redundancies’ . Trong thực tế, hệ màu RGB cho chất lượng hình ảnh tôt hơn nhưng
lại yêu cầu không gian lớn để lưu trữ và truyền file.
Sau đó tín hiệu sẽ được lấy mẫu và số hóa, MPEG 2 chọn 2 tiêu chuẩn lấy mẫu
là 4:2:0 và 4:2:2
Hình 10 Hai tiêu chuẩn lấy mẫu 4:2:0 và 4:2:2
18
DCT
Hình 11 Biến đổi DCT
Biến đổi DCT được thực hiện trên một một macroblock của ảnh thật đã lấy mẫu để
cho ra một ma trận 8 x 8 với các điểm là các hệ số DCT.Phép DCT thực hiện chuyển
các hệ số không gian sang miền tần số .Mỗi một phần tử điểm ảnh ở ma trận gốc
được biểu diễn bằng một hệ số tần số nào đó. Có nhiều năng lượng ảnh tập trung ở
vùng tần số thấp ( ví dụ như các cảnh bầu trời, cảnh nền,..), các chi tiết của ảnh lại
thể hiện ở tần số cao.Mắt người tập trung trước hết vào phần tần số thấp của ảnh vì
năng lượng tập trung chủ yếu vào phần này.Nhưng vùng mang hệ số tần số cao lại
mang nhiều thông tin hơn vùng tần số thấp. Vì vậy phép DCT sắp xếp lại thông tin,
thuận tiện cho các bước mã hóa khác sau Các hệ số DCT nói lên sự biến đổi tần số
giữa các mẫu theo chiều ngang và dọc.
Phép toàn DCT được mô tả như sau :
19
Lượng tử hóa
Hình 12 Sơ đồ biến đổi DCT
Lượng tử hoá là quá trình bỏ bớt các hệ số tần số, lượng tử hoá là quy cho (phân
định) độ phân giải cho từng hệ số tần số (số lượng tử bit), sau đó nén số liệu bằng
cánh quy các bit có trọng lượng thấp cho hệ số tầng số cao, điều này ít có nghĩa đối
với người xem
Thực chất của lượng tử hóa là quá trình chia các hệ số F(u,v) cho các hệ số lớn hơn
1 ở các vị trí tương ứng, trong đó các hệ số ứng với tần số xuất hiện thấp của phần tử
ảnh được chia cho các giá trị nhỏ (10, 11, 12, ...), ứng với tần số cao được chia cho
các giá trị lớn (100, 120, 121, ...) và bỏ đi phần thập phân (chính là sai số lượng tử
hoá). Quá trình lượng tử hoá tạo ra nhiều giá trị 0 trong ma trận các hệ số, và làm
nhỏ đi các giá trị còn lại, nhờ vậy số lượng các bit của dữ liệu được mã hoá giảm đi
đáng kể mà không gây ra sự khác biệt đáng kể dưới góc độ cảm nhận của mắt người
so với ảnh gốc ban đầu.
Lượng tử hóa được thực hiện bởi công thức sau :
T’[u][v] =
Trong đó:
T : ma trận DCT
T’: ma trận sau lương tử hóa
QM : ma trận lượng tử hóa được xác định bởi chuẩn MPEG 2
QS = 40, Quantizer scale
Hình 13 Một số ví dụ về biến đổi DCT
20
Mã hóa VLC
Hình 14 Sơ đồ mã hóa VLC
Còn gọi là mã hoá Huffman hay mã hoá entropy. Kỹ thuật này quan tâm đến
khả năng có thể xảy ra của các thông tin giống nhau trong một ảnh, gán các từ mã
ngắn (số bit nhỏ) cho các giá trị có khả năng xuất hiện cao và các từ mã dài (số bit
lớn) để mã hoá những giá trị ít khả năng xảy ra. Kỹ thuật này còn được kết hợp với
kỹ thuật mã hóa chiều dài chạy RLC : : tạo ra các mã đặc biệt để đánh dấu sự bắt
đầu và kết thúc của một chuỗi các giá trị lặp lại, với kỹ thuật này chỉ có các giá trị
khác 0 được mã hoá song song với các giá trị mẫu Zero suốt theo dòng quét.Việc kết
hợp 2 kỹ thuật sẽ làm giảm đáng kể số hệ số cần mã hóa.Bộ mã hóa sẽ quét zic-zắc
khối cần mã hóa để tạo ra danh sách các hệ số, sau đó sử dụng kỹ thuật RLC để làm
giảm số hệ số cần mã hóa trước khi tiến hành mã hóa bằng kỹ thuật VLC.
Ví dụ : cho một DCT
Sau khi quét zic-zắc sẽ tiến hành nhóm các hệ số : (12), (6), (6), (0,4), (3), (0,
…,0). Các nhóm này sẽ được mã hóa :
21
Như vậy, từ 64 hệ số, chúng ta chỉ cần mã hóa và truyền đi 6 hệ số
Hình 15 Blocks trước và sau khi quét Zig-zag
Motion – Compensated Inter – Frame Prediction
Phần này tương tự như bên MPEG 1, kỹ thuật này được sử dụng để nén các
ảnh P,B có tác dụng làm giảm các dư thừa thời gian giữa các frame.Frame P luôn
được dự đoán tiến (dự đoán chđ dựa trên frame đã được mã hóa ), frame B dùng dự
đoán 2 chiều (dự đoán chuyển động dựa trên ảnh đã được mã hóa và sắp được mã
hóa). Phương pháp dự đoán cuyển động gồm 2 giai đoạn :
• Đánh giá chuyển động để để xác định vector chuyển động giữa các khối
• Bù chuyển động để xác định ảnh bù sai số dự đoán
Phương pháp đánh giá chuyển động dựa trên nguyên tắc: mỗi khối trong frame
hiện tại tìm khối phù hợp nhất trong khối frame được tham chiếu .Vecto chuyển
động chính là vecto có tọa độ tính từ tâm khối hiện tại đến tâm khối tham chiếu
Như vậy, thay vì phải mã hóa ảnh gôc với tỉ lệ bit lớn, chúng ta chỉ cần mã hóa
vecto chuyển động và ảnh bù chuyển động.
Bit rate control
22
Hình 16 Bit rate control
Bit rate control dùng để quản lý bộ đệm,kiểm soát quá trình lượng tử hóa.Đây
là công đoạn dùng để kiểm soát chất lượng video cũng như bit rate đầu ra thông qua
kiểm soát quá trình lượng tử hóa và quản lý dữ liệu nén trong bộ đệm
Chìa khoá để điều khiển tốc độ truyền là trật tự dữ liệu đã nén trong bộ đệm
(Buffer).Việc nén có thể được tiến hành với việc loại bỏ một vài thông tin đã được
lựa chọn. Ảnh hưởng nhỏ nhất đối với chất lượng toàn bộ khung hình có thể đạt
được bằng cách bỏ bớt các thông tin chi tiết. Điều này đảm bảo giới hạn tỉ lệ nén dữ
liệu trong khi chất lượng của khung hình suy giảm tối thiểu
Lượng tử hóa là kỹ thuật nén có tổn hao, kiểm soát quá trình này có thể kiểm
soát được chất lượng video đầu ra. Con số các bit được mã hoá thể hiện khối ảnh
phụ thuộc rất nhiều vào kết quả của quá trình lượng tử hoá - ở đây là các giá trị
QF(u,v). Đây là cơ sở để hình thành cơ chế để kiểm soát tốc độ dòng bit hoặc chất
lượng ảnh sau nén, dựa trên nguyên tắc kiểm soát/thay đổi các giá trị QF(u,v) thông
qua việc thay đổi giá trị của:
• Mức lượng tử hóa QS (MQUANT)
• Ma trận lượng tử hóa QM
Hình 17 Ba ma trận lượng từ hóa: (a) MQUANT = 2, (b) MQUANT = 4, (c) MQUANT = 6
Hình trên biểu diễn tương quan của các hệ số lượng tử hóa khi sử dugj 3 mức
lượng tử hóa khác nhau : 2,4,6. Để thấy rõ sự khác biệt về chất lượng nén khi sử
dụng các mức nén khác nhau ta theo dõi sơ đồ sau :
23
Hình 18 Dung lượng dữ liệu nén ứng với lượng tử hóa của hình 17
Ở hình trên, đường màu xanh thể hiện quá trình nén không tổn thất ứng W(u,v) =1
đối với tất cả.
Dạng răng cưa của các biểu đồ số bit trung bình trên hình 18 là kết quả của quá
trình bù chuyển động, trong đó các giá trị cao hơn (ở đỉnh răng) là số bit thể hiện các
phần tử ảnh I, kết quả của nén trong ảnh (intra pictures). Các giá trị nhỏ hơn liền kề
là số bit thể hiện các phần tử ảnh dự báo trên cơ sở bù chuyển động và các ảnh được
mã hóa từ quá trình tham chiếu ảnh I (ảnh P và B). Tại đây chúng ta cũng nhận thấy
có sự dao động của số lượng bit trung bình trên mỗi phần tử ảnh trong phạm vi vài
chục khung hình. Đây chính là tác động của cơ chế kiểm soát duy trì chất lượng ảnh
để thích nghi với độ phức tạp khác nhau từ cảnh này sang cảnh khác. Cơ chế này
làm việc ngay khi có sự thay đổi đột ngột của từng cảnh trên video, làm mất khả
năng của thuật toán bù chuyển động. Khi đó mã hóa MPEG-2 có thể mã hóa từng
khối ảnh như là một phần tử nén trong ảnh (Intra Frame Compression).
Một khả năng khác để thay đổi giá trị QF(u,v) là thay đổi ma trận lượng tử hóa,
minh họa ta theo dõi 2 hình sau, mức lượng tử hóa là giống nhau:
Hình 19 Hai ma trận lượng tử hóa tiêu chuẩn W(u,v) với MQUANT = 2
(a)W(u,v) với độ dốc thoải (b) W(u,v) với độ dốc lớn
24
Hình 20 Dung lượng dữ liệu nén với ma trận lượng tử hóa trên hình 19
Cả hai phương pháp kiểm soát quá trình lượng tử hóa trên - như bất kỳ thuật
toán nén có tổn thất nào khác - khi các giá trị MQUANT và W(u,v) đạt đến các giá
trị cực trị sẽ tạo ra các hiệu ứng phụ (artifact) mà mắt ngưòi có thể nhận biết được.
Các hiệu ứng phụ này khác nhau về bản chất trong hai trường hợp, và đều làm suy
giảm nhiều chất lượng ảnh. Khi tăng quá mức giá trị MQUANT (hình 17) sẽ dẫn
đến hình thành các khối 8x8 phần tử trên các ảnh thu được. Đối với trường hợp thứ
hai (hình 19), khi tăng quá mức độ dốc của ma trận W(u,v) sẽ dẫn
đến hiện tượng nhiễu tần số cao, được gọi là nhiễu "muỗi”, làm suy giảm độ nét và
xuất hiện hiện tượng “méo” đường chéo trong các hình. Các hiệu ứng này càng lớn
khi kích thước ảnh càng rộng, yêu cầu độ phân giải ảnh cao (trường hợp điện ảnh
số). Quá trình cài đặt chế độ kiểm soát lượng tử hoá trong các thiết bị nén MPEG-2
cần xác định phạm vi các giá trị cho phép của Mức lượng tử hoá MQUANT hay Độ
dốc của ma trận W(u,v) để không xuất hiện các hiệu ứng phụ nói trên. Phạm vi các
giá trị này sẽ thay đổi và phụ thuộc vào từng trường hợp ứng dụng cụ thể
(multimedia trên mạng, truyền hình, telecine hay điện ảnh số...).
Bit rate là yếu tố quan trọng quyết định đến chất lượng video đầu ra. MPEG 2
hỗ trợ nhiều ứng dụng đầu ra với bit rate khác nhau. Chúng ta sẽ tìm hiểu vấn đề này
ở phần sau.
Ảnh hưởng của kĩ thuật nén lên chất lượng hình ảnh
Như chúng ta đã biết, MPEG 2 được phát triển dựa trên MPEG 1, các kỹ thuật
nén, sơ đồ nén về cơ bản là hoàn toàn giống MPEG 1. Tuy nhiên MPEG 2 lại có thể
nén video với các chất lượng đầu ra khác nhau, phục vụ các ứng dụng rất đa dạng.
Vì vậy bộ mã hóa với cơ chế nén phải có nhiều mức để phù hợp với từng trường hợp
đầu ra. MPEG 2 định nghĩa ra các profile và level để diễn tả các mức nén video của
mình.
Các yếu tố chính ảnh hưởng đến chất lượng video video trong MPEG 2 là: bit
rate, buffer size, tốc độ lấy mẫu, kiểu lấy mẫu, vector ranger. Việc kiểm soát bit rate
và buffer size được thực hiện trong công đoạn bit rate control. Các việc còn lại được
thực hiện ở công đoạn tiền xử lý, video filtering.
25
Hình 21 MPEG 2 Profiles
26
Hình 22 MPEG 2 Levels
Sau đây là các profiles và levels của MPEG 2 cùng với các thông số kĩ thuật
của chúng:
• SimpleProfile@MainLevel:
• MainProfile@HighLevel:
27
• MainProfile@High-1440Level:
• MainProfile@MainLevel:
• MainProfile@LowLevel:
28
• SNRProfile@MainLevel:
29
• SNRProfile@LowLevel
• SpatialProfile@High-1440Level:
30
• HighProfile@HighLevel:
31
• HighProfile@High-1440Level
32
• HighProfile@MainLevel
• 4:2:2Profile@MainLevel:
33
So sánh giữa MPEG 1 và MPEG 2

Về cơ bản, MPEG 1 và MPEG 2 là giống nhau. Tuy nhiên vẫn có những khác
biệt trong các kỹ thuật nén giữa 2 chuẩn này:
• MPEG 2 hỗ trợ thêm định dạng 4:2:2, điều này cho phép MPEG 2 hỗ trợ các
định dạng nén video chất lượng cao.
• Trong kỹ thuật quét các hệ số để phụ vụ việc mã hóa, MPEG 2 hỗ trợ thêm
kiểu quét Alternate Zic-zắc, tập trung nhiều năng lượng hơn ( do trong ma
trận sau lương tử hóa, các hệ số khác không thường tập trung ở góc trên bên
trái ma trận),làm cho mã hóa RLC và VLC đạt hiệu quả cao hơn
34
• MPEG 1 hỗ trợ 1 loại frame đặc biệt mà không thể tìm thấy ở các đời MPEG
sau là D-frame. Frame này độc lập, không có quan hệ gì với các frame I, B,C.
Nó dùng để ‘fast preview” video.
• Chế độ dánh giá chuyenr động trong MPEG 2 chính xác tới ½ pixel, trong khi
đó MPEG 1 chỉ là full pixel. Điều này cho phép MPEg 2 nén video tốt hơn,
đầu ra chất lượng tốt hơn.
• MPEG 2 hỗ trợ 2 kiểu quét video là quét tuần tự và quét xem kẽ. Trong khi
đó MPEG 1 chỉ hỗ trọ kiểu quét tuần tự.
35
H261 và H262
H261
H261. Là một tiêu chuẩn mã hóa được sử dụng trong mã hóa video. Ban đầu
nó đượcc chỉ định dung trong mạch kỹ thuật số tích hợp các dịch vụ(ISDN) nhưng
nhiều thí nghiệm đã cho thấy nó có thể sử dụng trong mạng chuyển mạch gói như
internet.
H261 được tổ chức như là một hệ thống phân cấp. Dòng Video được bao gồm
một ngăn xếp của các image hay các frame.các image(frame) được tổ chức như là
tập hợp của nhiều nhóm các khối(GoB). Mỗi GOB bao gồm 3 dòng mỗi dòng 11
khối nhỏ (MB). Mỗi MB mang thong tin của môt nhóm 16x16 pixels trong đó thông
tin về độ sáng được chứa trong 4 khối mỗi khối 8x8 pixels trong khi những thông tin
về màu sắc được đưa bởi hai màu đỏ và xanh của các thành phần khác nhau trong
một độ phân giải của mỗi khổi 8x8 pixels. Những thành phần và các mã được đại
diện bởi các giá trị lấy mẫu và được định nghĩa trong khuyến nghị ITU-R 601.
Việc chia nhóm như thế này để chỉ rõ thông tin ở mỗi cấp của hệ thống phân
cấp:
• Ở cấp khung ảnh, thông tin được chỉ ra là độ trễ từ ảnh trước đó, định dạng
ảnh và các chỉ số.
• Ở cấp GOB, thông tin được chỉ ra là số hiệu GOB và lượng hóa mặc định để
sử dụng cho MBs
• Ở cấp MB, thông tin được chỉ ra là các khối được đại diện và những cái
không thay đổi, các tùy chọn lượng tử và vecto chuyển động.
Những khối thay đổi được giải mã bằng tính toán DCT các hệ số thống kê của
chúng sau khi đã được lượng tử và mã hóa Huffman.
Mã hóa Huffman của H261 chia ra 1 khối đặc biệt là “GOB start” gồm 15 số 0
tiếp đến là 1 số 1. Nó không thể bắt đầu mã hóa bằng một khối khác, và khuôn này
bắt đầu ở header của mỗi GOB(và cũng là đầu của mỗi frame) để đánh dấu sự tách
biệt của 2 GOB và chỉ ra GOB hiện tại đã kết thúc. Việc mã hóa cũng bắt đầu bằng
một mô hình gồm 7 chữ số 0 và phía sau là 1 chữ số 1. Mô hình có thể chỉ được
chọn giữa việc mã hóa các khối hoặc ngay trước khi phân tách GOB.
36
Group of Block (GOB)
Ứng với ½ CIF(Common Image Format) picture hoặc là 1/3 QCIF(Quarter

Common Image Format)
Hình 23 Trật tự của một GOB trong ảnh
Dữ liệu cho một group of block bao gồm một GOB header theo sau là
macroblock data.Cấu trúc của nó như sau:
Hình 24 Cấu trúc của GOB header
Hình 24. Cấu trúc của GOB header
Trong đó:
• GBSC: Group of blocks Start Code(16 bit) Một word 16 bits có giá trị là
0000 0000 0000 0001
• GN: Group of Number(4 bits) 4 bits này dùng để chỉ vị trí của group of
blocks
• GQUANT: Quantizer Information(5 bits) Dùng để chỉ ra lượng tử
hóa(quantizer) được dùng trong group of block cho đến khi bị loại bỏ bởi bất
kỳ một MQUANT nào theo sau.Đây là giá trị của lượng tử có trị số từ 1-31.
• GEI: Extra Insertion Information(1 bit) Được bật lên 1 khi có trường data.
• GSPARE: Spare Information(0,8,16,......bits) Khi thông số GEI bật lên thì 9
bits theo sau sẽ bao gồm 8 bits data và 1 bit GEI khác dùng để 9 bits tiếp theo
và cứ tiếp tục như thế cho đến khi gặp bit GEI=0.
37
Macroblocks:
Mỗi GOB(Group of Block) được chia thành 33 macroblock ứng với 16*16
pixel của cường độ sáng và 2 thành phần màu(8*8).
Hình 25 Trật tự của macroblock trong một GOB
Hình 26 Cấu trúc của một lớp Macroblock
Trong đó
• MBA: Macroblock Address: Có độ dài thay đổi dùng để chỉ vị trí của
macroblock trong một group of block.Trật tự được truyền đi theo đúng thứ tự
như hình 5 ở trên.Còn đối với các macroblock cuối cùng notice chuyển
đi.Những macroblock nào không chứa thông tin của phần ảnh đó sẽ không
được chuyển đi.
• MITYPE: type Information Là từ mã có độ dài thay đổi cung cấp thông tin về
macroblock và những yếu tố data có mặt.
• MQUANT: Quantizer(5 bit) Giá trị của MQUANT cũng giống như
GQUANT.
• MVD: Motion Vector Data Giá trị MVD tính được từ macroblock vetor bằng
cách trừ đi vector của macroblock đi trước được xem là bằng 0 trong 3 trường
hợp sau:
o Macblock 1,12,23
o Các macroblock mà MBA có độ sai lệch khác 1
o MTYPE của macroblock trước không phải là MC
o MDV bao gồm một word mã hóa thành phần ngang và theo sau là một
word mã hóa thành phần dọc.
• CPB:Coded block pattern:Trường này chỉ có khi nó được chỉ định bởi trường
MTYPE.Từ mã(codeword) cung cấp 1 con số chỉ định những block ở trong
macroblock nào có ít nhất một hệ số biến đổi được truyền đi.
38
Block:
Ứng với 8*8 pixel.Dữ liệu cho mỗi block bao gồm các codewords cho các hệ
số biến đổi theo sau là kí hiệu kết thúc block.Trật tự của các block trong một
macroblock như sau:
Hình 27 Trật tự của blocks trong Macroblock
Còn dưới là cấu trúc của block layer:
Trong đó:
TCOEFF(Transform Coefficients) là hệ số biến đổi luôn luôn biểu thị cho tất cả 6
blocks trong một macroblock khi trường MTYPE chỉ định là INTRA.Các hệ số biến
đổi đã được lưởng tử hóa được truyền đi một cách tuần tự theo 1 dãy như sau:
39
Mô hình mã hóa và giãi mã của H261
Hình 28 Sơ đồ mã hóa H261
Hình 29 Sơ đồ giải mã H261
40
Các kĩ thuật nén của H261
Frame coding
H261 sử dụng hai loại khung: intra-frame(I-frame) và Inter-frame (P-frame):

• I-frame cung cấp một điểm truy cập, nó sử dụng JPEG làm cơ bản
• P-frames sử dụng "pseudo-differences" từ frame trước đó ("Predicted"), do
đó, khung hình phụ thuộc lẫn nhau.
Hình 30 Intra frame và Inter frame
Intra-frame Coding
Hình 31 Intra-frame coding
• MB là 16x16 pixel trên vùng Y của tổ chức ảnh. Một MB thường bao gồm 4
khối Y, 1 khối Cr và 1 khối Cb.
• Lượng tử hóa bằng 1 giá trị không đổi cho tất cả các hệ số DCT
Inter-frame (P-frame) Coding
41
Hình 32 Inter-frame coding
Ảnh phía sau được gọi là ảnh tham chiếu, ảnh được mã hóa được gọi là target
image.
Chú ý:
• Các ảnh khác nhau thì được mã hóa.
• Cần sử dụng các ảnh được giải mã như là ảnh tham chiếu, không phải nguyên
gốc.
Chúng ta sử dụng “Mean Absulate Error”(MAE) để chọn block tốt . Cũng có
thể sử dụng “Mean Squared Error”(MSE) = Sum(E*E)/N
H. 261 Frame Encoder
Hình dưới là sơ đồ của bộ mã hóa frame của H261. Trong đó:

• “Control” điểu khiển tốc độ dòng bit. Nếu bộ đệm truyền quá đầy thì tốc độ
bit sẽ được giảm bằng cách thay đổi các yếu tố lượng tử.
• “Memory” Sử dụng để chứa các ảnh được tái tạo(block) cho mục đích của
vecto chuyển động để tìm ra P-frame tiếp theo.
42
Hình 33 H261 frame encoder
Block transformation:
H261 hỗ trợ việc bù đắp những mất mát của quá trình chuyển động trong bộ
mã hóa như một tùy chọn.Trong việc bồi thường chuyển động,một vùng tìm kiếm đc
xây đựng dựa trên frame trước để xác định macroblock tham chiếu tốt
nhất(reference macroblock).Cả độ lệch ước tính cũng như vector chuyển động,xác
định giá trị và hướng di chuyển giữa macroblock được mã hóa và vùng tham chiếu
đã chọn đều được gửi đi.Cùng tìm kiếm cũng như làm thế nào để tính toán vector
chuyển động không tùy thuộc vào sự chuẩn hóa.Thành phần nằm ngang và thẳng
đứng của vector phải có giá trị nguyên trong khoảng từ -15 đến 15.
Trong sự biến đổi khối những frame mã hóa theo kiểu INTRA cũng như những
sai số dự đoán đều được vào trong khối 8*8.Mỗi khối sẽ được xử lý bởi một hàm
FDCT hai chiều.
43
Quantization&Entropy Coding:
Mục đích của bước này là đạt được sự nén tốt hơn bằng các hệ số
DCT(Discrete Cosine Transform) để đạt được chất lượng đòi hỏi.Số lượng tử hóa là
1 đối với các hệ số INTRA và là 31 cho tất cả các hệ số khác.
Mã hóa entropy kéo theo sự nén tốt hơn được thực hiện bằng cách gán những
từ mã ngắn hơn cho những sự kiện phổ biến và sử dụng những sự kiện ít phổ biến
hơn.Mã hóa Huffman thường được sử dụng trong trường hợp này.
Nói cách khác,chúng ta có thể mất một vài hệ số trong việc chuyển đổi bằng
cách sử dụng ít bit hơn so với số bit cần thiết cho tất cả các giá trị.Chúng ta sẽ dùng
những từ mã ngắn hơn đối với những giá trị thông thường(giống như việc sử dụng 8
bit cho việc mã hóa 3 kí tự trong tiếng Anh).
Phương pháp tìm kiếm Motion Vector
Hình 34 Phương pháp tìm kiếm Motion Vector
• C(x + k, y + l) là pixels trong MB ở góc bên trái phía trên (x, y) trong Target
frame.
• R(x + i + k, y + j + l) là pixels trong MB ở góc trái phía trên của (x + i, y + j)
ở trong Reference frame.
Hàm tính toán giá trị:
44
Mục đích là tìm ra (u,v) để MAE(u,v) nhỏ nhất.

Phương pháp tìm kiếm đầy đủ:
Lần lượt tìm kiếm toàn bộ vùng pxp => rất chậm
Phương pháp Two-Dimensional Logarithmic

Tương tự nhu tìm kiếm nhị phân. Hàm MAE sẽ được bắt đầu tính toán trong
mỗi vùng [-p/2;p/2] trong 9 vùng được chỉ trong hình vẽ.
Lặp lại cho tới khi kích thước của vùng tìm kiếm chỉ bằng 1pixel.
1. Tìm kiếm 1 trong 9 vùng đó mà MAE nhỏ nhất
2. Thiết lập vùng tìm kiếm mới với kích thước mỗi chiều bằng nửa so vs ban
đầu với trung tâm là điểm vừa tìm kiếm được ở bước 1.
Hình 35 Two-Dimensional Logarithmic
45
Phương pháp Hierarchical Motion Estimation
Hình 36 Hierarchical Motion Estimation
• Tạo một số phiên bản độ phân giải thấp của target image và reference image.
• Tìm kiếm vector chuyển động phù hợp nhất trong độ phân giải thấp nhất.
• Sửa đổi vector chuyển động dần dần theo mức đi dần lên.
Một số vấn đề:
• Tránh lỗi khi truyền:
o Phải sử dụng truyền 1 I-frame trong mỗi lần truyền
o Phải sử dụng các frame đã được giả mã để so sánh.
• Điều khiển dòng truyền: Dựa trên thông điệp phản hồi về độ đầy của bộ đệm,
nếu bộ đệm quá đầy phải tăng các yếu tố lượng tử hóa để giảm dòng dữ liệu.
46
H262
H.262 hay MPEG-2 Part 2 (thường được biết đến là tiêu chuẩn ISO/IEC
13818-2, cũng như là chuẩn MPEG-2 Video) là 1 chuẩn nén và mã hóa video kỹ
thuật số được phát triển bởi ITU-T Video Coding Experts Group (VCEG) and
ISO/IEC Moving Picture Experts Group (MPEG). Nó là phần thứ 2 của chuẩn
ISO/IEC MPEG-2. Tài liệu ITU-T Recommendation H.262 và ISO/IEC 13818-2 là
như nhau. H.262 là phần mở rộng của chuẩn nén quốc tế MPEG-1 (H261) dành cho
video. H261 được thiết kế để mã hóa những đoạn video có tốc độ từ 1,2 Mbit/s đến
1,5 Mbit/s dùng để ghi CD-ROM, VCD trong khi H262 được hướng đến để mã hóa
những đoạn video có tốc độ cao hơn từ 10 Mbit/s đến 15 Mbit/s dùng cho DVD, TV
số và HDTV. H262 cung cấp những thuật toán để mã hóa tốt hơn những video có
liên hệ với nhau và hỗ trợ nhiều tốc độ hơn. H262 cung cấp một công cụ mã hóa
từng nấc mà những video có thể được tái tạo từ những dòng bit.
Mô hình mã hóa H262

Trong hệ thống H.262, DCT và khối dự đoán bù chuyển động giữa các frame
được kết hợp với nhau như trong hình 37. Bộ mã hóa trừ dự đoán bù chuyển động từ
ảnh gốc để tạo nên một ảnh ‘dự báo lỗi’. Ảnh dự báo lỗi được biến đổi cùng với
DCT, hệ số được lượng tử hóa và giá trị này được mã hóa sử dụng VLC. Lỗi độ chói
được kết hợp với những thông tin ‘phụ’ mà hệ thống giải mã cần, như vectơ chuyển
động và thông tin đồng bộ hóa, và đượ tạo thành 1 chuỗi các bit để truyền đi. Hình
38 chỉ ra khung cấu trúc của 1 chuỗi video mã hóa theo chuẩn H.262.
Hình 37 (a) Hệ thống mã hóa bù chuyển động DCT
47
(b)Hệ thống giải mã bù chuyển động DCT.
Hình 38 Cấu trúc của chuỗi các bit video mã hóa theo chuẩn H262.
Trong hệ thống giải mã, những hệ số lượng tử hóa DCT được xây dựng lại và
lấy nghịch đảo để tạo ra dự đoán lỗi, sau đó sẽ được đưa vào việc dự đoán bù
chuyển động được tạo ra từ những ảnh đã được mã hóa từ trước để tạo ra ảnh được
mã hóa.
Trong mộ bộ mã hóa theo chuẩn H262, khối dự đoán bù chuyển động trong
hình 2 hỗ trợ rất nhiều phương thức để dự đoán chuyển động. Ví dụ, khối có thể
được dự đoán ‘tiến’ từ ảnh trước, hay ‘lùi’ từ ảnh sau, hoặc dự đoán ‘hai chiều’ bằng
cách lấy trung bình của ảnh trước và ảnh sau. Phương thức được sử dụng để dự đoán
khối có thể thay đổi. Thêm nữa, 2 vùng trong 1 khối có thể được dự đoán riêng rẽ
với vectơ chuyển động riêng của nó. Một lựa chọn khác là tạo ra 1 dự đoán mang giá
trị 0, ví dụ như là khối ảnh gốc hơn là khối đã được dự đoán lỗi được mã hóa bởi
DCT. Với mỗi khối được mã hóa, bộ mã hóa sẽ lựa chọn trong những chế độ dự
đoán này, cố gắng tối đa hóa chất lượng của ảnh trong giới hạn tốc độ. Sự lựa chọn
chế độ dự đoán sẽ được truyền cho bộ giãi mã, cùng với lỗi dự đoán, vì vậy nó có
thể tái lập được lại dự đoán đúng.
48
Loại ảnh
Trong chuẩn H262, có 3 loại ảnh được định nghĩa. Loại ảnh lại định nghĩa chế
độ dự đoán nào được sử dụng để mã hóa mỗi khối.
‘Intra’ pictures (I-pictures) được mã hóa mà không cần tham khảo những ảnh
khác. Nén một cách trung bình đạt được bằng cách giảm đi những dư thừa về không
gian, nhưng không phải là những dư thừa về thời gian. Loại ảnh này được sử dụng
để cung cấp điểm truy cập trong chuỗi bit để công việc giải mã được bắt đầu.
Predictive' pictures (P-pictures) có thể sử dụng ảnh loại I hoặc ảnh loại P trước
đó để bù chuyển động và được sử dụng như là tham khảo cho những dự đoán tiếp
theo. Mỗi khối trong ảnh loại P có thể được dự đoán hoặc mã hóa nội tại. Bằng cách
giảm bớt sự dư thừa về không gian và thời gian, ảnh loại P tạo ra một độ nén nhiều
hơn so với ảnh loại I.
'Bidirectionally-predictive' pictures (B-pictures) có thể sử dụng ảnh loại I hoặc
ảnh loại P trước và sau để bù chuyển động, tạo ra mức nén cao nhất. Mỗi ảnh loại B
có thể được dự đoán tiền, lùi hay 2 chiều hoặc mã hóa nội tại. Để kích hoạt việc dự
đoán lùi từ frame tiếp theo, bộ mã hóa sẽ yêu cầu lại những bức ảnh theo thứ tự hiển
thị tự nhiền cho tới thứ tự hiển thị trong chuỗi bit vì vậy ảnh loại B có thể được
truyền đi sau khi ảnh trước và sau nó tham khảo.
Sự khác nhau giữa các loại ảnh xảy ra trong những chuỗi lặp đi lặp lại, được
gọi là ‘Nhóm ảnh’ hay GOP. Một nhóm ảnh điển hình theo thứ tự hiển thị:
B1 B2 I3 B4 B5 P6 B7 B8 P9 B10 B11 P12
Thứ tự tương ứng trong chuỗi bit là:
I3 B1 B2 P6 B4 B5 P9 B7 B8 P12 B10 B11
Một cấu trúc nhóm ảnh thông thường có thể được miêu tả với 2 thông số: N, là
số ảnh trong nhóm, và M, là số ảnh loại P trong nhóm. Nhóm ảnh ở đây được mô tả
với N = 12 và M = 3. Chuẩn H262 không nhất thiết là đúng với một nhóm ảnh thông
thường, ví dụ 1 ảnh loại P theo sau bởi 1 sự thay đổi có thể được dự đoán không
chính xác vì ảnh tham khảo để dự đoán khác hoàn toàn so với ảnh đang được dự
đoán. Vì vậy, có thể tốt hơn nếu mã hóa nó như là ảnh loại I.
Với chất lượng của 1 ảnh mã hóa, việc mã hóa sử dụng mỗi loại ảnh để sinh ra
số bít khác nhau. Trong một thứ tự tiêu biểu, một ảnh loại I được mã hóa thì lớn gấp
3 lần 1 ảnh loại P mã hóa, và ảnh loại P này lại lớn gấp đôi ảnh loại B.
Kiểm soát bộ đệm

Bằng cách bỏ đi rất nhiều sự dư thừa từ ảnh gốc, bộ mã hóa có thể cho ra rất
nhiều tốc độ. Tốc độ phụ thuộc vào độ phức tạp và khả năng dự đoán của ảnh gốc và
sự hiệu quả của việc dự đoán bù chuyển động.
Với rất nhiều ứng dụng, dòng bit cần được xử lý ở một kênh tốc độ cố định.
Với những trường hợp này, một bộ đệm được đặt giữa bộ mã hóa và kênh. Bộ đệm
được đặt ở tốc độ nào đó bởi bộ giải mã và được làm rỗng ở một tốc độ không đổi
49
bởi kênh. Để đề phòng việc bộ đệm bị tràn, một cơ chế thông báo hoạt động để điều
chỉnh tốc độ trung bình được mã hóa như là 1 chức năng của bộ đệm. Ví dụ, tốc độ
trung bình được mã hóa có thể được hạ thấp bằng cách tăng độ lượng tử hóa áp dụng
cho các hệ số DCT. Cái này làm giảm bớt số bit được sinh ra bởi VLC, nhưng làm
tăng sự méo mó của ảnh được mã hóa. Bộ giải mã cũng phải có 1 bộ đệm giữa kênh
và nhiều tốc độ đầu vào cho quá trình giải mã. Kích thước của bộ đệm ở bộ mã hóa
và bộ giải mã phải giống nhau.
Chuẩn H262 định nghĩa một bộ đệm mã hóa và giải mã với kích thước tối đa,
mặc dụ bộ mã hóa có thể chỉ cần sử dụng 1 phần của bộ đệm này. Độ trễ qua bộ đệm
mã hóa và giải mã bằng kích thước của bộ đệm chia cho tốc độ kênh. Ví dụ, 1 bộ mã
hóa H262 hoạt động ở tốc đố 6Mbit/s với kích thước bộ đệmlaf 1,8Mbits sẽ có tổng
độ trể qua bộ đệm mã hóa và giải mã vào khoảng 300ms. Giảm kích thước bộ đệm
sẽ giảm độ trễ, nhưng sẽ ảnh hưởng đến chất lượng ảnh nếu bộ đệm trở nên quá nhỏ
để thích ứng với sự thay đổi tốc độ từ khối mã hóa VLC.
Các profiles và các bậc
Profiles
Có 2 profile không theo nấc được định nghĩa trong tài liệu chuẩn H262. Profile
đơn giản hơn không sử dụng frame loại B, do đó sẽ không có dự đoán lùi hoặc dự
đoán nội suy. Vì vậy, không cần sắp xếp lại thứ tự ảnh (việc sắp xếp lại ảnh có thể
khiến cho việc mã hóa trể mất 120ms). Với một bộ đệm mã hóa nhỏ, profile này phù
hợp cho những ứng dụng có độ trễ thấp nhưng hội nghị qua video, cái mà độ trễ toàn
cục chỉ khoảng 100ms. Việc mã hóa được tiến hành với tín hiệu video 4:2:0.
Profile chính hỗ trợ thêm ảnh loại B và là profile được sử dụng nhiều nhất. Sử
dụng ảnh loại B sẽ tăng chất lượng của ảnh, nhưng thêm 120 ms vào độ trễ khi mã
hóa để sắp xếp lại thứ tự ảnh. Bộ giải mã của profile chính cũng giải mã được video
nén theo chuẩn H261. Hiện nay, hầu hết bộ giải mã chuẩn H262 đều hỗ trợ profile
chính ở nấc chính.
Các profile từng nấc: SNR profile hỗ trợ thêm việc nâng cao các lớp của việc
là tinh chế các hệ số DCT, sử dụng công cụ hệ số tín hiệu trên độ nhiễu (SNR). Hình
39 cho thấy 1 ví dụ về bộ mã hóa và giải mã sử dụng SNR.
50
Hình 39 (a)Bộ mã hóa video SNR
(b)SNR-scalable video decoder.
Bộ mã hóa hoạt động gần giống như bộ mã hóa được nhìn thấy ở hình 2 với sự
khác biệt là thêm 1 bước lượng tử hóa nữa. Bộ mã hóa lượng tử hóa hệ số DCT tới 1
độ chính xác nào đó, mã hóa độ dài của chúng rồi truyền chúng như là nấc thấp hay
dòng bit ở tầng dưới. Lỗi lượng tử hóa gặp phải ở lần lượng tử hóa đầu tiên tự nó sẽ
lại lượng tử hóa, được mã hóa và được truyền đi như là tầng trên hay chuỗi bit ở
tầng tăng cường. Thông tin phụ cần có cho bộ giải mã như vectơ chuyển động ,
được truyền ở tầng dưới.
51
Dòng bit ở tầng dưới có thể được mã hóa giống như trong hình 2. Để giải mã
sự kết hợp giữa tầng dưới và tầng nâng cao, cả 2 tầng cần phải được nhận, như trong
hình 4b. Việc tinh chế hệ số ở tầng nâng cao được đưa vào hệ số của tầng dưới theo
hệ số lượng tử hóa nghịch đảo. Hệ số cuối cùng sau đó được giải mã theo cách giống
như với trường hợp non-scalable. Profile SNR được khuyến cáo dùng cho vô tuyến
mặt đất.
Profile không gian hỗ trợ cho các tầng nâng cao xử lý ảnh mã hóa ở những độ
phân giải khác nhau, sử dụng công cụ đánh giá không gian. Hình 40 là ví dụ về bộ
mã hóa và giải mã sử dụng profile không gian.
Hình 40 (a) Bộ mã hóa video sử dụng profile đánh giá không gian
52
(b) Bộ giải mã video sử dụng profile đánh giá không gian
Đánh giá không gian được miêu tả bằng việc sử dụng những ảnh được giải mã
từ tầng dưới như là dự đoán ở tầng cao hơn. Nếu tầng cao hơn đang xử lý ảnh ở độ
phân giải lớn hơn thì ảnh được giải mã từ tầng thấp hơn phải được chuyển thành độ
phân giải lớn hơn.
Trong bộ giải mã trên hình 5(a), hai vòng lặp mã hóa hoạt động với những độ
phân giải khác nhau để tạo ra những lớp cơ sở và lớp nâng cao. Bộ mã hóa lớp cơ sở
tạo ra 1 dòng bit có thể được giải mã giống như trường hợp non-scalable. Bộ mã hóa
tầng nâng cao được cung cấp những ảnh đã được giải mã từ tầng cơ cở, như là sự dự
đoán cho các tầng trên. Sự dự đoán này bổ sung thêm vào sự dự đoán bù chuyển
động từ các tầng trên. Chức năng đánh giá W ở trong hình 5(a), lựa chọn trong các
dự đoán từ tầng trên và tầng dưới.
Profile không gian được khuyến nghị như là 1 cách để phát những dịch vụ TV
có độ phân giải cáo cùng với 1 profile chính tương thích với những dịch vụ chuẩn.
Profile cao hỗ trợ thêm cho việc mã hóa tín hiệu video 4:2:2 và bao gồm những
công cụ đánh đánh giá của SNR và profile không gian.
Các levels
H262 định nghĩa 4 level mã hóa tham số. Bảng 2 cho ta thấy giới hạn của kích thước
ảnh, tốc độ frame, tốc độ bit và kích thước của bộ đệm cho mỗi level cụ thể. Chú ý
rằng các giới hạn là giới hạn trên và các bộ giải mã có thể hoạt động dưới các giới
hạn này (ví dụ bộ giải mã 1440 có thể giải mã ảnh 720 pixel , 576 dòng).
Level Max. frame, Max. frame, Max. frame, Max. bit rate, Buffer size,
width, pixels height, lines rate, Hz Mbit/s bits
Low 352 288 30 4 475136
Main 720 576 30 15 1835008
High-1440 1440 1152 60 60 7340032
High 1920 1152 60 80 9781248
Hình 41 H262 levels: Giới hạn kích thước ảnh, tốc độ frame, tốc độ bit, kích thước bộ đệm.
Kết luận.
H262 rất thành công trong việc định ra các chuẩn để đáp ứng rất nhiều các ứng
dụng, tốc độ, chất lượng và dịch vụ. Các tiêu chuẩn này chỉ định nghĩa cấu trúc của
dòng bit và quá trình giải mã. Nói chung, điều này có nghĩa là bất kỳ bộ giải nào đáp
ứng các tiêu chuẩn này có thể tạo ra những bức ảnh gần giống nhau. Tuy nhiên, bộ
53
giải mã có thể khác nhau ở cách chung xử lý các lỗi trong quá trình truyền. Ví dụ,
một bộ giải mã tiên tiến cố gắng che giấu lỗi trong ảnh mã hóa nếu nó phát hiện lỗi
trong dòng bit. Để đáp ứng những tiêu chuẩn này, một bộ mã hóa chỉ cần phải tạo ra
1 chuỗi bit hợp chuẩn. Điều kiện này một mình nó không ảnh hưởng đến chất lượng
ảnh trong quá trình nén và có sự khác nhau trong việc mã hóa giữa những hệ thống
mã hóa được thiết kế khác nhau. Ví dụ, hiệu quả của việc mã hóa có thể phụ thuộc
vào chất lượng của việc đánh giá vectơ chuyển động, kỹ thuật kiểm soát tốc độ bit,
phương thức được sử dụng để lựa chọn giữa những chế độ dự đoán khác nhau, mức
độ ảnh được tiền xử lý và cách mà bộ lượng tử hóa được đáp ứng dựa trên nội dung
của ảnh. Chất lượng ảnh qua bộ điều chế theo chuẩn H262 dựa trên độ phức tạp và
khả năng dự đoán được của ảnh gốc. Bộ mã hóa và giải mã thời gian thực làm việc
tốt với ảnh chất lượng cao ở tốc độ khoảng 6 Mbit/s.
So sánh H261 và H262

Tất cả bộ giải mã theo chuẩn H262 đều đáp ứng tiêu chuẩn để giải mã chuẩn
H261. Trong hầu hết các trường hợp, chuẩn H262 được xem như là một chuẩn cao
hơn chuẩn H261. Ví dụ, thứ tự scan zigzag các hệ số của chuẩn H261 là 1 trong 2
chế độ scan hệ số của chuẩn H262. Tuy nhiên, trong một vài trường hợp, có những
yếu tố ở chuẩn H261 mà không tìm được một khái niệm tương ứng ở chuẩn H262.
Sau đây là những đặc điểm như vậy.
• IDCT mismatch:
H261 – Khối kiểm soát lỗi IDCT bao gồm việc thêm hoặc bớt 1 vào cho mỗi hệ số
khác 0 sau nghịch đảo của hệ số lượng tử.
H262 – Khối kiểm soát lỗi IDCT bao gồm việc thêm hoặc bớt 1 vào hệ số [7] [7]
nếu tổng của tất cả hệ số là chẵn sau khi nghịch đảo hệ số lượng tử hóa.
• Macroblock:
H261 – Mã VLC ‘0000 0001 111’ có thể được ấn vào bao nhiêu lần tùy ý trước mỗi
địa chỉ của Macroblock. Mã này sẽ phải được bỏ đi bởi bộ giải mã.
H262 – Mã VLC này được giữ lại và không được sử dụng trong chuẩn H262. Trong
chuẩn H262, việc này được làm bằng cách chỉ cần nhét những byte 0 vào trước đoạn
mã bắt đầu.
• Cú pháp mã thoát:
H261 – Giá trị mà không thể mã hóa với VLC được mã hóa bởi mã giải thoát ‘0000
01’ theo sau bởi 1 FLC 14 bit (–127 <= level <= 127), hoặc 1 FLC 22 bit (–255 <=
level <= 255).
H262 – Giá trị mà không thể mã hóa với VLC được mã hóa bởi mã giải thoát theo
sau bởi 1 FLC 18 bit (–2047 <= level <= 2047).
• Vị trí độ sáng của mẫu dọc:
H261 – Vị trí dọc của mẫu sáng nằm ở giữa những mẫu chói.
H262 – Vị trí dọc của mẫu sáng nằm cùng chỗ với những mẫu chói.
54
• Lát cắt:
H261 – Lát cắt không cần phải bắt đầu và kết thúc ở cùng dòng của các macroblock.
Do đó có thể cho tất cả các macroblock của cùng 1 ảnh vào cùng 1 lát cắt duy
nahats.
H262 – Lát cắt luôn bắt đầu và kết thúc ở cùng 1 dòng của macroblock.
• 6 - Ảnh:
H261 – Một cú pháp đặc biệt được định nghĩa cho ảnh loại D (Mã loại ảnh = 4).
Ảnh loại D giống ảnh loại I với duy nhất 1 hệ số Intra-DC, không có kết thúc Block,
và 1 mã kết thúc macroblock đặc biệt = 1.
H262 - Ảnh loại D (Mã loại ảnh = 4) không được cho phép.
• Vectơ chuyển động:
H261 – Các yếu tố full_pel_forward_vector và full_pel_backward_vector có thể cho
bằng 1. Và khi điều này xảy ra, vectơ chuyển động có thể được mã hóa đầy đủ thay
vì một nửa. Vectơ chuyển động phải được nhân 2 trước khi được dùng để dự đoán.
H262 – Các yếu tố full_pel_forward_vector và full_pel_backward_vector phải bằng
0. Vectơ chuyển động thì luôn được mã hóa một nửa.
• Thông tin tỷ số:
H261 – Giá trị 4 bit pel_aspect_ratio được mã hóa trong tiêu đề thứ tự.
H262 - Giá trị 4 bit aspect_ratio_information được mã hóa trong tiêu đề thứ tự.
9 - forward_f_code và backward_f_code:
H261 – Giá trị f_code được sử dụng để giải mã vectơ chuyển động là
forward_f_code và backward_f_code nằm ở picture_header().
H262 - Giá trị f_code được sử dụng để giải mã vectơ chuyển động là f_code[s][t],
nằm ở picture_coding_extension().
10 - constrained_parameter_flag và maximum horizontal_size
H261 – Khi constrained_parameter_flag được cho bằng 1, điều này cho thấy một vài
giới hạn đã được xác nhận. Một trong những giới hạn đó là horizontal_size <= 768.
Cần lưu ý rằng một dòng bit theo chuẩn H262 có thể có các bức ảnh với kích thước
ngang lên tới 768 pels.
H262 – Cơ chế constrained_parameter_flag được thay thế bằng cơ chế profile và cơ
chế nấc. Tuy nhiên, cần lưu ý rằng các chuỗi bit MP @ ML không thể có kích thước
ngang lớn hơn 720 pels.
• Bit_rate và vbv_delay:
H261 – Bit_rate và vbv_delay được gán bằng 3FFF và FFFF (hex) tương ứng. Các
giá trị khác để cho các tốc độ cố định.
H262 – Khái niệm bit_rate thay đổi. Trong nhiều tốc độ, vbv_delay có thể được gán
tới FFFF (hex), nhưng một giá trị khác không có nghĩa là tốc độ không đổi. Tốc độ
bit không đổi chỉ là trường hợp đặc biệt của tốc độ bit thay đổi.
• VBV:
H261 – VBV chỉ được định nghĩa cho việc xử lý tốc độ không đổi.
H262 – VBV chỉ được định nghĩa cho việc xử lý tốc độ thay đổi.
55
• Temporal_reference:
H261 - Temporal_reference được tăng lên 1 và chia lấy dư cho 1024 cho mỗi bức
ảnh được mã hóa và trở về ở mỗi tiêu đề của ảnh.
H262 – Nếu không có ảnh lớn, temporal_reference được tăng lên 1 và chia lấy dư
cho 1024 cho mỗi bức ảnh được mã hóa, và được trả về 0 ở mỗi tiêu đề nhóm. Nếu
có ảnh lớn (ở dòng bit trễ thấp), thì temporal_reference tuân theo một quy luật khác.
• Cú pháp:
Có thể khiến cho dòng bit theo chuẩn H262 có cùng cú pháp như chuẩn H261,
bằng cách sử dụng một vài giá trị cụ thể cho những tham số của chuẩn H262 không
xuất hiện trong chuẩn H261. Nói cách khác, quá trình giải mã chuẩn H261 giống với
chuẩn H262 khi:
progressive_sequence = ‘1’ (thứ tự tiếp diễn).
chroma_format = ‘01’ (4:2:0)
frame_rate_extension_n = 0 và frame_rate_extension_d = 0 (tốc độ frame của chuẩn
H261)
intra_dc_precision = ‘00’ (Độ chính xác 8-bit Intra-DC)
picture_structure = ‘11’ (frame-picture bởi vì progressive_sequence = ‘1’)
frame_pred_frame_dct = 1 (chỉ dự đoán dựa trên frame và frame DCT)
concealment_motion_vectors = ‘0’ (Không có concealment motion vectors).
q_scale_type = ‘0’ (linear quantiser_scale)
intra_vlc_format = ‘0’ (Bảng VLC Intra MBs).
alternate_scan = ‘0’ (Thứ tự sắp xếp scan chuẩn H261)
repeat_first_field = ‘0’ (Bởi vì progressive_sequence = ‘1’)
chroma_420_type = ‘1’ (Độ chói dựa trên frame)
progressive_frame = ‘1’ (Bởi vì progressive_sequence = ‘1’)
So sánh giữa MPEG và H26X
Chúng ta hãy cùng tham khảo bảng so sánh giữa MPEG và H261 dưới đây:
MPEG H261
Sử dụng CIF và SIF hoặc loại ảnh có độ Sử dụng QCIF và CIF
phân giải cao hơn
Tỷ lệ ảnh đa dạng Cố định tỷ lệ 4:3
Sử dụng GOPs Không sử dụng GOPs
Có các MB : I, B, P Không sử dụng MB B
56
Tỷ lệ bit rate đặc trưng khoảng 1,1 Bit rate khoảng 384 kbit/s tối đa là
Mbit/s 2Mbit/s
Không hạn chế số lượng Frame bỏ qua Chỉ bỏ qua tối đa 3 frame
Độ chính xác của vector chuyển động Độ chính xác của vector chuyển động là
nhỏ hơn 1pixel: Mpeg 2: half-pel Mpeg 1 pixel
4 quarter-pel
Giới hạn của vector chuyển động +/-15 Giới hạn vector chuyển động +/- 7 pixel
pixel
Thông qua việc so sánh các thông số kĩ thuật trên ta thấy rằng MPEG sẽ cho ra
chất lượng hình ảnh tốt hơn so với H261. Nhưng bù lại H261 cũng như các dòng
H26X có thể cho tùy chỉnh được số bit rate cho video.
Cái gốc của sự khác nhau giữa MPEG và H26X là chủ yếu nằm ở khâu tiên
đoán các frame mới và cách thức tính toán sai lệch giữa các frame hiện tại và frame
phỏng đoán. Điều này sẽ dẫn tới các khác nhau về chất lượng hình ảnh cũng như bit
rates.
Chuẩn nén H.26x (gồm các thế hệ H.261, H.262 và H.263...), thường có tốc độ
mã hoá tín hiệu thấp hơn MPEGx (khoảng 1.5 Mbit/s với độ phân giải hình 352 x
288) do dùng chủ yếu trong viễn thông, truyền tải video giữa các thiết bị di động.
Trong khi đó, chuẩn MPEG2 dùng cho thị trường giải trí hay truyền hình chất
lượng cao thì có độ phân giải hình cao hơn, và mang lại chất lượng hình ảnh tốt
(cao hơn 1,5Mb/s với độ phân giải 352x288 hoặc 6Mb/s cho phân giải hoàn chỉnh).
57
MPEG 4
Giới thiệu chung

MPEG-4 là chuẩn ISO/IEC được phát triển bởi nhóm MPEG (Moving Picture
Expert Group), nhóm này cũng đã xây dựng các chuẩn MPEG-1 và MPEG-2. Các
chuẩn này mô tả phương pháp tương tác hình ảnh trên CD-ROM, DVD và truyền
hình số. MPEG-4 với tên gọi chính thức do ISO/IEC đặt tên là "ISO/IEC 14496"
hoàn thành 10/1998 và trở thành tiêu chuẩn quốc tế 1/1999. Các mở rộng để tương
thích hoàn toàn với các chuẩn trước đó được hoàn thành vào cuối năm 1999, phiên
bản này được gọi là MPEG-4 Version 2, được công nhận là chuẩn quốc tế đầu năm
2000. Một số mở rộng được các nhóm làm việc trong MPEG tiếp tục đưa vào kể từ
đó đến nay.
MPEG-4 dựa vào sự thành công của ba lĩnh vực:
• Truyền hình số
• Các ứng dụng tương tác đồ hoạ
• Tương tác đa phương tiện
Tiêu chuẩn MPEG-4 về hình ảnh bao gồm một số các công cụ dùng để mã hoá
các hình ảnh tự nhiên như chuỗi các ảnh liên tục (Video) cũng như các ảnh tĩnh
(Visual Texture - cấu trúc nghe nhìn). Ở đây, việc mã hoá video được dựa trên cơ sở
của sơ đồ mã hoá DCT lai có bù chuyển động, còn mã hoá cấu trúc nghe nhìn
(Visual texture) - VTC thì dựa trên cơ sở chuyển đổi Wavelet và mã hoá cây Zero.
Mã hoá MPEG-4 ngoài việc quan tâm đến các hiệu quả mã hoá giống như các tiêu
chuẩn mã hoá trước đây còn bổ xung thêm một số công cụ cho các chức năng khác
như: Mã hoá các đối tượng có hình dạng bất kỳ; nén hiệu quả của các tín hiệu video
liên tục và hình ảnh tĩnh trên một phạm vi rộng của tỷ lệ bít; phân cấp về không gian
thời gian và chất lượng; khả năng truyền dẫn tốt trong môi trường truyền dẫn khắc
nhiệt.
Phạm vi và tính năng của chuẩn MPEG-4

Các tiêu chuẩn MPEG-4 cung cấp một bộ công nghệ để đáp ứng nhu cầu của các
tác giả, nhà cung cấp, người sử dụng như nhau
• Đối với tác giả, MPEG-4 cho phép sản xuất các nội dung xa hơn là có thể tái
sử dụng, linh hoạt hơn, tiện dụng hơn với công nghệ cá nhân như truyền hình
kỹ thuật số, độ họa hoạt hình, World Wide Web và các ứng dụng mở rộng.
Ngoài ra nó hoàn toàn có thể quản lý tốt hơn và bảo vệ bản quyền.
• Đối với các nhà cung cấp dịch vụ. MPEG-4 cung cấp thông tin minh bạch, có
thể được hiểu và dịch ra các tín hiệu thích hợp tùy thuộc vào mỗi mạng cùng
với sự trợ giúp của bản thân các chuẩn có liên quan. Như đã nói ở trên, tuy
58
nhiên, không bao gồm chất lượng của dịch vụ được xem xét, mà MPEG-4
cung cấp một mô tả chung cho QoS khác nhau cho các phương tiên truyền
thông. Chất lượng của dịch vụ mạng là ngoài phạm vi của MPEG-4 và là vấn
đề của nhà cung cấp mạng, còn MPEG-4 cho phép tối ưu hoa vận chuyển
trong mạng không đồng nhất.
• Đối với người dùng cuối, MPEG-4 mang lại cấp độ cao hơn của sự tương tác
các nội dung. Nó cũng mang đến truyền thông đa phương tiện cho các mạng
mới, bao gồm những người có mức sử dụng thấp, những người di chuyển
nhiều.
MPEG-4 tìm cách tránh sự độc quyền, và để các định dạnh không làm ảnh
hưởng lẫn nhau và ảnh hưởng đến người sử dụng. MPEG-4 đã đạt được các mục
tiêu này bằng cách cung cấp các chuẩn để:
• Đại diện cho các thành phần nội dung hình ảnh âm thanh nghe nhìn, đc gọi là
các đối tượng của truyền thông đa phương tiện. Các đối tượng này có thể đc
tổng hợp hoặc có nguồn gốc tự nhiên, có thể đc ghi với một máy ảnh, micro
hoặc tạo ra từ máy tính.
• Mô tả các thành phần này để tạo ra phương tiện truyền thông hợp nhất các
đối tượng nghe nhìn.
• Ghép kênh và đồng bộ hóa dữ liệu với các đối tượng truyền thông, để có thẻ
vận chuyển qua các kênh mạng lưới cung cấp QoS phù hợp.
• Tương tác và tạo các cảnh nghe nhìn với người sử dụng cuối.
Kĩ thuật mã hóa Video của chuẩn MPEG4
Sự tổ hợp khung hình trong MPEG 4
Trên hình thể hiện một trường hợp điển hình của tổ hợp khuôn hình MPEG-4,
cho thấy nhiều đối tượng (bàn, quả cầu, bảng đen, người hướng dẫn và audio) được
đặt vào một hệ thống toạ độ không gian 3 chiều (3-D) đối với vị trí người xem giả
định. Các thiết bị mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho
mỗi đối tượng video VO (Video Object) riêng biệt (hình 2), nhờ vậy người sử dụng
có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi tỷ lệ, di
chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị trí giải mã hay mã
hoá.
59
Hình 42 Sự tổ hợp khung hình trong MPEG-4
Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm:
• Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp
xác định khu vực và đường viền bao quanh đối tượng trong khung hình
scene;
• Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian.
• Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và
các dữ liệu còn lại sau khi đã bù chuyển động.
Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ
mô tả khung hình riêng, được gọi là Định dạng nhị phân cho các khung hình BiFS
(Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tượng
xuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làm
cho một đối tượng xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điều kiện
hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác. Trong MPEG-4, tất
cả các đối tượng có thể được mã hoá với sơ đồ mã hoá tối ưu riêng của nó – video
được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạ được mã
60
hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixels như là mã hoá
video ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho từng loại dữ liệu
thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quả cao tín hiệu ảnh
video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt hình.
Cấu trúc bộ mã hóa và giải mã của MPEG 4
Hình 43 Cấu trúc của bộ mã hoá và giải mã video MPEG-4
Hình 44 Sơ đồ cấu trúc giải mã video MPEG-4
Nhiều đối tượng như người, bản đồ, bản tin, được tách ra khỏi video đầu vào.
Mỗi đối tượng video sau đó được mã hóa bởi bộ mã hoá đối tượng video VO (Video
Object) và sau đó được truyền đi trên mạng. Tại vị trí thu, những đối tượng này
61
được giải mã riêng rẽ nhờ bộ giải mã riêng VO và gửi tới bộ compositor. Người sử
dụng có thể tương tác với thiết bị để cấu trúc lại khung hình gốc, hay để xử lý các
đối tượng tạo ra một khung hình khác. Ngoài ra, người sử dụng có thể download các
đối tượng khác từ các thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua
mạng LAN, WAN hay Internet) để chèn thêm vào hay thay thế các đối tượng có
trong khuôn hình gốc.
Các Profiles và Levels trong chuần MPEG-4

Chuẩn MPEG-4 bao gồm nhiều tính năng ưu việt khác nhau, và không phải
bất kỳ ứng dụng nào cũng đòi hỏi tất cả các tính năng của MPEG-4. Để sử dụng
công cụ MPEG-4 một cách hiệu quả nhất, mỗi thiết bị chuẩn MPEG-4 sẽ chỉ được
trang bị một số tính năng phù hợp với một phạm vi ứng dụng nhất định, và để tạo
điều kiện cho người sử dụng lựa chọn công cụ MPEG-4, các thiết bị MPEG-4 chia
thành các nhóm công cụ gọi là các Profiles, mỗi nhóm (Profiles) chỉ chứa một vài
tính năng cần thiết của chuẩn mã hoá thích hợp cho một phạm vi ứng dụng nào đó.
Điều này cho phép người sử dụng dễ dàng lựa chọn bộ công cụ hỗ trợ các tính năng
mà họ cần từ vô số các bộ công cụ MPEG-4 khác nhau. Mỗi Profiles lại có một số
các mức Levels khác nhau, thể hiện mức độ phức tạp xử lý tính toán dữ liệu của
công cụ đó (thông qua việc định rõ tốc độ bit, con số tối đa của các đối tượng trong
khung hình, độ phức tạp của quá trình giải mã audio…).
MPEG 4 video
Các công cụ để đại diện cho video tự nhiên trong tiêu chuẩn hình ảnh MPEG-4
cung cấp công nghệ cốt lõi tiêu chuẩn cho phép hiệu quả lưu trữ, truyền tải và xử lý
các kết cấu, hình ảnh và dữ liệu video cho các môi trường đa phương tiện. Những
công cụ này cho phép giải mã và đại diện các đơn vị nguyên tử của hình ảnh và nội
dung video, được gọi là "đối tượng video" (VOS). Một ví dụ về một VOS có thể là
một người nói (không có nền), sau đó có thể được sáng tác với AVO khác (âm
thanh, hình ảnh các đối tượng) để tạo ra một cảnh. Hình chữ nhật hình ảnh thông
thường được xử lý như một trường hợp đặc biệt của các đối tượng như vậy.
Để đạt được mục tiêu rộng lớn hơn là một giải pháp cho một phạm vi hẹp của
các ứng dụng, chức năng phổ biến cho nhiều ứng dụng được nhóm. Do đó, phần
hình ảnh của tiêu chuẩn MPEG-4 cung cấp giải pháp theo hình thức các công cụ và
các thuật toán cho:
• Hiệu quả nén hình ảnh và video.

• Hiệu quả nén của kết cấu để lập bản đồ kết cấu trên 2-D và mắt lưới 3-D
• Hiệu quả nén của vật ngầm 2-D
• Hiệu quả nén của thời gian hình học khác nhau suối động mắt lưới
62
• Hiệu quả ngẫu nhiên truy cập vào tất cả các loại của các đối tượng trực quan
• Thao tác mở rộng chức năng cho hình ảnh và chuỗi video
• Nội dung dựa trên mã hóa hình ảnh và video
• Nội dung dựa trên khả năng mở rộng của kết cấu, hình ảnh và video
• Không gian, thời gian và chất lượng khả năng mở rộng
• Lỗi vững mạnh và khả năng phục hồi trong môi trường dễ bị lỗi
Như đã đề cập trước, MPEG-4 Video hỗ trợ hình ảnh thông thường hình chữ
nhật và video cũng như hình ảnh và video của các hình dạng tùy ý. Khái niệm
này được minh họa trong hình 45 dưới đây.
Hình 45 The VLBV Core and the Generic MPEG-4 Coder
Các mã hóa hình ảnh thông thường và video cũng tương tự như mã hóa thông
thường MPEG-1 / 2. Nó liên quan đến chuyển động dự báo / bồi thường theo sau bởi
kết cấu mã hóa. Đối với các chức năng dựa trên nội dung, nơi mà các đầu vào trình
chiếu hình ảnh có thể có hình dạng bất kỳ và địa điểm, phương pháp này là kéo dài
cũng có mã hóa hình dạng và tính minh bạch thông tin. Hình dạng có thể là đại diện
bởi một thành phần trong suốt 8 bit - cho phép các mô tả về tính minh bạch, nếu VÓ
là một trong những sáng tác với các đối tượng khác - hoặc bởi một mặt nạ nhị phân.
Việc mở rộng MPEG-4 phương pháp tiếp cận dựa trên nội dung có thể được
xem như là một phần mở rộng hợp lý của MPEG-4 thông thường VLBV Core hoặc
tốc độ bit cao đối với các công cụ đầu vào của hình dạng bất kỳ.
63
Khả năng mở rộng mã hóa các đối tượng Video
MPEG-4 hỗ trợ việc mã hóa các hình ảnh và video với khả năng mở rộng
không gian và thời, cả hai hình chữ nhật với thông thường cũng như với các hình
dạng tùy ý. Khả năng mở rộng đề cập đến khả năng giải mã chỉ là một phần của một
bitstream và tái tạo lại hình ảnh hoặc các chuỗi hình ảnh với:
• giảm độ phức tạp giải mã và do đó làm giảm chất lượng
• giảm độ phân giải không gian
• giảm độ phân giải thời
• với độ phân giải thời gian và không gian ngang nhau, nhưng với chất lượng
giảm.
Chức năng này là mong muốn cho tiến bộ mã hóa hình ảnh và video gửi qua
mạng không đồng nhất, cũng như cho các ứng dụng mà người nhận không có khả
năng hiển thị độ phân giải đầy đủ hoặc chất lượng hình ảnh đầy đủ hoặc chuỗi
video. Điều này chẳng hạn có thể xảy ra khi chế biến điện hoặc độ phân giải màn
hình hiển thị có giới hạn.
Có một số phương án có thể mở rộng mã hóa trong MPEG-4 Visual: khả năng
mở rộng không gian, khả năng mở rộng thời gian, khả năng mở rộng độ chi tiết tốt
và đối tượng dựa trên khả năng mở rộng không gian.
Khả năng khắc phục lỗi mạnh mẽ.
MPEG-4 cung cấp khả năng phục hồi mạnh mẽ lỗi và cho phép truy cập hoặc
các thông tin hình ảnh video qua một loạt các phương tiện lưu trữ và truyền tải điện.
Đặc biệt, do sự tăng trưởng nhanh chóng của truyền thông di động, nó là vô cùng
quan trọng là truy cập có sẵn để thông tin âm thanh và video qua mạng không dây.
Điều này có nghĩa là cần thiết cho hoạt động hữu ích của các thuật toán nén âm
thanh và video trong môi trường dễ bị lỗi ở mức bit thấp (tức là ít hơn 64 kbit / s).
Các khả năng phục hồi lỗi công cụ phát triển cho MPEG-4 có thể được chia thành ba
khu vực chính: resynchronization, phục hồi dữ liệu, và che giấu lỗi.
Resynchronization
Công cụ Resynchronization cố gắng để kích hoạt resynchronization giữa các
bộ giải mã và bitstream sau khi một lỗi còn sót lại hoặc lỗi đã được phát hiện. Nói
chung, các dữ liệu giữa các điểm đồng bộ hóa trước khi thông báo lỗi và điểm đầu
tiên mà đồng bộ hóa được tái lập, là bỏ đi.
Cách tiếp cận resynchronization được thông qua bởi MPEG-4, được gọi là một
cách tiếp cận gói. Nhóm các khối sử dụng bởi các tiêu chuẩn ITU-T H.261 và
H.263. Trong các tiêu chuẩn này một gob được định nghĩa là một hoặc nhiều hàng
macroblocks (MBs). Vào lúc bắt đầu của một gob mới, thông tin gọi là tiêu đề gob
được đặt trong luồng bit này. Thông tin này có tiêu đề chứa mã bắt đầu gob, đó là
khác nhau từ một mã số bắt đầu hình ảnh, và cho phép các bộ giải mã để xác định vị
64
trí này gob. Hơn nữa, tiêu đề gob chứa thông tin đó cho phép quá trình giải mã được
khởi động lại (tức là, đồng bộ hoá lại các bộ giải mã cho các bitstream và đặt lại tất
cả dữ liệu predictively mã hóa).
Các gói dữ liệu video tiếp cận được thông qua bởi MPEG-4 là dựa vào việc
cung cấp dấu resynchronization định kỳ trong suốt bitstream này. Nói cách khác, độ
dài của các gói dữ liệu video không dựa trên số lượng macroblocks, nhưng thay vào
đó số bit có trong gói đó. Nếu số bit chứa trong các gói dữ liệu video hiện tại vượt
quá một ngưỡng định trước, sau đó một gói tin video mới được tạo ra ở đầu của các
macroblock tiếp theo.
Một điểm đánh dấu resynchronization được sử dụng để phân biệt sự bắt đầu
của một gói tin video mới. điểm đánh dấu này là phân biệt được tất cả các từ mã
VLC có thể cũng như các mã bắt đầu VOP. Tiêu đề thông tin cũng được cung cấp
vào lúc bắt đầu của một gói tin video. Có trong tiêu đề này là các thông tin cần thiết
để khởi động lại quá trình giải mã và bao gồm: số macroblock của macroblock đầu
tiên có trong gói tin này và tham số lượng tử hóa cần thiết để giải mã mà
macroblock đầu tiên. Số macroblock cung cấp các resynchronization cần thiết không
gian trong khi các tham số lượng tử cho phép các quá trình phân giải mã được
resynchronized.
Cũng bao gồm trong tiêu đề gói tin video là phần mở rộng tiêu đề mã. HEC là
một chút rằng, khi kích hoạt, cho thấy sự hiện diện của resynchronization thông tin
bổ sung, bao gồm cả cơ sở thời gian đun, VOP tăng thời gian, loại dự đoán VOP, và
mã F VOP. Thông tin này bổ sung được làm sẵn có trong trường hợp tiêu đề VOP
đã bị hỏng.
Cần lưu ý rằng khi sử dụng các công cụ khả năng phục hồi lỗi trong vòng
MPEG-4, một số công cụ hiệu quả nén được sửa đổi. Ví dụ, tất cả các thông tin
predictively mã hóa phải được giới hạn trong một gói tin video để ngăn chặn sự lan
truyền của các lỗi.
Kết hợp với cách tiếp cận gói video để resynchronization, một phương pháp
thứ hai gọi là cố định đồng bộ hóa khoảng cũng đã được thông qua bởi MPEG-4.
Phương pháp này đòi hỏi VOP số bắt đầu và đánh dấu resynchronization (tức là
khởi đầu của một gói dữ liệu video) chỉ xuất hiện ở vị trí cố định khoảng pháp lý
trong bitstream này. Điều này giúp tránh các vấn đề liên quan bắt đầu mô phỏng mã.
Đó là, khi lỗi được hiện diện trong một bitstream, có thể cho các lỗi này để giả lập
một mã bắt đầu VOP. Trong trường hợp này, khi cố định khoảng cách đồng bộ hóa
được sử dụng bộ giải mã chỉ cần thiết để tìm kiếm một mã bắt đầu VOP vào đầu mỗi
khoảng cách cố định. Các phương pháp cố định đồng bộ mở rộng khoảng cách tiếp
cận này là bất kỳ khoảng thời gian định trước.
Phục hồi dữ liệu
Sau khi đồng bộ hóa đã được tái lập, công cụ phục hồi dữ liệu cố gắng để khôi
phục dữ liệu nói chung sẽ bị mất. Những công cụ này không chỉ đơn giản là các mã
lỗi sửa chữa, nhưng thay vì kỹ thuật mã hóa dữ liệu một cách kiên cường lỗi. Ví dụ,
một công cụ đặc biệt đã được xác nhận bởi Tập đoàn Video là nghịch biến dài
65
Codes (RVLC). Trong phương pháp này, các từ mã có độ dài biến được thiết kế sao
cho chúng có thể được đọc cả ở phía trước cũng như hướng ngược lại.
Nói chung, trong một tình huống như thế này, nơi một vụ nổ của các lỗi đã bị
hỏng một phần của dữ liệu, tất cả các dữ liệu giữa các điểm đồng bộ hóa hai sẽ bị
mất. Tuy nhiên, như trong hình này, RVLC một cho phép một số trong đó dữ liệu
được phục hồi. Cần lưu ý rằng các thông số, QP và HEC thể hiện trong hình sự, đại
diện cho các lĩnh vực dành riêng trong tiêu đề gói video cho tham số lượng tử hóa và
mở rộng đầu mã, tương ứng.
Che giấu lỗi
Lỗi che giấu là một thành phần cực kỳ quan trọng của lỗi codec mạnh mẽ bất
kỳ video. Tương tự như các công cụ khả năng phục hồi lỗi nói ở trên, hiệu quả của
một chiến lược che giấu lỗi phụ thuộc nhiều vào việc thực hiện các đề án
resynchronization. Về cơ bản, nếu phương pháp hiệu quả resynchronization có thể
khoanh vùng các lỗi thì vấn đề trở nên che giấu lỗi dể làm hơn nhiều. Đối với các
ứng dụng bitrate thấp, các ứng dụng chậm trễ thấp resynchronization hiện Đề án
cung cấp kết quả rất chấp nhận được với một chiến lược che giấu đơn giản, chẳng
hạn như sao chép các khối từ các khung hình trước đó.
Trong công nhận sự cần thiết để cung cấp khả năng che giấu nâng cao, các
đoàn Video đã phát triển một chế độ đàn hồi lỗi bổ sung cải thiện hơn nữa khả năng
của bộ giải mã các địa phương hóa một lỗi.
Cụ thể, phương pháp này sử dụng dữ liệu phân vùng bằng cách tách biệt các
chuyển động và kết cấu. Cách tiếp cận này yêu cầu một dấu resynchronization thứ
hai được chèn vào giữa chuyển động và thông tin kết cấu. Nếu thông tin bị mất kết
cấu, phương pháp này sử dụng các thông tin chuyển động để che giấu các lỗi này.
Đó là, do sự sai sót thông tin kết cấu được bỏ đi, trong khi chuyển động được sử
dụng để chuyển động bồi thường cho người được giải mã trước VOP.
Nhanh chóng phục hồi trong thời gian thực mã hóa
Một kỹ thuật mới được phát triển trong MPEG, gọi là NEWPRED, cung cấp
một sự phục hồi lỗi nhanh trong thời gian thực các ứng dụng mã hóa. Nó sử dụng
một kênh đầu nguồn từ bộ giải mã để mã hóa các. Bộ mã hóa Các thiết bị chuyển
mạch khung tham chiếu adaptively theo các điều kiện lỗi của mạng. NEWPRED
không sử dụng làm mới trong nội bộ và nó cung cấp hiệu quả mã hóa cao. Kỹ thuật
này đã được chứng minh để làm việc trong điều kiện lỗi căng thẳng:
• Burst lỗi trên các mạng không dây (trung bình tỷ lệ lỗi bit là 10e-3, 1ms burst
chiều dài).
• Packet Loss trên internet (tỷ lệ mất gói là 5%)
66
Cải thiện sự ổn định với độ phân giải thời gian trễ thấp
Một kỹ thuật đặc biệt sử dụng trong các tình huống mã hóa thời gian thực hiện
chuyển đổi độ phân giải động (DRC), một cách để ổn định t ông truyền tải chậm
đệm bằng cách giảm thiểu các jitter của số lượng các bit đầu ra được mã hóa trên
mỗi VOP. bỏ qua khung hình lớn cũng được ngăn chặn và các bộ mã hóa có thể điều
khiển độ phân giải thời ngay cả trong những cảnh đánh giá cao hoạt động. kỹ thuật
này đòi hỏi thông tin backchannel được gửi đến các bộ mã hóa, điều này giải thích
tại sao nó chỉ hữu dụng trong các tình huống thời gian thực.
Các MPEG-4 hình ảnh và video mã hóa các thuật toán cho một đại diện hiệu
quả của các đối tượng trực quan của hình dạng bất kỳ, cũng hỗ trợ cái được gọi là
chức năng dựa trên nội dung. Họ hỗ trợ hầu hết các chức năng đã được cung cấp bởi
MPEG-1 và MPEG-2, bao gồm nén hiệu quả của các chuỗi hình ảnh chuẩn hình chữ
nhật có kích thước ở cấp độ khác nhau của các định dạng đầu vào, tỷ lệ khung hình,
độ sâu pixel, tỷ lệ bit, và mức độ khác nhau của không gian, thời gian và chất lượng
khả năng mở rộng.
Một phân loại cơ bản của các tỷ lệ bit và chức năng hiện đang được cung cấp
bởi các tiêu chuẩn MPEG-4 Visual cho hình ảnh tự nhiên và video được mô tả trong
hình 46 bên dưới, mà các cụm tốc độ bit mức so với các bộ chức năng.
Hình 46 Phân loại các hình ảnh MPEG-4 và Video Coding thuật toán và công cụ
Ở cuối một "VLBV Core" (VLBV: Rất thấp tỷ lệ Bit-Video) cung cấp các
thuật toán và các công cụ cho các ứng dụng hoạt động ở mức bit-thường từ 5 ... 64
kbits / s, hỗ trợ các trình tự không gian hình ảnh với độ phân giải thấp (thường là lên
đến độ phân giải CIF) và tỷ lệ khung hình thấp (thường lên đến 15 Hz). Các ứng
dụng cơ bản các chức năng cụ thể được hỗ trợ bởi Core VLBV bao gồm:
• Mã hóa các trình tự thông thường hình chữ nhật kích thước hình ảnh với hiệu
quả cao và mã hóa mạnh mẽ lỗi cao khả năng phục hồi /, độ trễ thấp và phức
tạp thấp cho thời gian thực các ứng dụng đa phương tiện truyền thông.
67
• "Truy cập ngẫu nhiên" và "chuyển tiếp" và "nhanh chóng đảo ngược" hoạt
động cho VLB, cơ sở lưu trữ dữ liệu đa phương tiện và các ứng dụng truy
cập.
Các chức năng cơ bản giống nhau nêu trên cũng được hỗ trợ ở mức bit cao hơn
với tầm cao hơn của các thông số đầu vào không gian và thời lên đến ITU-R Rec.
601 nghị quyết và lớn hơn - sử dụng các thuật toán giống nhau hoặc tương tự và các
công cụ như là Core VLBV. Các bit tỷ lệ hình dung phạm vi thông thường từ 64
kbits / s lên tới 10 Mb / s và các ứng dụng hình dung bao gồm đa phương tiện phát
sóng, thu hồi tương tác của các tín hiệu với một chất lượng tương đương với truyền
hình kỹ thuật số. Đối với các ứng dụng này tại bit cao hơn tỷ giá, còn xen kẽ có thể
được đại diện bởi MPEG-4 công cụ mã hóa.
Nội dung dựa trên các chức năng hỗ trợ việc mã hóa riêng biệt và giải mã nội
dung (tức là các đối tượng vật lý trong một cảnh, VOS). Đây MPEG-4 tính năng
cung cấp cơ chế cơ bản nhất cho tương tác, linh hoạt, đại diện và thao tác với / của
Võ nội dung của hình ảnh hoặc video trong lĩnh vực nén, mà không cần phân khúc
thêm hoặc chuyển mã ở người nhận.
Đối với hybrid mã hóa của tự nhiên cũng như dữ liệu hình ảnh tổng hợp (ví dụ
cho sự hiện diện ảo hoặc môi trường ảo) là mã hóa nội dung dựa trên chức năng cho
phép pha trộn một số Võ từ các nguồn khác nhau với các đối tượng tổng hợp, chẳng
hạn như là một nền ảo.
Việc mở rộng MPEG-4 thuật toán và các công cụ cho các chức năng dựa trên
nội dung có thể được xem như là một tập cha của lõi VLBV và tốc độ bit công cụ
cao - có nghĩa là những công cụ được cung cấp bởi các VLBV và cao hơn lõi bitrate
được bổ sung bởi các yếu tố bổ sung.
Thuật toán nén của MPEG 4
Hình 47 Sơ đồ khối cơ bản của MPEG-4 Video coder
68
Cấu trúc mã hóa cơ bản liên quan đến hình dạng mã hóa bồi thường chuyển
động (cho tự ý VOS hình) và cũng như kết cấu dựa trên mã DCT (sử dụng tiêu
chuẩn 8x8 DCT hoặc hình dạng thích ứng DCT).
Một lợi thế quan trọng của phương pháp mã hóa nội dung dựa trên MPEG-4 là
hiệu suất nén có thể được cải thiện đáng kể đối với một số trình tự video bằng cách
sử dụng thích hợp và dành riêng cho đối tượng chuyển động dựa trên dự báo "công
cụ" cho từng đối tượng trong một cảnh. Một số kỹ thuật dự đoán chuyển động có thể
được sử dụng để mã hóa cho phép trình bày hiệu quả và linh hoạt của các đối tượng:
• Tiêu chuẩn 8x8 hoặc 16x16 pixel dựa trên khối chuyển động và dự toán bồi
thường, với độ chính xác lên đến ¼ PE.
• Chuyển động toàn cầu bồi thường (GMC) cho các đối tượng video: mã hóa
của chuyển động toàn cầu cho một đối tượng sử dụng một số lượng nhỏ các
thông số. GMC được dựa trên ước lượng chuyển động toàn cầu, cong hình
ảnh, quỹ đạo chuyển động mã hóa, và kết cấu mã hóa cho các lỗi dự báo.
• Toàn cầu bồi thường dựa trên chuyển động cho các tĩnh "sprites". Một nhân
vật tĩnh là một hình ảnh vẫn còn có thể lớn, mô tả toàn cảnh nền. Đối với mỗi
hình ảnh liên tiếp trong một chuỗi, chỉ có 8 thông số chuyển động trên toàn
cầu mô tả chuyển động của máy ảnh được mã hoá để tái tạo lại các đối tượng.
Những thông số này đại diện cho chuyển đổi thích hợp afin của các nhân vật
truyền trong khung đầu tiên.
• Quý PEL Motion tăng cường độ chính xác của đề án đền bù chuyển động, với
chi phí chỉ có cú pháp và tính toán chi phí nhỏ. Một mô tả chuyển động chính
xác dẫn đến một lỗi nhỏ hơn và dự báo, do đó, để chất lượng hình ảnh tốt
hơn.
• Hình dạng, thích ứng DCT: Trong lĩnh vực kết cấu mã hóa, các hình dạng,
thích ứng DCT (SA-DCT) cải thiện hiệu suất mã hóa của các đối tượng hình
tùy ý. Các thuật toán SA-DCT dựa trên định nghĩa trước bộ cơ sở trực giao
của các chức năng một chiều DCT.
Video theo chuỗi bằng cách sử dụng một hình ảnh toàn cảnh nhân vật. Người
ta cho rằng các đối tượng nền trước (quần vợt, hình ảnh trên cùng bên phải) có thể
được phân đoạn từ nền và hình ảnh toàn cảnh nhân vật có thể được chiết xuất từ tự
trước khi mã hóa. (Một bức tranh toàn cảnh nhân vật là một hình ảnh vẫn còn mô tả
như là một hình ảnh tĩnh nội dung của nền trên tất cả các khung hình theo thứ tự).
Các bức tranh toàn cảnh lớn hình ảnh nhân vật được chuyển đến người nhận chỉ một
lần như khung đầu tiên của dãy số để mô tả nền - nhân vật này vẫn còn được lưu trữ
trong một bộ đệm ma. Trong mỗi khung hình liên tục chỉ có các thông số máy ảnh
có liên quan cho nền được chuyển đến người nhận. Điều này cho phép người nhận
để tái tạo lại hình ảnh nền cho mỗi khung hình trong trình tự dựa vào Sprite. Các đối
tượng nền trước di chuyển được truyền đi một cách riêng biệt như là một đối tượng
video tùy ý, hình dạng. Người nhận soạn cả những hình ảnh nền trước và nền tảng
để xây dựng lại một khung hình (dưới hình ảnh trong hình dưới đây). Đối với các
69
ứng dụng chậm trễ thấp có thể truyền tải các nhân vật trong nhiều phần nhỏ hơn
khung hình liên tiếp hoặc xây dựng các nhân vật trong bộ giải mã dần dần.
Hình 48 Ví dụ về Sprite mã của chuỗi Video
Mã của Texture và hình ảnh tĩnh:

Coding hiệu quả của kết cấu hình ảnh và hình ảnh tĩnh (ví dụ như để được ánh
xạ vào mắt lưới hoạt hình) được hỗ trợ theo phương thức kết cấu hình ảnh của
MPEG4. Hình thức này được dựa trên một thuật toán wavelet zerotree cung cấp rất
cao hiệu quả mã hóa trong một phạm vi rất rộng các bitrate. Cùng với hiệu suất nén
cao, nó cũng cung cấp scalabilities không gian và chất lượng (lên đến 11 cấp độ của
khả năng mở rộng không gian và khả năng mở rộng chất lượng liên tục) và đối
tượng cũng tùy hình mã hóa. Việc xây dựng cung cấp cho bitstream wavelet có thể
mở rộng mã hóa trong các hình thức phân giải hình ảnh của một kim tự tháp để
truyền tiến bộ và nâng cao thời gian của hình ảnh tĩnh. Các luồng bit mã hóa cũng
dành cho tải của hệ thống phân cấp độ phân giải hình ảnh vào thiết bị đầu cuối được
định dạng là "kết cấu MIPmap 'như được sử dụng trong các hệ thống dựng hình 3-D.
Công nghệ này cung cấp khả năng mở rộng độ phân giải để đối phó với một loạt các
điều kiện xem chi tiết điển hình của các ứng dụng tương tác và lập bản đồ hình ảnh
vào 2-D và 3-D thế giới ảo.
Wavelet ốp lát cho phép hình ảnh được chia thành một số gạch ngói từng được
mã hóa độc lập. Điều này có nghĩa là hình ảnh lớn được mã hóa / giải mã với yêu
cầu bộ nhớ rất thấp, và truy cập ngẫu nhiên tại giải mã được tăng cường đáng kể.
Khả năng mở rộng hình dạng mã hóa cho phép mã hóa của kết cấu hình tùy ý
và vẫn còn hình ảnh trong một thời trang có thể mở rộng. Sử dụng công cụ này, một
70
bộ giải mã có thể giải mã một hình ảnh bất kỳ hình ở bất kỳ độ phân giải mong
muốn. Công cụ này cho phép các ứng dụng để sử dụng scalabilities đối tượng dựa
trên, không gian và chất lượng cùng một lúc.
Để giải mã vẫn còn hình ảnh, MPEG-4 tiêu chuẩn cung cấp khả năng mở rộng
không gian với lên đến 11 mức độ chi tiết và cũng có khả năng mở rộng chất lượng
đến mức bit.
Tổng hợp các đối tượng hình thành một tập hợp con của lớp lớn hơn của đồ
họa máy tính. MPEG-4 hỗ trợ các hình ảnh các đối tượng sau đây tổng hợp:
• Tham số mô tả
o Một tổng hợp các mặt và cơ thể (cơ thể hoạt hình trong phiên bản 2)
o Tĩnh và động Mesh mã với bản đồ kết cấu
• Kết cấu mã hóa cho các ứng dụng phụ thuộc.
So sánh MPEG 4 với MPEG 2
MPEG2 và MPEG4 là hai phiên bản được sử dụng để nén dữ liệu âm thanh và
video tập tin, bởi vậy việc truyền tải và sử dụng của chúng là đơn giản. Những kỹ
thuật mã hóa, những cái là một tập hợp các chương trình nén dữ liệu được cấp bằng
sáng chế, nhằm mục đích chuyển đổi dữ liệu âm thanh/hình ảnh, do đó thời gian
truyền dữ liệu giảm và nó nằm trong khả năng lưu trữ và xửu lý của các phương tiện
truyền thông. Trong khi nén, cần quan tâm đến việc rằng chất lượng âm thanh và
video không bị mất mát. Chúng ta bắt đầu so sánh của giữa hai định dạng mã hóa.
MPEG2 vs MPEG4 - Chất lượng
MPEG-2 là chuẩn kinh doanh và các đoạn video mà bạn xem trên DVD và
truyền hình kỹ thuật số được mã hóa bởi chuẩn MPEG-2. Chất lượng MPEG-2 là
hoàn hảo, nhưng định dạng này không phải dành cho các ứng dụng đa phương tiện
mạng. Nó không được làm cho streaming video trên điện thoại hoặc cho các ứng
dụng broadcast. Vì vậy, chất lượng của một video nén ở định dạng MPEG-2, nếu
xem trực tuyến, sẽ bị ảnh hưởng.
Mặt khác, các định dạng MPEG-4 đã được phát triển cho các ứng dụng đa
phương tiện trực tuyến trên Internet. Vì vậy, một đoạn video được mã hóa theo định
dạng MPEG-4 sẽ cung cấp chất lượng hình ảnh và âm thanh tốt hơn hơn khi được
xem trực tuyến, bởi nó được thiết kế cho các ứng dụng mạng hoặc đa phương
tiện. Với định dạng MPEG-4, chúng ta có thể sử dụng video conferencing.
MPEG2 vs MPEG4 - Kích thước tập tin
So sánh file MPEG-2, file MPEG-4 chiếm bộ nhớ ít hơn. Điều này là do thuật
toán nén MPEG-4 được thiết kế để tạo các file mà có thể được vận chuyển qua
Internet, và xem trực tiếp trên các nền tảng mạng khác nhau.
71
MPEG2 vs MPEG4 – nén
Nén hình ảnh hay âm thanh là tất cả các biện pháp nhằm duy trì cùng một chất
lượng âm thanh hoặc video, nhưng sử dụng kích thước bộ nhớ thấp hơn. MPEG-4
nén là một sự cải tiến so với định dạng MPEG-2.
Nếu một file âm thanh hoặc dữ liệu tại phòng thu của một bộ phim được phát
hành mà không nén, nó sẽ mất ít nhất 20 DVD! Trong khi đó, nếu nó sử dụng định
dạng MPEG, Cùng bộ phim đó có thể được chứa trên một đĩa DVD duy nhất! Làm
thế nào để định dạng MPEG-2 đạt được điều này? Nó đạt được điều này bằng cách
loại bỏ một số phần dư thừa từ một khung được lặp lại trong những cái sau này. Đó
là, các bộ phận của khung hình mà vẫn tĩnh được lưu trữ chỉ một lần! Chỉ có những
sự khác biệt giữa các khung hình kế tiếp nhau sẽ được lưu trữ sau đó. Bit rate cũng
kiểm soát phù hợp. Có nhiều thủ thuật khác cũng tham gia làm giảm kích thước của
tập tin trong khi mã hóa. Bằng cách này các file hình ảnh được mã hóa theo định
dạng MPEG-2 và kích thước của các tập tin video được giảm thiểu đáng kể. Vì vậy,
khi bạn chạy một file đã được mã hóa, thiết bị chạy video của bạn phải có bộ giải
mã MPEG-2 để trả lại các khung hình gốc từ các dạng nén.
Nén MPEG-4 là khá phức tạp so với nén MPEG-2 khi nó được thiết kế để đạt
được các video chất lượng cao cho các ứng dụng đa phương tiện với bit rate tương
đối thấp. Để đơn giản, nén MPEG-4 loại bỏ các bit dư thừa bằng cách so sánh nhiều
khung hình hơn so với MPEG-2 tại một thời điểm bằng cách điều chỉnh bit rate cho
phù hợp. So MPEG-2, MPEG-4 là một định dạng mã hóa linh hoạt hơn rất nhiều.
MPEG2 vs MPEG4 – Bitrate
Các file được mã hóa bằng định dang MPEG-2 có một khoảng bit rate từ 4 đến
9 MB/s, trong khi các file MPEG-4 có bit rate thấp hơn đáng kể (một vài kb/s). Điều
này là do định dạng này được thiết kế cho các ứng dụng mạng.
MPEG2 vs MPEG4 - Băng thông
Nếu bạn so sánh băng thông MPEG-2 với MPEG-4, bạn sẽ tìm thấy một sự khác
biệt đáng kể khi chúng được thiết kế định dạng cho các nền tảng khác nhau.Trong
khi MPEG-2 có băng thông lên đến 40 MB/s, MPEG-4 có băng thông khoảng 64
kbps.
72
Chúng ta có thể tham khảo thêm bảng dưới đây.
Mpeg 2 MPEG 4
Ứng dụng Sử dụng để lưu trữ DVD,truyền hình Sử dụng cho các ứng dụng
số vệ tinh, truyền hình số mặt đất mobile device, video
conferencing, internet
streaming
Dự đoán Mã hóa MB, DC predictor Sử dụng trong các không
trong một gian 4x4, 16x16
một frame
Độ chính xác 1 pixel và ½ pixel 1pixel, 1/2pixel và ¼ pixel
của vector
chuyển động
P Frame Tham chiếu đơn Tham chiếu đơn và đa tham
chiếu
B frame Một tham chiếu cho mỗi đường 1 tham chiếu
Đa tham chiếu
Lọc trong Không hỗ trợ De-blocking

vòng lặp
DCT 8x8 DCT 4x4 Interger DCT
8x8 Integer DCT
Chế độ dự Dự đoán trong ảnh ảnh(16x16,16x8) Dự đoán liên ảnh
đoán (16x16,8x16,16x8,8x8, 4x4)
Kết luận
Cả hai định dạng đang được sử dụng ngày nay cho các ứng dụng khác nhau. MPEG-
2 vẫn được sử dụng trong mã hóa DVD và TV broadcast, trong khi các nền tảng
Internet và videophone thuộc về các định dạng MPEG-4.
73
H264
Tổng quan về H264
Chuẩn nén video mới nhất H264, còn được biết với tên gọi MPEG-4 Part
10/AVC (Advanced Video Coding- Mã hóa video nâng cao). H264 được mong đợi
sẽ trở thành chuẩn nén video được sử dụng rộng rãi nhất trong thời gian sắp tới.
H264 là một chuẩn mở hỗ trợ hầu hết các công nghệ nén video hiện nay. Mã
hóa H264 có thể giảm kích cỡ của một file video tới 80% so với chuẩn MPEG và
50% so với chuẩn MPEG 4 Part 2 mà vẫn giữ lại được chất lượng của hình ảnh. Do
đó, sử dụng H264 giúp giảm thiểu băng thông truyền tải trong mạng máy tính và
giúp không còn tốn quá nhiều dung lượng để lưu trữ các file video. Nhìn theo một
cách khác, với một số bit rate thấp nhưng chúng ta vẫn có thể có được chất lượng
video tốt.
Được đưa ra bởi các tổ chức tiêu chuẩn quốc tế trong lĩnh vực thông tin truyền
thông và công nghệ thông tin, H264 được mong đợi là sẽ được sử dụng rộng rãi hơn
các chuẩn nén video trước đó. Một số các thiết bị điện tử gần đây như điện thoại di
động, đầu đọc video kĩ thuật số, camera đã có khả năng nén và đọc H264 và đã
nhanh chóng được người sử dụng ủng hộ. Các nhà cung cấp dịch vụ như lưu trữ
video trực tuyến và các công ty truyền thông đang bắt đầu sử dụng H264.
Trong ngành công nghiệp video dân dụng, H264 đã nhanh chóng tìm được chỗ
đứng trong các khu vực mà ở đó yêu cầu video với độ phân giải lớn và frame rate
cao như đường cao tốc, sân bay hay các sòng bạc, nơi mà video phải đạt 30/25
khung hình trên giây. Đó là những nơi mà việc giảm lưu lượng mạng và dung lượng
lưu trữ mang lại sự giảm thiểu chi phí rất lớn. H264 được dự đoán cũng sẽ nhanh
chóng được sử dụng rộng rãi trong các camera kĩ thuật số với lợi thế mang lại từ
công nghệ nén video chất lượng cao giúp giảm kích cỡ và bit rate của các video số
mà vẫn giữ lại được chất lượng hình ảnh. Tuy vậy, để đổi lại cho những lợi ích mà
H264 mang lại, sẽ phải đầu tư một hệ thống network camera hiện đại và một hệ
thống xử lý mạnh hơn.
Sự phát triển của H264
H264 là kết quả của một dự án hợp tác giữa tổ chức ITU-T’s Video Coding
Experts Group và ISO/IEC Moving Picture Experts Group (MPEG). ITU-T là một
bộ phận của Liên minh viễn thông quốc tế ITU có chức năng đưa ra các chuẩn viễn
thông. Còn ISO và IEC là 2 tổ chức quốc tế đưa ra các tiêu chuẩn cho tất cả lĩnh vực
điện, điện tử và các ngành công nghệ liên quan. H264 là tên gọi do ITU-T đặt, trong
khi ISO/IEC gọi nó là MPEG-4 Part 10/AVC bởi vì nó được giới thiệu như là một
74
phần của bộ chuẩn MPEG-4. Bộ chuẩn MPEG-4 được sử dụng trong các bộ mã hóa
video chạy trên nền IP và các network camera.
Được thiết kế nhằm giải quyết các yếu điểm trong các chuẩn nén video trước
đây, H264 được đặt ra với các mục tiêu sau:
• Giảm được số bit rates trung bình tới 50% và vẫn đưa ra được một chất lượng
video cố định so sánh với bất kì chuẩn video nào khác.
• Giảm thiểu lỗi khi truyền video qua nhiều mạng khác nhau.
• Mang lại khả năng truyền video với độ trễ thấp (phù hợp trong video
conferencing), độ trễ cao hơn đi kèm với chất lượng tốt hơn.
• Cấu trúc rõ ràng giúp đơn giản hóa quá trình hoạt động.
• Có quá trình giải mã toán chính xác, đưa ra chính xác cần bao nhiêu phép
tính số học cần được bộ mã hóa và bộ giải mã thực hiện, do đó tránh được lỗi
trong quá trình tích lũy.
H264 còn có thể linh hoạt hỗ trợ một số lượng lớn các ứng dụng với nhiều yêu
cầu bit rate khác nhau. Ví dụ như trong các ứng dụng video giải trí bao gồm truyền
hình cáp, vệ tinh và DVD, H264 có thể truyền video có bit rate từ 1-10 Mbit/s với
độ trễ cao, trong khi đó với các dịch vụ viễn thông, H264 có thể truyền với bit rate
dưới 1 Mbit/s với độ trễ thấp.
Sơ đồ mã hóa khối của H264
75
Hình 49 Sơ đồ mã hóa khối của H264
Hình 50 Sơ đồ mã hóa H264
76
Hình 51 Sơ đồ giải mã H264
Các phương pháp nén của H264
Với chuẩn nén H264, mỗi hình ảnh được phân chia thành nhiều Block, mỗi
block tương ứng với một số lượng nhất định các MacroBlock. Ví dụ một hình ảnh
có độ phân giải QCIF (tương đương với số lượng điểm ảnh 176x144) sẽ được chia
thành 99 MacroBlock với kích cỡ 16x16. Một sự phân đoạn các MacroBlock tương
tự được sử dụng các kích cỡ ảnh khác. Thành phần chói của ảnh được lấy mẫu tương
ứng với độ phân giải của ảnh đó, trong khi đó thành phần màu CR và CB được lấy
mẫu với tần số thấp hơn theo 2 chiều ngang và dọc. Thêm vào đó mỗi hình ảnh có
thể được phân thành số nguyên lần các lát mỏng (slice), việc này rất có giá trị cho
việc tái đồng bộ trong trường hợp lỗi dữ liệu.
Mỗi hình ảnh thu được được xem như một ảnh I. Ảnh I là ảnh được mã hoá bởi
việc áp dụng trực tiếp các phép biến đổi lên các MacroBlock khác nhau trong ảnh.
Các ảnh I được mã hoá sẽ có kích cỡ lớn bởi nó được xây dựng từ một khối lượng
lớn thông tin của bản thân ảnh hiện tại mà không sử dụng bất cứ thông tin nào từ
miền thời gian trong quá trình xử lý mã hoá để tăng hiệu quả xử lý mã hoá bên trong
trong H264.
Giảm bớt độ dư thừa
Cũng giống như các bộ lập giải mã khác, H264 nén video bằng cách giảm bớt
độ dư thừa cả về không gian và thời gian trong hình ảnh. Những dư thừa về mặt thời
gian là những hình ảnh giống nhau lặp đi lặp lại từ khung (frame) này sang khung
khác, ví dụ như phần phông nền không chuyển động của một chương trình đối thoại
77
trên truyền hình. Dư thừa về không gian là những chi tiết giống nhau xuất hiện trong
cùng một khung, ví dụ như nhiều điểm ảnh giống nhau tạo thành một bầu trời xanh.
Ngoài ra H264 còn có khả năng so sánh nhiều khung hình ảnh với nhau để có
thể giảm bớt độ dư thừa tốt nhất, kĩ thuật này còn được gọi là Multiple Reference
Frames.
Hình 52 Multiple Reference Frames
Chọn chế độ, phân chia và chế ngự
Bộ lập giải mã bắt đầu bằng việc quyết định loại khung cần nén tại một thời
điểm nhất định và chọn chế độ mã hoá phù hợp. Chế độ "trong khối" tạo ra ảnh "I",
trong khi chế độ "giữa khối" tạo ra khung "P" hoặc "B". Sau đó, bộ mã hoá sẽ chia
ảnh thành hàng trăm hàng và cột các điểm ảnh của ảnh video số chưa nén thành các
khối nhỏ hơn, mỗi khối có chứa một vài hàng và cột điểm ảnh.
H264 có 4 profiles ứng với các chế độ mã hóa khung hình khác nhau, dẫn tới
mục đích sử dụng khác nhau: Baseline, Main, Extended và High
78
Hình 53 Profiles của H264
Như chúng ta thấy qua hình trên, ứng với mỗi profiles H264 lại cho ra hình ảnh
phù hợp với các mục đích sử dụng khác nhau như: hội nghị truyền hình, gọi điện
thoại hình, lưu trữ hay dùng trong cái studio, …
Nén theo miền thời gian
Khi bộ mã hoá đang hoạt động ở chế độ "giữa khối" (inter), khối này sẽ phải
qua công đoạn hiệu chỉnh chuyển động. Quá trình này sẽ phát hiện ra bất kỳ chuyển
động nào diễn ra giữa khối đó và một khối tương ứng ở một hoặc hơn một ảnh tham
chiếu đã được lưu trữ từ trước, sau đó tạo ra một khối "chênh lệch" hoặc "lỗi". Thao
tác này sẽ giảm bớt dữ liệu trong mỗi block một cách hiệu quả do chỉ phải trình bày
chuyển động của nó mà thôi. Tiếp đến là công đoạn biến đổi côsin rời rạc (DCT) để
bắt đầu nén theo miền không gian. Khi bộ mã hoá hoạt động ở chế độ "trong khối"
(intra), khối này sẽ bỏ qua công đoạn hiệu chỉnh chuyển động và tới thẳng công
đoạn DCT.
79
Hình 54 Sơ đồ khối mã hoá MPEG, đường đứt nét đặc trưng cho phần bổ sung của H264
trong việc nén theo miền không gian.
Nén theo miền không gian
Các khối thường có chứa các điểm ảnh tương tự hoặc thậm chí giống hệt nhau.
Trong nhiều trường hợp, các điểm ảnh thường không thay đổi mấy (nếu có). Như
vậy có nghĩa là tần số thay đổi giá trị điểm ảnh trong khối này là rất thấp. Những
khối như thế được gọi là khối có tần số không gian thấp. Bộ lập mã lợi dụng đặc
điểm này bằng cách chuyển đổi các giá trị điểm ảnh của khối thành các thông tin tần
số trong công đoạn biến đổi côsin rời rạc.
Biến đổi cosin rời rạc:
Công đoạn DCT biến đổi các giá trị điểm ảnh của khối thành một ma trận gồm
các hệ số tần số ngang, dọc đặt trong không gian tần số. Khi khối ban đầu có tần số
không gian thấp, DCT sẽ tập hợp phần lớn năng lượng tần số vào góc tần số thấp
của mạng. Nhờ vậy, những hệ số tần số thấp ở góc đó sẽ có giá trị cao hơn.
Một số lượng lớn các hệ số khác còn lại trên ma trận đều là các hệ số có tần số
cao, năng lượng thấp và có giá trị thấp. Hệ số DC và một vài hệ số tần số thấp sẽ
hàm chứa phần lớn thông tin được mô tả trong khối ban đầu. Điều này có nghĩa là
bộ lập mã có thể loại bỏ phần lớn hệ số tần số cao còn lại mà không làm giảm đáng
kể chất lượng hình ảnh của khối.
Bộ lập mã chuẩn bị các hệ số cho công đoạn này bằng cách quét chéo mạng
lưới theo đường zig-zag, bắt đầu từ hệ số DC và qua vị trí của các hệ số ngang dọc
tăng dần. Do vậy nó tạo ra được một chuỗi hệ số được sắp xếp theo tần số.
Lượng tử hoá và mã hoá entropy:
80
Tại đây thao tác nén không gian mới thực sự diễn ra. Dựa trên một hệ số tỷ lệ
(có thể điều chỉnh bởi bộ mã hoá), bộ lượng tử hoá sẽ cân đối tất cả các giá trị hệ số.
Do phần lớn hệ số đi ra từ DCT đều mang năng lượng cao nhưng giá trị thấp nên bộ
lượng tử hoá sẽ làm tròn chúng thành 0. Kết quả là một chuỗi các giá trị hệ số đã
được lượng tử hoá bắt đầu bằng một số giá trị cao ở đầu chuỗi, theo sau là một hàng
dài các hệ số đã được lượng tử hoá về 0. Bộ lập mã entropy có thể theo dõi số lượng
các giá trị 0 liên tiếp trong một chuỗi mà không cần mã hoá chúng, nhờ vậy giảm
bớt được khối lượng dữ liệu trong mỗi chuỗi.
Các ưu điểm nổi bật của chuẩn nén H264
Chúng ta hãy xét các ưu điểm nổi bật của chuẩn H264 để thấy được sự ưu việt của
chuẩn nén mới này.
Ưu điểm của nén không gian
Chuẩn nén H264có hai cải tiến mới trong lĩnh vực nén không gian. Trước hết,
bộ lập mã này có thể tiến hành nén không gian tại các macroblock 16x16 điểm ảnh
thay vì các block 8x8 như trước đây. Điều này giúp tăng cường đáng kể khả năng
nén không gian đối với các hình ảnh có chứa nhiều khoảng lớn các điểm ảnh giống
nhau.
Thứ hai là thao tác nén được tiến hành trong miền không gian trước khi công
đoạn DCT diễn ra. Chuẩn nén H264so sánh macroblock hiện thời với các
macroblock kế bên trong cùng một khung, tính toán độ chênh lệch, và sau đó sẽ chỉ
gửi đoạn chênh lệch tới DCT. Hoặc là nó có thể chia nhỏ macroblock 16x16 điểm
ảnh thành các khối 4x4 nhỏ hơn và so sánh từng khối này với các khối kế bên trong
cùng một macroblock. Điều này giúp cải thiện khả năng nén ảnh chi tiết.
Ưu điểm của nén thời gian
Điểm cải tiến lớn nhất ở H264là chế độ mã hoá giữa. Những phương pháp tiên
tiến ở chế độ này khiến cho nén thời gian đạt đến một cấp độ cao hơn nhiều, cùng
với chất lượng chuyển động tốt hơn so với các chuẩn MPEG trước đây.
Kích cỡ khối
Ở chế độ giữa khối, MPEG-2 chỉ hỗ trợ các macroblock 16x16 điểm ảnh,
không đủ độ phân giải để mã hoá chính xác các chuyển động phức tạp hoặc phi
tuyến tính, ví dụ như phóng to thu nhỏ. Ngược lại, H264lại tăng cường hiệu chỉnh
chuyển động bằng cách cho phép bộ lập mã biến đổi kích cỡ thành phần chói của
mỗi macroblock. (Bộ lập mã sử dụng thành phần chói như vậy là do mắt người nhạy
cảm với chuyển động chói hơn nhiều so với chuyển động màu.) Như có thể thấy
81
trong Hình 2, H264có thể chia thành phần chói của từng macroblock thành 4 cỡ:
16x16, 16x8, 8x16 hoặc 8x8. Khi sử dụng khối 8x8, nó còn có thể chia tiếp 4 khối
8x8 này thành 4 cỡ nữa là 8x8, 8x4, 4x8 hoặc 4x4.
Hình 55 H264 có thể phân chia thành phần chói của từng MacroBlock
theo nhiều cách để tối ưu hoá việc bù chuyển động
Việc phân chia các macroblock cho phép bộ lập mã xử lý được một vài loại
chuyển động tuỳ theo độ phức tạp của chuyển động đó cũng như nguồn lực về tốc
độ bit. Nhìn chung, kích cỡ phân chia lớn phù hợp với việc xử lý chuyển động tại
các khu vực giống nhau trong ảnh, trong khi đó kích cỡ phân chia nhỏ lại rất có ích
khi xử lý chuyển động tại các chỗ có nhiều chi tiết hơn. Kết quả là chất lượng hình
ảnh cao hơn, ít bị vỡ khối hơn.
Các cuộc thử nghiệm đã chỉ ra rằng việc sắp xếp hợp lý các khung có thể tăng
tỷ lệ nén thêm 15%. H264lấy phần chói của ảnh gốc và sử dụng các macroblock đã
được chia nhỏ tại các khu vực có nhiều chi tiết nhằm tăng cường khả năng hiệu
chỉnh chuyển động.
Độ chính xác trong hiệu chỉnh chuyển động:

Trong đa số trường hợp, chuyển động tại rìa mỗi macroblock hay khối thường
diễn ra với độ phân giải nhỏ hơn một điểm ảnh. Do vậy, chuẩn nén H264có thể đảm
bảo độ chính xác trong hiệu chỉnh chuyển động lên tới 1/4 hoặc 1/8 điểm ảnh, trong
khi các chuẩn MPEG trước đây chỉ dừng lại ở mức 1/2 điểm ảnh. Khả năng đạt mức
chính xác 1/8 ảnh điểm của H264giúp tăng hiệu suất mã hoá tại tốc độ bit cao và độ
phân giải video cao. Các thử nghiệm cho thấy độ chính xác đến 1/4 điểm ảnh có thể
làm giảm tốc độ bit xuống hơn 15% so với độ chính xác 1 điểm ảnh.
Chọn nhiều hình tham chiếu:
Chuẩn nén MPEG-2 chỉ dựa trên 2 khung tham chiếu để dự đoán các chuyển
động mang tính chu kỳ, giống như trong trò kéo quân. Tuy nhiên, khi camera thay
đổi góc quay hay chuyển qua chuyển lại giữa các cảnh, việc chỉ sử dụng 2 khung
tham chiếu không còn phù hợp để dự đoán chính xác chuyển động. Tương tự như
vậy, để đoán trước các chuyển động phức tạp như sóng biển hay một vụ nổ, ta cần
phải có nhiều hơn 2 khung tham chiếu. Vì thế, chuẩn H264cho phép có tới 5 khung
tham chiếu phục vụ cho việc mã hoá giữa khung. Kết quả là chất lượng video tốt
hơn và hiệu suất nén cao hơn.
82
Giải khối tích hợp:

Video số sau khi nén thường tạo ra một hiệu ứng gọi là "kết khối", có thể thấy
rõ tại điểm giao nhau giữa các khối, đặc biệt là khi có tốc độ bit thấp. Hiệu ứng này
là do công đoạn xử lý sử dụng nhiều loại chuyển động và bộ lượng tử khác nhau.
Đối với MPEG-2, cách duy nhất để ngăn chặn hiệu ứng này là sử dụng các cơ chế
hậu xử lý phù hợp, tuy nhiên các cơ chế này lại không tương thích được với tất cả
các máy thu. Chuẩn nén H264đưa vào sử dụng một bộ lọc giải khối hoạt động ở hai
cấp độ: macroblock 16x16 và khối 4x4. Việc giải khối thường tạo ra một tỉ số tín
hiệu trên nhiễu (PSNR) cực điểm thấp hơn, tuy nhiên nhìn một cách chủ quan thì nó
tạo ra hình ảnh chất lượng tốt hơn.
Ưu điểm về lượng tử hoá và biến đổi
Chấm di động 8x8 DCT cùng với dung sai của lỗi làm tròn chính là phần cốt
lõi của các chuẩn MPEG trước đây. H264độc đáo hơn ở chỗ nó sử dụng biến đổi
không gian nguyên (gần giống như DCT) đối với các khối 4x4 điểm ảnh. Kích cỡ
nhỏ giúp giảm bớt hiện tượng "kết khối", trong khi thông số nguyên tuyệt đối giúp
loại bỏ nguy cơ không thích ứng giữa bộ lập mã và giải mã trong phép biến đổi
ngược. Thêm vào đó, dãy hệ số xích lượng tử lớn hơn khiến cho cơ chế kiểm soát
tốc độ dữ liệu ở bộ lập mã hoạt động một cách linh hoạt hơn dựa trên một tỉ lệ phức
hợp vào khoảng 12,5% thay cho một mức tăng lượng gia không đổi.
Ưu điểm đối với mã hoá entropy

Sau khi tiến hành hiệu chỉnh, biến đổi và lượng tử hoá chuyển động, các bộ lập
mã MPEG trước đây sẽ vạch ra các symbol biểu diễn véctơ chuyển động và hệ số đã
lượng tử hoá thành các bit thực sự. Ví dụ như chuẩn nén MPEG-2 sử dụng phương
pháp mã có chiều dài biến thiên tĩnh (VLC) không thể tối ưu hoá trong môi trường
video thời gian thực (trong đó nội dung và các cảnh biến đổi theo thời gian).
H264sử dụng mã hoá thuật toán nhị phân theo tình huống CABAC (Context-
Adaptive Binary Arithmetic Coding). Hiệu suất mã hoá của CABAC cao hơn hẳn
nhờ khả năng thích nghi với các thay đổi có thể xảy ra trong phân bổ symbol. Ví dụ,
nó có thể khai thác sự tương quan giữa các symbol và từ đó sử dụng sự tương quan
bit và thuật toán mã hoá. Cơ chế này có thể giúp tiết kiệm thêm một lượng bit vào
khoảng hơn 5%.
83
So sánh H264 với các chuẩn nén khác
84
Kết luận về H264
H264 là một bước tiến lớn trong công nghệ nén video. Nhờ có những khả năng
dự đoán chính xác cũng như khả năng phục hồi tốt khi bị lỗi, H264 cung cấp những
bí quyết mạng lại hiệu quả nén cao hơn.
H264 đem đến những cơ hội mới trong việc mã hóa video một cách tốt hơn, từ
đó thực hiện được những dòng video có chất lượng cao hơn, frame rate cao hơn và
độ phân giải cao hơn với những bit rate ổn định (so với những tiêu chuẩn trước đó),
hay ngược lại, H264 tạo ra những video có cùng chất lượng nhưng ở bit rate thấp
hơn. Lần đầu tiên 3 tổ chức tiêu chuẩn hóa quốc tế ITU, ISO và IEC cùng đi đến kết
luận H264 là chuẩn nén video quốc tế. Nhờ tính năng linh hoạt, H264 đã được ứng
dụng trong đa dạng ở những lĩnh vực như: HD DVD (ví dụ như Blu-ray), truyền
hình kĩ thuật số bao gồm có HD TV, lưu trữ video trực tuyến (ví dụ như YouTube),
điện thoại di động thế hệ thứ 3, trong một số phần mềm như QuickTime, hệ điều
hành Mac OS X của máy tính Flash và Apple, và các máy chơi game gia đình như
Play Station.
Được áp dụng trong nhiều ngành công nghiệp và ứng dụng, đáp ứng nhu cầu
chuyên nghiệp cũng như nhu cầu bình dân, H264 được kì vọng sẽ thay thế những
tiêu chuẩn và cách thức nén khác đang được sử dụng hiện nay. Định dạng H264
ngày càng được ứng dụng rộng rãi trong network camera, mã hóa video và phần
mêm quản lý video, do đó những nhà thiết kế và tích hợp hệ thống sẽ cần phải đảm
bảo chọn được sản phẩm và nhà cung cấp phù hợp với chuẩn mở mới này. Hiện tại,
những sản phẩm video trong mạng máy tính hỗ trợ cả H264 và hình ảnh JPEG là
những sản phẩm lý tưởng, đem đến khả năng linh hoạt và sự tích hợp cao nhất.
85
KẾT LUẬN
Các chuẩn nén video đang ngày càng được nghiên cứu và đạt nhiều thành tựu
lớn hơn. Các chuẩn nén về sau ra đời càng ngày càng có chất lượng cao hơn và thích
hợp với nhiều mục đích sử dụng của con người. Trong khuôn khổ của một bài tiểu
luận, việc trình bày và đi sâu vào tìm hiểu các chuẩn nén là rất khó và còn nhiều
thiếu sót. Chúng em sẽ bổ sung và tiếp tục nghiên cứu tiếp khi có cơ hội.
Một lần nữa chúng em chân thành cảm ơn cô Nguyễn Thị Hoàng Lan về
những gợi ý và giúp đỡ của cô trong quá trình làm tiểu luận này.
86
TÀI LIỆU THAM KHẢO
1. Tài liệu từ itu.int/itu-t:

• ITU-T. H261
• ITU-T. H262
• ITU-T. H264
2. Axis Communication. H264
3. Tài liệu từ iso.org:

• Information technology -- Multimedia application format MPEG 1
4. MPEG digital video-coding standard - IEEE signal processing magazine

5. Tập bài giảng Truyền Thông Đa Phương Tiện của cô Nguyễn Thị Hoàng
Lan
87

Bao Cao

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bao Cao

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Bộ môn truyền thông và mạng máy tính

Bài tập lớn môn học

Vũ Văn Thành - 20062900

Nguyễn Hoài Nam - 20062194

Phạm Ngọc Quang - 20062504

Hoàng Anh Minh - 20062101

Trịnh Ngọc Đức - 2006C078

Nguyễn An Hưng - 20061531

Lớp : Truyền thông và Mạng máy tính – K51

Danh mục hình vẽ

Tiểu luận này của chúng em sẽ được chia thành 4 phần:

CHUẨN MPEG 1 và MPEG 2

Tổng quan về MPEG

Dữ liệu MPEG gồm 2 lớp:

Hình 1 Hệ thống giải mã của MPEG

Phân cấp cấu trúc của MPEG 1

Hình 2 Video Sequence

về màu (Chromiance), do đó trước hết các sơ đồ nén MPEG sẽ tiến hành

Hình 3 Thành phần độ sáng và thành phần độ màu

Ma trận Y có số hàng và cột bằng nhau (ma trận vuông). Ma trận Cb và Cr có

Các kĩ thuật nén của MPEG 1

Các kiểu khung hình trong MPEG 1

Hình 4 Các khung hình trong chuẩn MPEG

Hình 5 Các khung hình trong 1s

Mã hóa trong Mpeg 1

4 kiểu mã hóa cho mối Macroblock trong B-frame:

Thuật toán mã hóa biến đổi MPEG gồm các bước:

Hình 6 Mã hóa Macroblock

Sơ đồ nén và giải nén của MPEG 2

Dưới đây là sơ đồ nén và giải nén của chuẩn MPEG 2:

Các kĩ thuật nén của MPEG 2

Y= 0.299R + 0.587G + 0.114B

Việc chuyển từ hệ RGB sang YCbCr loại bỏ được cở bản ‘mutual

Hình 10 Hai tiêu chuẩn lấy mẫu 4:2:0 và 4:2:2

Hình 11 Biến đổi DCT

Phép toàn DCT được mô tả như sau :

Hình 12 Sơ đồ biến đổi DCT

Hình 13 Một số ví dụ về biến đổi DCT

Hình 14 Sơ đồ mã hóa VLC

Ví dụ : cho một DCT

Như vậy, từ 64 hệ số, chúng ta chỉ cần mã hóa và truyền đi 6 hệ số

Hình 15 Blocks trước và sau khi quét Zig-zag

Motion – Compensated Inter – Frame Prediction

Bit rate control

Hình 16 Bit rate control

(a)W(u,v) với độ dốc thoải (b) W(u,v) với độ dốc lớn

Hình 21 MPEG 2 Profiles

Hình 22 MPEG 2 Levels

So sánh giữa MPEG 1 và MPEG 2

Group of Block (GOB)

Ứng với ½ CIF(Common Image Format) picture hoặc là 1/3 QCIF(Quarter

Hình 23 Trật tự của một GOB trong ảnh

Hình 24 Cấu trúc của GOB header

Hình 24. Cấu trúc của GOB header

Hình 25 Trật tự của macroblock trong một GOB

Hình 26 Cấu trúc của một lớp Macroblock

Hình 27 Trật tự của blocks trong Macroblock

Còn dưới là cấu trúc của block layer:

Mô hình mã hóa và giãi mã của H261

Hình 28 Sơ đồ mã hóa H261

Hình 29 Sơ đồ giải mã H261