Professional Documents
Culture Documents
V Ngc Anh
H NI - 2010
I HC QUC GIA H NI
TRNG I HC CNG NGH
V Ngc Anh
H NI - 2010
Li cm n
Trc tin ti xin gi li cm n v lng bit n su sc ti TS.Nguyn H Nam v
Ths.Nguyn Thu Trang tn tnh ch bo v hng dn ti trong sut qu trnh thc hin
kha lun tt nghip.
Ti xin chn thnh cm n cc thy, cc c to cho ti nhng iu kin thun li
hc tp v nghin cu ti trng i Hc Cng Ngh.
Ti xin cm n cc bn trong nhm lm Data Warehouse v OLAP cng tho lun
v trao i v gip ti rt nhiu trong qu trnh thu thp ti liu.
Ti xin gi li cm n v hn ti gia nh, bn b, nhng ngi thn yu lun bn
cnh ng vin ti trong sut qu trnh thc hin kha lun.
Ti xin chn thnh cm n!
Sinh vin
V Ngc Anh
Mc lc
Mc lc ....................................................................................................................... 1
Danh sch cc hnh ...................................................................................................... 3
Bng t vit tt ............................................................................................................ 5
Li m u .................................................................................................................. 6
Chng 1. Gii thiu kho d liu v d liu ti chnh .................................................. 7
1.1.
1.2.
1.2.1.
1.2.2.
1.2.3.
Li ch ca kho d liu............................................................................. 9
1.2.4.
1.2.5.
1.2.6.
1.2.7.
2.2.
2.3.
2.4.
2.5.
2.6.
2.7.
Cc m hnh lu tr h tr OLAP................................................................. 22
2.7.1.
2.7.2.
2.7.3.
2.7.4.
So snh cc m hnh............................................................................... 25
3.2
3.3
4.2.
4.3.
4.4.
4.4.1.
To cube ................................................................................................ 42
4.4.2.
Kt lun ..................................................................................................................... 52
Ti liu tham kho ..................................................................................................... 53
Bng t vit tt
OLAP
MOLAP
ROLAP
HOLAP
BI
Business Intelligence
OLTP
Li m u
Cng vi vic p dng rng ri cng ngh thng tin vo trong hu ht cc lnh vc
trong i sng, kinh t, x hi l vic d liu thu nhn c qua thi gian ngy
cng nhiu.V vy, yu cu thit yu t ra i vi cc doanh nghip l vic khai
thc cc d liu ny mt cc hiu qu phc v cho vic kinh doanh ngy cng tt
hn.
Kha lun ny vi ti p dng k thut OLAP v kho d liu trong bo co ti
chnh gii thiu v kho d liu, phng php OLAP v ng dng trong phn tch bin
ng gi du, gi vng v ch s VNIndex bng cng c Pentaho.
Kha lun gm bn chng:
Chng 1. Gii thiu kho d liu v d liu ti chnh gii thiu v c im ca d
liu ti chnh, gii thiu tng quan v kho d liu, cu trc kho d liu, cc thnh
phn ca kho d liu, cch thit k kho d liu v ng dng ca kho d liu.
Chng 2. Gii thiu tng quan v OLAP gii thiu tng quan v k thut OLAP, cc
m hnh lu tr h tr k thut OLAP, u im v nhc im ca cc m hnh. Cc
bc chuyn d liu t OLTP sang OLAP.
Chng 3. Gii thiu b cng c Pentaho gii thiu tng quan b cng c Pentaho,
kin trc, cng ngh, v cc tin ch ca Pentaho.
Chng 4. Gii thiu bi ton trin khai trn Pentaho v kt qu t c trin khai
Pentaho trn mt bi ton thc, p dng k thut kho d liu v k thut OLAP
thc hin
Phn kt lun tng kt v tm lc nhng kt qu, ng gp chnh ca kha lun.
D liu phn tn
1.2.
Nng cao cht lng d liu bng cch lm sch v hng ch nht nh
Tng hp v kt ni d liu
ng b ha cc ngun d liu
Cung cp thng tin c tch hp, tm tt hoc c lin kt, t chc theo cc ch
C kho d liu cng trch rt ti nguyn khan him ca h thng sn xut khi thc thi
mt chng trnh qu lu hoc cc bo co v cc cu truy vn phc hp.
Cng vic kinh doanh tr nn thng minh hn. Tng thm cht lng v tnh
linh hot ca vic phn tch kinh doanh do pht sinh t cu trc d liu a tng ca
kho d liu, l ni cung cp d liu c sp xp t mc chi tit ca cng vic
kinh doanh cho n mc cao hn - mc tng qut. m bo c d liu chnh
xc v ng tin cy do m bo c l trong kho d liu ch cha duy nht d liu c
cht lng cao v n nh (trusted data).
Dch v khch hng c nng cao. Mt doanh nghip c th gi gn mi quan
h vi khch hng tt hn do c mi tng quan vi d liu ca tt c khch hng qua
mt kho d liu ring.
Ti sng to nhng tin trnh kinh doanh. S cho php phn tch khng ngng
thng tin kinh doanh thng cung cp s hiu bit mi mt ca phng thc kinh
doanh do c th lm ny sinh ra nhng kin cho s sng to ra nhng tin trnh
ny li. Ch khi xc nh chnh xc cc nhu cu t kho d liu th mi gip ta nh gi
c nhng hn ch v mc tiu kinh doanh mt cch chnh xc hn.
Ti sng to h thng thng tin. Mt kho d liu l nn tng cho cc yu cu d
liu trong mi lnh vc kinh doanh, n cung cp mt chi ph nh hng ngha l a ra
thi quen cho cho c hai s chun ha d liu v s chun ha hot ng ca h iu
hnh theo chun quc t.
1.2.4. Thnh phn ca kho d liu
Chi tit hin hnh
Trung tm ca kho d liu l chi tit hin hnh ca n. l ni m phn ln
d liu c lu tr. Chi tit hin hnh n trc tip t h iu hnh v c th c
lu tr nh l d liu th hoc nh s tp hp ca d liu th.
10
Data Marts
and Cubes
Source
Relational
Data Store
Clients
Chi tit hin hnh l phn li d liu mc thp nht trong kho d liu. Mi thc
th d liu trong chi tit hin hnh l mt bc nh chp nhanh, ti mt thi im, l s
minh ha khi d liu chnh xc. Chi tit hin hnh l c trng t hai n nm nm. S
chnh xc ca chi tit hin hnh xy ra thng xuyn nh l iu kin cn thit
cung cp nhng yu cu trong kinh doanh.
H thng bn ghi
Mt h thng bn ghi l ngun d liu tt nht hoc phi nht (rightest data)
dng nui dng kho d liu. D liu phi nht l d liu hp thi nht, y
nht, chnh xc nht, v c s thch nghi v cu trc nht trong kho d liu. D liu
phi nht thng ng nht i vi ngun ghi nhn trong mi trng sn xut. Trong
nhng trng hp khc, mt h thng bn ghi c th l mt ni dng cha d liu
tng hp.
1.2.5. Cu trc ca kho d liu
Mt kho d liu c th c mt vi phn ca cu trc sau:
11
Kho d liu mc vt l
C s d liu mc vt l trong tt c d liu ca kho d liu c lu tr , theo
cng vi metada v tin trnh x l logic cho vic lc, t chc v ng gi d liu, x
l d liu chi tit.
Kho d liu mc logic
Cng cha ng metadata bao gm nhng lut kinh doanh v x l logic cho
vic lc, t chc, ng gi v x l d liu, nhng khng cha ng d liu tht s.
Thay vo n cha ng nhng thng tin cn thit truy cp d liu bt c ni
u.
Kho d liu thng minh hay d liu theo ch (Data mart)
L tp con ca mt kho d liu din rng. in hnh l n cung cp nhng
thnh phn ln (phn khu, vng, chc nng,). Ni tm li, Data mart nh l nhng
phn chuyn bit ha ca kho d liu.
1.2.6. M hnh thc th trong kho d liu
M hnh thc th mi quan h c s dng ph bin trong m hnh c s d
liu OLTP. Tuy nhin, m hnh c s d liu ER ny khng thch hp cho vic thit
k kho d liu v phi truy vn ti qu nhiu bng khc nhau. Hu ht cc kho d liu
s dng m hnh sao (star schema). M hnh ny ch gm duy nht mt bng s kin
v mt bng chiu (dimention) cho mi chiu. Trong bng s kin s c cc trng
kha ngoi lin kt vi kha chnh ca cc bng chiu. V d v m hnh sao:
12
Products
Orders
Fact Table
OrderNo
OrderDate
Custormers
CustomerNo
CustomerName
CustomerAddress
OrderNo
SalespersionID
CustomerNo
ProdNo
DateKey
CityName
Quantity
TotalPrice
City
Salespersons
SalespersonID
SalespersonName
City
Quota
ProdNo
ProdName
ProdDescr
Category
CategoryDescr
UnitPrice
QOH
Date
DateKey
Date
Month
Year
City
CityName
State
Country
13
Orders
Products
Category
Fact table
OrderNo
OrderDate
Customers
CustomerNo
CustomerName
CustomerAddress
City
OrderNo
SalespersonID
CustomerNo
DateKey
CityName
ProdNo
Quantity
TotalPrice
ProdNo
ProdName
ProdDescr
Category
UnitPrice
QOH
Date
DateKey
Date
Month
Salesperson
SalespersonID
SalespersonName
City
Quota
CategoryName
CategoryDescr
Month
Year
Month
Year
City
State
CityName
State
14
15
2.2.
Cc nh qun l kinh doanh c khuynh hng suy ngh theo nhiu chiu
(multidimensionally). V d nh h c khuynh hng m t nhng g m cng ty lm
nh sau:
Chng ti kinh doanh cc sn phm trong nhiu th trng khc nhau, v chng ti
nh gi hiu qu thc hin ca chng ti qua thi gian.
Nhng ngi thit k kho d liu thng lng nghe cn thn nhng t v h
thm vo nhng nhn mnh c bit ca h nh:
Chng ti kinh doanh cc sn phm trong nhiu th trng khc nhau, v chng ti
nh gi hiu qu thc hin ca chng ti qua thi gian.
16
Suy ngh mt cch trc gic, vic kinh doanh nh mt khi (cube) d liu, vi cc
nhn trn mi cnh ca khi (xem hnh bn di). Cc im bn trong khi l cc giao
im ca cc cnh. Vi m t kinh doanh trn, cc cnh ca khi l Sn phm, Th
trng, v Thi gian. Hu ht mi ngi u c th nhanh chng hiu v tng tng
rng cc im bn trong khi l cc o hiu qu kinh doanh m c kt hp gia
cc gi tr Sn phm, Th trng v Thi gian [5].
San pham
Thi gian
Th trng
Mt khi d liu (datacube) th khng nht thit phi c cu trc 3 chiu (3-D),
nhng v c bn l c th c N chiu (N-D). Nhng cnh ca khi c gi l cc
chiu (dimensions), m l cc mt hoc cc thc th ng vi nhng kha cnh m
t chc mun ghi nhn. Mi chiu c th kt hp vi mt bng chiu (dimension
table) nhm m t cho chiu . V d, mt bng chiu ca Sn phm c th cha
nhng thuc tnh nh Ma_sanpham, Mo_ta, Ten_sanpham, Loai_SP, m c th
c ch ra bi nh qun tr hoc cc nh phn tch d liu. Vi nhng chiu khng
c phn loi, nh l Thi gian, h thng kho d liu s c th t ng pht sinh
tng ng vi bng chiu (dimension table) da trn loi d liu. Cn ni thm rng,
chiu Thi gian trn thc t c ngha c bit i vi vic h tr quyt nh cho cc
khuynh hng phn tch. Thng th n c mong mun c mt vi tri thc gn lin
vi lch v nhng mt khc ca chiu thi gian.
Hn na, mt khi d liu trong kho d liu phn ln c xy dng o hiu
qu ca cng ty. Do mt m hnh d liu a chiu c th c t chc xung quanh
mt ch m c th hin bi mt bng s kin (fact table) ca nhiu o s hc
(l cc i tng ca phn tch). V d, mt bng s kin c th cha s mt hng bn,
thu nhp, tn kho, ngn sch, Mi o s hc ph thuc vo mt tp cc chiu
cung cp ng cnh cho o . V th, cc chiu kt hp vi nhau c xem nh xc
nh duy nht o, l mt gi tr trong khng gian a chiu. V d nh mt kt hp
17
2.4.
2.5.
Nhng thnh phn m OLAP s dng thc hin cc dch v bao gm:
- Ngun d liu: Cc c s d liu OLTP v cc ngun d liu hp l khc cha
cc d liu c th chuyn i thnh d liu OLAP trong kho lu tr.
- Kho trung gian: l ni lu tr v x l d liu c tp hp, sau c sp
xp, sng lc, chuyn i thnh d liu OLAP hu ch.
- My ch lu tr: Cc my tnh chy c s d liu lin kt cha cc kho d liu
cho kho lu tr, v cc my ch qun l d liu OLAP (warehouse server).
- ng dng thng minh: Cc b cng c v ng dng thc hin truy vn d liu
OLAP v cung cp cc bo co v thng tin cho ngi ra quyt nh ca doanh
nghip (Business Intelligence).
- Siu d liu: Cc i tng nh cc bng biu trong c s d liu OLTP, cc
khi trong kho lu tr d liu, v cc bn ghi m ng dng tham chiu ti cc on
d liu khc nhau.
20
2.6.
chuyn i d liu OLTP sang d liu OLAP trong kho d liu c thc hin
thng qua cc qui trnh sau:
-Hp nht d liu: tt c cc d liu lin quan ti cc mc c trng (sn phm,
khch hng, hay nhn vin) phi c kh nng hp nht t nhiu h thng OLTP ti
mt h thng OLAP n. Quy trnh hp nht phi gii quyt c s khc nhau v
m ho gia cc h thng OLAP, ph hp vi cc d liu chung c s dng c
hai h thng c th bng cch so snh cc trng tng t, c th bin i d liu
lu tr t nhiu loi d liu khc nhau trong mi h thng OLTP thnh mt loi d
liu duy nht c s dng trong h thng OLAP.Cc h thng cung cp cc d
liu u vo cho mt h thng OLAP khng nht thit phi l cc h thng OLTP
truyn thng m c th c lu tr nhiu dng hp l, chng hn nh cc bn
ghi Microsoft Excel trong mt tp c chia s.
-Qut d liu: Vic hp nht d liu OLTP vo mt kho d liu (data
warehouse) to iu kin qut d liu. Mt s h thng OLTP nh vn cc mc
khc nhau, hoc qu trnh hp nht c th gy ra cc li chnh t. S khng thng
nht ny phi c chnh sa trc khi d liu c th c nhp vo kho lu tr
phc v cho h thng OLAP.
-Tp hp d liu: D liu OLTP ghi nhn tt c cc chi tit ca transaction.
OLAP ch truy vn nhng d liu tng kt cn thit, hoc cc d liu c tp hp
bng mt s quy tc nht nh. V d, mt truy vn ly tng doanh thu hng thng
cho mi sn phm trong nm trc s chy nhanh hn nu c s d liu ch c cc
dng tng kt doanh thu hng ngy (hoc tng gi) ca mi sn phm, so vi truy
vn phi qut tt c cc bn ghi chi tit trong vng 1 nm. Mc tp hp d liu
trong kho lu tr ph thuc vo s lng cc yu t thit k (ging nh lp trnh
hng i tng).
-Sp xp d liu: Khi d liu OLTP c chuyn vo kho lu tr, chng s
phi c bin i theo cch sp xp hp l hn i vi nhu cu phn tch nhm
a ra quyt nh v hn ch tiu ph thi gian. Qu trnh thit lp kho lu tr bao
gm c vic sp xp li d liu OLTP, lu trong cc bng biu lin kt, thnh d
liu OLAP c lu trong cc khi a chiu. D liu sau c ti vo kho lu
tr.
-Truy cp v phn tch d liu: Khi d liu c ti vo kho lu tr, OLAP
cung cp kh nng truy cp, xem, v phn tch d liu vi linh hot v hiu qu
21
cao. OLAP trnh by d liu thng qua m hnh d liu t nhin v trc quan, gip
cho ngi s dng xem v hiu mt cch tt nht nhng thng tin trong kho lu
tr. T cho php ngi s dng nhn bit c gi tr ca d liu.
2.7.
Cc m hnh lu tr h tr OLAP
D liu trong mi
trng OLAP
Mysql
Oracle
MOLAP
data
Other
ROLAP
HOLAP
Lu tr d liu c s
Khi
Khi
Nhanh
Nhiu
Thp
Trung bnh
Chi ph bo tr
Cao
Thp
Trung bnh
25
Tng quan
Design studio
Aggregation designer
Metadata editer
Pentaho data integartion
- Schema wordbench
Cu trc ca Pentaho:
3.2
Cc kh nng BI ca pentaho
26
thun ty.
Wizard h tr thit k bo co d dng v nhanh chng.
Phin bn chuyn nghip vi nhiu chc nng nh phn nhm, ng k, tch hp
27
- H tr cc kh nng tin tin bao gm bo co tch hp, siu d liu, biu thng
qua vic tch hp vi cc sn phm khc trong b Pentaho.
Biu :
Pentaho Dashboards gip ngi qun tr hiu tng tn s vic bn trong ngay
lp tc t s thc hin c nhn, phng ban, hay doanh nghip. Bng php o trn giao
din trc quan, Pentaho Dashboards cung cp cho nh doanh nghip thng tin thc
gip h hiu bit v ci thin cng vic.
Pentaho Dashboards h tr tnh trc quan bng cch cung cp:
- Kh nng qun l cc php o ton din cho php nh ngha v theo di nhng o
c ng ch mc c nhn, phng ban hay doanh nghip.
- Hin th trc quan phong ph gip nh kinh doanh c th thy ngay nhng ci no
ang i ng hng v ci no cn ch .
- Tch hp bo co v phn tch ngi s dng c th khai thc tn gc cc bo
co v phn tch hiu nhng nhn t a n thnh cng hay tht bi.
- Cng tch hp d dng chuyn cc php o c trong kinh doanh lin quan vi s
lng ln ngi s dng, tch hp thng vo trong ng dng ca h.
- Tch hp bo ng lin tc theo di nhng ngoi l v thng bo cho ngi s
dng bit.
Khai ph d liu:
- Nhng mi quan h tm n trong d liu c th c dng ti u ha nhng qui
trnh nghip v v d on nhng kt qu tng lai.
- Cung cp mt phm vi tin tin y cc gii thut khai thc d liu.
- Hin th kt qu cho ngi dng vi nh dng d hiu.
Quy trnh:
- Qui trnh kinh doanh t ng v hp l a ra cc kt qu c bo chng, hiu qu
v c th bo co vi nhiu mc ch khc nhau.
28
- Lin kt trc tip cc php o c vi tin trnh. y mnh ci tin chu trnh kinh
doanh lin tc. T vic bo co da theo cc php o thng qua s thay i trong
kinh doanh n vic bo co nhng kt qu thay i , v lp li qu trnh ti
u ha hn na.
da trn kt qu tng th ging nh thi gian thu hi tin hng tn ng (DSO) gip
bn o c s tin trin trong kinh doanh da vo cc xut cho php hay khng
cho php bn tinh chnh m hnh v cc khuyn co c hiu qu ti u, cho php
bn tn dng trit cc phm vi thut ton.
Khng c thut ton no ti u cho tt c cc tnh hung. V vy bn nn th
cc phm vi tm ra tht ton ph hp nht cho d liu ca bn.
Nu bn c nhiu thut ton hp l bn c th dng tt c V d: Da trn s
phn tch ca 3 m hnh d an th kh nng khch hng ny tr chm l: M hnh A:
95% (96% ng), M hnh B: 89% (92% ng), M hnh C: 76% (97% ng).
C th p dng cho bt c BI hoc tin trnh kinh doanh no
Tch hp vi cc thnh phn khc ca h Pentaho BI cho php bn d dng p
dng khai thc d liu cho bt k tin trnh no trong h thng (chn hng nh quay
vng tin mt) v qui trnh kinh doanh thng minh (nh pht sinh bo co, ha n, v
nhg hnh ng tri quy lut). Vic ng dng ny rt linh hat ty theo d kin ca
tin trnh BI c thc hin.
Trch dn, to, khai thc c ci nhn su sc hn trong phn tch ca bn
iu ny xy ra khi d liu c sinh ra hoc mt phn trong tin trnh chun
b d liu. V d khi lm bo co bn hng bn c th hin vng ha m bn dng
cho khai thc d liu sau ny. Ngai ra bn cng c th thm d liu trong qu trnh
chun b khai thc d liu nh cc bin tnh ton hay n v o lng khc.
Cch khai thc d liu.
Chn mt m hnh
Cc nh phn tch c th lm vic trn phm vi m hnh trc quan bao gm cc
hnh thc tin tin ca khai thc d liu nh l xp nhm, phn on, cc quyt nh
hnh cy, kiu ngu nhin, kiu hnh mng, v phn tch nhn t thit yu.
Thm d liu
C th thm cc tnh nng khc cho d liu. V d, bn c th nh ngha cc
bin h thng c th t ng ly d liu to thm cc ct mi phn tch.
Ph hp
30
32
H iu hnh windows 7
B cng c pentaho
34
37
38
39
40
Table output.
41
42
44
45
46
47
la chn kiu
hin th biu
48
49
50
51
Kt lun
Qua nhng phn tch v ng dng trong bi bo co ny a ra cho thy vic p
dng kho d liu v cc k thut OLAP trong tng lai s l tt yu v l xu th cc
doanh nghip ng dng.
Kha lun t c nhng kt qu:
- Tm hiu v phn tch k thut kho d liu v ng dng trong lnh vc ti
chnh.
-
cc u v nhc im ca cc m hnh lu tr .
-
52
53
[12]. Seth Grimes. Mysql V5- Ready for Prime Time Business Intelligence. Alta
Plana Corporation, 2006. Tr 2-23.
[13]. Surajit Chaudhuri- Umeshwar Dayal. An Overview of Data warehouse and
OLAP Technology. Tr 2-10.
[14] Thomas C.Hammergren- Alan R. Simon. Data warehousing for dummies. Wiley
Publishing,Inc. Tr 9-95.
[15] MOLAP, ROLAP, And HOLAP
http://www.1keydata.com/datawarehousing/molap-rolap.html
54