Data Warehouse,DW
能重新萃取、呈現企業交易資料面貌的資料倉儲系統

資料倉儲一詞,於1990年由資料倉儲之父Bill Inmon提出,他認為DW的目的在於整合及運用資料。這種系統存在的目的,就是將所有資料儲存在同一個地方,管理這些資料的進出,並且透過各種分析方法。如線上分析處理(OLAP)、資料採礦(Data Mining)對這些資料進行分析,再應用在決策輔助系統(Decision Support System,DSS)、主管資訊系統(Executive Information System,EIS),幫助決策者能從大量的資料中,分析出有價值的資訊,以利擬定策略與快速回應,建構出商業智慧(Business Intelligence,BI)。

早在1960年代,大型主機便已開始被用來定期產生報表。直至1970年代,第一個以資料分析為目的產品Express誕生,之後在1995年輾轉由Oracle買下,直到今日,這項技術仍然是Oracle資料倉儲產品的一部分。

1980年代有大型公司開始建置獨立的決策輔助系統,其實就是現今資料倉儲的前身。1990年代資料倉儲系統,又因為以下三種電腦技術的發展,而變得更加實用:主從架構、平行計算與網際網路的興起。

主從架構讓系統可以區分成前端與資料處理兩部分。平行計算增加了主機資料處理的能力,使資料倉儲系統可以處理並且容納更多的資料。而網際網路讓資料倉儲系統可以透過網路傳遞資料。

另一位與Bill Inmon並駕齊驅的Ralph Kimball以資料倉儲的功能為出發點,並不特別規範資料倉儲裡頭所包含的資料類型做任何規範。因為實際上資料倉儲系統,並不是只含交易資料,如果要達到有效的分析,資料勢必經過整合。因此結合Bill Inmon與Ralph Kimball的解釋是更為恰當的,「資料倉儲是以分析與查詢為目的所建置的系統,這種系統能整合及運用資料,產生對決策者有用的情報。」文⊙林柏凱



Data Mart
資料超市
資料超市是資料倉儲的一種特殊形式,同樣包含對作業資料的快照,方便使用者能基於經驗與歷史資料進行決策。和資料倉儲最主要的差別,在於資料超市是預先定義好的,而且是具體的,同時資料也是分組並配置好的。

在單一企業中可以有多個資料超市,每個資料超市會與一個或多個商業單元相關聯。如果某些資料超市的設計上,是使用相同的資料和規模,這些資料超市就會是相關聯的。

Operational Data Store,ODS
操作性資料商店
一個經過整合的分析系統,以支援前端操作為目的。如同資料倉儲,操作性資料商店中的資料是主題導向、經過整合的,由於操作性資料商店是用來支援前端的操作系統,所以上面的資料必須是即時的,也就是需要經常被更新、補充的。

此外,由於前端操作系統經常需要較為詳細的資料,因此操作性資料商店的資料必須包含所有詳細資料,才能達到它的目的,這一點和資料倉儲不同。

Waterfall Methodology
瀑布式
系統建置的方法之一,在每個階段都需要進行到結束的程序,下一個階段才能開始。這種做法呈階梯狀,由分析、設計、建置、測試到系統完成,很自然地銜接到下一個階段,如瀑布的水流經好幾個落差一般。早期資料倉儲都採用此法,開發團隊會花很多時間以符合所有提出的要求。且累積的資料量非常龐大,建置的時間較長,等系統上線時,企業的運作時常已經改變,先前的工作可能已經毫無意義了。

Spiral Methodology
旋轉式
與瀑布式皆為系統建置的方法,但是完全不一樣。旋轉式中每個階段所花的時間較少,且整個系統的建置是不斷在進行的。每一個循環(分析->設計->建置->測試)結束,使用者即評估目前系統的狀況,進而確認下一步的方向。

和瀑布式相比,旋轉式系統上線的速度更快、一次的花費不會太高,而且使用者的需求可以迅速反應在系統上,不會因建置時間過長而產生需求不符合現實的狀況。

ETL,Extraction、Transformation and Loading
資料提取、轉換及匯入
這是資料整合的3個步驟,由資料來源讀取出資料,將它們轉換成適合分析的型態,並且將它們匯入資料倉儲系統。這個過程在建立資料倉儲架構中是不可互缺的一環,通常還要搭配著資料清潔(Data Cleaning)將系統源頭許多未經整合的、不允許的、遺失的或者錯誤的資料,在匯入資料倉儲之前重新整頓,因為源頭是錯誤的資料,之後發布的也是錯誤的資訊。所以,完成ETL以後,資料的分析處理作業才可以繼續進行。

Metadata
中繼資料
中繼資料是描述資料本身特性的資料,如果有完整的中繼資料,將使管理資料倉儲系統更加容易。

中繼資料橫跨整個資料倉儲系統架構,無論是資料來源、資料提取、臨時資料儲存區,都需要有中繼資料。

中繼資料的儲存與管理是倉儲系統最重要的一環,卻也是最容易被忽略的,主要原因是使用者不常直接使用到中繼資料,且大部分的資料倉儲專案計畫中,並沒有提到中繼資料。

Fact Table
事實表格
資料倉儲系統中儲存歷史資料的資料表格,這些都是資料倉儲的核心資料。

如果以一個商用資料倉儲來看,事實表格的資料是以交易為中心的資料,它們可以是物品的銷售,信用卡交易和利息與利潤等資料。
資料倉儲中的事實表格是資料庫中處理得最頻繁的資料表格,也是操作最為頻繁的,所以事實資料表有時可以龐大到占據超過1TB的空間。

Dimension Table
維度表格
用來定義事實表格中的欄位,例如員工姓名、性別或其他項目等。
使用上和正規化的過程相似,同樣都是擷取有用的資料以加快處理速度。維度表格所包含的資訊,一般可以指出如何從事實表格中取得有用的材料。因此簡單來說,維度表格是用來記載事實表格中所包含資料的意義。
維度表格通常很小,且只含有幾個資料列。所以資料倉儲一般只會有少數幾個事實表格,卻會有很多個維度表格。

Multi-Dimension
多維度
多維度是人們分析資料的特定角度,可以用來表示特定地區、時間、產品、銷售量下的資訊。多維分析是指可以對多維形式所組織起來的資料,透過各種分析方法剖析,方便使用者可以從多個角度去觀察資料庫裡頭的資料。資料庫結構中,位於中心的稱為事實表格,外圍的稱之為維度表格,而一般資料倉儲只會有少數幾個事實表格與多個維度表格,呈現星狀結構,所以多維度資料庫結構又稱為星狀資料庫結構。

熱門新聞

Advertisement