OLAP,Online Analytical Processing
線上即時分析,強化企業分析力
OLAP一詞是1993年由Dr. E.F. Codd所提出,他同時也是關聯式資料庫模型的發明人。Dr. Codd深知關聯式資料庫在處理大量資料時會產生效能方面的問題,於是以OLAP架構作為解救之道。

由於日常交易系統多半使用關聯式資料庫,它的特性在快速完成資料的新增、修改、刪除與查詢,為了達到這個目的,必須利用正規化的手段將資料表拆解,儘量讓資料表之間不要持有相同的資料。一旦資料需異動時,就可以保持最小的變動量。然而遇到複雜的查詢動作,例如「去年同期某產品在臺北總有多少銷售額?」這樣的查詢,它就必須結合不同的資料表,再進行加總運算,這對關聯式資料表會造成相當大的負擔,效能也會明顯低落。

因此OLAP便在這樣的需求下應運而生,簡單地說,它將正規化的拆解動作逆反,將資料結合到大資料表,這個資料表稱為事實資料表,另外再針對經常需要加總運算的欄位預先彙整,如此一來,在查詢時就便可以在同一張資料表中取得結果,進而提升效能。

OLAP又經常被稱為多維度分析,這是從分析的角度而言,資料庫必須提供多種面向讓使用者檢視資料,以利於資料的分析。每個具有分析意義的資料面向便是一個維度,而多個維度組成後便能展現出複雜的分析結構。

雖然在Dr. Codd提出OLAP的12條概念之前,就有不少廠商做出相似概念的產品,但在他的界定之下,對於OLAP的發展有推波助瀾的功效。無論是採用多維度資料庫來儲存資料的MOLAP架構,或是仍利用原有關聯式資料庫儲存維度資料的方式實作出ROlAP,以及綜合二者技術的HOLAP解決方案。也有人對Dr. Codd的定義覺得不夠明確,提出更為精簡的定義,認為OLAP可以定義為「快速分析與分享多維度資訊」(Fast Analysis of Shared Multidimensional Information,FASMI),標示出資訊的多維度結構與快速反應和安全控管等議題。

今日企業對商業智慧需求益增,便是希望能從舊有的資料中挖掘、分析出意義與事實,OLAP由於能快速提供查詢結果與多角度的分析面向,在商業智慧的解決方案中佔有舉足輕重的地位。文⊙黃天賜

Aggregation
彙整、聚集
就商業分析而言,大多數檢視資料時,通常需要的資料型態是經過妥善彙整,而非交易過程的細節資料,例如依照月份、季別、年度等加總過的銷售數字,或是依地區別計算的產品庫存量。彙整既符合分析時的實際需求,也能提升檢視時的效能,更有利於OLAP分析時,迅速取得所需數字。就實務而言,匯總通常需要配合ETL工具將資料進行萃取、轉換和載入的動作。

Fact Table
事實資料表
企業營運資訊中會有許多需要彙總計算的數字,而為了分析效能考量,這些可以計算的數值欄位都預先處理彙整,集中在一個大資料表中,這就是事實資料表。由於分析數字代表現企業真實的情況,因此被稱作「事實」資料表。此外,這些數字通常會隨著時間而改變,資料表便會與時增加,形成相當龐大的記錄。事實上,維度與事實這樣的觀念,早在1960年代,就因解決大量資料查詢的效能問題而出現。

MOLAP,Multidimensional OLAP
多維度線上即時分析
Dr. Codd提出12種規則來界定OLAP概念,不過在OLAP發展過程中,廠商實作的方式不儘相同,而其中最典型的OLAP架構便是多維度線上即時分析。

多維度線上即時分析將需要分析的資料製成維度與量值,再將各種維度組成多維度立方體(Cube),分析時便是去讀取立方體中的量值。在各種OLAP架構中,多維度OLAP最受人稱道的它的執行速度,使用者可以即時取得結果。

Constellation Schema
星座結構
多維度的資料模型除了星狀結構之外,包圍星狀結構的維度資料表,再進一步與其他資料表關聯、延伸,這種資料結構被稱為雪花結構。星狀結構與雪花結構的共通特性,是以一個事實資料表為核心作延伸,而星座結構的資料模型則突破只能有一個事實資料表的限制,可以擁有多個事實資料表,而讓查詢、分析的方式與結果更為豐富與多元。由於資料結構看起來像許多星狀結構的相互連結,因此被稱為星座結構。

HOLAP,Hybrid OLAP
混合式線上即時分析
OLAP實作方式通常分為多維度線上即時分析與關聯式線上即時分析(Relational OLAP),前者透過多維度立方體儲存分析資料,後者則以傳統關聯式資料庫儲存。兩者各有優、缺點,MOLAP在執行時速度快,但資料範圍則受限於預先儲存在立方體中的資料,ROLAP則可以在傳統資料庫中撈取所需的資料,但是運作效能則不如MOLAP來得好。HOLAP則是以兼容兩者的優點出發。

Pivot Table
樞紐分析表
樞紐分析表是進行OLAP分析時常見的分析方式。分析時使用者可以將檢視維度拖入到樞紐分析距陣中,視需要放置在行或列。樞紐分析表之所以得其名,是因為它能對調行、列的位置,靈活調整檢視的角度。現今OLAP的樞紐分析表大多支援下鑽功能,呈現更為細節的資料面向。由於微軟的Excel也有樞紐分析功能,因此許多OLAP也支援匯入到Excel中進行樞紐分析。

Cube
立方體
Dr. Codd為解決關聯資料庫的查詢效能瓶頸,提出的新型態資料模型即是立方體。以三維結構為例,分析人員可以從時間、產品、地區三種維度組成的立方體來檢視銷售狀況,而在某個時間點的某個地區,特定產品組成的小立方體中,儲存一筆銷售數字,這種結構可以在翻轉檢視視角時,仍然可以快速反應。立方體結果的維度雖然不限三維,但也會因產品不同而有支援維度上限的差異。

MDX,Multidimensional Expression
多維度運算式
SQL(Structure Query Language)語法是關聯式資料表的查詢語法,但多維度立方體的查詢,由於資料結構上差異,需要獨特的查詢語法,MDX因而誕生。MDX最早是在1997年由微軟所提出,之後逐漸成為業界標準。

MDX是以 XML for Analysis (XMLA) 規格為基礎,除了處理連結與查詢Cube之外,也可執行Cube的設計與管理工作,保持維度和資料格安全性等。

Star Schema
星狀結構
星狀結構是一種資料模型,有別於傳統的關聯式資料庫將資料利用正規化的方法拆解成不重複的資料表,星狀結構儘可能地將可以加總運算的欄位集合在一張事實資料表中,而其他敘述性的維度資料表則紛紛與事實資料表關聯。以圖示來表示資料表關係時,看起來就像從事實資料表放射出去,因此這種資料結構被便命名為星狀結構。星狀結構能在大量資料查詢時提升效能。

熱門新聞

Advertisement