資料倉儲
在計算機領域,數據倉庫(英語:data warehouse,也稱為企業數據倉庫)是用於報告和數據分析的系統,被認為是商業智能的核心組件[1]。 數據倉庫是來自一個或多個不同源的集成數據的中央存儲庫。數據倉庫將當前和歷史數據存儲在一起[2],用於為整個企業的員工創建分析報告[3]。
存儲在倉庫中的數據從運行系統(例如營銷或銷售)上傳。這些數據可能會通過一個ODS數據庫,並且可能需要進行額外操作的數據清理[2],以確保數據質量,然後才能在數據倉庫中用於報告。
典型的基於提取、轉換、加載(ETL)的數據倉庫[4]使用分級、數據集成和訪問層來存放其關鍵功能。分級層或分級數據庫存儲從每個不同的源數據系統中提取的原始數據。集成層通過轉換來自分級層的數據,將不同的數據集合在一起,通常將轉換後的數據存儲在ODS數據庫中。然後將集成的數據轉移到另一個數據庫(通常稱為數據倉庫數據庫),在這個數據庫中,數據被分為層次組(通常稱為維度),並被分成事實和聚合事實。事實和維度的組合有時被稱為星型模式。訪問層幫助用戶檢索數據。[5]
數據的主要來源被清理、轉換、分類,並提供給管理人員和其他商業專業人員用於數據挖掘、線上分析處理、市場研究和決策支持[6]。 然而,檢索和分析數據、提取、轉換和裝載數據以及管理數據字典的方法也被認為是數據倉庫系統的基本組成部分。許多數據倉庫的文獻都使用了這個更廣泛的語境。因此,數據倉庫的擴展定義包括商業智能工具、提取、轉換和加載數據到存儲庫的工具,以及管理和檢索元數據的工具。
較簡易的解釋方式
編輯資料倉儲是一種資訊系統的資料儲存理論,此理論強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。
利用資料倉儲方式所存放的資料,具有一但存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉儲皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。
較學術的解釋方式
編輯資料倉儲 ,由資料倉儲之父比爾·英蒙於1990年提出,主要功能乃是將組織透過資訊系統之線上交易處理(OLTP)經年累月所累積的大量資料,透過資料倉儲理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如線上分析處理(OLAP)、資料探勘(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之建立,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智慧(BI)。
一般來說,資料倉儲可由關聯式資料庫,或專為資料倉儲開發的多維度資料庫建立,若由多維度資料庫建立而成,其架構可分為星狀及雪花狀架構,包含數個維度資料表,及一個事實資料表。
資料倉儲的建制不僅只是資訊工具技術面的運用,在規畫和執行面更需對產業知識、行銷管理、市場定位、策略規畫等相關條件有深入的了解,才能真正發揮資料倉儲以及後續分析工具的價值,提升組織競爭力。
資料倉儲的特性
編輯- 主題導向(Subject-Oriented)
- 有別於一般OLTP系統,資料倉儲的資料模型設計,著重將資料按其意義歸類至相同的主題區(subject area),因此稱為主題導向。舉例如Party、Arrangement、Event、Product等。
- 整合性(Integrated)
- 資料來自企業各OLTP系統,在資料倉儲中是整合過且一致的。
- 時間差異性(Time-Variant)
- 資料的變動,在資料倉儲中是能夠被紀錄以及追蹤變化的,有助於能反映出能隨著時間變化的資料軌跡。
- 不變動性(Nonvolatile)
- 資料一旦確認寫入後是不會被取代或刪除的,即使資料是錯誤的亦同。(i.e.錯誤的後續修正,便可因上述時間差異性的特性而被追蹤)
ODS、資料倉儲和資料超市之異同
編輯Operational data store(ODS)、資料倉儲和資料超市三者相同之處在於均不屬於任一OLTP系統,並且都是以資料導向的設計而非流程(process)導向。
相異之處在於,ODS的特性較著重於戰術性查詢,變動性大。資料倉儲通常為企業層級,用來解答即興式、臨時性的問題。而資料超市則較偏向解決特定單位或部門的問題,部分採用維度模型(dimensional model)。
資料探勘、OLAP和資料倉儲
編輯資料倉儲可以作為資料探勘和OLAP等分析工具的資料來源,由於存放於資料倉儲中的資料,必需經過篩選與轉換,因此可以避免分析工具使用錯誤的資料,而得到不正確的分析結果。
資料探勘和OLAP同為分析工具,其差別在於OLAP提供使用者一便利的多維度觀點和方法,以有效率的對資料進行複雜的查詢動作,其預設查詢條件由使用者預先設定,而資料探勘,則能由資訊系統主動發掘資料來源中,未曾被察覺的隱藏資訊,和透過使用者的認知以產生知識。
資料探勘(Data Mining)技術是經由自動或半自動的方法探勘及分析大量的資料,以建立有效的模型及規則,而企業透過資料探勘更瞭解他們的客戶,進而改進他們的行銷、業務及客服的運作。資料探勘是資料倉儲的一種重要運用。基本上,它是用來將你的資料中隱藏的資訊挖掘出來,所以Data Mining其實是所謂的Knowledge Discovery的一部份,Data Mining使用了許多統計分析與Modeling的方法,到資料中尋找有用的特徵(Patterns)以及關連性(Relationships)。Knowledge Discovery的過程對Data Mining的應用成功與否有重要的影響,只有它才能確保Data Mining能獲得有意義的結果。
參見
編輯參考文獻
編輯- ^ Dedić, Nedim; Stanier, Clare. Hammoudi, Slimane; Maciaszek, Leszek; Missikoff, Michele M. Missikoff; Camp, Olivier; Cordeiro, José , 編. An Evaluation of the Challenges of Multilingualism in Data Warehouse Development. International Conference on Enterprise Information Systems, 25–28 April 2016, Rome, Italy (PDF). Proceedings of the 18th International Conference on Enterprise Information Systems (ICEIS 2016) 1 (SciTePress). 2016: 196–206 [2019-05-19]. ISBN 978-989-758-187-8. doi:10.5220/0005858401960206. (原始內容存檔於2021-04-27). 參數
|journal=
與模板{{cite conference}}
不匹配(建議改用{{cite journal}}
或|book-title=
) (幫助) - ^ 2.0 2.1 9 Reasons Data Warehouse Projects Fail. blog.rjmetrics.com. [2017-04-30]. (原始內容存檔於2021-04-27).
- ^ Exploring Data Warehouses and Data Quality. spotlessdata.com. [2017-04-30]. (原始內容存檔於2018-07-26).
- ^ What is Big Data?. spotlessdata.com. [2017-04-30]. (原始內容存檔於2017-02-17).
- ^ Patil, Preeti S.; Srikantha Rao; Suryakant B. Patil. Optimization of Data Warehousing System: Simplification in Reporting and Analysis. IJCA Proceedings on International Conference and workshop on Emerging Trends in Technology (ICWET) (Foundation of Computer Science). 2011, 9 (6): 33–37 [2019-05-19]. (原始內容存檔於2021-04-28).
- ^ Marakas & O'Brien 2009