盘点 (资料)
盘点区或接地区, 是资料处理过程在萃取/转置/加载(ETL)的中介存储区。此一资料盘点区是位于资料(多个)来源和(多个)目标之间, 通常会是数据仓库, 资料超市, 或其他的资料存储库。[1]
资料盘点区在本质上通常是暂存的, 其内容在执行 ETL 处理前, 或成功完成 ETL 处理后立即会被清除。而盘点区的架构被设计着重于延长保有资料的时间处理归档, 或排调试误。
实现
编辑盘点区能有的实现方式是用一般数据库的资料表, 存储在文件系统中以文字展开的文件(或XML文件)或专属格式的二进制文件。[2] 盘点区架构复杂的范围, 从目标数据库的一组单纯关系资料表, 到独立的数据库实例或文件系统。[3] 尽管来源系统和目标系统支持的 ETL 处理, 通常是一般数据库, 但位于资料来源和目标之间的盘点区也不尽然是一般数据库。[4]
功能
编辑盘点区能够安排提供很多好处, 但其主要动机是用来增加 ETL 处理的效率, 确保资料完整及支持资料操作的质量。盘点区的功能包含下列各项:
整并
编辑盘点区担任的主要功能之一, 就是集成多个来源系统的资料。执行此一功能时, 盘点区就如同是一个大型的‘桶’可暂时放置从多个来源系统的资料, 便于未来的处理。常见的是在盘点区标记资料, 利用额外诠释资料指示原版的来源, 和时间戳记指示资料何时被放置到盘点区。
一致
编辑一致化数据包含跨多个来源系统的参考资料标准化, 以及检核来自不同来源的纪录和资料成分间的关系。[2] 在盘点区资料的一致化, 是功能上的密切相关也是支持‘主资料管理’(Master Data Management)的能力。[5]
减少争夺
编辑盘点区和所支持的 ETL 处理, 其设计目标通常要能在来源系统做资源上竞争的最小化。一次性从来源拷贝需要的资料到盘点区, 常会较逐笔检索个别纪录(或小组群)要有效率。之前在技术上优势的做法, 是诸如资料流技术, 透过减少需要中断来降低负担和重新连接到来源系统, 并优化在多人使用来源系统的并发锁定管理。然而以复制来源的资料, 接着在盘点区等待执行的集中处理与转换的 ETL 方式, 可获得比并发相关处理更好的控制。
独立调度/多目标
编辑盘点区能在特定时间内安排好资料供给, 该资料是迳给多个目标。某些状况下, 资料可在不同时间拉入盘点区存放, 以便一次进行全部处理。举例来说, 此类状况有可能发生企业处理进行在跨时区的每个夜晚。其他情况也可能有资料被带入盘点区以便在特定时间处理; 或在盘点区推送资料到多个目标系统。例如, 每日营运资料会被推送到作业数据存储(Operational Data Store, ODS), 而相同资料也被送到以每月聚集形式的数据仓库。
变更侦测
编辑盘点区支持根据目标系统的有效变更侦测。此功能在来源系统不支持可靠形式的变更侦测, 像是系统强制时间戳记, 变更追踪, 或者变更资料捕捉(Change Data Capture, CDC)时, 特别有用。
清理资料
编辑资料清理包含从来源系统中识别和移除(或更新)无效的资料。利用盘点区, ETL 处理可用来实现企业逻辑去辨别与处理 "无效的" 资料。无效资料的定义通常是业务规则与技术限制的组合。技术性约束可能外加于盘点区的结构 (诸如一般数据库中表格约束), 以强制资料的有效性规则。[2]
汇集重算
编辑复杂业务逻辑的汇集,复杂计算与应用的重算可在盘点区进行, 以支持高回应服务级别协议(Service Level Agreements, SLAs), 用于目标系统的汇总报表。[3]
资料归档/问题排除
编辑资料归档能在盘点区进行或支持。这种情境下, 在加载过程中, 盘点区可用来维护历史纪录, 或推送资料到目标下的归档结构。此外, 资料也能维护在盘点区保存更长的时间, 以利支持 ETL 处理的技术问题排除 ....[3]
参考文献
编辑- ^ Oracle 9i Data Warehousing Guide, Data Warehousing Concepts (页面存档备份,存于互联网档案馆), Oracle Corp.
- ^ 2.0 2.1 2.2 Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals, p. 137-138, Paulraj Ponniah, 2001.
- ^ 3.0 3.1 3.2 BI Experts: Big Data and Your Data Warehouse's Data Staging Area (页面存档备份,存于互联网档案馆), The Data Warehousing Institute, Phillip Russom, 2012.
- ^ Is Data Staging Relational? 互联网档案馆的存档,存档日期2013-12-26., Ralph Kimball, 1998.
- ^ Master Data Management in Practice: Achieving True Customer MDM, Dalton Cervo and Mark Allen, 2011.