我是一个温文尔雅的人但如果有一件事让我感到厌烦,那就是当我听到“数据仓库就是大数据”、“大数据在很多方面是数据仓库的演变”和“有了大数据,您不再需要数据仓库”。 大数据不是数据仓库,它不是数据仓库的演变,也不是数据仓库的明智和一致的替代方案。不管某些供应商会在他们的营销手册中放什么或不屑一顾。 更多阅读 中国会计准则委员会 CASB 帮助基于云的企业避免数据泄露 数据货币化正在改变信息技术就业市场的 7 种方式 对数据科学和数据分析师角色的需求不断增长 大数据如何改变海运业 利用数据发现您的商业模式中的缺点 尽管所有带有数据仓库名称的高知名度搞砸了,即使它们根本不是数据仓库项目,数据仓库的定义、策略、好处和成功案例都是众所周知的,它们在公共领域,它们是有形的。
数据仓库是提供战
略和战术选项制定和决策制定所需信息的实用、合理和连贯的方式。 数据仓库是一种战略驱动、面向业务和基于技术的业务流程。 我们将数据存储在数据仓库中,这些数据以某种方式来自内部和可选的外部来源,以及来自结构化和可选的非结构化数据。从数据源获取数据到目标数据仓库的过程,包括 电话号码列表 抽取、清洗、转换和加载,简称ETL。 数据仓库的定义特征是: 面向主题:运营数据库,例如订单处理和工资单数据库以及 ERP 数据库,是围绕业务流程或功能区域组织的。这些数据库源于它们所服务的应用程序。因此,数据与订单处理应用程序或工资单应用程序有关。关于特定主题(例如产品或员工)的数据在许多不同的数据库中分别(并且通常不一致)进行维护。相反,数据仓库是围绕主题组织的。这种主题导向以一种更易于最终用户和非 IT 业务分析师理解的格式呈现数据。
集成数据在仓库
内的集成是通过使数据在格式、命名等方面保持一致来实现的。由于历史原因,操作数据库通常在数据表示方面存在重大不一致。例如,一组操作数据库可以使用诸如类的代码来表示“男性”和“女性”。通常,不一致更加复杂和微妙。另一方面,在数据仓库中,数据始终以一致的方式维护。 时变:数据 电话号码 香港 仓库在维护历史数据和(几乎)当前数据的意义上是时变的。相比之下,运营数据库仅包含最新的数据值。此外,他们通常保留此信息不超过一年(通常更短)。相比之下,数据仓库包含通常每天、每周或每月从运营数据库加载的数据,这些数据通常会保留 3 到 10 年。这是两种环境之间的主要区别。 历史信息对于决策者来说非常重要,他们通常希望了解数据之间的趋势和关系。例如,液化天然气苏打饮料的产品经理可能希望了解优惠券促销与销售之间的关系。