数据仓库的主要特点
一、面向主题
图片来源于网络,如有侵权联系删除
1、含义
- 数据仓库围绕着特定的主题进行数据组织,这些主题是企业在决策分析时重点关注的领域,例如销售、客户、产品等,与传统的操作型数据库不同,操作型数据库主要是面向事务处理,数据的组织是围绕着日常的业务操作流程,如订单处理系统中的订单创建、订单修改等操作,而数据仓库中的数据是从各个业务系统中抽取、转换和集成而来,按照主题进行重新组织。
- 以销售主题为例,数据仓库会将与销售相关的订单信息、客户信息、产品信息等从不同的业务系统(如订单管理系统、客户关系管理系统、库存管理系统等)中提取出来,按照销售分析的需求进行整合,这样,当企业想要分析销售趋势、不同地区的销售情况或者不同产品的销售业绩时,就可以方便地从这个以销售为主题的数据集合中获取所需数据。
2、优势
- 这种面向主题的组织方式使得数据仓库中的数据更具针对性和实用性,企业的决策者不需要在海量的、分散的数据中寻找与特定分析主题相关的数据,它有助于提高数据分析的效率和准确性,因为数据是按照分析需求进行预先组织的,也便于不同部门的用户根据自己的业务需求,快速定位到与自己相关的主题数据,如市场部门关注销售和客户主题,生产部门关注产品主题等。
二、集成性
1、数据抽取与转换
- 数据仓库的数据来源于多个不同的数据源,这些数据源可能具有不同的数据格式、编码方式、数据语义等,为了将这些数据整合到数据仓库中,需要进行大量的数据抽取、转换和清洗工作,在一个大型企业中,可能有不同地区使用不同的销售管理系统,有的系统中日期格式为“yyyy - mm - dd”,而有的系统中日期格式为“mm/dd/yyyy”;在数据集成到数据仓库时,就需要将日期格式统一转换为一种标准格式。
图片来源于网络,如有侵权联系删除
- 不同数据源中的数据语义也可能存在差异,在一个数据源中“客户”可能仅指购买过产品的个人,而在另一个数据源中“客户”还包括潜在的、有过咨询但未购买的个人,在集成数据时,需要明确数据仓库中“客户”的定义,并对数据进行相应的转换和调整。
2、数据一致性
- 经过集成后的数据在数据仓库中必须保持一致性,这意味着,对于同一个实体或者概念,在数据仓库的不同部分或者不同主题下,其数据表示应该是相同的,产品的编号在销售主题和库存主题下应该是一致的;如果在销售主题下产品编号为“P001”,在库存主题下不能表示为其他编号,这种数据的一致性是保证数据分析结果准确性的重要基础,如果数据不一致,在进行跨主题或者跨部门的分析时,就会得出错误的结论。
三、非易失性
1、数据更新机制
- 数据仓库中的数据主要是用于分析目的,一旦数据被加载到数据仓库中,通常不会被频繁地更新或修改,与操作型数据库中数据的实时更新不同,数据仓库的数据更新是按照一定的周期进行的,例如按日、周、月等,这是因为数据仓库的数据反映的是历史的、相对稳定的信息,用于支持长期的决策分析。
- 在数据更新时,通常采用批量加载的方式,每天晚上将当天的业务数据从操作型数据库中抽取出来,经过转换和清洗后,批量加载到数据仓库中,这种批量更新的方式不会影响数据仓库的正常使用,也不会因为频繁的小量更新而导致数据仓库的性能下降。
2、数据保留与历史分析
图片来源于网络,如有侵权联系删除
- 数据仓库会保留大量的历史数据,这对于企业进行趋势分析、对比分析等非常重要,企业可以通过分析多年的销售数据,了解销售的季节性变化、产品的生命周期等,由于数据仓库是非易失性的,即使业务系统中的某些数据因为业务规则的改变而被修改或者删除,数据仓库中仍然保留着历史版本的数据,从而可以进行准确的历史数据分析。
四、时变性
1、时间维度的重要性
- 数据仓库中的数据包含了时间维度的信息,几乎所有的分析主题都与时间相关,如按季度分析销售业绩、按年度分析客户增长情况等,时间维度在数据仓库中是一个非常重要的维度,它可以帮助企业观察数据随时间的变化趋势。
- 企业可以通过分析不同时间段内的库存水平,来确定最佳的库存补货策略,时间维度还可以用于比较不同时期的数据,如比较今年和去年同期的销售额,从而发现业务的增长或衰退情况。
2、数据随时间的演化
- 数据仓库中的数据会随着时间不断地积累和演化,新的数据按照一定的周期被加载到数据仓库中,数据仓库中的数据也会根据企业的分析需求进行重新组织和汇总,随着企业业务的发展,可能会增加新的分析维度或者指标,这就需要对数据仓库中的数据进行相应的调整,随着时间的推移,数据仓库中的数据量会不断增加,这就要求数据仓库具有良好的可扩展性,以适应数据量的增长和分析需求的变化。
评论列表