飙血推荐
  • HTML教程
  • MySQL教程
  • JavaScript基础教程
  • php入门教程
  • JavaScript正则表达式运用
  • Excel函数教程
  • UEditor使用文档
  • AngularJS教程
  • ThinkPHP5.0教程

数据仓库:信息存储的不朽巨人

时间:2023-06-15  作者:电脑狂魔  

在不断发展的数据管理领域,数据仓库和数据湖之间由来已久的竞争终于平息了。这不再是选择一个而不是另一个的问题;相反,它是关于利用它们的综合力量作为一个现代的、集成的结构,使企业和 IT 部门受益匪浅。这篇博文深入探讨了数据仓库,并阐明了它如何作为一个不朽的信息存储巨人而蓬勃发展。

首先,我们看看数据如何成为现代企业的驱动力。理解术语“数据仓库”和“数据湖”的意义和用法构成了我们探索的基础。通过分解这些概念,我们旨在弥合传统方法和现代方法之间的差距,说明它们在当今数据驱动环境中的共生关系。

随着我们深入研究,一个简单而强大的架构模型出现了,揭示了数据仓库和 数据湖如何共存和相互补充。但故事并没有就此结束;我们还深入研究了三种创新的架构模式,数据结构、数据湖屋和数据网格,并检查了它们与该模型的联系。这些新兴方法为协作数据管理开辟了令人兴奋的可能性,为更高效和有效的数据操作铺平了道路。

接下来,我们将重点转移到十个特定领域,在这些领域中,跨这两个环境的功能和数据的战略组合和布局可以优化对大量业务和技术需求的支持。通过在数据仓库和数据湖之间找到适当的平衡,组织可以为分析、洞察和决策创造新的机会。

为了使我们的探索获得令人满意的结论,我们将重点放在 Cloudera 数据仓库上。这一革命性的解决方案兼具两全其美,无缝集成了传统数据仓库和数据湖的灵活性。这种混合本地和多云平台专为现代数字业务而设计,提供了一种改变游戏规则的解决方案,使组织能够在利用其现有数据基础架构的同时拥抱未来。

和我一起踏上这段启发性的旅程,我们庆祝数据仓库在信息不断扩展的时代的耐久性和适应性。了解这些不朽的信息存储巨头如何继续塑造数据管理的格局,为组织提供在以数据为中心的世界中蓬勃发展所需的工具。

从数据集市到数据湖:数据管理的演变

2010 年,一个突破性的模因出现,震撼了数据管理世界!向我们介绍了数据湖——一个隐喻的自然、未处理状态的信息库,与数据集市的结构化性质形成对比。这个类比引起了共鸣,因其简单性和易记性而引起共鸣。

处于创新前沿的企业迅速拥抱数据湖,迫于利用大量涌入的在线大数据流的技术需求。通过开源软件和商用硬件节省成本的吸引力进一步激发了他们的兴趣。在某些情况下,政治动机也发挥了作用,因为组织试图与苦苦挣扎的数据仓库项目保持距离。在过去的十年中,用新的数据湖取代数据仓库的主张激增,加剧了每种方法的支持者之间的争论。

随着云成为市场的主导力量,架构模型和技术变得错误地纠缠在一起,导致模糊且通常不稳定的实施。因此,一些数据湖变成了停滞不前的沼泽,而另一些则最终被遗弃。

在随之而来的混乱中,一个澄清的时刻以一种形式出现了。它消除了二选一的概念,强调数据仓库和数据湖是从不同的业务需求和技术可能性中诞生的互补概念。数据仓库擅长为监管报告和管理决策提供准确的结果,而数据湖则支持数据科学和机器学习等领域的探索和创新。

从那时起,就出现了一种共识,认识到数据湖和数据仓库之间的内在协同作用。数据和管理流程应该在这些实体之间共享,由现在支持大多数实施的先进混合云技术促进。因此,与湖泊和仓库相关的术语和含义已经交织在一起。传统上通过数据湖交付的分析用例现在经常利用数据仓库。

然而,实施中持续存在的挑战催生了三种新的架构模式:Data Fabric、Data Mesh 和 Data Lakehouse。虽然每种方法的支持者都声称可以提供数据管理问题的最终解决方案,但它们具有明显的优势和劣势。此外,不一致的术语、不同的定义和相互竞争的说法继续造成混乱,进一步混淆了基本的数据管理概念。

因此,除了有关湖泊和仓库的问题外,还会出现其他问题。现在是否必须采用完全分散的数据管理方法?人工智能能否解决长期存在的元数据挑战?统一的技术基础是否可行甚至可取?

这个博客冒险为这些复杂的问题提供答案,为思考提供坚实的基础。但是,它承认存在多种答案和选项,具体取决于特定的业务需求和现有解决方案。通过浏览不断变化的数据环境,组织可以制定符合其独特情况和愿望的路线。

数据仓库的新格局:一种新的野兽

数据不再像过去那样。过去,企业可以依靠其操作系统中相对少量的结构化数据来做出决策。然而,大数据的兴起改变了这一切。如今,企业产生的数据比以往任何时候都多,这些数据来自各种来源,包括社交媒体、点击流和物联网 (物联网)。这些数据是非结构化的,而且通常是实时的。数据仓库现在在传统 IT 基础架构之外运行。行业在不断发展,没有万能的解决方案。这会使企业难以选择合适的数据仓库。它们通常建立在基于云的平台上并使用开源软件,这为企业提供了更大的灵活性和对其数据的控制。然而,这也意味着数据仓库更难管理和保护。

大数据的挑战

大数据的挑战很多。首先,它不容易管理。传统的数据仓库旨在存储结构化数据,但大数据通常是非结构化的。这使得存储、处理和分析大数据变得困难。

其次,大数据通常是实时的。这意味着企业需要能够在数据生成后立即对其进行分析。对于不是为实时分析而设计的传统数据仓库来说,这可能是一个挑战。

第三,大数据通常用于预测分析。这意味着企业正在使用数据来预测未来的行为。这对于企业来说可能是一个强大的工具,但也会引发隐私问题。

数据湖如何提供现代最先进的存储解决方案 

数据湖是一种新型的数据存储解决方案,旨在应对大数据挑战。数据湖旨在存储所有类型的数据,包括结构化、非结构化和半结构化数据。这使得存储和管理大数据变得容易。

数据湖也是为实时分析而设计的。这意味着企业可以在数据生成后立即对其进行分析。这使企业能够做出更快、更明智的决策。

数据仓库的未来

数据仓库并没有消亡,但它们在不断发展。传统数据仓库正在被混合数据仓库所取代,混合数据仓库结合了数据仓库和数据湖的优势。混合数据仓库提供了两全其美的优势。它们可以存储所有类型的数据,并且可以用于历史分析和实时分析。

数据是新的石油。在数字时代,数据是企业最宝贵的资产。能够收集、存储和分析数据的企业将具有竞争优势。数据湖是一种新型的数据存储解决方案,旨在应对大数据挑战。数据湖是未来数据仓库的关键部分。

在魔法岛上结合数据仓库和数据湖的能力

将数据仓库和数据湖结合起来可能看起来很简单,但它们是不同的概念。将仓库比作湖中的岛屿可以帮助说明它们如何相互补充并无缝协作以管理和利用数字业务中的数据。

虽然数据仓库的概念定义在过去三十年中基本保持稳定,但设计方面的功能差异仍然存在,例如 Kimball 的维度/星型模式数据模型。在关系数据库不断变化的特性的驱动下,概念的演变导致了针对特定目的的优化组件。企业数据仓库 (EDW) 在区分数据仓库和数据湖方面起着核心作用,因为它负责清理和协调来自各种运营来源的数据。

数据仓库的主要目标是提供可靠和一致的信息来支持决策制定,尤其是对于法律相关的行动、绩效跟踪和问题确定。重要的是要注意数据仓库包含的不仅仅是原始数据;它包括为有效和正确使用而准备的上下文化和清理的信息。这些详细信息可以进一步细分并汇总到适当结构化的数据集市中,以提高业务用户的性能、易用性或安全性。

仓库或数据集市中的数据主要来自操作系统,既有传统的内部部署系统,也有现代的基于 Web 的系统。也可以包括其他来源,只要数据符合质量标准并且可以在上下文中转化为有用和可用的信息。例如,数据湖中的数据可以根据商定的数据治理规则,通过清理和协调过程被引入仓库。

相比之下,数据湖的特点是无需事先构建成首选模型即可收集范围广泛的数据项。它是一种多结构的、通常是分布式的数据存储,可以从多个外部源获取、处理、格式化和管理大量原始数据。数据湖可以满足各种业务和技术需求,包括现有系统所涵盖的需求。然而,重要的是要注意数据湖的范围应该是现实和实用的,而不是过于乌托邦。

传统上,数据仓库和数据湖的不同特征和用途导致创建独立的技术实现和断开连接的数据孤岛。但是,了解它们的差异可以创建消除孤岛的集成架构模式。图 1 说明了这种模式,将数据仓库和数据湖定位为相互关联和操作系统,促进业务和 IT 利益相关者的理解。

图 1:岛上有仓库的湖泊。

这种架构模式的核心是数据仓库。要理解它,让我们从数据湖开始,向信息孤岛努力。数据湖通过数据流接收来自外部大数据源的原始数据,例如点击流、社交媒体和物联网 (IoT)。数据科学家和业务分析师(读取模式)根据需要处理这些原始数据,为分析、机器学习以及预测和规范业务应用程序创建各种存储。数据的及时性和原始性对于说明性计算至关重要,延迟或汇总会降低分析价值。虽然完全清理和协调可能并不总是可行的,但提供足够的元数据或上下文设置信息对于使数据有意义和可维护至关重要。

数据湖的最初概念只关注其作为分析和数据科学的信息环境的作用,而不创建新数据。然而,随着规范分析和机器学习的兴起,来自数据湖的反馈循环涉及操作系统中的新数据和模型已成为必要。

数据仓库和数据湖:统一方法

传统上,数据仓库和数据湖被视为两种独立且截然不同的技术。数据仓库是为结构化数据设计的,例如客户订单和金融交易,而数据湖是为非结构化数据设计的,例如社交媒体数据和传感器数据。

然而,近年来,数据仓库和数据湖之间的界限开始变得模糊。这是由于企业生成的数据量和种类不断增加,以及企业越来越需要能够分析所有数据,无论其结构如何。

因此,对数据仓库和数据湖使用统一方法的趋势越来越明显。这种方法涉及使用单一平台来存储所有业务数据,无论其结构如何。这使公司能够轻松访问和分析他们的所有数据,从而做出更好的决策并提高业务绩效。

利用多个平台有助于实施统一的数据仓库和数据湖方法。一些最受欢迎的平台包括:

  • 亚马逊红移

  • 谷歌大查询

  • 微软 Azure 数据仓库

  • 甲骨文云数据仓库

  • Cloudera 数据仓库 (CDW)

这些平台提供多种功能,使其非常适合数据仓库和数据湖的统一方法,包括:

  • 可扩展性:这些平台可以扩展以处理企业生成的不断增加的数据量和种类。

  • 性能:这些平台可以为数据分析工作负载提供高性能。

  • 安全性:这些平台提供强大的安全功能来保护敏感数据。

  • 成本效益:这些平台通常对各种规模的企业都具有成本效益。

如果您想提高企业的数据分析能力,请考虑使用统一的数据仓库和数据湖方法。这种方法可以帮助您充分利用数据并做出更好的决策,从而帮助您提高业务绩效。

流行的数据管理替代方案:Data Fabric、Data Lakehouse 和 Data Mesh

近年来,使用数据仓库和数据湖来存储和分析数据的趋势越来越明显。然而,这两种技术各有优缺点。数据仓库是为结构化数据设计的,而数据湖是为非结构化数据设计的。这可能会使同时使用这两种技术变得困难。

为了应对这一挑战,一些供应商开发了新的架构模式,结合了数据仓库和数据湖的优势。这些新模式包括:

  • 数据结构是位于数据仓库和数据湖之上的统一层。它提供所有数据的单一视图,无论其格式如何。这使用户更容易访问和分析数据。

  • Data Lakehouse是一种混合架构,结合了数据仓库和数据湖的特性。它提供了数据仓库的性能和可扩展性,以及数据湖的灵活性和敏捷性。

  • 数据网格是一种将数据视为产品的去中心化架构。每个数据产品都由负责其数据生命周期的团队拥有和管理。这种方法可以提高数据质量和治理,同时降低数据孤岛的风险。

这些架构模式中的每一个都有自己的优点和缺点。特定组织的最佳选择将取决于其特定需求。

数据结构

优点

  • 提供所有数据的单一视图。

  • 更容易访问和分析数据。

  • 支持结构化和非结构化数据。

缺点

  • 实施起来可能既复杂又昂贵。

  • 它可能并不适合所有组织。

数据湖屋

优点

  • 提供数据仓库的性能和可伸缩性。

  • 提供数据湖的灵活性和敏捷性。

  • 可以使用现有的数据仓库和数据湖基础设施来实施。

缺点

  • 它可能不适合所有工作负载。

  • 它可能需要对新硬件和软件进行大量投资。

数据网格

优点

  • 提高数据质量和治理。

  • 降低数据孤岛的风险。

  • 可以使用现有的数据仓库和数据湖基础设施来实施。

缺点

  • 它的实施和管理可能很复杂。

  • 它可能并不适合所有组织。

最终,在这些架构模式之间进行选择的最佳方式是咨​​询数据专家。他们可以帮助您评估您的特定需求并为您的组织推荐最佳解决方案。

结论

三十年来,数据仓库在决策支持中发挥了至关重要的作用,而数据湖则是在十年前作为一个互补概念出现的。尽管他们最初看起来很有竞争力,但他们已经演变成平等的伙伴,每个人都有不同的动机。仓库为运行和管理业务提供经过协调和合法建立的数据,而湖提供了一个平台,用于存储原始数据并在不断变化的范例中进行创新分析。无论使用何种特定术语,认识到这些组件的独特但互补的作用是关键。

数据仓库架构从 warehouse vs. lake 到 warehouse and lake 的演变是一个积极的发展。它为企业在存储和分析数据方面提供了更多的灵活性和选择。这可以导致更好的决策制定和更多的创新。

随着数据量和复杂性的增长,混合数据仓库和数据湖解决方案只会变得更加关键。上面列出的解决方案都可以很好地满足这一需求。

最近的定义差异和实施挑战导致了三种新架构模式的出现:Data Fabric、Data Mesh 和 Data Lakehouse。这些模式旨在通过不同的组织方法和技术合并仓库和湖泊的角色。我们通过将数据仓库概念化为数据湖中的信息孤岛,并考虑数据和功能在此协作环境中的定位和移动,从而深入了解这些新的架构模式。

市场上有许多不同的数据仓库和数据湖解决方案。一些流行的例子包括:

  • Cloudera 数据仓库

  • 亚马逊红移

  • 微软 Azure 数据仓库

  • 谷歌大查询

  • 雪花

为了响应不断变化的业务需求,可以通过将一些传统数据或数据集市迁移到数据湖生态系统,利用其在多功能分析方面的进步来实现混合实施。此外,数据准备和归档等某些功能可以移出数据仓库,从而延长其使用寿命并降低运营成本。在数据和功能之间取得适当的平衡可以实现更高效的混合方法。

这种从仓库 vs. 湖到仓库和湖的架构演变有望为业务用户提供急需的跨环境说明功能,以创造性地探索数据。它还允许仓库环境专注于满足功能需求,确保正确和一致的数据符合业务、法律和法规需求。此外,数据湖和数据仓库的集成和连接为传统和数字化转型的企业创造了机会,释放了更多数据驱动的可能性。

以下是使用混合数据仓库和数据湖解决方案的一些额外好处:

  • 降低成本:通过结合这两种技术,企业可以降低存储和管理数据的成本。

  • 提高性能:混合解决方案可以为结构化和非结构化数据提供更好的性能。

  • 提高安全性:混合解决方案可以为结构化和非结构化数据提供更好的安全性。

  • 增强的灵活性:混合解决方案可以为企业存储和分析数据提供更大的灵活性。

随着这些集成方法的持续开发和采用,组织可以利用数据仓库和数据湖的力量来推动其增长,并在不断扩大的数据驱动决策领域推动创新。


湘ICP备14001474号-3  投诉建议:234161800@qq.com   部分内容来源于网络,如有侵权,请联系删除。