组织数字化转型的第一步是将其数据生态系统和企业数据从传统的本地数据中心或仓库迁移到云端。云数据平台就是这些资源迁移到的地方,允许企业创建一个可以随时随地访问的数据湖。借助这种“民主化”数据,可以快速摄取结构化和非结构化数据以增强分析能力。该平台还可以随着数据和分析需求的变化而快速扩展。
企业为什么要使用云数据平台?
通过使用云数据平台,企业可以更轻松地利用其数据。它允许从远程和本地的任何位置管理、保护和查看数据。这些虚拟数据平台提供本地数据仓库的可靠性和物理硬件无法比拟的经济性。组织使用这些平台来获得更加灵活的数据交换,从而实现更明智的业务决策。
云数据平台弹性
云数据平台比本地数据平台更具弹性,并提供对平台上托管数据的集成视图。这些平台可以全面观察在其上运行的所有内容,包括 CPU 和内存利用率,以及洞察正在运行的查询以及如何优化它们。数据存储在集群中,通过观察实际工作负载行为,企业可以扩大或缩小集群以避免容量未充分利用。
迁移到云数据平台
CIO 经常发现很难预测其企业的峰值使用量,因此他们很可能会过度配置数据仓库以避免性能问题。因此,对数据资源进行现代化改造并将其转移到可以快速扩展的云数据平台的案例显然是有益的。然而,许多 CIO 不愿放弃六年来在本地运行和维护工作负载的经验。为了掌握数据,企业需要对可能切换到云数据平台的情况进行成本效益分析。从根本上说,他们需要决定迁移和新许可证的成本是否超过过度配置和长期运营的成本。
云数据平台的架构是怎样的?
典型的数据平台由处理数据管理不同方面的多个组件组成。该架构分为:
- 数据沿袭
- 数据安全和审计日志记录
- 元数据、业务词汇表、数据目录和数据搜索
- 存储和计算
- 数据治理
- 数据质量和数据信任
云本身允许用户解耦数据平台的所有组件,这有助于企业扩展应用程序并避免受限于任何供应商的专有工具。大多数云数据平台提供商将计算和存储分开,以实现更好的数据控制和敏捷性。
数据首先导入,然后在数据管道中清理。在存储方面,云数据平台将数据分为两层:一层用于“热”数据,另一层用于“冷”数据。第一层是内存,存放数据索引和最常访问的数据。第二层是本地磁盘,或持久化磁盘(通常是固态磁盘),通常是基本的云 对象存储。该层通常提供较慢的性能。
为了存储数据,云数据平台首先将更新写入最快的内存层,然后复制到云对象存储层,以帮助提高整体性能。热数据层在查询时从冷数据层拉取数据,并在非常深的粒度级别查看数据,从而简化了获得关键业务洞察力的途径。
云数据平台的优点和缺点是什么?
随着工作负载的波动和非结构化数据量的持续增加,实现 IT 现代化的压力越来越大。然而,组织需要仔细考虑是否以及如何将云基础设施(例如云数据平台)纳入其 IT 生态系统。
优点
- 灵活性:随着数据和分析需求的发展,云数据平台可以快速轻松地扩展容量。
- 可见性:云数据平台快速摄取结构化和非结构化数据,从而实现更快的分析。
- 访问:将资源移动到云端有助于创建数据湖,使数据民主化并随时随地共享。
- 适当规模的成本:与其为过度配置的系统付费,使用云数据平台及其基于消费的模型允许企业只为他们使用的东西付费,因为他们使用它。
缺点
- 利用率:随着工作负载转移到云端,数据中心的利用率可以从满负荷迅速变为三分之二。删除单个服务器刷新周期将创建该场景。
- 复杂性:转移工作负载会增加 IT 运营的复杂性——由于业务优先级或投资组合和工作负载转移的变化,根据具体情况做出增加/减少的决定。
- 合规压力增加:数据隐私和数据驻留法规不断发展,使得移动工作负载的需求不断变化。
云数据平台如何使用?
云数据平台的弹性特性使其成为响应不断变化的工作负载、业务目标和市场的理想工具。但企业究竟如何使用它们呢?阅读下面的一些用例:
- 数据整合:分析师不使用多个电子表格和其他平面文件数据源,而是使用云数据平台来构建“数据集市”。他们可以在那里轻松加载和优化来自多个来源的数据,以进行分析和获得可操作的见解。
- 运营洞察力:云数据平台上的数据可以轻松地与业务关键型应用程序集成,提供一种简单的方法来将结果进行运营并反馈到应用程序中,以实现数据驱动的决策。
- 多功能分析:数据分析师都有自己喜欢的工具,尤其 是与固定数据平台不兼容的开源工具。云数据平台提供全面的互操作性,使订阅者能够插入自己的工具并在平台内使用它们。这样,他们可以在需要时将洞察力迁移到另一个工具,并防止供应商锁定。
- 流数据处理:云数据平台结合了数据湖和数据仓库的能力来处理流数据和其他非结构化企业数据,从而实现 机器学习(ML)。