世界上 90% 的数据是自 2016 年以来生成的。企业、政府机构和消费者生成的数据量继续呈指数级增长。根据市场情报公司 IDC的数据,到 2020 年,全球存储了超过 40 万亿千兆字节的数据。
企业及其客户生成的大部分数据都包含有价值的信息。但只有拥有分析大量数据的基础设施、软件和专业知识的公司才能提取该价值。在本文中,我们将了解什么是大数据以及企业用来从中提取有价值见解的软件和硬件。
什么是大数据?
大数据没有精确的技术定义。我们可能会将大数据视为超出企业在消费者计算机和小型服务器上存储和处理内部能力的任何数据集合。对于小型企业来说可能是几 TB,对于大型企业组织来说可能是很多 PB(1 PB 是 1,024 TB)。
一种可能的定义是根据“五个 V”对大数据进行分类。它们是速度、数量、价值、多样性和准确性。容量是指有多少数据。速度是指数据生成的速度;大型企业每天可能产生数 TB 的数据。多样性是指大数据可能包含多种类型的数据,通常是非结构化的。
企业收集尽可能多的数据,希望对其进行分析以获得有用的见解。例如,他们可能希望对销售数据执行同期群分析,以发现哪些客户群体具有最高的生命周期价值。为此,他们需要收集、转换和分析尽可能多的销售数据。
什么是大数据分析的最佳工具?
有许多专为加速大数据分析而设计的专业工具。他们高效地存储数据并使用优化算法(如 MapReduce)快速处理大量数据。它们经过精心设计,可以充分利用可用的硬件。
最受欢迎的大数据工具包括:
- Hadoop,一个分布式存储和处理大量数据的框架。
- Cassandra,最初由 Facebook 开发的分布式 NoSQL 数据库。
- Apache Spark是一种分布式大数据处理框架,被金融机构、电信公司、政府以及 Facebook 和 Google 等科技企业广泛使用。
- ElasticSearch,一种分布式搜索和分析引擎,用于从企业搜索引擎到基础设施监控和安全分析的一切。
- Knime,一个包含机器学习和数据挖掘工具的数据分析平台。
也可以使用主流的关系数据库工具,如 MySQL 和 PostgreSQL 进行大数据分析,这取决于所涉及的数据量和类型。
大数据集群与单服务器
您可能已经注意到,上一节中的工具描述通常包含“分布式”一词。那是因为大数据工具期望部署在不止一台服务器上。他们可以管理许多服务器的资源以快速处理大量数据。例如,Hadoop 明确设计为在数十个或数百个连接在一起的集群中的单独服务器上运行。
但是,不会强制用户在多个服务器上进行部署。对于较小的大数据分析目的,一个功能强大的专用服务器可能就足够了。还可以启动虚拟机集群以充当高规格专用服务器上的 Hadoop 或 Cassandra 节点。许多企业将专用服务器集群汇集在一起,作为私有云中的资源池。然后,他们可以有效地管理和分配基础架构资源,以在其私有云上启动多个大数据分析项目。企业大数据基础架构的最佳架构取决于所涉及的数据量、可扩展性和冗余性要求以及您将运行的软件。
为大数据分析优化服务器
在为大数据分析选择和优化服务器时,需要牢记几个因素。
- 您会将大量数据传输到服务器进行处理。
- 如果您使用集群,则背板(服务器之间的连接)必须能够处理大量数据。
- 大数据工具针对并行执行进行了优化,在每个服务器上使用多个线程并在多个服务器之间分配工作。
- 许多大数据工具(尽管不是全部)都针对内存处理进行了优化,这通常比基于磁盘的处理要快得多。
没有适用于大数据的通用服务器托管解决方案。成本和能力的理想交集取决于每个项目的具体情况。但是我们可以在这里给出一些一般性的指导。
网络
您将向服务器写入大量数据,通常来自第三方服务或数据中心。如果网络接口没有足够的容量,网络可能成为瓶颈。如果您希望定期向服务器发送大量数据,我们建议至少使用 1 Gbps 或更多。
为了最大限度地降低数据成本,请选择提供接近您期望传输的数据量的自定义带宽包的提供商。我们提供从每月 20 TB 到每月 1000 TB 不等的套餐,为具有大量数据传输需求的客户提供不限带宽。
贮存
您的服务器应该有足够的存储空间来存储您打算分析的数据,并有足够的缓冲区来存储分析过程中生成的中间数据。快速存储是更可取的,但通常不需要为服务器配备数 TB 的 SSD 存储。旋转硬盘驱动器速度较慢且价格较低,但可能足以满足您的目的。
您选择哪种取决于您的数据的特定要求,但您必须能够存储您希望在每个时期分析的所有数据。Spark 和 Hadoop 都适用于多个驱动器。
记忆
就 RAM 而言,越多越好。大数据分析应用程序将消耗尽可能多的 RAM。Spark 和 Couchbase 等工具更喜欢在内存中进行计算,如果它们不必因为内存不足而读写存储,那么处理速度会快得多。
对于生产工作负载,最好使用 64 GB 或更多的服务器,尽管没有通用公式。考虑到您的预期工作量和预算,我们的顾问可以为您提供适当数量的 RAM 的建议。
处理器
Spark 等大数据分析工具将处理划分到多个线程,这些线程在机器的可用内核中并行执行。例如,Spark 建议每台服务器至少有 8-16 个核心,并且根据负载可能需要更多。针对更多核心进行优化比针对数量较少但功能更强大的核心进行优化会带来更好的性能。
总之
大数据分析服务器的理想规格取决于您的业务需要分析的数据量和速度。我们的服务器托管平台提供范围广泛的自定义选项,因此您可以选择最适合您的需求和预算的服务器或服务器集群。要与我们的服务器托管专家讨论哪种服务器托管适合您的大数据分析项目,请在此页面的聊天窗口中开始对话,或通过电话或电子邮件联系我们进行免费的初步咨询。