大数据时代的服务指南 - 政策 - 甘肃省大数据产业技术创新联盟

您当前所在位置：首页 > 政策

大数据时代的服务指南

更新时间：2015-11-05 09:16:01点击次数：3618次

“大数据”意味着需要比传统存储平台处理更多的数据。首先，我们需要弄清楚大数据与其他类型数据的区别以及与之相关的技术。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成，既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)。

而大部分这些数据缺乏索引或者其他组织结构，可能由很多不同文件类型组成。由于这些数据缺乏一致性，使标准处理和存储技术无计可施，而且运营开销以及庞大的数据量使我们难以使用传统的服务器和SAN方法来有效地进行处理。

换句话说，大数据需要不同的处理方法：自己的平台，这也是Hadoop可以派上用场的地方。Hadoop是一个开源分布式计算平台，它提供了一种建立平台的方法，这个平台由标准化硬件(服务器和内部服务器存储)组成，并形成集群能够并行处理大数据请求。对于经常分析大数据的企业而言，可能需要一个单独的基础设施，因为随着集群中计算节点的数量的增长，带宽开销也会增长。

在大多数情况下，基于服务器的本地存储并没有高效率的优点，这也是为什么很多企业转向使用高速光纤结构的SAN来最大限度地提高吞吐量。然而，SAN方法本身并不一定适合大数据部署。尤其是那些使用Hadoop的大数据部署，因为SAN承担集中硬盘上数据的责任，这反过来意味着每个计算服务器将需要访问相同的SAN来恢复正态分布的数据。

然而，当比较本地服务器存储和基于SAN的存储时，本地存储在两个方面占据优势：成本和整体性能。简而言之，没有在每个计算成员放置RAID的原始磁盘在处理HDFS请求时将胜过SAN，然而，基于服务器的磁盘存在缺点，主要是在可扩展性方面。

问题是当服务器依赖于本地存储时，你如何在必要的时候增加更多的容量。通常，有两种方式来处理这种困境。第一种方法是增加具有更多本地存储的额外的服务器。第二种方法是增加集群服务器的容量。这两种方法都需要购买和配置硬件，这将导致停机时间，可能还需要重新设计架构。然而，无论使用哪种方法都要比向 SAN增加容量要便宜，可以说，这是一个显著的成本优势。

最后一个存储选择是云形式的存储，微软、Amazon和很多其他供应商都在提供基于云的大数据解决方案，这些解决方案能够提供处理能力、存储和支持。

在选择大数据存储解决方案时需要考虑究竟需要多少空间，分析频率如何以及需要处理什么类型的数据。这些因素，以及安全、预算和处理时间都是选择大数据存储解决方案时需要考虑的因素。

如果您觉得文章还不错请帮忙分享：

上一篇：《2015年中国大数据交易白皮书》发布
下一篇：国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见

通知公告

2016年甘肃省大数据产业技术创新联盟工作讨论会

甘肃省大数据产业技术创新战略联盟7月4日成立

甘肃稀贵金属交易中心经济数据源转换及走势软件升级的通知

资讯

站内搜索