思智网络—旗下品牌
忘记密码
长沙云服务器,长沙服务器租用,长沙服务器托管
全国统一服务热线:88900700(7*24h)
 思智网络——专注于企业级IDC解决方案!
  • 顶级网络高速接入
  • 十年经验管理完善
  • 资质齐全放心可靠
  • 专业服务快速稳定
  • 免费备案快速高效
  • 自维机房全年无休
  • 免费测试省钱省心
  • 行业评价有口皆碑

解决方案专区 more>>

负载均衡解决方案
服务器网络安全解决方案
数据异地灾备解决方案
网络加速综合解决方案

典型客户 more>>

  • 潇湘晨报网
  • SANY
  • 盛大金禧
  • 湖南有线
  • 金杯电工
  • 长沙长海医院
  • 蝴蝶树
  • 中国人民大学
  • 湖南妈妈网
  • 美迪装饰
  • 小新星
  • 湖南武警医院
思智网络学院

如何来应对海量数据的挑战?

发表:湖南数据中心文员   文章来源:湖南思智网络科技有限公司   
[摘要]      随着物联网、社交网络等新的互联网技术的发展,在为人们带来便利的同时,也产生了大量的、结构化的非格式化的数据。如何通过数据挖掘,从……

 

    随着物联网、社交网络等新的互联网技术的发展,在为人们带来便利的同时,也产生了大量的、结构化的非格式化的数据。如何通过数据挖掘,从海量数据中获得有用的信息,为用户提供好的用户体验,增强企业的竞争力,这对企业来说是一个挑战。

 
    各巨头的数据量级大曝光
 
    百度威廉·张表示,“数百PB,每一天需要处理的数据是数十个TB,许多数据要在几秒钟之内处理,很多数据在几分钟之内要处理,更多的是几个小时之内处理就够了,几个小时处理数十个PB的数据,也是很困难的。所有的策略都是针对实时性和数据处理的时效性理来做的。互联网用户的需求是更加实时,如微博、团购、秒杀等,所以说实时处理十分重要。”
 
    Yahoo!周轶平谈道,“雅虎的云计算平台综述超过三万台机器,最大的超过4000太左右,总存储容量超过了100PB。”他表示,雅虎最近放了很多精力在保护用户的隐私和数据安全性上,欧盟规定雅虎不能够存储用户的数据超过一百天,虽然不能保存,但是雅虎做很深入的数据挖掘,从数据瓦局得到一些真正有价值的信息,并把这些信息保存下来。
 
    SAP杜涛也介绍了其需要帮助客户处理的数据量的级别,“SAP作为企业级应用的提供商,更关注客户的数据量是多少,这些客户包括中小型企业到大型的客户,其中有数据密集型的企业,如电信、金融、政府、零售等等,客户的数量级包括从几个TB到数百个TB。”同时,SAP自己有一个很大的数据中心,主要是为SAP的客户提供服务,有三万台服务器,数据量大概是15TB并且有越来越多的客户的数据会在SAP的数据中心。
 
    如何存储并利用这些海量的数据?
 
    如此海量的数据,如何进行存储、分析、处理?并基于海量数据的挖掘,为企业创造更大的商业价值?针对海量数据的挖掘的技术架构,几位专家分别介绍了自己的法宝。
 
    SAP杜涛从两个方面介绍SAP的海量数据处理方法,“一方面,在SAP的数据中心,采用了标准的云计算所用的虚拟化和分布式存储;另一方面,针对单独的企业,SAP在4月16号在德国发生了内存计算技术。海量数据的读取和分析,在传统的架构下,基于磁盘的IO是以毫秒级来计算的,而在内存RAM中处理时间是nm级的。所以SAP把客户的数据经过压缩的处理放到内存中去,进行读取和分析,把之前在应用层的分析放到内存里面去做,提升性能,帮助用户充分利用他们的数据。”
 
    Yahoo!的云计算的体系是以Hadoop为中心的,周轶平介绍到,并从数据采集(HDFS)、数据存储和处理、数据服务三个层面入手,介绍了雅虎的海量数据处理的方案。数据采集方面,yahoo建立了DataHave负责从雅虎遍布全球数据中心中的几十万台机器上实时收集数据,它有2个干道,主干道负责把数据以很高的一致性经过各种过滤清理以后,放到Hadoop的平台上。但是这样的处理方法实时性不是很高,为了满足实时性的需求,还有一个旁道系统,能够在秒级直接将数据源导入到Hadoop上。雅虎的数据处理都是基于Hadoop的实时的服务,同时Yahoop还有一套很大的不同业务逻辑所需求的服务系统,超过一半的数据处理都是使用HadoopPig数据引擎。
 
    百度威廉·张表示,面对互联网的云计算,大搜索是基于索引的,如何对数据进行实时地快速的更新,就需要进行一些优化。比如说根据数据更新的频率,建立在更新系统快或是更新系统慢的系统之上,根据地域的登录跟重要性的登录把它放到南方或者是北方的机房里,也就是说,主要是根据数据的应用来策略。机器学习的算法,内存里面的数据进行高复杂度的计算,可能要花费很长的时间,这在百度的环境中是不行的,无论是判断用户的需求、从用户行为中得知需要推荐什么内容和什么广告,这些都需要非常高的时效性和极规模的机器学习。
 
收缩

  • 售前咨询
  • 技术支持
  • 备案专员
  • 24小时客服热线:
  • 88900700

微信号:hnidccn