什么是海量数据 海量数据的定义解决方案

海量数据的意思:

海量数据是一个形容词,它是用来形容巨大的、空前浩瀚的数据。现在,在许多业务部门中都需要操作海量数据,如规划部门有规划方面的数据,水利部门有水利方面的数据,气象部门有气象方面的数据,测绘部门有测绘方面的数据,这些部门都可能有几百兆甚至数十千兆的数据,如仅测绘部门的全国1∶25万地形数据库的数据量就达4.5Gb(千兆);又如一景包含七个波段的Landsat TM影像的数据量达270兆左右,如果统计覆盖全国的TM影像的数据量将达到135Gb(千兆),真是不可思议。随着人类信息化程度的提高,数据已超出它原始的范畴,它包含各种空间数据、报表统计数据、文字、声音、图像、超文本等各种环境和文化数据信息。随着社会信息化程度的提高、计算机的普及,特别是因特网和万维网(WWW)的迅速发展,世界各地、各行业、各部门以及个人都能通过网络达到信息共享,使得分布于世界各地的海量数据能有机地联系在一起。

什么是海量数据?海量数据还可以称为大数据。对于大数据(Big data)研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。其特色在于可对海量数据进行分布式数据挖掘,但必须依托云计算的分布式处理、分布式数据库以及云存储、虚拟化技术。

随着云时代的来临,大数据也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce –样的框架来向数十、数百甚至数千台计算机分配工作。

  1.大数据的特点

相比传统的数据仓库应用,大数据分析具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。

大数据的特点有四个层面:第一,数据体量巨大。从TB级别跃升到PB级别。第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等。第三,处理速度快。1s定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(数据价值大)。

从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。

  2.大数据的用途

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

什么是海量数据?“它”具有哪些特征呢?
 很多年前,业界就在讨论一个话题:如何应对海量数据?特别是一些需要存储大量用户数据的行业,金融、电信、保险等热门行业。用户几乎在一天的每个小时,都有可能产生大量数据,这些行业的存储设备,必须要将期间产生的数据一丝不苟地记录下来,为了防止丢失,还必须做备份,同时还必须做异地的容灾备份,这还不算完,业务中断事件不能超过多少时间范围,否则就算是重大事故,所以必须通过IT系统保证业务的连续性。

然而,当人们发现数据库中的数据可以分为三种类型:结构性数据、非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了。如果仅仅是海量的结构性数据,那么解决的办法就比较的单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题。

大数据汹涌来袭

但是,当类型复杂的数据汹涌袭来,那么对于用户IT系统的冲击又会是另外一种处理方式。很多业内专家和第三方调查机构通过一些市场调查数据发现,大数据时代即将到来。

其中,85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。

大数据的概念和云计算一样,也存在着很多的炒作和大量的不确定性。为此,我们咨询了多位分析师和研究大数据的专家,让他们解释大数据是什么和不是什么,以及大数据对于数据挖掘的未来究竟意味着什么等诸多问题。

在云计算继续成熟和平板电脑厂商之间的竞争日益激烈的氛围中,2011年预计会看到更多的把多TB(1TB = 1000 GB)数据集用于商务智能和商务分析。多TB数据集也称作大数据。据市场研究公司IDC统计,数据使用预计将增长44倍,全球数据使用量将达到大约35.2ZB(1ZB = 10亿TB)。然而,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。

存储巨头EMC指出,它的1000多个客户在其阵列中使用1PB(千兆兆)以上的数据数据,这个数字到2020年将增长到10万。一些客户在一两年内还将开始使用数千倍多的数据,1EB(1艾字节 = 10亿GB)或者更多的数据。

对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。还有就是把计算机聚合成服务器集群越来越简单。IDC的数据库管理分析师Carl Olofson认为,这三大因素的结合便催生了大数据。

IDC认为,某项技术要想成为大数据技术,首先必须是成本可承受的,其次是必须满足IBM所描述的三个V判据中的两个:多样性(variety)、体量(volume)和速度(velocity)。

个人理解,抛砖引玉,说的不准确千万砖下留情,呵呵
海量数据是一般性描述,意指很大的数据量;而大数据则是近年来火热起来的一个专属名词,不仅仅指字面上的大量数据,还包含有针对数据的综合分析以及特征信息相关的数据挖掘等含义,

不是一个概念。海量数据仅仅是指数据的量比较大,而大数据一般认为有5个V,其中就包括体量大(海量数据),但是大数据还不仅仅是数据量大,还有数据的不确定性、速度等几个方面。

如果在mysql中想要like检索,那么需要分词技术,题主可以了解一下,总之不可以在mysql中用like。
如果是海量数据,用mysql的话,要会自己分库分表,自己写查询查不同的库,然后汇总,可以考虑使用java或python这类带并发的语言进行查询。
海量数据,也可以直接使用nosql的库,网上很多,我没用过,但我知道很多人在用。

更多
  • 该日志由 于2017年12月04日发表在 未分类 分类下, 你可以发表评论,并在保留原文地址 及作者的情况下引用到你的网站或博客。
  • 本文链接: 什么是海量数据 海量数据的定义解决方案 | 帮助信息-动天数据
  • 文章标签: ,
  • 版权所有: 帮助信息-动天数据-转载请标明出处
  • 【上一篇】 【下一篇】

    0 Comments.