首页

大数据心得体会

资源预览文档简介为自动调取,内容显示的完整度及准确度或有误差,请您下载后查看完整的文档内容。

1/9

2/9

剩余7页未读,查看更多内容需下载

  大数据心得体会<br />  早在 2007年,人类制造的信息量有史以来第一次在理论<br />上超过可用存储空间总量,近几年两者的剪刀差越来越大。<br />2010年,全球数字规模首次达到了&ldquo;ZB&rdquo;(1ZB=1024TB)级<br />别。2012年,淘宝网每天在线商品数超过 8亿件。2013年底,<br />中国手机网民超过 6亿户。随着互联网、移动互联网、传感<br />器、物联网、社交网站、云计算等的兴起,我们这个社会的<br />几乎所有方面都已数字化,产生了大量新型、实时的数据。<br />无疑,我们已身处在大数据的海洋。<br />  有两个重要的趋势使得目前的这个时代(大数据时代)<br />与之前有显著的差别:其一,社会生活的广泛数字化,其产<br />生数据的规模、复杂性及速度都已远远超过此前的任何时代;<br />其二,人类的数据分析技术和工艺使得各机构、组织和企业<br />能够以从前无法达到的复杂度、速度和精准度从庞杂的数据<br />中获得史无前例的洞察力和预见性。<br />  大数据是技术进步的产物,而其中的关键是云技术的进<br />步。在云技术中,虚拟化技术乃最基本、最核心的组成部份。<br />计算虚拟化、存储虚拟化和网络虚拟化技术,使得大数据在<br />数据存储、挖掘、分析和应用分享等方面不仅在技术上可行,<br />在经济上也可接受。<br />  在人类文明史上,人类一直执着探索我们处的世界以及<br />人类自身,一直试图测量、计量这个世界以及人类自身,试<br /> <br />图找到隐藏其中的深刻关联、运行规律及终极答案。大数据<br />以其人类史上从未有过的庞大容量、极大的复杂性、快速的<br />生产及经济可得性,使人类第一次试图从总体而非样本,从<br />混杂性而非精确性,从相关关系而非因果关系来测量、计量<br />我们这个世界。人类的思维方式、行为方式及社会生活的诸<br />多形态(当然包括商业活动)正在开始发生新的变化。或许<br />是一场革命性、颠覆性的变化。从这个意义上讲,大数据不<br />仅是一场技术运动,更是一次哲学创新。 1 大数据的概述 <br />1.1 大数据的概念<br />  大数据(BigData)是指那些超过传统数据库系统处理能<br />力的数据。它的数据规模和转输速度要求很高,或者其结构<br />不适合原本的数据库系统。为了获取大数据中的价值,我们<br />必须选择另一种方式来处理它。<br />  数据中隐藏着有价值的模式和信息,在以往需要相当的<br />时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企<br />业都要付高昂的代价才能从大数据中挖掘信息。而当今的各<br />种资源,如硬件、云架构和开源软件使得大数据的处理更为<br />方便和廉价。即使是在车库中创业的公司也可以用较低的价<br />格租用云服务时间了。<br />  对于企业组织来讲,大数据的价值体现在两个方面:分<br />析使用和二次开发。对大数据进行分析能揭示隐藏其中的信<br />息,例如零售业中对门店销售、地理和社会信息的分析能提<br /> <br />升对客户的理解。对大数据的二次开发则是那些成功的网络<br />公司的长项。例如 Facebook通过结合大量用户信息,定制出<br />高度个性化的用户体验,并创造出一种新的广告模式。这种<br />通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、<br />雅虎、亚马逊和 Facebook,它们都是大数据时代的创新者。 <br />1.2 大数据的三层关系<br />  第一层关系:数据与机器的关系。大数据纪元刚开始,<br />产业界碰到的第一个核心问题就是&ldquo;大&rdquo;的问题。做了几十<br />年的数据仓库甚至海量并行处理的数据库都不能处理那么大<br />的数据,怎么办?需要范式切换。主要有三个方面,新型的<br />数据与机器关系当中的第一条就是重新考虑架构与算法,重<br />新考虑舍得,有舍才能得,天下没有免费的午餐,所以必须<br />要舍弃一些,得到一些新的。必须舍弃贵族化的高端小型机<br />和 UNIX服务器,得到平民化的更大量的 X86服务器。通过这<br />样一种可横向、可水平扩展服务器处理每两年翻番的数据量<br />的挑战。第二个舍得是舍弃硬件的可靠性和可用性,得到软<br />件的可靠性和可用性。这也就是谷歌三大论文以及 Hadoop的<br />核心重点。第三个舍得是舍弃传统数据库的强一致性,获得<br />更放松一致性、可扩展架构,如 NoSQL。第四个舍得是传统算<br />法强调非常严格的精确性,现在要放弃一些精确性,通过近<br />似、采样这种方式来获得更好的扩展性。<br />  最早大数据的处理范式是 Mapreduce的批量处理,英特<br /> <br />尔慢慢有其他的需求,实时的流处理、多...

版权提示

  • 温馨提示:
  • 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
  • 2. 本文档由用户上传,版权归属用户,莲山负责整理代发布。如果您对本文档版权有争议请及时联系客服。
  • 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
  • 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服vx:lianshan857处理。客服热线:13123380146(工作日9:00-18:00)

文档下载

发布时间:2023-01-16 14:20:14 页数:9
价格:¥3 大小:32.00 KB
文章作者:U-154008

推荐特供

MORE