腾讯云计算的价值(云计算与大数据)
现在的互联网与云计算中心的区别
云计算、社交网络和移动互联网
什么是云计算
首先是云计算。时至今日,我的身边还常有朋友问起,这个喊得震天响的云计算,到底是什么东西?开始时我也会解释一大堆话,后来发现,简单记得住最管用。于是概括为一句:云计算就是互联网,互联网就是云计算。而云计算的用处,或者说目的,是要将个人电脑(台式机也好笔记本也好)放到互联网中。
什么叫个人电脑放到互联网中?举例来说,你能直接在网络上看电视剧,并且可以在任何能上网的地方接着看同一部电视剧。而在几年前,你可能得先把电视剧一集集下载到你的个人电脑里,还得先安装好暴风影音这样的播放软件。换句话说,原本属于个人电脑的功能,现在被互联网替代了。
云计算的最终目的,就是要取代个人电脑的全部功能,这就叫把个人电脑放到网络里。云计算将最终让你能够在任何时间任何地点做任何与电脑相关的事,还不用随身带着笔记本或者U盘,因为你需要的所有数据、软件都在云中,在你的网络账户里。
对IT圈外的朋友来说,“把个人电脑放到网络里”这句话听起来可能还不够刺激。充其量,它不过能让我们的信息生活更方便而已。但如果我告诉你这一变化将造成曾经只手遮天的微软帝国的消失,那么你可能精神为之一振。有那么厉害吗?不过细想想也不奇怪,如果个人电脑都消失了,那么Windows还有什么用呢?
回顾一下我们如今的电脑操作,那种软件使用的最为频繁?没错,是浏览器。当云计算的终极目的成真,我们将只需要在本地电脑中留下一个浏览器,而不再需要Windows的其它复杂功能。到那时,我们甚至希望开机就直接看到一个运行之中的浏览器,而不再需要Windows本身(这正是Google的chrome os项目的目标)。
对于IT从业人士来说,个人电脑向互联网的迁移意味着无穷无尽的机会和可能。以往我们熟悉的各种桌面软件,大到Office,小到记事本,在云时代都需要改写为互联网中的网页。仅这一条就意味着数以亿计的潜在财富价值。更不用说个人电脑向互联网迁移过程所伴随的另一个实质性变化——社交。
社交的本质是人与人之间的交流,而个人电脑向互联网的迁移正好将为社交舞台提供远远超过今天的空前庞大的用户群体基础。我们知道,即使是在Windows和互联网共存的今天,社交网络服务都已经产生了如Facebook般市值估价超过千亿的超级大公司。换句话说,云计算孕育的不仅是再造一个微软帝国的潜力,更意味着一个史无前例的巨大影响力的信息时代的真正来临。
云计算分析与预测
对于业内人士来说,即使所有人都知道云计算的好处,也不见得有多少人能真真切切地将它落到实处。表面轰轰烈烈的云计算产业建设,到如今看来也不过是为多搞一些机房拉资金的噱头。落到实处的云计算就只是铺宽带、上机器?前车之鉴是,电信运营商们投入大笔资金砸向3G,等到管道铺好才最终发现自己更像是在为互联网公司们做嫁裳。
硬件投资是必须的也是赚钱的,但它只是行业生态系统中最低端的部分。这种技术门槛极低的基础建设就不要再拉上云计算的幌子了。
云计算的真正精彩在于软件行业。虽然以“互联网即云计算”的角度来讲,所有互联网公司都与云计算相关,但却并非所有的互联网公司都在真实地参与云计算的发展进程。不是不想参与,是不知如何参与。
应该怎样将云计算落到实处?紧紧把握“个人电脑向互联网迁移”这一本质正是关键。遵循这一思路,网络操作系统,或者说online windows,也许正是云计算领域的头等发展大事。如果做不了OS,那么退而求其次,发展云时代的应用软件,或者说互联网服务,也是正解。
先来看操作系统。网络操作系统将是什么样的?有人认为浏览器即使未来云时代的操作系统。不对!请记住,云时代的特点是“一切皆在云中”。因此,浏览器这种本地软件注定了它与云无缘。在它身上下功夫,势必走本地化的老路,离云越来越远。归根结底,浏览器只是一个客户端,一个云的终端显示驱动,不可能成为网络操作系统。浏览器在当下仍是各大公司们抢得死去活来的网络入口,但那只是云中的世界还不够成熟时的假象。随着更多个人电脑功能迁移至云中,浏览器将最终成为一个不需要附加功能的躯壳,使用哪种浏览器接入云中将变得不再重要。
也有一些聪明的公司看懂了云的未来。就国内而言,腾讯在这方面的动作可谓领先一步。打开web2.qq.com,呈现在眼前的与其说是网页,不如说是在线的windows桌面。这种数据、软件、操作皆在云中的网络桌面,正是网络操作系统的雏形。随着越来越丰富的第三方应用被加入其中,企鹅帝国的野心也昭然若揭。
辛运的是,云计算并非复制一个online windows那么简单。这才使云计算不至于被大公司们垄断,从而给我们留下了参与的机会。问题在于,即使腾讯们把页面做得再像Windows,互联网的生态也不会遭到个人电脑时代的垄断之灾。门户主页、电子邮箱还是可以照常打开,丝毫不受所谓网络操作系统的约束。要知道,在个人电脑时代,任何软件没有Windows都是不可能存在的。这种截然不同的本质区别表明:看起来很像Windows的网络桌面只是一个桌面。你甚至可以将它理解为网络硬盘。无论如何,它绝对不是真正意义上的操作系统。
尽管如此,网络桌面仍然是云时代生态系统中最接近操作系统的一环。只是,当年Windows的荣光再也无法复制,绝对垄断的可能也将连同这种并不光彩的荣耀一同褪去。某个优秀的网络桌面(比如Facebook)可能长期被大多数人设为主页,但这并不妨碍长尾用户群中的少数人按照自己的偏好选择其它网络桌面。不同公司的网络桌面产品将共存于云中,而所有互联网服务都可以很好地在它们中运行,不受兼容性的困扰。因为,云时代的决定性标准不是由某一家制定,而是植根于已经深入人心的公共网络协议。
换句话说,云时代将不再存在真正意义上的操作系统。网络桌面与其说是操作系统,不如说是另一种云中的应用软件。也可以认为,云时代的操作系统,由互联网中的所有服务共同组成。
因此,落实云时代的关键,最终归结为开发互联网服务。但是,互联网服务并不等于传统的互联网网站。最大区别,在于互联网服务于用户及其它服务交互的软件特性,而传统网站只是一段段静止的文字和图片,只相当于个人电脑中的一个个数据文件。
这就是为什么互联网中为数众多的网站中,只有少数算是真正参与到了云计算的进程之中。即使是Web2.0的兴起让许多网站开始重视与用户的互动,也很少有网站能够像Windows时代的软件一样,与外部数据一起与系统共生。换到互联网语境之中,这也可以理解为网站的开放性。在这方面,不仅需要胆略,更需要想象力。Facebook与Myspace的不同,正是因为前者将自己的社交资源向外界开放,才获得了决定性的质的飞跃。
简而言之,喧嚣的云计算其实很简单。无需长篇累牍的论文,无需盲目的政府投资。未来和机遇在于互联网服务的创新和细化。中小互联网内容提供商将扮演越来越重要的角色。平台和系统将不再重要,绝对性的垄断将分流到一些优秀的互联网服务之中。随着云计算的深入,优秀的互联网服务将越来越多,信息世界的秩序则将最终趋于平等和自由。
社交网络
相较于云计算,社交网络的概念容易理解一些。毕竟,人们对社交并不陌生。社交网络嘛,就是在网络上社交呗。用更广义也更简单的话来概括,社交网络就是多用户参与的网络。
从这个意义上讲,Web2.0热潮的核心概念社交网络并不是什么新鲜事物。为人熟知的即时通讯软件如QQ,多人网络游戏如传奇,都是早在Web2.0之前就已经大获成功的社交网络服务。
今天,我们已经有了Facebook、腾讯等巨无霸级的大型社交网站。这是否意味着社交网站已经发展到了熟透的阶段?是否意味着后人已经没有进入该领域的机会?
结论恰恰相反。随着以“个人电脑向互联网迁移”为核心的云计算进程的深入,使用网络的人群基数将远远超过今天的数量。同时,未来人们的每一次电脑操作都将与网络相关。云计算的模式结构与其用户总量的叠加结果,将是前所未有的新的社交需求。我们所需要的,只是更多的想象力,去挖掘这些潜在的可能性,而完全无须担心今天看起来庞大的Facebook们。社交,依然前景无限。
第三方登录的深意
更令人欣喜的是,大多数大型社交网站都已经陆续开放了第三方登录功能。今天,我们已经可以在很多中小网站中见到“用QQ账号登录”的选项。用户可以直接通过已有的QQ账户登录,而无需另外注册。这既是所谓的第三方登录。对中小网站来说,这绝对是有效吸引用户流量的天大喜事。
为什么社交网站巨头们要做这样的慈善事业?要知道,今天名不见经传的小网站,明天就可能成长为可怕的竞争对手?究竟其中有何玄机?
这个问题有很多不同的解答,但深层的答案还是要从云计算之中寻找。我们之前讲过,云计算的生态将最终由许多互联网服务共同构成,这些互联网服务将呈现出一种开放可交互的状态,就如同个人电脑中软件与软件,软件与数据文件的关系一般。云中的“个人电脑”要求云中的“软件”们互通而不是各自为政,而互通的关键则是统一的用户身份认证。
换句话说,用一个账户通行互联网是云计算的天然需求,而现行互联网中一个网站一套用户账户的格局已然成为了云计算发展道路上的绊脚石,破除它势在必行。
这种技术发展所蕴含的自发动力才是巨头们开放用户资料行为的幕后推手。早在Facebook率先开放用户资料之前,用于账户互通目的的网络通行证技术OpenID就已经如暗流涌动,随时可能破冰而出。即使Facebook自己不开放,迟早也会有别的网站这么做。与其守住既得利益等到人老珠黄,不如顺势而为与世界共同前进。这也正是一流公司是否能够持续优秀的基因所在。
从长远看来,开放账户资料的确会逐渐削弱Facebook这样的巨头原先拥有的平台垄断优势,甚至有沦为账号提供商的风险。但这是大势所趋。互联网从诞生之日其就担负着自由与平等的使命,任谁也改变不了。顺势而为,秉持开放的态度,反而能够在现有的优势基础上,集中精力做强做深具体的内容服务,从而在新的阶段持续保持优势。例如,在社交空间这项服务上,相信Facebook将长期保有优势(所谓社交空间,即用户进行经常性社交活动的场合。并非所有的社交活动都在社交空间完成,但社交空间却是社交活动最多的场合)。
对于广大IT从业人员来说,开放的互联网当然更意味着福音,这是一个多赢的局面。伴随着云时代的深入,社交这块大蛋糕将愈发显露出活力。
移动互联网
移动互联网也许是时下最热的IT领域,连圈外的朋友们也很乐意将它作为时髦词挂在嘴边。毕竟,不懂云计算,不懂SNS,还不懂天天把玩的小手机吗?
然而,笔者要说的是,移动互联网恰恰是笔者最不看好的方向。一旦IT再次出现泡沫(但愿不会),其源头必然是今天投资人竞相追捧的所谓移动互联网。
手机≠移动互联网
最大的问题也是最容易搞错的一点是:手机不等于移动互联网!如果你仔细读过本系列文章之前的部分,你应该明白,未来的互联网将成为每个人的“个人电脑”,而任何一种具备显示屏的终端,无论是台式机、笔记本、手机、腕表、相机,又或是公共查询机甚至是ATM机,都将成为云中“个人电脑”的显示终端。换句话说,互联网的未来形态天生就是移动的,而与是否使用手机无关。我们将会在不同的地方以不同的设备接入云中的“个人电脑”,这才是移动的真实含义。
那么手机将会是移动互联网的最重要组成部分吗?是,又不是。我们的确将经常使用手机来接入互联网,但同时大部分的工作仍然是通过其它设备,尤其是传统的配备有大屏幕的台式机或者笔记本来完成。
原因在于,手机归根结底受制于屏幕大小和输入的流畅性,因而不可能成为大部分电脑操作的适用设备。你可以用手机编短信发微博,但你不会用它来编辑word或excel,甚至长一点的email也不会用它。同样的,你用手机来弹小鸟打僵尸,但你会长时间用它来玩魔兽或是使命召唤吗?甚至赛车游戏你也会觉得还是台式机来的爽快。
把手机屏幕做大点能不能有所帮助?君不见今天清一色苹果长相的智能手机们比拼的正是面子大小。只是实在怀疑,这种令广大MM们不爽的砖头风到底能持续多久?莫非我们真的想要吧笔记本揣到裤兜里逛街?NO!那还是手机吗?
手机的定义决定了它的体积不可能无限增长。它的输入方式从键盘、触摸再到语音、图像识别也就达到了想象力的上限。最顶级的设备也无法改变手机不利于阅读和输入的特性,因此已经和正在烧钱的朋友们请接受这个现实:手机≠移动互联网,手机只适合简单应用,最多是正常应用的简化版。
给手机设计开发者如下建议。你们开发的应用应该:
1.不需要总是看屏幕
2.不需要仔细看屏幕
3.如果你的应用必须随时看屏幕,仔细看屏幕,那就不用煞费苦心在手机上牵强附会了。配备有鼠标键盘和正常尺寸屏幕的传统电脑才是你应该考虑的目标。手机取代不了传统电脑。
第二个问题
笔者不看好移动互联网的第二个根本原因在于基础设施的不成熟。即使已经到了3G审美疲劳4G才是王道的21世纪,我们最缺的依然是基础设施建设。今天的移动互联网硬件环境,和我们刚跨入新世纪互联网刚抬起全民普及苗头时的那个年代极其相似。从业者一片热血沸腾,用户们却还在盘算30块钱包20小时还是80块钱包60小时划算。
历史的惊人相似实在无法不让人联想到曾经的泡沫危机。君不见,上一次的互联网喧嚣散尽之后,多少互联网先驱们被拍在岸边,死在明天。足足七八年之后互联网才盼到了复苏,结果是毛头小子开心网们捡了大便宜,而从之前的阴影中活下来的就只有利用互联网却不采用互联网思路的QQ而已。
除非基础设施足够成熟,否则进入移动互联网就是一种先烈式的冒险。笔者的建议是,五年之后再作打算也不晚。
智能手机误入歧途
最后一个问题,让我们再来凑凑手机的热闹。乔帮主引领的智能手机革命成功击破了中国山寨头头们冒起的泡泡,搞得大大小小的手机店不换上清一色的苹果状砖头都不好意思说自己卖手机,也搞得稍懂一点时髦的年轻人不揣上一块砖头都不好意思说自己带了手机。但事实是,智能手机并没有想象的那么美好。
笔者升级过一次Android系统。从上网查资料下载升级包再到最后安装成功,总共花费两个小时。据说这已经算是好成绩。普通用户大概不会和系统较劲,但如果想要尝试某款新软件功能,也必须要经历先下载再安装后使用的过程。至于应对安装冲突、升级失败、运行异常,以及控制情绪避免系统设置查找抓狂症,乃至学习新型杀毒软件和防火墙的用法,也是每个智能手机用户必须具备的常规素质。
这一切多像那令人怀念的Windows 95年代!可是拜托,我们里那个岁月已经不折不扣的过去了十六年的光阴。云计算都已经过喊得耳朵起了茧,微软都已经不再是历史舞台的主角,为什么手机开发者们还试图让我们重复那当年的往事?
不要下载!不要安装!手机软件应该直接做成网页应用,在浏览器中打开就OK!你说本地软件才能跑的顺畅,难道你不知道现如今连网络游戏都在转型网页版免安装?你说放在桌面的快捷方式才能吸引用户,难道你不知道网页图标也可以放到桌面上?顺便说一句,浏览器的开发者们应该好好学学UC,把浏览器的入口界面做得像桌面一点很难吗?
只有将你的手机软件变成即打开即用的云中应用,你的开发成果才会有更多的人愿意尝试。也只有这样,用户在丢手机/换手机/换操作系统之后,你的开发成果才有更大的几率不被用户抛弃。
可以预言,手机操作系统的升级大战在一段时间之后将趋于平静。苹果的封闭还是安卓的开放,又或是Nokia的落伍都将成为不重要的过去式。在任何一部智能或非智能手机上所必须的,将只是一部功能完善的浏览器,而更多的热闹看点则将进入互联网,进入云计算的大舞台。
云计算对企业的好处有哪些
对企业来说,云计算主要有下面几个好处:
1.云计算运营问题较少
云计算可能看起来很复杂,但与其他基础设施相比,它的问题实际上少了很多。由于企业的业务可以通过在云计算的服务器上运行,其主要工作是使云计算中的应用更加完善,所以它通常比企业自己运营的数据中心的服务器更可靠。
2.云计算实际上可以节省成本
云计算最大的好处之一就是从长远来看可以为采用云计算的企业节省成本。如果企业不再需要聘请技术支持团队来解决服务器问题,那么实际上就节省了费用。
3.云计算具有更好的安全性
云计算与本地部署的服务器相比具有更高的安全性。而如果遭遇自然灾害或全面计算机崩溃,采用云计算的企业无需担心丢失关键数据和业务应用程序。
4.采用云计算企业很容易地控制自己的文件
文件控制是保证安全业务所必需的措施。企业永远不知道文件落入了他人手中会发生什么,即使这只是未经培训的员工。
5.云计算很容易实现
企业开始使用云计算时,看起来会很复杂,但这与其在本地数据中心安装全新的服务器没有什么不同。很多第三方公司可以帮助企业无缝迁移。
大数据 、云计算、互联网等是怎么样实现价值
1.大数据兴起预示“信息时代”进入新阶段
(1)看待大数据要有历史性的眼光
信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网(万维网)。尽管媒体上大量出现“大数据时代”的说法,但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破,难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段,大数据等新技术的应用标志着信息社会将进入一个新阶段。
考察分析100年以上的历史长河可以发现,信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高,分界线分别是1915年和1995年。笔者猜想,信息技术经过几十年的扩散储备后,21世纪的前30年可能是信息技术提高生产率的黄金时期。
(2)从“信息时代新阶段”的高度认识“大数据”
中国已开始进入信息时代,但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题,其根源是对时代的认识不到位。18-19世纪中国落后挨打,根源是满清政府没有认识到时代变了,我们不能重犯历史性的错误。
中央提出中国进入经济“新常态”以后,媒体上有很多讨论,但多数是为经济增速降低做解释,很少有从时代改变的角度论述“新常态”的文章。笔者认为,经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段,是经济和社会管理的跃迁,不是权宜之计,更不是倒退。
大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构“第三平台”是信息社会进入新阶段的标志,对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、“第二次机器革命”、“工业4.0”等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆,所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。
(3)大数据可能是中国信息产业从跟踪走向引领的突破口
中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席(阿里巴巴、腾讯、百度和京东),其他6个Top10互联网服务企业全部是美国企业,欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上,我国有可能改变过去30年技术受制于人的局面,在大数据应用上中国有可能在全世界起到引领作用。
但是,企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上,国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径,但我们对开源社区的贡献很小,在全球近万名社区核心志愿者中,我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训,加强大数据基础研究和前瞻技术研究,努力攻克大数据核心和关键技术。
2.理解大数据需要上升到文化和认识论的高度
(1)数据文化是一种先进文化
数据文化的本质是尊重客观世界的实事求是精神,数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作,但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道,首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业,而是指全民的数据意识。全社会应认识到:信息化的核心是数据,只有政府和大众都关注数据时,才能真正理解信息化的实质;数据是一种新的生产要素,大数据的利用可以改变资本和土地等传统要素在经济中的权重。
有人将“上帝与数据共舞”归纳为美国文化的特点之一,说的是美国人既有对神的诚意,又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变,南北战争之后人口普查的方法被应用到很多领域,形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系,我国要实现现代化也必须强调数据文化。
提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源,数据的采集和分析涉及每一个行业,是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势,而从数据中发现价值的技术正是最有活力的软技术,数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。
(2)理解大数据需要有正确的认识论
历史上科学研究是从逻辑演绎开始的,欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始,科学研究更加重视自然观察和实验观察,在观察基础上通过归纳方法提炼出科学理论,“科学始于观察”成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献,但也暴露出明显的问题,甚至走入极端。理性主义走向极端就成为康德所批判的独断主义,经验主义走入极端就变成怀疑论和不可知论。
20世纪30年代,德国哲学家波普尔提出了被后人称为“证伪主义”的认识论观点,他认为科学理论不能用归纳法证实,只能被试验发现的反例“证伪”,因而他否定科学始于观察,提出“科学始于问题”的著名观点[3]。证伪主义有其局限性,如果严格遵守证伪法则,万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但“科学始于问题”的观点对当前大数据技术的发展有指导意义。
大数据的兴起引发了新的科学研究模式:“科学始于数据”。从认识论的角度看,大数据分析方法与“科学始于观察”的经验论较为接近,但我们要牢记历史的教训,避免滑入否定理论作用的经验主义泥坑。在强调“相关性”的时候不要怀疑“因果性”的存在;在宣称大数据的客观性、中立性的时候,不要忘了不管数据的规模如何,大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言:“采用大数据挖掘,你不需要对数据提出任何问题,数据就会自动产生知识”。面对像大海一样的巨量数据,从事数据挖掘的科技人员最大的困惑是,我们想捞的“针”是什么?这海里究竟有没有“针”?也就是说,我们需要知道要解决的问题是什么。从这个意义上讲,“科学始于数据”与“科学始于问题”应有机地结合起来。
对“原因”的追求是科学发展的永恒动力。但是,原因是追求不完的,人类在有限的时间内不可能找到“终极真理”。在科学的探索途中,人们往往用“这是客观规律”解释世界,并不立即追问为什么有这样的客观规律。也就是说,传统科学并非只追寻因果性,也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型,这些知识和模型也可以用来预测未来,可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少,比如开普勒归纳的天体运动规律等;而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性,但大数据模型不一定具有必然性,也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会,在知识阶梯上位于较高层,其自然边界是模糊的,但有更多的实践特征。大数据研究者更重视知行合一,相信实践论。大数据认识论有许多与传统认识论不同的特点,我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱,用数据规律补充了单一的因果规律,实现了唯理论和经验论的数据化统一,一种全新的大数据认识论正在形成。
3.正确认识大数据的价值和效益
(1)大数据的价值主要体现为它的驱动效应
人们总是期望从大数据中挖掘出意想不到的“大价值”。实际上大数据的价值主要体现在它的驱动效应,即带动有关的科研和产业发展,提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术要采用“蜜蜂模型”:蜜蜂的效益主要不是自己酿的蜂蜜,而是蜜蜂传粉对农业的贡献。
电子计算机的创始人之一冯·诺依曼曾指出:“在每一门科学中,当通过研究那些与终极目标相比颇为朴实的问题,发展出一些可以不断加以推广的方法时,这门学科就得到了巨大的进展。”我们不必天天期盼奇迹出现,多做一些“颇为朴实”的事情,实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例,对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露,所谓“啤酒加尿布”的数据挖掘经典案例,其实是Teradata公司一位经理编出来的“故事”,历史上并没有发生过[4]。即使有这个案例,也不说明大数据分析本身有什么神奇,大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是,关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值。
有一个家喻户晓的寓言可以从一个角度说明大数据的价值:一位老农民临终前告诉他的3个儿子,他在他家的地中埋藏了一罐金子,但没有讲埋在哪里。
他的儿子们把他家所有的地都深挖了一遍,没有挖到金子,但由于深挖了土地,从此庄稼收成特别好。数据收集、分析的能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,大数据的价值也已逐步体现。
(2)大数据的力量来自“大成智慧”
每一种数据来源都有一定的局限性和片面性,只有融合、集成各方面的原始数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体,但角度不同。对同一个问题,不同的数据能提供互补信息,可对问题有更深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。
数据科学是数学(统计、代数、拓扑等)、计算机科学、基础科学和各种应用科学融合的科学,类似钱学森先生提出的“大成智慧学”[5]。钱老指出:“必集大成,才能得智慧”。大数据能不能出智慧,关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告,重点强调“无缝智慧(seamless intelligence)”。发展大数据的目标就是要获得协同融合的“无缝智慧”。单靠一种数据源,即使数据规模很大,也可能出现“瞎子摸象”一样的片面性。数据的开放共享不是锦上添花的工作,而是决定大数据成败的必要前提。
大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路,重点不是支持单项技术和单个方法的发展,而是强调不同部门、不同学科的协作。数据科学不是垂直的“烟囱”,而是像环境、能源科学一样的横向集成科学。
(3)大数据远景灿烂,但近期不能期望太高
交流电问世时主要用作照明,根本想象不到今天无处不在的应用。大数据技术也一样,将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来,但近期要非常务实地工作。人们往往对近期的发展估计过高,而对长期的发展估计不足。Gartner公司预测,大数据技术要在5~10年后才会成为较普遍采用的主流技术,对发展大数据技术要有足够的耐心。
大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数发展的特点是,从一段历史时期衡量(至少30年),前期发展比较慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持“指数性”增长,一般而言,高技术发展遵循Gartner公司描述的技术成熟度曲线(hype cycle),最后可能进入良性发展的稳定状态或者走向消亡。
需要采用大数据技术来解决的问题往往都是十分复杂的问题,比如社会计算、生命科学、脑科学等,这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化,才出现生物和人类,其复杂和巧妙堪称绝伦,不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来,大数据技术只是科学技术发展长河中的一朵浪花,对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。
4.从复杂性的角度看大数据研究和应用面临的挑战
大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。
集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的“新三论”,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。
大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。
(1)数据复杂性引起的挑战
图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观“涌现”规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。
(2)计算复杂性引起的挑战
大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。
传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何“算得快”。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何“算得多”。从“算得快”到“算得多”,考虑计算复杂性的思维逻辑有很大的转变。所谓“算得多”并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。
基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。
(3)系统复杂性引起的挑战
大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。
大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓“昆虫纲悖论”[6]。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。
大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由“大象搬木头”转变为“蚂蚁搬大米”。
5.发展大数据应避免的误区
(1)不要一味追求“数据规模大”
大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。
一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。
发展大数据不能无止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的“污染”和侵犯隐私等各种弊端。
(2)不要“技术驱动”,要“应用为先”
新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继“大数据”以后,“认知计算”、“可穿戴设备”、“机器人”等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持“应用为先”的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。
(3)不能抛弃“小数据”方法
流行的“大数据”定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是“小数据”问题。我们应重视实际碰到的问题,不管是大数据还是小数据。
统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。
大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。
(4)要高度关注构建大数据平台的成本
目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2 PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1 000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。
我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。