对于大数据时代,社会文明进步和风险

1988年,出生于奥地利小镇的22岁的维克多·迈尔-舍恩伯格和朋友创建公司,推出了一款名为IKARUS 的反病毒软件,IKARUS 一举夺得了当年奥地利最畅销软件的头衔,舍恩伯格的事业蒸蒸日上,他的成绩也获得了史蒂夫·乔布斯的关注。
乔布斯把舍恩伯格请来在他的公司开发类似的系统。有次同乔布斯吃饭,舍恩伯格问乔布斯编过的第一个程序是什么,乔布斯很震惊,愣住没有回答,“于是我们再也没有出去吃过饭”。
舍恩伯格不知道乔布斯一辈子都没编过一行代码,不过若干年后,谷歌翻译的团队也没有几个专业的翻译人员,亚马逊的荐书系统也没有一个书评人,从小琢摩计算机的舍恩伯格亲历了计算机和数据科学的发展,渐渐成为了“大数据时代”权威的研究人。
什么是大数据呢?舍恩伯格在《大数据时代》中写道,“最先经历信息爆炸的学科,如天文学和基因学,创造出了‘大数据’这个概念”,“大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改善处理数据的工具。”现在的“大数据”,简而言之,就是指那些近乎所有的可利用的数据。
如今,大数据这个概念几乎应用到了所有人类致力于发展的领域之中。
20世纪80年代后期,IBM公司的研发人员针对于电脑翻译提出了全新的观点,他们利用10年的时间将约300万句之多的加拿大双语议会资料(加拿大的语言为英语和法语)进行统计分析,让机器识别英语和法语的某个词在什么样的情况被翻译成对应语言的词汇,研发团队放弃了语言中的语法(因果关系),纯靠统计出大数据时代,社会文明的进步与风险由优秀论文网站www.shuoshilunwen.com提供,助您写好论文.语言之间的相关性进行翻译,虽然取得了一定的成绩,不过因为没有足够多的数据,IBM最后取得的成效并不大。
15年后,谷歌采取了同样的做法,它不仅采用了加拿大议会的会议稿,还把互联网上几十亿页面的数据进行抓取分析,寻找不同语言词汇之间的关联性。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并且能够很流利地对等翻译。虽然谷歌抓取的互联网数据很混乱,有些还是错误的,但他们的规模是IBM的上万倍甚至百万倍,“因为他们在规模上做大了这么多,所以他们在质量上稍微有一点牺牲是没有理由。”
大数据的统计分析甚至击败了亚马逊网站1997年成立之初所聘请的专业书评、荐书团队,虽然这个团队曾经是公司竞争优势的重要来源。亚马逊通过海量的信息数据,寻找产品之间的关联性。比如大量的客户购写记录显示,多数喜欢海明威作品的客户更容易购写菲茨杰拉德的书,所以为购写海明威作品的读者推荐菲茨杰拉德绝对是明智之选,虽然计算机并不知道为什么。亚马逊在对比了计算机生成内容产生的销售业绩和评论家创作的销售业绩后,解散了书评组。“如今,据说亚马逊销售额的三分之一都是来自于它的个性化推荐标准。”
同样,依照数据背后的关联性,沃尔玛会在飓风来临时,将蛋挞和飓风用品摆在一起;美国折扣零售商塔吉特会根据用户的购写习惯预测客户何时怀孕(并及时发送婴儿产品促销信息);谷歌可以根据用户的搜索习惯,判断H1N1的传播疫情;多伦多的研究人员通过搜集海量早产儿的生命特征数据,发现早产儿的稳定不但不是病情转好的标志,反而是暴风雨前的宁静,而往往很多医生看到早产儿病情稳定下班早早回家——这一发现挽救了大量的生命,虽然无法解释病情稳定和全面感染之间的因果关系,即“为什么”。
“当我们看到两件事情接连发生的时候,我们会习惯性地从因果关系的角度看待它们。看看下面的三句话:‘弗雷德的父母迟到了;供应商快到了;弗雷德生气了。’我们读到这里,可能立马就会想到弗雷德生气并不是因为供应商快到了,而是他父母迟到了的缘故。实际上,我们也不知道到底是什么情况。”
在数据庞杂的时代,因果关系会变得很难寻觅。统计学家曾用二手车销售数据倡议一个算法,预测经销商拍卖的哪些车可能出现质量理由,最后结果显示,橙色的车出现质量理由的可能性是其他车的一半。这个结论背后的因果关系无从考量。“当我们知道了‘是什么’的时候,‘为什么’其实没那么重要了。”(但并不是说因果关系不重要,相关关系也会指导人们寻找因果关系,比如2009年会出现理由的沙井盖预测,是根据2008年的统计结果,其中电缆的使用年限起到了关键的提示。)
“在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事情的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他理由导致的,以此循环往复,那么就不存在人的自由意志这一说了。”
“人们应该明白,追求因果的过程往往是无果的,通过关联性而不是因果关系来认识现象,才能有助于我们更好地了解世界。”
舍恩伯格的继父去世时,曾留下16000多张周游世界的照片。为了决定保留哪些照片,舍恩伯格按照两条原则进行挑选:首先,照片上有认识或者可能认识的人,其次,照片拍摄得相当漂亮。最后,他从这些照片中挑出了53张。
经历过这段时光,舍恩伯格开始深思大数据时代的隐患和未来。大数据时代,人们即使在网站上点击删除按钮,但他的数据、信息(例如照片)都很早就被整个网络所记录,舍恩伯格开始深思“被遗忘的权利”,“过去正像刺青一样被刻在我们的数字皮肤上,遗忘已经变成了例外,而记忆却成了常态。”
大数据时代,人们的隐私不仅仅是传统的隐私,那些互联网上的、数据,都可以被企业组织利用,甚至根据预测就能对人们尚未实施的行为进行处罚。“举个例子:在美国有一个名为‘预测式配警’的计划,该计划通过大数据分析来预测美国某个城市的某条街道的某个时段是犯罪高峰时段,然后部署更多的警力在那个位置。这意味着该地区居民将长时间被监控,这是一种变相的惩罚。他们没有做错事,却因为某个计算机的算法预测他们可能会做错事便被惩罚了,这显然并不公平。”
“社会越是用干预、降低风险的方式取代个人为自己的行为负责,就越会导致个人责任意识的贬值,如果国家做出的许多决策都是基于预测以及减少风险的愿望,就不存在所谓个人选择了,也不用提自主行为的权利。如此一来,世界不只不会进步,反而在倒退。”
舍恩伯格指出,为了不被大数据扭曲人类本质的东西——理性思维和自由原则,大数据时代人们甚至要更加牢记人类意志的不可侵犯性,人类的未来必须保留部分空间,允许我们按照自己的愿望进行塑造。(舍恩伯格在书中提到为了监管数据的使用,介绍了一种新的职业人:数据算法师。)
同时,大数据时代,人们的创意、直觉、冒险精神和知识也会变得尤为重要。亨利·福特曾经说过,“如果我当年去问顾客他们想要什么,他们肯定会告诉我:‘一匹更快的马’”。如果按照大数据的策略进行分析,福特会得到同样的答案,但如果福特继续执着于数据显示的看似更为可信的结果,也就不会有汽车代替马车了。
“大数据提供的不是最终答案,只是参,只是为我们提供暂时的帮助,以便等待更好的策略和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。”

相关论文

阐述生态大数据时代广告生态大纲

【摘 要】本文以当下热门概念——“大数据”为切入点,对“大数据”的构成及来源进行分析,并研究了大数据对广告生态产生的影响。在大数据。
浏览量:156074 点赞量:33572

谈理念大数据时代编辑理念更新

【摘要】本文就大数据理论在新闻出版产业的应用进行了初步探究,提出了“信息传播企业”的概念,重点阐释了大数据时代数字新闻出版产业发展。
浏览量:131872 点赞量:28585

谈数据大数据时代背景下数据可视化运用

摘 要:在近十年时间里,数据采集、存储和数据分析技术飞速发展,大大降低了数据储存和处理的成本,一个大数据时代逐渐展现在我们的面前。。
浏览量:97061 点赞量:21914

试议大数据时代四类数据和四类公司

【摘要】本论文介绍了大数据的概念,论述了四大类数据和运用价值,指出了就大数据运用情况现实生活中各类公司有着的类型,明确了大数据运用。
浏览量:106875 点赞量:23716

简述精准大数据时代精准营销方式

摘 要:从数据库营销、消费者行为学、精准营销等理论出发,对策略核心、技术基础、行动保障三个方面分析了精准营销的应用模式。并结合江苏。
浏览量:10726 点赞量:4074

简论大数据时代金融统计革新设计

摘要:文章结合实际分析了大数据时代金融统计改革的相关问题,并提出改进意见和建议。关键词:大数据;金融统计1001-828X(2013)11-0-01一。
浏览量:11541 点赞量:4227