大数据研究 – 庄闲棋牌官网官方版 -199IT
//www.otias-ub.com 发现数据的价值-199IT Thu, 17 Dec 2015 03:28:08 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 打开大数据研究的潘多拉魔盒
//www.otias-ub.com/archives/418084.html Thu, 17 Dec 2015 03:28:08 +0000 //www.otias-ub.com/?p=418084

fy1420word20cloud

 

导语

近年来,大数据研究方法逐渐应用于社会学科领域,运用大规模用户数据,社科领域研究者得以从新的视角理解用户媒介使用习惯、语言、与情感。然而,在大数据研究不断普及的背景下,如何规范大数据研究的伦理准则,如何保证研究对象的隐私权,以及如何研究现有互联网公司的伦理问题,这些问题看似遥远,但是却直接影响大数据研究者的行为准则。此外,回答与大数据研究、实践相关的伦理问题,将有助于增加普通公众对大数据的了解。本期【大数据与社会】栏目将以案例讨论的形式梳理在大数据研究和实践中所涌现出的若干问题,解释大数据研究的潘多拉魔盒是如何被打开的,而它又将如何改变我们的生活。

作为大数据资源的管理者,社交网站拥有丰富的用户数据资源。传统意义上,网站运营者的主要角色在于提供社交平台、优化服务与产品、吸引更多用户加入。然而,在近年来出现的部分用户行为研究中,社交网站的研究人员通过大规模用户实验研究用户行为习惯超越了其传统单纯的网络运行者角色。一方面,该类研究为社会学科补充了大规模实验的实证结果;然而另一方面,用户行为实验,尤其是涉及操控用户社交媒体内容的实验,也触碰到了社交网络使用者的权利。其中,Facebook的一项关于情绪感染(emotional contagion)的实验更是引发了社会科学内部对于大数据研究伦理的广泛讨论。

Facebook情绪感染实验:关于研究伦理的争议

在《美国国家科学院》2014年6月17日院刊中,Facebook首席数据科学家亚当·卡拉默(Adam Kramer),康奈尔大学交流与信息科学学院教授贾米·古伊洛瑞(Jamie Guillory)和杰弗瑞·汉考克(Jeffrey Hancock)通过修改689,003名Facebook用户可以接触到的好友新鲜事的情绪帖研究情绪在社交媒体上的传播与扩散方式。

在为期一周的实验中(2012年1月11日-2012年1月18日),研究人员通过用户ID随机选取689,003名Facebook英语版用户,并将其分为两组。一组减少刷新好友新鲜事时显示的正面情绪帖占比,另一组则减少刷新时显示的负面情绪贴占比。

研究人员发现当好友正能量新鲜事被有意减少后,用户在发帖时会使用更多比例负面词汇和更少比例正面词汇。当减少负能量新鲜事时,则出现相反的表达方式。与此同时,研究者还发现一种退出效果(withdrawal effect):越少接触情绪性状态的人,在接下来的日子里也会减少感情流露。这项发现与此前认为“阅读朋友Facebook上正面情绪状态会带来负面影响”的观点相左,基于此发现,研究人员认为负面影响的产生原因是接触正面情绪不足所导致的。

该研究证实:情绪可以通过情绪传染(emotional contagion)的形式传递给他人,使他人在无意识中感受到同样的情绪。此外,大规模社交网络的情绪传染还证实面对面的交流和非言语上的暗示并非情绪传染的必要条件,即情绪传染可以通过社交媒体,如Facebook,经由线上社会网络进行。

然而,由于该实验过程涉及操纵用户的好友消息推送(译者注:通过推送包含积极或消极情绪的好友消息,Facebook用户被动接受了研究者处理过的信息),Facebook的实验也引发了学术界和社会对其法律和道德层面的激烈探讨。最为广泛的批评在于:被动接受负面信息的用户很有可能收到了负面情绪的不良影响,在其不知情的情况下体会到了情绪感染导致的焦虑(anxiety)。

鉴于论文发表后强大舆论批判, Facebook的数据实验团队强调,所有的数据分析全部基于计算机算法,他们没有阅读或篡改用户发布的内容,只是调整了新鲜事的排列顺序。好友的其他新鲜事和状态,在进入其个人主页后仍能看到。实验的目的旨为提升用户体验,以使用户在facebook上看到的内容更具相关性。

然而,该研究的争议性依然持续发酵,该研究的第一作者亚当·卡拉默(Adam Kramer)最终不得不在其博客中公开向Facebook用户道歉,并保证今后将不会在用户不知情的情况下进行类似实验。

对Facebook实验伦理的讨论不仅限于该个案本身,牛津大学互联网研究所教授拉尔夫·施罗德(Ralph Schroeder)撰文质疑Facebook实验背后更广泛的大数据研究伦理问题,并延伸讨论了我们应当如何应对大数据研究对公众的影响。

施罗德教授援引赫胥黎在《美丽新世界》一书中展现的在信息繁盛的文明中日渐被动、麻木的社会。借此警示:社会研究所使用的大数据,因其对数据学习前所未有的深度和广度,对我们的生活越来越有影响力。这一特质很容易会被掌握了大数据影响力的企业或机构利用,借此操纵人的好恶。

施耐德教授认为,当下热议的大数据道德问题的关键在于数据多大程度上属于用户私人数据(an essential infrastructure for citizens),假如实验者所操纵的是用户的私人数据而非公共数据,那么类似研究将不可避免地侵犯用户利益。

关于大数据研究,施耐德教授还提出了两种不同导向:第一种研究为学术导向(Academic Research),另一种则是应用导向(AppliedResearch)。两种研究都利用大数据增加对人类社会的理解,区别却在于前者意图创造可推广的知识(generalizableknowledge);后者则致力于向特定受众(particular audience)提供可应用的知识(implementing knowledge),从而影响用户决策行为。两种不同导向虽然有重合之处,但是对于我们理解研究伦理却又不同的指导意义。

按照施耐德教授的定义,Facebook研究可以归类于致力于提供可推广知识的学术导向研究,尽管涉及研究伦理及侵犯用户隐私等问题,该研究为行为科学研究提供了一定实证支持。然而,对于大数据的使用和操控的另一种导向:应用导向通常更加隐蔽,但同样威胁用户权利,甚至可能操控用户商业、政治等决策行为。

Google搜索与印度大选:搜索引擎可能操控我们的决策

罗伯特·爱泼斯坦(Robert Epstein)是美国行为研究和技术研究所(AmericanInstitute for Behavioral Research and Technology)高级心理学研究员及科学美国人心灵杂志(Scientific American Mind)的特约编辑。他也是马萨诸塞州的剑桥行为学研究中心的创始人和名誉主任。他的团队抽取了2014年印度人民议会选举最后投票前4556位中间选民,样本来自美国和印度具有有效投票资格的印度选民。

该实验使用了模拟搜索引擎,随机将被试分为不同组,每一组所接受的搜索引擎结果经过研究者设计为偏向于某个特定竞选人。在实验前后,研究被试均被问及其投票偏好(voting preferences)。通过该实验,研究人员希望发现:有倾向的搜索结果是否可以改变选民意见和偏好?如果有,将在多大程度上改变中间选民的偏好?

研究发现:1)有偏倚的搜索排名可以改变20%或更多的中间选民的投票取向;2)这种转变在某些特定人口群体中比例更高达60%;3)搜索排名的偏好可以很隐蔽,以至于人们无法意识到自己被操纵。

爱泼斯坦团队将这种现象归因于搜索引擎的操纵效应(SEME,译者注:Search Engine Manipulation Effect)。在现实选举中,很多选举都由于竞选团队实力不相上下,最终多数党以小幅优势取胜,因此,该研究的意义在于证实了:单凭对搜索结果排名的操控,一家搜索引擎公司便有实力影响选民决策、操纵竞选结果。

虽然该研究使用的是模拟搜索引擎,但是研究者希望借由该模拟结果引起公众对索索引擎操纵效应的警惕:由于当下对搜索引擎公司监管并不完善,研究者认为这些公司有可能影响,甚至已经开始影响政治选举的结果。借由操纵搜索排名偏好该公司所青睐的候选人,从而操纵犹豫不决的选民是一个极其微妙但是却行之有效的政治操纵方式。更为令人警惕的是该种操纵对于民主制度将有可能造成威胁。

有趣的是,在爱泼斯坦团队研究的过程中,谷歌并非不知情,甚至有可能派出员工参与该研究的实验中。据爱泼斯坦在接受媒体采访时介绍,当研究团队在第二个实验中从互联网招募志愿者时,两个IP地址都来自谷歌的总部。

学术界对于搜索引擎可能的操纵行为早有预警,作为互联网信息的接口,学术界对于搜索引擎未来是否会沦为政治派系斗争的工具有着诸多顾虑。

Introna和Nissenbaum撰文指出互联网具有科技和政治的二重性。一方面,互联网是科技发展的产物;另一方面,互联网作为新兴媒体,同传统媒体一样可能会遭受政治派系的影响和操控。

在搜索引擎的案例中,政治偏见的产生可能体现于搜索引擎和被搜索信息的关系里:即网页是否能够收录于搜索引擎结果中,又能够被给予怎样的排名。这两个过程中算法的不公开性都会为政治偏见的产生提供温床。从微观层面讲,大多数搜索者并不了解搜索引擎的收录和排名机制。信息的不对称使得搜索者无法做出理性的决策,他(她)们只会根据偏好或者随机进行选择。

Introna和Nissenbaum强调,搜索引擎的算法不公开和商业导向会导致其违背互联网成立之初所确立的基本原则和最初理想。网页搜索算法的重要地位使得它不应该单由市场所控制。搜索引擎是市场的市场,当人们在搜索一个特定市场时,实际上是处于信息市场当中。而搜索引擎会在信息市场中倾向于选择突出更受欢迎和金钱能力更强的网站。如果单单由市场所控制,随着互联网变得更普遍,这种偏见问题就会更尖锐。因此,两位研究者提倡在搜索引擎的市场机制以外引入其他制约机制,规范搜索引擎的运行。

结语

在学术研究领域,大数据所带来的勇敢新世界不断扩展着社会研究的边界,为研究者提供全新的视角,更大规模的样本,增加我们对人类社会结构与人类情感行为的理解。于此同时在实践与应用领域,大数据也对商业公司提供了更多的机遇,尤其是大规模的用户数据资料为企业提供了细分用户市场、剖析用户行为偏好的资源。然而,正如传统社会研究与社会应用,大数据研究与实践同样应当受伦理与法律的双重制约。当大数据的弄潮儿打开大数据的潘多拉魔盒,看到一个“勇敢新世界”(brave newworld)的同时,更应该意识到与之并存的危机。大数据不仅仅是生硬死板的数字,其背后是用户的日常生活,社会交往,甚至是情感表达。定义哪些数据是用户的私人数据,界定商业公司实践操作的边界和尺度。这些必须,也必将会成为大数据研究的重点课题之一。

via:大数据文摘

 

]]>
大数据研究 不能“忽悠”
//www.otias-ub.com/archives/168818.html Fri, 08 Nov 2013 15:38:03 +0000 //www.otias-ub.com/?p=168818

几个盲人分别摸到了大象的鼻子、耳朵、腿、尾巴和躯体,这张“瞎子摸象”的照片,在“2013中国计算机大会”上出现多次,好几位报告人和讲者,都不约而同地选了这张照片来表达对大数据目前研究进展的态度。

作为国内计算领域规格最高、规模最大的学术会议,“2012中国计算机大会”上,“大数据”是出现频率最高的主题词,几乎每个主讲者,每场论坛,都涉及这几个字。同时,中国计算机学会也在大会举行期间,正式成立了专家委员会,中国工程院院士李国杰担任主任。一年来,“大数据”3个字持续升温,社会对于大数据的关注也从最初的必要性、重要性转向如何获得数据,如何进行处理,如何进行利用。

“大数据”面临大挑战

计算机大会专门组织的“大数据主题论坛”可谓高规格阵容,主讲者有中国工程院院士、中科院计算机所研究员李国杰,中国工程院院士东北大学教授柴天佑,中国科学院院士、北京大学教授鄂维南;中国科学院院士、上海交通大学副校长梅宏等。

“IT技术广泛的应用使我们获得了巨大数据,从这些数据当中我们可以得到很多东西,也使计算机系统、软件技术、生产生活,包括数学基础研究面临新的挑战和机遇。”论坛主持人、国防科技大学王怀民教授说。

梅宏院士认为信息界当前的几个最热点的问题,大数据、云计算、移动互联网本质上都是互联网计算及其延伸产生的效果,包括更快的网络带宽,更广大的网络接入,更强的计算能力,更小的计算设备和更低的存储成本。

不过,他同时也指出,大数据不仅带来对软件技术、编程语言的挑战,同时也让人类社会面临着能耗挑战,因为目前全球范围内的数据中心服务器和散热系统每年大概需要消耗30亿瓦的电能,而这相当于20座核电站的发电量。一个大型数据中心的能耗非常巨大,甚至比一座中型美国城市的耗电量还要高。

“历史上设计计算机系统的主要目标是充分发挥CPU的计算性能,较少关心如何满足持续的数据存取要求。现在存储问题尚未解决,又遇上大数据应用,计算机系统的负载发生了本质性变化,虽然CPU进展很快,每年50%~60%的增长,但负载增加更大,以前数据是围着CPU转的,现在变过来了,是围绕数据转。”李国杰院士认为,计算机系统结构需要革命性的重构,重点是数据如何“搬运”,要由过去的“大象搬木头”转变为“蚂蚁搬大米”。

李国杰院士透露,中科院网络数据科学与技术重点实验室的“天玑网络大数据平台”,已经完成了面向网络大数据、金融大数据处理的一体机原型系统,并已经在淘宝、腾讯等相关企业和大数据情报处理领域进行了试用。

中国工程院院士柴天佑则描述了工业大数据的特殊:数据量大、类型多、变化速度快,复杂工业系统中许多机理不清,难以用数学模型来描述其特征,大数据的应用技术为研究复杂工业系统开辟了新途径。

大数据研究和应用不能“忽悠”

“大数据是什么呢?每个人都有每个人的理解,我自己也是带着问题来的。”2013年中国计算机学会海外杰出贡献奖获得者、美国特拉华大学电子与计算机工程终身教授高光荣在做大会报告时,展示了“瞎子摸象”的照片。这位从事计算机系统结构研究的国际知名学者介绍了自己近些年从事数据研究的成果。不过,他认为“大数据”的提法过热,明显有炒作的味道,急于求成,“做研究不要贪快,有些研究不会立竿见影,一项研究工作需要很多年。无论是美国还是中国,我们在大数据研究上,都才刚刚开始。”他用了一个新学会的词:不能“忽悠”。

不过,在大数据主题论坛上,高光荣教授仍未得到答案。

当李国杰院士从系统结构的角度,柴天佑院士从工业应用,鄂维南院士是从数学的角度,梅宏院士从软件的角度进行一一阐述之后,一名学生提出了一个问题:“能不能请各位老师用一句话说说大数据的本质是什么?大数据带来什么样的变化?”

一句话说清一个问题似乎让主讲者都有些为难。

柴天佑院士认为,从用大数据进行研究的角度来谈,超出现有的理论方法技术、工具,能处理一个数据群就叫大数据。

而李国杰院士认为,大数据被“大”字给忽悠了,它更多的是多样化、变化快,不仅有快数据,还有真伪两方面的数据。大数据是一个处理数据的方法,不是数据本身的规模。

梅宏直接表示很难回答:“大数据这个词不是技术生产科学意义比较明确的定义,它给人的联想太多的空间了。用一句话我说不出来。”

之前,他提到大数据将不会是一个可完全“解决”的问题,只能是逐步“逼近”、缓解的技术,目前尚不存在有效的大数据技术。

针对研究人员如何获数据的问题,李国杰院士回答,政府应该是首要的公众数据来源者,政府掌握大量的各类数据,但是现在数据公开还没有做好。此外,研究人员还可以向企业要数据,通过协议相互交换,搞技术的、做科学研究的共同交流才能出成果。

大数据研究人员短缺

计算机大会的特邀讲者,来自美国北卡来罗纳州立大学分校史德利·阿霍尔特(Stahley.Ahalt)教授是创新计算研究所的负责人,他认为,大数据已经存在,需要新的工具来使数据消费者进行大规模应用。

在他看来,数据的产生者包括大学、政府、医疗保健机构、工业界等,而数据使用者是科学家、公民、政府、医务人员、商业界。“从2010年开始,每两天产生的数据就相当于历史上到2003年产生的数据总和。所以需要数据科学,对这些数据进行分析、挖掘,利用。互联网使得数据的移动、共享和发现更容易;更快的处理器,更多和更廉价的存储容量”

他介绍了大数据在美国社会管理、风暴潮预测以及生物基因诊断方面的成功应用。一家名为美国快捷药方的公司宣称已有10亿个药方数据用于分析,使病人的邮购处方更为合理经济。他们通过预测模型,找到了400个影响因素,来发现因病人不遵循用药规定带来的风险,而这一项每年带来的损失高达3170亿美元。UPS公司通过分析从成千上万台送货车上传感器传回的数据,减少530万英里行程,减少发动机的闲置达1000万分钟,节省65万加伦的燃料,减少二氧化碳排放量达6500公吨。

阿霍尔特教授提供了一系列数字,大数据的应用可以使美国每年节省医疗节省费用达到3000亿美元,这相当于西班牙全年的医疗保健花费;欧洲公共管理部门每年可节省2500亿欧元;节省1%的汽油油耗,15年可以节省680亿美元;采用数据信息决策的公司,可使生产率提升5%~6%。

而因为大数据开发及使用,也可以创造无数新的工作机会。全球范围内,到2015年,大数据和分析工作机会有望超过400万个。

每个大数据的工作能够产生3个相关的工作。对于美国而言,到2015年,将有190万新的大数据工作机会,但将由于人才短缺,仅有1/3的岗位能招到人。2020年,美国针对数据相关的管理员和软件开发者的需求预计增长约32%。

在2012年的一项调查中,78%的被调查者认为确实存在大数据方面的人才短缺。那么大数据科学家要具备什么样的IT技能呢?阿霍尔特表示,数据科学家要对计算机科学背景有全面了解,包括对应用软件、建模、数据、分析等,要有商业头脑,以及对数据提炼融合的能力。数据科学家还“必须能够获取数据集,对它们进行数学建模,以及懂得建立模型的所需要的数学理论。他们必须能发现并阐明数据揭示的问题,即从数据中发现合适的问题。”

 

]]>