数据工具 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Thu, 28 Nov 2019 10:35:20 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 35个国内外社会调查数据工具介绍 //www.otias-ub.com/archives/972434.html Thu, 28 Nov 2019 10:35:20 +0000 //www.otias-ub.com/?p=972434
1、UK Data Archive
UK Data Archive1967年成立于英国埃塞克斯大学,是一个国际公认的为社会科学和人文学科获取、管理和提供数据的专业技术中心。目的是为了分析和再次利用而收集高质量的研究数据。 
数据来源:大规模的政府调查,例如劳动力调查;英国主要的调查,例如英国家庭小组调查、民意测验以及环境研究项目的多媒体定性数据资源。
研究领域:老龄化、犯罪、经济、教育、环境与能源、种族、食品和食品安全、健康与健康行为、房屋和当地环境、信息与交流、劳动力市场、政治、贫困和社会歧视等。 
用户群体:主要为英国的大学或学院
 
http://www.data-archive.ac.uk/
主要功能: 
数据检索:可根据目录、关键词、主要数据、最新数据等获得数据;
数据上传:可在线上传;
数据下载:仅对会员开放 
2、Data.gov.uk
Data.gov.uk是由英国政府创办的可以快速查找政府服务和信息,英国政府部门,英国相关政策等与政府和民生息息相关的网站,并且所有政府部门和许多其他机构、公共机构的网站都被收录到了这里。 
数据来源:中央政府部门、一些其他公共机构和地方当局 
研究领域:商业和经济数据、环境、犯罪与司法、政府、社会、保卫、政府支出、乡镇和城市、教育、健康和运输等方面。  
用户群体:主要为英国公民,网站共有30074328次点击量,其中81%来自英国,3%来自美国,0.65%来自中国。
平台主要功能:
 
数据检索:可根据数据主题和地区进行搜索; 
数据下载:支持的数据格式有HTML\CSV\XLS\PDF\WMS\XML。
https://data.gov.uk/data/search 
3、nter-university Consortium for Political and Social Research(Michigan)
ISPSR于1962年成立于美国密西根大学安娜堡分校,以大量收集系统化的社会科学数据著称,是世界上最大的社会科学数据中心。 
ICPSR研究涉及21个领域,如教育、老龄化、刑事司法、恐怖主义等,储存了超过 50万种社会科学研究资料,包含一个拥有25万份关于研究社会和行为科学文件的档案库。 
用户群体:来自40多个国家的700多个成员机构,包括大学和研究中心等。每年网站访客超过60万,每月有5.2万个数据文件下载。 
数据来源:儿童和家庭机关、卫生部门和公共事业,Alfred P. Sloan基金、Henry Luce基金、美国心理协会、卫生与人类服务部疾病预防控制中心、联合国粮食和农业组织、博物馆与图书馆服务研究所、全国大学生体育协会、国家艺术基金会、国家儿童健康和人类发展研究院、国家老化研究所、国家药物滥用研究所、国家科学基金会、司法部司法程序办公室、Robert Wood Johnson基金会、Spencer基金会、美国国际开发署、美国退伍军人事务部等。 
http://www.icpsr.umich.edu
平台主要功能:
数据搜索:根据关键词搜索数据、数据相关文献、研究资源还可检索和对比变量; 
数据上传:定量数据;定性数据:面试、半结构化访谈、结构化面试、非结构化或半结构化日记、野外观测笔记、案例研究、会议记录、新闻剪报、法庭记录等;其他类型:如视频和录音等需与管理员商定如何存储; 
数据下载:下载的数据支持SAS/SPSS/STATA/ASCII/ EXCEL格式; 
线上线下交流:每年都有关于社会调查定量方法的夏令营和课程。 
4、National Data Archive on Child Abuse and Neglect
National Data Archive on Child Abuse and Neglect成立于1988年,由美国康奈尔大学人类生态学学院创建。是一个用于促进儿童虐待领域研究者之间进行学术交流的资源库。 
数据来源:相关领域的研究人员和国内数据收集资料。 
研究领域:儿童虐待与忽视。 
平台主要功能: 
数据检索:根据数据集名称和摘要搜索数据集及相关文献; 
数据上传:数据集(spss/sas/stata)和相关资料通过管理员邮件传递; 
数据下载:数据支持sas/spss/stata; 
线上交流:学习儿童虐待和忽视数据的再利用、促进研究者的交流与协作。 
http://www.ndacan.cornell.edu
5、Data & Information Service Center
Data & Information Service Center由威斯康辛大学麦迪逊分校创办。为在社会科学方面进行二级分析的研究员和学生提供了定量数据和数字数据,对于不熟悉统计软件的用户,其拥有一系列基于菜单界面的软件产品。 
数据收集范围:纵向调查、宏观经济指标、选举研究、人口研究、社会化模式、贫困措施、劳动力参与、民意调查、教育和健康以及户口普查数据。
 
用户群体:仅对UW-Madison大学的学生、教师和工作人员开放。  
平台主要功能:
数据查找:可通过关键词、学科、前沿课题进行查找;
 
数据下载:问卷(pdf)、数据(仅对本校师生开放)。 
http://www.disc.wisc.edu 
6、Harvard-MIT Data Center
Harvard-MIT Data Center 1960年在哈佛大学作为对政治和社会科学的原始数据中心而成立,它是定量社会科学机构的一个成员。使命是研发和提供世界顶级的研究计算资源、数据服务和支持信息技术,为了将社会科学研究和教育发展得更远。 
近些年来HMDC通过艺术科学部门和哈佛大学的其他学校,已经逐渐演变成了为社会科学研究和教育领域提供信息技术服务的提供者。它能提供先进的计算机设备和基础设施,包括功能强大且方便使用的研究计算工具、集群计算、应用程序和服务器托管和现场计算机实验室。 
HMDC还提供统计研讨会和班级、用户界面友好的桌面支持,其也将继续为哈佛大学和麻省理工大学担任社会科学数据经销商。 
http://www.hmdc.harvard.edu/
7、Integrated Health Interview Series
Integrated Health Interview Series是由美国国家儿童健康和人类发展研究所创办的。旨在收集和整合1963年至今可获得的关于美国公民健康、医疗保健覆盖和健康行为的数据。以方便研究者分析每样本跨时间的变化。
目前该网站的整合的数据有:1850年至今的美国人口普查数据和社区调查数据; 
1962年至今的当前人口调查包括每月的补充调查; 
1960年至今的覆盖82个国家的人口普查微数据;
 
1980年至今的跨时间与地区的人口与健康综合调查; 
1960年至今的人口与环境整合数据;
 
1960s年至今的国家健康访谈调查数据; 
1993年至今的科学和工程劳动力方面的调查数据等。
http://www.ihis.us/ihis/
8、Roper Center for Public Opinion Research
Roper Center for Public Opinion Research由美国康奈尔大学始建于1947年,是世界上关于社会科学数据的顶级数据中心之一,尤其是在公众舆论调查方面。中心的任务是收集、保存和传播公众舆论数据。 
用户群体:会员,会员机构大多是学校、科研机构、政府等,目前会员数量已有280个。 
网站包含的数据主要是关于选举的数据。 
数据来源: 通过商业调查公司来调查的国家、州和其他一些关于公众舆论的调查数据,也有来自美国国家民意研究中心和普林斯顿大学公共舆论研究室的一些学术数据。目前已有超过12000个美国国内的数据集和8000多个国外的数据集。
平台主要功能:
数据搜索:可以通过关键词、国家、组织、样本类型、时间等搜索。 
 
http://www.ropercenter.uconn.edu/ 
9、General Social Survey
General Social Survey由美国芝加哥大学创建于1972年。 
目前该平台只有GSS一个项目的数据。主要研究美国社会日益增长的复杂性,从1972年开始,目前已调查了44年,是唯一一个用以监测美国社会特征和态度变化的全概率的面对面访谈调查。 
研究领域:公民自由、犯罪和暴力、种族宽容、道德、国家支出重点、心理健康、社会流动、压力和创伤性时间等。 
用户群体:研究者、学生、政策制定者、记者等,每年的学生用户就有40万人。 
平台主要功能:
数据检索:可根据变量名、变量描述和调查描述搜索变量,还可以通过年份、主题进行筛选; 
在线分析:可以做交叉表/多层交叉表/相关/回归等; 
数据下载:可随意下载变量和数据集,支持sas、spss、stata格式。 
http://gss.norc.org/For-The-Media 
11、中国国家调查数据库
中国国家调查数据库(Chinese National Survey Data Archive, 缩写为CNSDA)受中国国家自然科学基金重点项目资助,由中国人民大学中国调查与数据中心(National Survey Research Center, NSRC)负责执行,是一个经济与社会数据共享的平台。 
数据内容:是以“中国社会调查开放数据库(Chinese Social Survey Open Database,CSSOD))和中国人民大学科学研究基金“数据高地项目”资助下的各项大型追踪项目和横截面调查数据为基础,收集在中国大陆所进行的各类抽样调查的原始数据及相关资料。 
数据涵盖了经济、综合、健康、社会、教育、企业、宗教、政治、科学和历史等领域。 
http://www.cnsda.org/
主要功能: 
1.检索数据:可根据关键词、类别、执行时间、地理区域进行检索 
2.存储数据:保存机构和个人有知识产权的数据
3.管理数据:中心会对收集的数据按照国际标准进行管理
4.分析数据:在某个指标上进行横向比较 
12、国家自然科学基金-北京大学管理科学数据中心(Data Center of Management Science, NSFC-PKU)
成立于2014年12月,是由国家自然科学基金重大项目支持、服务全国管理科学的数据收集与数据服务中心。
13、复旦大学社会科学数据平台
旨在收集、整理和开发中国社会经济发展数据,为学者提供有最具竞争力的研究条件和数据服务,为学生提供更加坚实的社会科学调查方法和应用的训练,鼓励跨学科的研究,为复旦大学履行大学传承、记录文明的职责和成为 “国家智库”提供重要和基础性的支撑。 
数据类型:研究论文、学位论文、研究报告、政策法规、专项调查及统计年鉴。 
核心业务: 
数据服务 
定量研究方法教学 
跨学科研究  
平台主要功能: 
数据检索:根据课题进行检索; 
数据下载:访问受限,仅对高校、政府及科研机构开放。 
http://dvn.fudan.edu.cn/dvn/ 
14、台湾调查研究与数据档案库
「學術調查研究資料庫」蒐集、保管及整理各類問卷調查資料,並採會員制對外開放資料使用。資料來源包括各大專校院、研究機構進行的學術研究調查計畫,以及政府部會應業務規劃及施政決策需要所辦理的調查統計。
 網站上可供查詢使用的資料超過2千筆,涵蓋社會、政治、經濟、教育等社會科學重要領域,其中包含多項長期進行的主題型或追蹤調查。各筆資料提供資料檔、問卷、研究報告、資料使用說明,以及利用該資料發表的著作書目。 
這些資料可作為調查方式或問卷設計之參考,或以不同的研究假設、方法進行分析,產生新的研究成果,亦可以應用於教學活動中,有助於提升學生的統計分析與研究能力。 
除在網站提供數位課程及在YouTube平台設立SRDA頻道之外,每年也會舉辦資料使用工作坊、研習班、網路研討會,以及提供到校推廣課程服務等,以期觸及更多潛在的資料使用者,並讓資料能被廣泛運用,發揮最大價值。 
http://srda.sinica.edu.tw/
15、Databank for China Studies 中国研究服务中心
Databank for China Studies1963年成立于香港,由西方研究中国的大陆学者创建。旨在建立一流的地理信息系统兼容的数据库,以便观察中国地方发展的动态。数据库包括333个地级市和 2,862个县的多年度的社会、经济、政治及社会领域内的各种指标。这些指标由人类学、人口统计学、生态学、经济学、教育学、地理学、历史、公共行政管理、政治学、社会工作、社会学等等学科的学者们共同挑选。 
用户群体:中国研究者服务。 
数据查找:通过书名/作者/关键词、出版社和地区进行搜索;
 
中心活动:午餐讲座、纪录片放映会及映后谈、学术会议等。 
 
http://www.usc.cuhk.edu.hk/Eng/AboutDCS.aspx 
16、Australian Social Science Data Archive澳大利亚社会科学数据库
Australian Social Science Data Archive是由澳大利亚国立大学创建于1981年,目的是将收集和保存的研究数据提供给学术研究人员和其他用户进行二次分析。 
数据涵盖的领域有:社会科学、历史、犯罪与司法等等。该平台储存的数据类型有定性数据、定量数据、时间序列、面板数据和纵向数据。目前可以使用的数据集超过2000个。 
数据来源:澳大利亚社会调查、民意调查、人口普查及包括亚太地区在内的其他一些国家的数据。 
用户群体:大学、政府和其他部门社会科学研究人员。 
http://www.assda.edu.au/  
主要功能: 
数据检索:通过关键词、类别查找相关信息; 
数据分析:注册用户可以通过NESSTAR数据分析软件进行常规在线数据分析,受限制的数据则需要通过提交请求来完成; 
数据上传:所有的研究人员和团队能够进行数据存档,上传所需文件问卷、技术报告、文件参考的出版物、其他对研究分析和解释数据有用的材料。研究人员可以通过FTP和安全的存储服务进行在线传输,也可以通过电子邮件或者邮政传输。定量数据的格式一般为SPSS、Stata、CSV,定性数据的格式一般为XML、rtf、txt等; 
数据下载:可以下载数据(SAS、SPSS、Stata格式)、报告(pdf)以及相关材料。 
17、The British Columbia Inter-university Research Data Centre不列颠格伦比亚校际研究中心
The British Columbia Inter-university Research Data Center是由加拿大创新基金和大学合作创建,是不列颠哥伦比亚省的四所大学(西蒙弗雷泽大学、不列颠哥伦比亚大学、维多利亚大学和北不列颠哥伦比亚大学)的研究机构,这项合作旨在加强成员学校学生及教职工的研究能力。 
数据内容包括:国家人口健康调查、全国儿童和青少年纵向调查、劳动和收入动态调查、工作场所和员工调查以及青年调查。 
用户群体:目前只对以上四所大学(SFU、UBC、UNBC和Uvic)中有项目的学生或老师开放。
http://data.library.ubc.ca/rdc/  
平台主要功能: 
数据检索:通过关键词查找;
 
数据下载:仅对用户开放; 
线上线下交流:每年举行各种调查数据分析培训,培训只对学校的教师、学生和工作人员开放。此外,也有专门面向来自加拿大统计局使用纵向和多层数据集的研究员的课程。 
18、SDA Sociological Data Archive社会学数据档案
Sociological Data Archive成立于1998年,由捷克共和国科学院社会学研究所创建。其目的是处理、记录和存储社会科学研究项目的数据文件,并促进其传播,使其广泛用于学术研究的二次利用和教育。 
该数据库的数据涵盖历史数据、经济预期和态度、选举调查、ISSP、社会转型、住房调查、青年调查、志愿服务等领域;其拥有的数据集超过十万个。 
主要用户群体为国内外研究者,年均服务7000用户,学术信息供超过20万研究者使用。 
平台主要功能:
 
数据检索:通过类别查找; 
数据分析:交叉表/相关/回归/权重/做图/做表; 
数据上传:通过邮件上传可以进行二次存储的数据; 
数据下载:用户在注册之后额能够进行数据下载(spss,stata、sas、txt)。 
http://archiv.soc.cas.cz/en/
19、The Danish Data Archive
是丹麦文化部的下属机构(类似于国家图书馆),主要是收集和存储历史数据,并将其提供给公众。 
数据来源:丹麦政府,由国家档案馆安排和转移材料。
 
用户群体:想寻找自己祖先的人群,对历史比较感兴趣的人群以及致力于历史学的研究人员或学生。 
数据查找:通过关键字查找。 
 
http://www.dda.dk/
20、Council of European Social Science Data Archives
于1976年创建,旨在为科研人员提供大型的、综合的和可持续的社会科学服务,加强和扩大与欧洲其他社会科学机构合作,提升数据的质量,促进和提高社会科学和人文科学的可视化,目前已有15个欧洲国家是其成员国。 
平台主要功能:
 
数据检索:根据关键词查找; 
数据分析:交叉表/相关/回归/权重/做图/做表 
数据下载:仅对会员开放 
线上线下交流:CESSDA培训促进调查数据管理和数据整理,能够满足研究和数字保存的需求。 
 
http://www.cessda.org/
21、欧洲社会调查(ESS)
成立于2001年,是一个欧洲范围内的跨国调查,主要目的是了解社会结构的稳定与变化,解释欧洲社会、政治、道德结构是如何变化的。研究来自欧洲30多个国家的多样化的人群的态度、信念和行为模式。
研究领域:媒体和社会信任、政治、主观幸福感、性别与家庭、社会人口统计、人类价值观、移民、公民参与、健康与保健、家庭和幸福工作、寿命、个人幸福、福利、年龄歧视、正义、民主、健康方面的社会不平等、公众对气候变化的态度。
http://www.europeansocialsurvey.org/data/ 
平台主要功能: 
数据检索:通过关键词检索,并通过年份、周期和国家查找数据; 
数据分析:交叉表/相关/回归/权重/做图/做表; 
数据下载:问卷(PDF)、报告(PDF)、数据(spss、sas、stata)。 
22、ESSDA:Estonian Social Science Data Archive
爱沙尼亚社会科学数据档案库由爱沙尼亚塔尔图大学创办于1996年,其涵盖的领域主要有:新闻学、农村社会学、教育社会学、家庭研究、性别研究、城市社会学、越轨社会学、民族政策。 
数据库提供两种数据检索方式:首字母检索和关键字检索。
http://www.psych.ut.ee/esta/essda.html
23、The Réseau Quetelet
是处于数据委员会政策框架下的法国社会科学数据档案库。其任务围绕着三个方面展开:数据归档、免费分发、发展数据。 
数据来源:Maurice Halbwachs中心(ADISP)、社会政治数据中心(CDSP)、INED数据服务。目前,可获取的数据集超过1100个。 
用户群体:法国和外国研究人员、博士生、博士后学生和硕士研究生。用户不仅可以通过数据库下载法国本地研究数据,还可以寻找国际研究数据用以比较研究,一些特定机构或部门还可以获取保密数据。 
http://www.reseau-quetelet.cnrs.fr/spip/?lang=en
平台主要功能: 
数据检索:根据关键字、作者、分类和变量进行查找; 
数据分析:提供在线访问调文档和变量描述,可以实现的功能有频率分析/交叉表/回归分析/图形创建; 
数据上传:签订上传协议→材料:调查描述(主要目标、抽样、收集等)、调查问卷、对研究方法和数据收集的额外信息说明(word、pdf)、在CMH-ADISP存储的数据(SAS); 
数据下载:身份验证之后可以进行下载; 
线上线下交流:提供调查统计和计算处理方面的培训。 
24、Finnish Social Science Data Archive 
是由芬兰教育和文化部成立的国家资源中心,主要任务是采集、处理和保存数据,向用户提供数据及与数据相关的信息服务,例如:数据二次利用、数据研究方法等。 
研究领域:老龄化和老人、孩子/童年与家庭、芬兰选举、当地政府、媒体、健康、移民外国人和种族主义、贫困、性与性别、体育与健身活动、福利与社会关系、工作与生活、青少年,目前,该平台已拥有1259个数据集。
 
用户群体:芬兰的大学、理工学院以及研究机构的学生以及工作人员。 
 
http://www.fsd.uta.fi/english/index.html
主要功能: 
数据检索:可通过数据标题、作者或者组织、摘要、关键词、主题、系列、数据类型、语言进行查找; 
数据下载:所有用户可用的数据集下载需要用户具有有效的电子邮件地址,用于研究、教学和学习的数据集在注册Aila之后可以在线下载定量数据集(SPSS)、定性数据集(RTF/TXT/PDF)。 
25、GESIS
成立于1986年,是德国最大的社会调查机构,目前有300名员工为研究者提供大量的、全面的、国际相关的调查;其专业的知识和服务随时准备回答各级研究人员在最新科学方法基础上与社会相关的问题。 
研究领域:调查方法、应用计算机和信息科学和社会科学调查。 
在研项目有:女性和性别调查、历史调查、社会指标调查、社会结构分析、选举与政治研究、价值观与态度研究。 
http://www.gesis.org/en/services/data/
平台主要功能:
数据检索:通过领域、种类和主题进行查找; 
数据分析:分析功能包括交叉表/相关/回归/权重/作图/重新编码(NESSTAR、NSDStat); 
线上线下交流:针对社会研究方法的培训,发展覆盖在整个研究周期的研究技能的深度培训。 
26、SRIC/TARKI Social Research Informatics Center (Budapest)
TÁRKI成立于1985年,在匈牙利有超过25年的社会科学研究经验。旨在为研究者提供基础设施服务。 
研究领域:社会分层、劳动力市场、收入分配、消费、生活方式和态度和市场研究。 
TARKI的客户群体包括政府机构、科研组织、国际组织和私人企业。 
平台主要功能: 
数据检索:可通过标题、研究者、机构、摘要和关键词进行搜索; 
数据下载:仅对会员开放(SPSS).
http://www.tarki.hu/index-e.html
27、ISSDA:Irish Social Science Data Archive
Irish Social Science Data Archive 由爱尔兰国际大学创办。是爱尔兰领先的定量数据获取、保存和传播中心。其任务是确保广泛获取社会科学的定量数据集并促进在爱尔兰经济和社会方面的国际比较研究。 
数据内容:意见调查数据、全国家庭调查(QNHS)、学校毕业生调查、公众对残疾态度的调查、爱尔兰公众对于林业的态度调查、生活方式和营养态度调查(SLÁN)、Teagasc国家农场调查(NFS)、爱尔兰老年纵向研究(TILDA)等 
用户群体:公共和商业部门的学生以及学术界的研究人员; 
http://www.ucd.ie/~issda/
主要功能:
数据检索:通过关键词查找 
数据分析:Nesstar数据分析软件,分析功能包括交叉表/相关/回归/权重/做图/做表。 
数据上传:需要提交的材料有:数据、数据字典、问卷、ISSDA存档人表格和许可证,上传的数据支持SPSS、STATA、SAS格式。 
数据下载:大部分需要申请,少部分可以直接下载,数据格式主要有SPSS、STATA、SAS、CSV、excel。 
28、Center for Social Research on Japan :Social Science Japan Data Archive日本社会科学数据档案
日本社会调查信息中心2009年由东京大学创建,它是一个日本社会调查数据的综合档案库,负责收集、编制、数字化日本社会的微观数据,目的是促进社会调查数据的再次利用。
数据主要内容:仅包含JGSS一个项目的数据(类似于中国的CGSS)。 
1998年-2015年底,SSJDA共有可用数据集1935个,申请者数量累计22907人,数据提供者累计35759人,累计发表文章1692篇,使用在线搜索系统的累计569017人次,访问的数据列表累计148332次。 
用户群体:研究人员和学生 
http://csrda.iss.u-tokyo.ac.jp/en/
主要功能: 
数据检索:通过主题、关键词和调查组织进行查找。 
数据分析:数据分析功能包括交叉表/相关/回归/权重/做图/做表; 
数据上传:步骤:填写微数据存款表格→向SSJDA提供软盘、CD或磁光(MO)光盘上的数据副本→提交调查报告和说明方法、数据格式以及编码程序的材料、调查问卷→回复SSJDA的任何查询问题,可接受的文件格式包括TEXT/SPSS/SAS/Excel/Lotus; 
数据下载:注册之后通过使用申请可以进行下载。 
29、Korean Social Science Data Archive 
于1983年由Lee Inpyo基金会创立,其主要目标是汇编和提供韩国定量和定性数据以及文献的综合数字档案。 
研究领域:政治、公共行政和法律、经济和商业管理、社会文化、社会问题、社会福利、心理学和教育和区域研究。 
 
用户群体:个人和组织。个人主要包括学生、学者和研究人员;组织主要包含学校图书馆、研究机构公有或私有组织。
 
http://www.kossda.or.kr/
主要功能: 
数据检索:可以通过标题、调查者/作者、出版者、关键词、变量、摘要和数据类别进行查找; 
数据分析:使用Nesstar进行数据分析,主要功能包括交叉表/相关/回归/权重/做图/做表; 
数据上传:接受韩国研究数据和文献,定量数据需要提供的材料包括数据、元数据和调查问卷、收集方法、代码本和编码指南;定性数据包括录像带、照片、CD、盒式磁带;文献包括基于研究数据的研究专著或者不是基于存储数据的研究专著。 
数据下载:会员用户可以请求数据用于研究、教育或浏览,非会员大学教师可以仅请求数据用于教育。每年最多允许下载30个定性和定量的数据,数据下载的有效期为1年; 
线上线下交流:提供数据分析方法的高级培训。 
30、Korean Social Science Data Center
于1997年成立,旨在建立一个管理社会科学数据综合来源的新系统,中心收集和管理与社会科学研究相关的调查数据和统计数据,帮助统计基础较差的学生和学者。
数据涵盖的领域有:政治、选举、管理、社会、文化、教育、环境、健康、法律、女性、科学及通讯。 
数据类型有:国家或地区层面的截面数据与时间序列数据。 
用户群体:学者和学生,仅对会员开放。 
平台主要功能:
数据检索:可以通过关键词、变量、主题和数据系列进行搜索所需内容; 
数据分析:可上传excel格式的数据在平台上分析; 
数据下载:仅对会员开放。 
http://www.ksdc.re.kr
31、Data Archiving and Networked Services
是荷兰的一个数据中心,致力于推动数字研究数据文件的可持续获取,鼓励研究人员归档、再利用数据。主要提供三种核心服务:数据归档、数据再利用和培训及咨询。 
数据主要来自瓦赫宁根大学等24个科研机构,目前汇集了超过6万研究的16余万数据集以供用户对数据进行二次研究。 
http://www.dans.knaw.nl/en/ 
平台功能:
 
数据检索:根据研究机构、研究状态、关键词进行搜索; 
数据上传:研究者可以实时上传并储存自己研究过程中的数据,并可以被DANS分享给更多人。这项服务可以大大提高研究的可见性和可寻性; 
线上线下培训:DANS培训及咨询服务则主要是针对数据管理及认证为用户提供数据再利用方面的建议。 
32、Norwegian Social Science Data Service
是挪威最大的数据中心之一,是由教育和研究部创建的有限公司。为挪威及国外的研究者和学生提供数据。此外,NSD是资源中心,协助研究人员收集数据、分析数据、提供方法等。 
目前该平台提供的数据包含:个人层面数据(个人调查的数据)、地区层面数据(包括范围广泛的数据,如人口统计数据、就业、经济发展和政治制度等)、政治系统数据、机构层面数据(描述组织机构、企业、大学等)。 
http://www.nsd.uib.no/ 
主要功能: 
数据搜索:根据地区、主题等搜索; 
数据分析:交叉表/相关/回归/作图/计算; 
数据上传:可上传的数据类型有:纯文本、文本文档、电子表格、数据库、统计数据、图片、录音、视频等; 
数据下载:支持SPSS、Stata、SAS、Annet dataformat格式数据。 
33、The Slovenian Social Science Data Archives
于1997年创建于斯洛文尼亚的卢布尔雅那大学,旨在获得社会科学家感兴趣的关于社会科学的数据,审查并电子化这些数据以备他人使用,目前保存了社会学科方面的600个调查。 
该平台的数据涵盖了人口学、人口、人口统计和普查、经济、教育、健康、房地产、信息和通信等领域。 
用户群体:国家和国际研究者、教师以及具有数据和统计素养的学生。数据一般用于科学报告和研讨会。数据也被用来做学生教学和实践练习的背景资料,还可以提供可用于设计新研究的相关数据(例如原始问卷和测量仪器)等。 
http://www.adp.fdv.uni-lj.si/en/prva.htm
主要功能 :
数据检索:可根据研究ID、系列、主题、发布者、年份、作者等获取数据; 
数据分析:交叉表/相关/回归/作图/计算; 
数据上传:将数据和相关文件上传至收藏云,由工作人员存储; 
数据下载:下载的数据支持SPSS、stata、sas、Nesstar Publisher等格式。
34、CIS
是马德里社会调查中心的简称。该中心主要通过开展定量、定性研究以此来分析并推进西班牙社会科学知识的发展。研究主要通过两种方式开展:中心自身开展或通过与公共机构或非营利组织合作来实现。
 
研究领域:选举调查、有关青年、移民、生活、公共安全、政治文化的专题调查、消费者信心指数和国际调查。
平台主要功能: 
数据检索:通过关键字进行搜索; 
数据分析:交叉分析/作图/做表; 
线上线下交流:包括对专业人士提供生产和统计数据分析的培训;对大学毕业生提供社会研究技术的培训,侧重于数据收集、分析、解释和演示;对研究生的实习,包括调查活动、管理、编辑文件和其他任何相关的时间活动;研究人员在社会科学方法论和实证研究的研讨会。 
http://www.cis.es/
35、Swedish National Data Service
由瑞典研究理事会创办,总部位于哥德堡大学。是瑞典调查与调查数据的基础。帮助瑞典和国际上的研究者获得瑞典和其他地区的已有的数据,为研究者提供整个调查流程的指导服务。 
研究领域:历史学、考古学、医疗和健康科学、政治学、媒体和交流、健康科学、公众健康/全球健康/社会医疗、社会科学、临床医学。 
数据来源:乌普萨拉大学、瑞典国家数据服务、瑞典哥德堡大学、于默奥大学、隆德大学、瑞典公共卫生机构等。 
主要功能: 
数据检索:可通过目录、类别、系列、调查单元等获取数据; 
数据分析:交叉表/相关/回归/作图/计算; 
数据上传:可在线上传。 
http://www.ssd.gu.se/enghome.html
来自:中国社会科学院社会学研究所、计量经济学服务中心
上述工具均已收录到大数据导航:http://hao.199it.com/
]]>
今日推荐工具:欧盟统计局-数据中心 //www.otias-ub.com/archives/668167.html Tue, 26 Dec 2017 14:43:27 +0000 //www.otias-ub.com/?p=668167 名称:欧盟统计局-数据中心

网址:http://ec.europa.eu/eurostat/data/database

简介:

欧洲统计局(Eurostat),是欧洲联盟负责统计工作的行政机构,总部位于卢森堡

该统计体系由欧洲统计局、欧盟成员国及冰岛、挪威和列支敦士登的统计机构和中央银行共同组成。成员国机构负责收集本国统计数据并进行编辑,欧洲统计局的作用则是与各成员国统计机构紧密合作,协调、整合统计资源,按照欧盟的需要汇总分析成员国提供的统计数据。统计范围涵盖欧盟经济社会活动的主要方面,包括经济、就业、研发创新、环境、公共健康、国际账户收支、对外贸易、消费价格、农渔业、交通、能源、科技等。其统计报告及统计数据定期在其官方网站上发布。此外,欧洲统计局还负责帮助入盟候选国改善其统计系统,代表欧盟与联合国、经合组织及其他非欧盟国家开展统计合作等。

欧盟统计局-数据中心已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>
17款工具,让你的数据更美观 //www.otias-ub.com/archives/427995.html Sun, 10 Jan 2016 15:21:22 +0000 //www.otias-ub.com/?p=427995 希望你不仅能从中学到新的技能和极具创新的工具,更能从中结合你自己的业务有新的发现。

199IT大数据导航,汇集1000多款与数据相关的工具(http://hao.199it.com/ ),欢迎分享收藏!

1. Infogr.am

在Infogr.am网站中,你可以使用30多种图形和6种主题创建互动和可嵌入的图表。

stri

2. Fusion Tables

谷歌Fusion Tables是一款数据管理应用,通过Fusion Table,用户可以快速生成相惜的图表,图形或者地图。用户还可以将图表与其他人协作并支持使用共有数据或私有数据。英国的《卫报》(Guardian)也使用这个工具哦~

-18-18-1-18-1

3. Piktochart

Piktochart拥有大量免费的优质模版,可用于图表,报告,banner和演讲。

4. dygraphs

dygraphs是个开源的Javascript图表库,通过调用接口,用户可以直接把大型数据集制作成任何想要的形式。

strip-

5. Timeline

Timeline是由Simile发明的,可以让用户通过简单的滚动和水平拖拽而生成简单的交互时间轴。

-19-19-1-19-1

6. Leaflet

Leaflet也是个开源的javascript库,用户可以创建友好互动的地图。

strip-

7. D3.JS

D3.JS 是主要为基于HTML,SVG和CSS的操纵型文档设计的JavaScript库。

strip-

8. Tagxedo

Tagxedo 是一款简单的词云生成器。对于任意文本,都可以将单词提取出来,并根据其出现的频率调整单词的大小。

-20-20-1-20-2

9. Easel.ly

Easel.ly是一款非常简单好用的信息图形生成器,拥有好几百个模版,当然,如果你喜欢,也可以不用模版哦~

-22-22-1-22-2

10. Creately

Creately 可以制作有50多种图,包含几千个例子和形状库,支持实时协作。

-21-21-1-21-2

11. Sisense

Sisense 支持组合多个数据源,可以让用户从丰富的数据可视化数据中发现病分享见解。

-23-23-1-23-2

12. Nuvi

Nuvi是个高端的社交媒体可视化平台,用户可以创建实时可视化,监控主题或关键字并构建定制报告。

-25-25-1-25-2

13. Bime

Bime是一个高端的数据和仪表盘云平台,其跨设备设计相当时尚。

-24-24-1-24-2

14. Color Brewer

Color Brewer 由Penn State开发,是一款用于选择地图颜色的工具,用户可以用它来保证特殊区域的独立性。

strip-

15. iCharts

iCharts是一个可视化分析云平台,用户可以轻松嵌入,分享和收集图表。

-26-26-1-26-2

16. Better World Flux

使用 Better World Flux可以通过观察社交,经济,政治指标来跟踪国家的发展,并发现重要的趋势和模式。

strip-

17. Visual.ly

Visual.ly 有一句话:无需经验和学习,按钮搞定信息图形和数据可视化。

原文地址:https://econsultancy.com/blog/66131-17-visualisation-tools-to-make-your-data-beautiful/

]]>
徘徊的大数据门前:五个真实的数据挖掘故事 //www.otias-ub.com/archives/104782.html //www.otias-ub.com/archives/104782.html#comments Tue, 09 Apr 2013 15:19:30 +0000 //www.otias-ub.com/?p=104782 *利用大数据后,农夫山泉会发生管理变革吗?YES

*中国能制作出类《纸牌屋》的电视局吗?NO

*大数据可以给阿迪达斯带来利润吗?YES

*网易数据工程师可以当“媒婆”?YES

*中国政府未来会开放数据吗?YES

*正在到来的数据革命改变政府、商业和我们的生活……

  文_本刊记者 周恒星 赵奕 伏昕 昝慧昉 李春晖 编辑_杨婧 房煜 王琦
《纸牌屋》

就在制作这期“大数据专题”时,编辑部发生热烈讨论:什么是大数据?编辑记者们旁征博引,试图将数据堆砌的商业案例剔除,真正的、实用性强的数据挖掘故事留下。

我们报道的是伪大数据公司?我们是否成为《驾驭大数据》一书的作者Bill Franks所称的“大数据骗局”中的一股力量?同样的质疑发生在阿里巴巴身上。有消息称,3月23日,阿里巴巴以7000万美元收购了一家移动开发者数据统计平台。这引发了专家们热烈讨论,它收购的真是一家大数据公司吗?

这些质疑并非没有道理。

中国确实没有大数据的土壤。“差不多先生”、“大概齐”的文化标签一直存在。很多时候,各级政府不太需要“大数据”,形成决策的关键性数据只有一个数字比率(GDP)而已;其二,对于行业主管机构来说,它们拥有大量原始数据,但它们还在试探、摸索数据开放的尺度,比如说,是开放原始数据,还是开放经过各种加工的数据?是转让给拥有更高级计算和储存能力的大型数据公司,还是将数据开源,与各种各样的企业共享?其三,数据挖掘的工具价值并没有完全被认同。在这个领域,硬件和软件的发展并不十分成熟。

即便如此,没有人否认数据革命的到来,尤其在互联网行业。阿里巴巴的马云将大数据作为战略方向,百度的李彦宏用“框计算”来谋划未来。即便是CBA(中国男子篮球职业联赛)也学起了NBA(美国男篮职业联赛)五花八门的数据统计、分析与挖掘。

在过去两年间,大量的资本投资一些新型数据工具公司,根据美国道琼斯风险资源(Dow Jones VentureSource)的数据,在过去的两年时间里,11.7亿美元流向了119家数据库软件公司。去年,SAP市值已经超过西门子,成为德国市值最高的上市公司,而这样的业绩部分得益于其数据库软件HANA的商业化,去年一年时间里HANA带给SAP3.92亿欧元的收入,增长了142%。

但是,大数据还没法分析、挖掘出自己的直接变现能力。在截稿日时,我们再重新读维克托·迈尔-舍恩伯格(Viktor Mayer-Sch鰊berger)的《大数据时代:生活、工作与思维的大变革》一书,作者相信,未来,数据会成为有价值的资产。假以时日,它会大摇大摆地进入资产负债表里。

 

案例1:农夫山泉用大数据卖矿泉水

文_本刊记者 赵奕 编辑_房煜

发挥你您的想象力,选择您认为可是的答案

徘徊的大数据门前:五个真实的数据挖掘故事

这里是上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个,按照规定,下班之前150张照片就被传回了杭州总部。每个业务员,每天会产生的数据量在10M,这似乎并不是个大数字。
但农夫山泉全国有10000个业务员,这样每天的数据就是100G,每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时,这家公司的CIO胡健就会有这么一种感觉:守着一座金山,却不知道从哪里挖下第一锹。

徘徊的大数据门前:五个真实的数据挖掘故事

胡健想知道的问题包括:怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。

从2008年开始,业务员拍摄的照片就这么被收集起来,如果按照数据的属性来分类,“图片”属于典型的非关系型数据,还包括视频、音频等。要系统地对非关系型数据进行分析是胡健设想的下一步计划,这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息,如果类似图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在胡健面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复杂的“0、1、1、0”。

SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示,企业对于数据的挖掘使用分三个阶段,“一开始是把数据变得透明,让大家看到数据,能够看到数据越来越多;第二步是可以提问题,可以形成互动,很多支持的工具来帮我们做出实时分析;而3.0时代,信息流来指导物流和资金流,现在数据要告诉我们未来,告诉我们往什么地方走。”

SAP从2003年开始与农夫山泉在企业管理软件ERP方面进行合作。彼时,农夫山泉仅仅是一个软件采购和使用者,而SAP还是服务商的角色。

而等到2011年6月,SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中,运输环境的数据场景。

关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在全国有十多个水源地。农夫山泉把水灌装、配送、上架,一瓶超市售价2元的550ml饮用水,其中3毛钱花在了运输上。在农夫山泉内部,有着“搬上搬下,银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本,成为问题的核心。

 

基于上述场景,SAP团队和农夫山泉团队开始了场景开发,他们将很多数据纳入了进来:高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求(比如某城市召开一次大型运动会)。

在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的做法是通过大区间的调运,来弥补终端货源的不足。“华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏差,华北短缺更为严重,华东开始往华北运。此时如果太湖突发一次污染事件,很可能华东又出现短缺。”

这种没头苍蝇的状况让农夫山泉头疼不已。在采购、仓储、配送这条线上,农夫山泉特别希望大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产多少,送多少;其次,让400家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。

也就是说,销售的最前端成为一个个神经末梢,它的任何一个痛点,在大脑这里都能快速感知到。

“日常运营中,我们会产生销售、市场费用、物流、生产、财务等数据,这些数据都是通过工具定时抽取到SAP BW或Oracle DM,再通过Business Object展现。”胡健表示,这个“展现”的过程长达24小时,也就是说,在24小时后,物流、资金流和信息流才能汇聚到一起,彼此关联形成一份有价值的统计报告。当农夫山泉的每月数据积累达到3TB时,这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是,胡健等农夫山泉的决策者们只能依靠数据来验证以往的决策是否正确,或者对已出现的问题作出纠正,仍旧无法预测未来。

2011年,SAP推出了创新性的数据库平台SAP Hana,农夫山泉则成为全球第三个、亚洲第一个上线该系统的企业,并在当年9月宣布系统对接成功。

胡健选择SAP Hana的目的只有一个,快些,再快些。采用SAP Hana后,同等数据量的计算速度从过去的24小时缩短到了0.67秒,几乎可以做到实时计算结果,这让很多不可能的事情变为了可能。

这些基于饮用水行业实际情况反映到孙小群这里时,这位SAP全球研发的主要负责人非常兴奋。基于饮用水的场景,SAP并非没有案例,雀巢就是SAP在全球范围长期的合作伙伴。但是,欧美发达市场的整个数据采集、梳理、报告已经相当成熟,上百年的运营经验让这些企业已经能从容面对任何突发状况,他们对新数据解决方案的渴求甚至还不如中国本土公司强烈。

这对农夫山泉董事长钟目炎目炎而言,精准的管控物流成本将不再局限于已有的项目,也可以针对未来的项目。这位董事长将手指放在一台平板电脑显示的中国地图上,随着手指的移动,建立一个物流配送中心的成本随之显示出来。数据在不断飞快地变化,好像手指移动产生的数字涟漪。

以往,钟目炎目炎的执行团队也许要经过长期的考察、论证,再形成一份报告提交给董事长,给他几个备选方案,到底设在哪座城市,还要凭借经验来再做判断。但现在,起码从成本方面已经一览无遗。剩下的可能是当地政府与农夫山泉的友好程度,这些无法测量的因素。

有了强大的数据分析能力做支持后,农夫山泉近年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据,饮用水领域的市场份额,农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%、16.1%、14.3%、4.7%,农夫山泉几乎是另外三家之和。对于胡健来说,下一步他希望那些业务员搜集来的图像、视频资料可以被利用起来。

获益的不仅仅是农夫山泉,在农夫山泉场景中积累的经验,SAP迅速将其复制到神州租车身上。“我们客户的车辆使用率在达到一定百分比之后出现瓶颈,这意味着还有相当比率的车辆处于空置状态,资源尚有优化空间。通过合作创新,我们用SAP Hana为他们特制了一个算法,优化租用流程,帮助他们打破瓶颈,将车辆使用率再次提高了15%。”

 

案例2:阿迪达斯的“黄金罗盘”

文_本刊记者 昝慧昉 编辑_房煜

发挥你您的想象力,选择您认为可是的答案

  看着同行大多仍身陷库存泥潭,叶向阳庆幸自己选对了合作伙伴。  看着同行大多仍身陷库存泥潭,叶向阳庆幸自己选对了合作伙伴。

他的厦门育泰贸易有限公司与阿迪达斯合作已有13年,旗下拥有100多家阿迪达斯门店。他说,“2008年之后,库存问题确实很严重,但我们合作解决问题,生意再次回到了正轨。”

在最初降价、打折等清库存的“应急措施”结束后,基于外部环境、消费者调研和门店销售数据的收集、分析,成为了将阿迪达斯和叶向阳们引向正轨的“黄金罗盘”。

徘徊的大数据门前:五个真实的数据挖掘故事

现在,叶向阳每天都会收集门店的销售数据,并将它们上传至阿迪达斯。收到数据后,阿迪达斯对数据做整合、分析,再用于指导经销商卖货。研究这些数据,让阿迪达斯和经销商们可以更准确了解当地消费者对商品颜色、款式、功能的偏好,同时知道什么价位的产品更容易被接受。

阿迪达斯产品线丰富,过去,面对展厅里各式各样的产品,经销商很容易按个人偏好下订单。现在,阿迪达斯会用数据说话,帮助经销商选择最适合的产品。首先,从宏观上看,一、二线城市的消费者对品牌和时尚更为敏感,可以重点投放采用前沿科技的产品、运动经典系列的服装以及设计师合作产品系列。在低线城市,消费者更关注产品的价值与功能,诸如纯棉制品这样高性价比的产品,在这些市场会更受欢迎。其次,阿迪达斯会参照经销商的终端数据,给予更具体的产品订购建议。比如,阿迪达斯可能会告诉某低线市场的经销商,在其辖区,普通跑步鞋比添加了减震设备的跑鞋更好卖;至于颜色,比起红色,当地消费者更偏爱蓝色。

 

推动这种订货方式,阿迪达斯得到了经销商们的认可。叶向阳说:“我们一起商定卖哪些产品、什么产品又会热卖。这样,我们将来就不会再遇到库存问题。”

挖掘大数据,让阿迪达斯有了许多有趣的发现。同在中国南部,那里部分城市受香港风尚影响非常大;而另一些地方,消费者更愿意追随韩国潮流。同为一线城市,北京和上海消费趋势不同,气候是主要的原因。还有,高线城市消费者的消费品位和习惯更为成熟,当地消费者需要不同的服装以应对不同场合的需要,上班、吃饭、喝咖啡、去夜店,需要不同风格的多套衣服,但在低线城市,一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。两相对比,高线城市,显然为阿迪达斯提供了更多细分市场的选择。

实际上,对大数据的运用,也顺应了阿迪达斯大中华区战略转型的需要。

库存危机后,阿迪达斯从“批发型”公司转为“零售驱动型”公司,它从过去只关注把产品卖给经销商,变成了将产品卖到终端消费者手中的有力推动者。而数据收集分析,恰恰能让其更好地帮助经销商提高售罄率。

“我们与经销商伙伴展开了更加紧密的合作,以统计到更为确切可靠的终端消费数据,有效帮助我们重新定义了产品供给组合,从而使我们在适当的时机,将符合消费者口味的产品投放到相应的区域市场。一方面降低了他们的库存,另一方面增加了单店销售率。卖得更多,售罄率更高,也意味着更高的利润。”阿迪达斯大中华区董事总经理高嘉礼对大数据的应用成果颇为满意。

 

案例3:数据权之争

文_本刊记者 周恒星 编辑_杨婧

发挥你您的想象力,选择您认为可是的答案

徘徊的大数据门前:五个真实的数据挖掘故事

拥有了数据就等于夺取了行业制高点,飞友网络科技公司CEO郑洪峰深知个中道理。

最近几年,随着移动互联网的兴起,一类关于航班动态的应用程序开始出现。通过一套算法,数据工程师们将机场航班实时动态转换成直观的信息,再传递给用户,让后者能够及时了解到航班的起飞、到达、延误、取消、返航、备降等状态,从而帮助用户更高效地安排行程计划。
目前这个市场上主要有三款应用产品,分别是航班管家、飞常准和航旅纵横,飞常准正是飞友科技推出的一款应用。三款应用中,航班管家和飞常准都是民营企业,上线时间较早,用户数较多;航旅纵横虽然上线最晚,却是由央企中国民航信息集团(中航信)开发,大有后来居上的趋势。

随着这个细分市场呈现三足鼎立的局面,一个问题浮出水面。郑洪峰向《中国企业家》直言,数据是这个行业最重要的资源。但是目前中航信垄断了大部分行业信息,使得飞常准必须通过购买和交换才能获得自己所需要的数据。

徘徊的大数据门前:五个真实的数据挖掘故事

“我们的数据成本是非常高的。”郑洪峰告诉本刊,“气象、航班信息、空域流量等信息有些是公开发布的,有些则需要公司向空管局、机场和航空公司购买或交换。”

对于郑来说,获取数据的过程就是一部血汗创业史。据其回忆,早年的各大机场、航空公司之间的数据是割裂的,为了获得准确的航班起降信息,郑洪峰和他的团队就去为这些政府机构、大公司提供技术支持,以此来交换所需要的数据。“我们必须放下身段,他们需要什么我们就做什么。”郑说道。因为飞常准是家小公司,决策链条短,效率高,通过多年的积累,郑洪峰打通了部分数据通道。

郑洪峰在民航系统工作近12年,其人脉和常识的积累成为飞常准的重要优势。1999年,他创建了民航资源网。现在,这家网站是中国最大的民航门户网站。2005年,他又创办了飞友,主要为飞行旅客提供机票搜索引擎等服务。从2008年开始,郑洪峰团队通过飞常准为用户提供航班动态服务。早期,飞常准的用户只是民航内部工作人员,很多机票代理商主动帮其推广,机场方面也常常用飞常准的应用来安抚因飞机延误而愤怒不已的乘客,而业内资深人士也常提供很多有价值的反馈信息。郑洪峰依靠民航内部的资源维持着自己的数据来源。但郑知道,这并不能长久。

郑洪峰的故事并不是孤例。中国一家大型电子商务公司的数据挖掘专家接受本刊专访时提到,现在,越来越多的电子商务公司需要预测非一线城市的物流状况。在这一过程中需要考虑当地交通拥堵程度和天气情况,如果当地政府可以提供这方面的相关数据,可以大大提高运作的效率。以交通数据为例,这位数据挖掘专家使用的是百度地图和高德地图,后来,他发现不能再用了:一方面,与这样的公司合作存在商业机密问题;另一方面,由于交通数据可能来自于这些公司的统计,失真度也是这位数据挖掘专家担心的。“我们非常希望政府能开放一些原始数据。”他继续说道,“我们也希望和领先者能平等地分享数据权,而不是数据成本增加了二三倍。”

郑洪峰和这位数据专家都担心数据垄断,希望政府公平公开地开放数据,这样的做法并非没有借鉴。美国有一个叫做flyontime.us的网站,用户可以从这个网站上获得航班信息和天气情况,其功能与国内的航班动态应用类似。但是值得一提的是,这个网站的数据来源是一个公开的美国政府网站data.gov。目前在上面大约有超过40万各种原始数据文件,涵盖了农业、气象、金融、就业、交通、能源等近五十个分类。此外,data.gov还有一个地理信息的子站点,专门提供地理信息相关的数据。美国官方表示,这个网站的目的是“方便公众更便捷地获得联邦政府数据,并通过鼓励创新来突破政府的围墙而创造性地使用这些数据。”

2006年经济学家唐·泰普斯科特(Don Tapscott)在《维基经济学》中指出,人类已经进入了共享时代:“失败者创建的是网页,而胜利者创建的是生机勃勃的社区;失败者创建的是有墙的花园,而胜利者创建的则是一个公共的场所;失败者精心守护他们的数据和软件界面,而胜利者则将资源与每个人共享。”这一理念后来被认为是网络2.0时代的核心理念。以用户为中心,注重用户交互,让用户参与共同建设的网络2.0同样适用于政府,最近几年各国政府的一系列举措标志着政府2.0时代的到来。

那么在大数据时代,中国政府做好准备了吗?

 

深藏的事实

飞常准的竞争对手也遇到了相同的困境。为了拿到第一手数据,航班管家非常卖力。它与各大机场合作,间接获得自己所需要的航班起降信息。2012年6月,航班管家与上海虹桥机场达成协议,航班管家可以直接从虹桥机场获得信息,包括航班的延误、取消以及登机口变更等一手信息,且提供的信息均与虹桥机场同步。可以预见,机场是其重要的数据来源。

面对竞争对手的步步紧逼,郑洪峰认为,正常的商业竞争并不是飞常准所焦虑的事。“开放与竞争对我们来说是好事。”

对于飞常准来说,央企中航信旗下的航旅纵横才是最大的威胁。“在一定程度上,它有垄断数据的嫌疑。”一位坚持匿名的专家说道。而面对记者的采访要求,航旅纵横以不便透露为由拒绝。目前,中航信拥有中国所有终端旅客详细的数据库,包括姓名、手机、消费习惯等,这是中航信最核心的资源。由于与航旅纵横母子公司的关系,非市场化的利益输送饱受诟病。

在有关民航信息的关键数据中,空域流量是影响中国航班正点率的主要原因,而这一数据掌握在空管局手里。“空管局也愿意将数据分享给航空公司、机场,甚至是一些小公司,它们这么多年也在努力,可中国有自己特殊的情况。”上述专家说道。

在中国,不到30%的空域对民航开放。和其它国家相比,中国是空域管制最为严格的国家之一。“民航系统也很头疼,七成多的空域属于国家机密,所以机场、空域关闭根本无法预知,何来公开的数据?”上述专家说道。

在航班信息中,准点率是非常重要的一条数据。郑洪峰以此对比中美两国差异。“在国外,像准点率这些关键数据都是由政府全部公开的,因为准点率会决定哪家航空公司可以获得哪些航线,是航线资源分配一个非常重要的参数。但是,在中国,这个数据却是各家公司自己搜集的。”换句话说,相关政府部门并没有掌握到第一手的数据来源,遑论数据开放了。

在石油、电信、铁路、民航等战略行业中,民航业的数据开放远远走在了其它行业的前头。上述电子商务公司的数据专家告诉本刊,设计物流工具时,他们更愿意与民航系统合作,不仅仅是快,还因为如果找相对封闭的铁路系统要一些关键性数据,“更难,更不靠谱。”数据专家说道。

“有时,政府也有担心,你要数据做什么?有时他们第一反应是,‘间谍’;第二反应是,你用来赚钱的,我会不会存在什么风险。”上述民航专家说。这位民航专家的一部分工作是为相关政府写内部报告,有时需要跟民航系统要一些关键性数据,即便如此,也免不了遭遇相关政府部门的怀疑。

中国传媒大学教授沈浩认为,现在的政府网站许多都是空架子,甚至大部分网站都很少更新,内容上也只是一些公告,而之前的决策过程并没有反映出来;与此同时,由于中国政府缺少推动力,尚无法建立像data.gov的数据平台。

另外,根据BNET商学院对中国政府部门的调查分析显示,政府部门以数据分析作为决策支撑并没有形成气候,将数据分析作为核心竞争力的只占5.6%,比起美国和英国等政府开源力度差距巨大。

此项调查的负责人,BNET商业英才网副总编周安利认为:政府部门依然缺乏对大数据的真正、全面的认识。在挖掘信息系统价值方面,数据分析也受制于管理体制和职能制约,及长期传统管理积累的习惯,业务驱动力不足,绩效考核不配套。所以中国政府部门对大数据可能产生的价值,以及如何利用数据分析实现政府的科学决策依然有相当长的距离要走。

 

数字生产力

如今,飞常准已经拥有300万月活跃用户,覆盖1万个国内航班,5万个国际航班。郑洪峰直言,飞常准的优势和主要收入来源就是利用大数据技术对数据进行收集、分析和加工。比如利用获得的收据,飞常准可以帮助保险公司制定航班延误保险,而这些都是政府和保险公司以前无法完成的。

以前,航班延误险存在一个问题,就是保险公司让用户去举证,用户必须有各种各样的纸质证明才能从保险公司拿到赔偿,而赔偿金额往往只有两三百块钱,因此用户都不愿意买这个险。“而现在,航班一落地,通过我们的数据和服务,保险公司就知道是否超过保险阀值,没超过的,用户可以直接从保险公司拿到钱,过程非常简单。”郑说道。与保险公司的合作,郑洪峰得到的回报是收取一小部分服务佣金。

数据开放不仅可以让小公司受益,而且可以让政府更加透明、负责任。美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克(Beth Noveck)在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下,运用网络和大数据建立民主和高效的政府。“数据开放可以让体制内外的人一起参与进来,解决政府无法完成以及棘手的问题。”诺维克告诉《中国企业家》。

诺维克以感染率数据为例说明开放数据的作用。美国的医疗部门搜集了全美几乎所有医院的感染率,但是政府并没有足够的能力把这些数据转化为有价值的信息。可是,当这些数据被放在data.gov网站上以后,微软和谷歌却能够运用自己强大的技术能力制作了一幅数据地图。不管是研究机构或者是普通患者都能运用搜索引擎查找任何一家医院的感染率来决定是否住院。

而在中国互联网领域,此前受到虚假广告质疑的百度也开始与相关政府部门合作,利用后者的数据进行网络打假。百度相关负责人告诉《中国企业家》,以前百度需要从2000亿网页中筛查出有问题的假药网站,屏蔽虚假医疗信息非常困难,单纯依靠技术和管理手段的升级,难以达到打击假药的最佳效果。同时,百度作为一家企业,并不具备相关监管资质,这也是百度无法进行独立打击假药的问题所在。百度曾独立打击假药,但效果十分有限。

从2010年开始,百度联合卫生部、国家药监局等多个部委部门发起“阳光行动”,打击各类互联网不良及虚假信息,之后,百度与国家药监局正式达成战略合作,国家药监局的三大药品数据库,总计20余万个权威药品信息向百度开放,而且这些数据库将随着药监局的数据变化实时更新。用户可以通过通俗的商品名、专业的药品名、批准文号等多个途径,在百度搜索到药品的权威信息。

“作为5亿网民的互联网入口,百度一直以来都希望能利用搜索入口和平台优势,与各家具有数据资源优势的政府部门、权威机构联手,让权威信息全面入驻网络。”这位负责人说道,“重要的是,数据治国,相关政府部门也获得了很好的赞誉。”

中国传媒大学教授沈浩认为,虽然中国政府在2007年就发布了《政府信息公开条例》,但目前政府公布的数据大部分还是报告和报表,没有标准的格式,不能以数据的形式查到,因此也无法进行深入的分析、加工和挖掘。

“如果政府需要社会共享和分析这些数据,必须提供最原始的数据,这样的数据学术和商业上才能去应用它。”沈浩说,“你看data.gov的网站,在上面的联邦政府的数据库,都是以电脑可读取的格式发布的。”

郑洪峰也意识到这个难题。他有时候会给相关政府、大公司提供一些数据,他力求寻找一种标准格式。而在这样的方向上,中国的一些公司也在与政府一起努力。

高德软件有限公司三维应用事业部总经理赵珂告诉记者,以前的项目往往是政府立项再雇用公司去做,完成后政府拥有版权,这样导致数据市场不是市场经济而是投资拉动型的经济。而目前高德与地方测绘局采取的合作形式是授权模式,高德帮助政府采集数据。拥有了标准化的数据,相关政府就拥有了一个标准的基础数据库。“这是国家测绘局比较有远见的一个举措,相信我们未来和政府这类合作会越来越多。”赵珂说。

郑洪峰也相信,未来会更务实更市场化,歧视性的东西会越来越少。中国的数据会越来越开放,也会更加利用市场的机制去鼓励更多的商业用户用好航班的数据。

与此同时,郑洪峰也在以不同形式回馈于给他提供数据的政府相关部门和大公司,最近,他的团队正在撰写一份报告,名为《航班正点提高率计划》。

 

案例4:《纸牌屋》你学不会

发挥你您的想象力,选择您认为可是的答案

  文_本刊记者 伏昕 编辑_杨婧  文_本刊记者 伏昕 编辑_杨婧

凭借一部片子咸鱼翻身,这样的桥段在当下热播美剧《纸牌屋》身上重演,反转剧主角是美国一家视频公司Netflix,它的武器则是大数据。

首次进军原创剧就走红,Netflix不仅成为娱乐圈里的谈资,亦成为数据革命的代表。无论是《纽约时报》、《洛杉矶时报》还是最近一期的《经济学人》,严肃媒体们都在重要版面研究《纸牌屋》成功之道。获得如此密集关注,并非没有道理。《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集,也在美国及40多个国家大热。Netflix产品创新副总裁托德·耶林(Todd Yelin)称,其表现甚至“比我们最大胆的梦想都要好”。

徘徊的大数据门前:五个真实的数据挖掘故事

事实是,美国“白宫甄嬛传”、导演大卫·芬奇(David Fincher)和老戏骨凯文·史派西(Kevin Spacey),这些噱头只是用以吸引眼球的皮毛。最抓人的是,Netflix根据数据技术推导出《纸牌屋》的关键要素,喜欢BBC剧、大卫·芬奇和凯文·史派西的用户存在交集,这是多么酷的一件事。

中国的乐视网一直关注Netflix的发展路径。“值得研究的是Netflix如何从后端数据推导出前台生产。”乐视网副总裁何凤云说。这种做法与旧传统是背道而驰的,以美国著名的有线电视网络媒体公司HBO为例,它对导演强烈的个性抱以完全的信任,全权委任导演去制片、编剧、挑选演员。而在中国,几大视频网站在自制剧时都有自己的选片团队,由他们为观众选择与确定导演,挑选剧本。

徘徊的大数据门前:五个真实的数据挖掘故事

多年前,依赖于种种技术,Netflix对数据的记忆能力已经炉火纯青。当一位用户通过浏览器登录Netflix账号,Netflix后台技术将用户位置数据、设备数据悄悄地记录下来。这些记忆代码还包括用户收看过程中所做的收藏、推荐到社交网络等动作。在Netflix看来,暂停、回放、快进、停止等动作都是一个行为,每天用户在Netflix上将产生高达3000多万个行为,此外Netflix的订阅用户每天还会给出400万个评分,300万次搜索请求,询问剧集播放时间和设备。没错,这些都被Netflix转化成代码,当作内容生产的元素记录下来。其首席内容官泰德表示,所有这些数据意味着,Netflix公司已经拥有“可寻址的观众”。

早年间,Netflix利用上述数据提供一项推荐引擎业务。比如说,数千万用户能在一个个性化网页上对影片做出1-5的评级,这些评级构成了一个巨大数据池,如今这个数据池容量已超过近百亿条。根据数据池,Netflix使用推荐算法来识别具有相似品味的观众,然后对这一群体做出相关内容的精准推荐。

Netflix要将巨大的数据池变为生产力并非易事。长年以来,为了提高算法精准,它持续地举办大型比赛,来提高自己的数据挖掘能力。2005年底,Netflix曾开放一数据集,并设立百万美元的奖金(netflix prize),征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了超过48万个匿名用户对大约近2万部电影做的大约10亿次评分。

 

Netflix一直在寻找与自身匹配的数据挖掘工具。据一位前Netflix云数据库架构师的博客回忆,在2010年Netflix完成了两次迁移,其一是将Netflix的数据中心迁移到了Amazon AWS之中,其二是将Oracle数据库迁移至SimpleDB。而到了2011年又从SimpleDB迁移到Cassandra,利用Cassandra提供的路由配置,集群可以被部署在多个大洲。忘掉上述专业术语,一个小故事足以说明它们的意义。法国电影《不要告诉任何人》在美国的票房收入惨淡,只有600万美元。可Netflix的工程师并不相信这个数字,他们通过上述数据挖掘技术,找到了不易察觉的点击量,而这些才是被隐藏的事实。2011年时,Netflix决定播放《不要告诉任何人》。如Netflix预测的一样,这部电影在播放后立即在最受瞩目的节目中排到第四位。

然而,投资人并不看好Netflix的这些努力。投资人表面上相信Netflix的数据库是个大宝藏,但财务报表的数据呢?去年万圣节,Netflix董事长兼CEO里德·哈斯廷斯接到一位投资人电话,后者告知哈斯廷斯,他将从二级市场收购Netflix 10%的股份。投资人坚持认为Netflix气数已尽,这位投资人的计划是,进入Netflix董事会再建议哈斯廷斯卖掉Netflix。

早期,Netflix是北美家喻户晓的在线影片租赁提供商,它的主营业务是通过邮寄方式租赁DVD的模式赚取利润。然而,在互联网时代这个盈利模式逐渐式微。于是,Netflix将主营转向在线流媒体播放,其商业模式是付费用户通过PC、TV及iPad、iPhone收看电影、电视节目。但在逐步放弃高利润率的DVD业务,彻底转型低利润率的流媒体业务后,Netflix却遭遇营收增速放缓、成本费用激增的困境。2012年第三季度,尽管财报中营收和每股收益均超出分析师预期,股价却依然暴跌。美国知名专栏作家撰文称“Netflix被收购或许才是投资者最理想的选择”。

里德·哈斯廷斯别无选择。他决定反击投资人的短视,用事实告诉资本市场,数据不是花架子,而是地道的生产力。Netflix利用数据挖掘能力计算出可以赢的办法,1亿美元买下一部早在1990年就播出的BBC电视剧《纸牌屋》的版权,请来导演大卫·芬奇(David Fincher),并由老戏骨凯文·史派西(Kevin Spacey)担当男主角。

乐视网副总裁何凤云向本刊介绍,1亿美元买下的《纸牌屋》总共2季26集,计算下来单集成本约为400万美元,远远高于美国一般电视剧的单集制作成本——150万至200万美元,也只有《广告狂人》、《斯巴达克斯》这类热播美剧才能达到200万美元左右。算下来,对于Netflix而言,只有新增100万一年期合约付费用户才能收回上述成本。

Netflix并非没有计算过豪赌的回报,这样做不仅可以带来新增用户,更为重要的是它为Netflix开拓了上游市场,走上了自制剧之路。在《纸牌屋》之后,还将有四部自制剧在2013年登陆Netflix。这意味着,Netflix可以逐步降低对版权费用日趋高涨的好莱坞剧的依赖。

Netflix的故事,对于中国视频网站而言着实励志。他们与Netflix所面临的境遇相似:在美国国内,好莱坞的独家授权费用越来越高,版权成本上升导致资本开支加大。同时内容竞争越来越激烈,尽管在流媒体播放领域Netflix仍占据市场首位,但面临着HBO(美国家庭电视广播网)、Amazon(亚马逊)、Hulu、YouTube的竞争,它们都在加大内容投入。

由于版权价格提升,国内知名的视频网站们,诸如优酷土豆、搜狐视频、乐视网、爱奇艺近两年也纷纷打造自制剧。

据乐视网高级副总裁高飞对本刊透露,虽然去年上半年版权价格曾达冰点,但是现在又很快回升,从一线卫视购买电视剧,平均购买价格每集几十万,意味着买下一整部剧不下千万。在此局面下,拿下《纸牌屋》中国地区的互联网独家播放权的搜狐视频,不得不上调版权采购预算,其2012年的版权采购成本为5000万美元,但2013年这一预算上调到8000万美元。“但我们拍一个自制剧,成本基本上也就三分之一,甚至不到这个数。”高飞说。

关键是如何制作自制剧?国内视频网站意识到数据的重要性,也积累了大量数据。比如乐视网通过分析用户收看时间,在今年推出午间自制剧场。“但真正细致到使用数据来决定导演、演员,中国还没有哪家公司敢说他们能做到这点。”何凤云说。

此外,即便是有了数据,中国的流媒体公司还不敢像Netflix那样将宝押在一部剧上,因为中国的付费市场尚未成熟,目前还主要依赖广告盈利,无法完全将用户需求作为中心。“Netflix选择了这个项目,投巨资去做,就是博一个必须赢。”乐视网高级副总裁高飞对《中国企业家》说,“期待中国市场也可以通过付费收视足以覆盖成本,但这要寄希望于未来大屏电视以及电视平台产品和服务的成熟,以及付费市场的快速成长。”

除此以外,一位视频行业的人士指出,在中国基于用户数据做出分析的同时,还要考虑广电审核的要素,一些领域与题材类型都要稍微收拢,“不是没法依赖数据,而是不能完全依赖数据,我们选择数据时也一定要结合中国国情。”

 

案例5:定制爱情

发挥你您的想象力,选择您认为可是的答案

  文_本刊记者 李春晖 编辑_王琦  文_本刊记者 李春晖 编辑_王琦

宅男们总幻想为自己定制一个女朋友,也许他们的愿望将不日达成。不是借助3D打印机,而是靠大数据时代的婚恋网站。

2012年底,网易旗下全新婚恋交友网站“花田”上线。花田以免费沟通为卖点,主打一二线城市中高端市场。摒弃了传统婚恋网站的“人工红娘”,花田不提供任何人工服务,从推荐到搜索全由系统自动完成。而业内的龙头老大世纪佳缘(Nasdaq:DATE),也在换帅之后摩拳擦掌,试图用大数据的精准化运营,为在海量异性资料中疲于搜索的用户“指一条明路”。

徘徊的大数据门前:五个真实的数据挖掘故事

一年前婚恋网站最爱喊“实名制”。通过对用户身份证或手机号码进行验证,网站可获得用户真实姓名、年龄、性别、地区等身份证数据,对防止诈骗有一定作用。但如今各家都有,这种传统打法就过气了。毕竟有身份证的人,不一定是有身份的人。婚恋网站已将条条框框的硬指标罗列齐全,使人几乎怀疑进入的是淘宝人肉市场。当身高、体重、年龄、学历等等都一一框定,一看还有2000个姑娘(小伙)符合要求,是时候让理性回归感性了。而这感性,又是建立在理性的数据分析之上。

花田界面清新简洁,采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情,展示其生活方式、个人品味等软性资料。系统会自动推荐那些相对活跃、最近有信息流更新的人,这就促使用户拿出更新微博的劲头来更新花田,为花田积累了大量可供分析的软性数据。

徘徊的大数据门前:五个真实的数据挖掘故事

“我们可以通过‘内心独白’来挖掘用户的性格特征。”网易花田负责人夏天宇说。夏天宇在网易已工作11年,此前他的团队负责网易微博的研发,而他最早的工作是Oracle数据库管理。

现在,他和他的团队正试图通过自然语言处理技术和语义分析方法来解码用户性格,实现“软硬兼施”的精准推荐。首先,他们运用切分词方法,从用户的“内心独白”中提取出现频率较高的关键词;再将这些关键词分类,如感性词汇或理性词汇;最后,通过文本分析、语义分析,从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。这一技术目前还在测试中,2013年下半年会逐步投入使用。

徘徊的大数据门前:五个真实的数据挖掘故事

自2012年12月28日向全国开放注册以来,花田注册用户已近25万,每日活跃用户4万人。虽然发展迅速,但较之业界前辈,花田用户少得甚至吸引不来骗子。但网易的技术储备却不容小觑。“有道”搜索提供的自然语言处理技术,被用于通过文本挖掘用户性格。网易自研的原本用于网易邮箱的人脸识别技术,更是婚恋网站求之不得的利器。

 

花田团队只有30多个人,大多是85后。他们在对海量软硬数据进行分析的基础上,总结出一些人物特征,建立出一定数量的人物模型。再分析具体用户,将其分门别类套入各种模型。这样,用户心仪其中某一个人,便可向其推荐这一类人。

这种模型不仅是性格模型,还包括外貌模型。“我们马上要推出人脸识别。比如你想找个像范冰冰的女生,你输入范冰冰,就会推荐给你很多范冰冰脸型的女生。”夏天宇介绍,花田的后台已经提取出范冰冰脸型的数据,之后还会推出几十种流行的男女明星脸型供用户选择。

徘徊的大数据门前:五个真实的数据挖掘故事

更令人感兴趣的是,如果花田能够跨产品平台,结合网易门户、邮箱、游戏等其它网易资源进行大数据分析,是否就能向用户推荐与自身阅读习惯、工作习惯、娱乐习惯都匹配的对象呢?真正的大数据必然是跨平台的,而这点别家很难做到。

但跨平台数据提取在一定程度上又涉及用户隐私。大数据的底线在哪里?夏天宇认为,涉及到银行的数据绝对不可碰触。这个范围就很广泛。不过可以确定的是,网易不会在花田影响力和用户量都不足的时候开启跨平台数据分析。

“我希望花田能盖一个五层楼,每层装不同类别的人。一个收入五万块的人进来,也不感觉这里有很多屌丝。”夏天宇这样描述自己对花田的愿景。虽然少了王子配灰姑娘的浪漫童话,倒也实实在在为用户省去不少筛选麻烦。

数据分析不只可用于精准推荐,还能识别婚恋网站最为人诟病的造假和诈骗。2012年底,创始人龚海燕辞任世纪佳缘联席CEO后,另一联席CEO吴琳光担任CEO。吴琳光曾在空中网担任副总裁兼手机游戏事业部总经理。加入世纪佳缘后,他首先做的就是引入大数据来提高用户体验。世纪佳缘的数据分析团队开发出一套网警系统,由以往的被动等待用户举报骗子,改为主动出击。

 

“对我们来说,花篮托儿和酒吧托儿的危害最大。”世纪佳缘CEO吴琳光介绍,这两种人的特点是希望长期运营,不会像真正的诈骗犯,令受害者报案。钱虽不多,却最让人恶心。

酒吧托儿的特点是照片极美,却只有一两张。花篮托儿则是相貌堂堂、言语温柔的中年大叔,但只打电话不见面。忽有一天声称自己公司要开业,向女方求送花篮,骗个一两千块。他们的共同特点就是一上来便要联系方式,尽快离开网络平台,用电话这种难以管控的方式来建立亲密关系。

徘徊的大数据门前:五个真实的数据挖掘故事

通过对骗子这些行为模式的数据分析,世纪佳缘制作出一套骗子识别模型,已经投入使用。令人捧腹的是,吴琳光本人也曾因测试产品,被这套网警系统抓个正着,“我符合坏蛋的特征,上来就找女性直接要联系方式。”

吴琳光向我们分享了一连串数据。比如,“剩女”大部分是生于1978年至1983年。

“因为计划生育,这一段人口暴涨,她们对应的1973年-1978年的男性人口相对不够,和她们同龄的男性又被85后的年轻姑娘抢去了。”吴琳光说,2009年、2010年婚恋网站大爆发,正是因为这帮人到了必须结婚的岁数。

又如,世纪佳缘正在尝试联运页游,越是在世纪佳缘里收不到信的人,玩页游的越多。
数百年前的媒婆们绝想不到,若干年后,一群技术出身的工程师们用冷冰冰的数据为痴男怨女保媒拉纤。

然而技术男们纵然辨得出喜恶,抓得住流氓,却也有棘手的技术难题,比如人脸识别。对外貌的判断感性而且私人化,向来是婚恋网站的难点。世纪佳缘一直在努力寻找合适的面部识别软件,但难度很大。吴琳光表示,他们正引入一款能够识别相似脸的系统,从用户过往的选择数据中总结归纳用户喜欢何种脸型,给用户推荐类似脸型的人。

花田虽然背靠网易大树,即将推出人脸识别功能,但这一技术目前止步于脸型识别。花田试图将更高级的人脸识别,如五官识别、夫妻相匹配作为自己的增值服务收费点,尚有待进一步的技术突破。

对于人类这样复杂的动物,数据究竟能做到什么程度?吴琳光说自己的理想是让用户一注册世纪佳缘,看到的推荐异性就个个都喜欢。但从身边常听到的各种抱怨看,实现这个目标尚需时日。

]]>
//www.otias-ub.com/archives/104782.html/feed 1