数据工具 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Tue, 09 Jun 2020 04:13:23 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 阿里云数据中台重磅升级 拟扶持超100万家企业数智化转型 //www.otias-ub.com/archives/1063038.html Tue, 09 Jun 2020 04:13:23 +0000 //www.otias-ub.com/?p=1063038 199IT讯 6月9日,在2020阿里云线上峰会上,阿里巴巴集团副总裁、数据技术及产品部负责人朋新宇推出Quick Audience、Quick A+两款全新产品,并升级Dataphin和Quick BI两款现有产品。同时,阿里云零售、金融、政务及互联网企业等四大行业数据中台解决方案也首度亮相,未来将要扶持100万家企业。

(图:阿里巴巴集团副总裁、数据技术及产品部负责人朋新宇 来源:199IT)

数据中台扎实有效

2015年,阿里巴巴在国内首次提出数据中台概念,它是集方法论、工具、组织于一体的“快”、“准”、“全”、“统”、“通”的智能大数据体系。

历经内部复杂场景的实践后,阿里巴巴在2018年正式通过阿里云全面对外输出数据中台能力,帮助企业实现数智化转型。

朋新宇在现场分享了来自餐饮、快消、服饰、商业地产、旅游业等行业的头部企业案例。

蓝光地产利用数据中台服务孵化出了更多销售创新场景,仅“老带新”的一个单一场景就为该企业实现了单日36亿元成交额。

雅士利则通过阿里云数据中台挖掘了5个业务场景,短期快速提效,去年双11期间实现了同期增长92%。

而今年“新冠”疫情的特殊考验,更是让越来越多企业感受到数字经济趋势下数智化的重要性。

疫情期间,红蜻蜓4000多家门店无法营业,但通过全员线上服务营销,7天内新设立了500多个粉丝群,日均销售额突破百万。

无独有偶,雅戈尔3000余家线下门店在疫情期间悉数歇业。但随着全员all in线上营销,一季度整体业绩已经恢复到同期的80% 。

根据亿欧智库针对过去一年内沪深两地上市公司公告的集中研究,已有超过500家企业将数据中台的实施进展纳入了上市公告中。

产品矩阵从“2”变“4”

据朋新宇介绍,阿里云数据中台核心产品矩阵从之前的两大核心产品——Dataphin、Quick BI,拓展到了Dataphin、Quick BI、Quick Audience和Quick A+四大核心产品。

聚焦智能数据构建及管理领域的Dataphin,完成了数据服务开放和自助式开发升级,并针对中小企业,提供了轻量化版本。

作为国内唯一成功进入国际知名机构Gartner魔力象限的BI产品而受到广泛关注的Quick BI,本次升级重点聚焦在与钉钉的协同合作上。升级后,用户可以实现“随时随地,智能决策”。

新亮相的Quick Audience定位于智能用户增长,帮助实现“全方位洞察、多渠道触达”的增长闭环。Quick A+则是跨多端的全域应用洞察平台,能够帮助企业对用户进行综合分析,了解用户的使用习惯并进行相应的预测和决策。

四大行业解决方案齐飞  

除了丰富产品能力之外,阿里云数据中台本次峰会上,朋新宇还重磅发布四大行业数据中台解决方案:零售数据中台、金融数据中台、政务数据中台以及互联网企业数据中台,将进一步把数据中台引入全速重构业务数智化的深地。

据介绍,针对零售行业,阿里云数据中台可以提供多维的全方位洞察、全域自动化营销等服务,并通过与阿里巴巴生态联动,帮助更多零售企业实现数智化增长;

针对金融行业,提供理财业务线上用户增长、整体的数字化运营解决方案,通过联动蚂蚁生态,融合投资者教育的实践方法论,并集成支付宝小程序中,帮助金融机构实现业务增长;

针对政务行业,提供全套政务数字参谋解决方案,实现跨端、跨层级、跨系统等政务数据融通,支持政府决策科学化、社会治理精准化、公共服务高效化;

针对互联网企业,阿里云数据中台将与友盟+进行深度联动,让互联网企业能拥有阿里云数据中台的能力,在营销增长、风控、智能运营等场景中实现业务增长。

这四大数据中台行业解决方案是阿里云数据中台行业边界的一次重要拓展,标志着阿里云数据中台已经实现了从通用领域走向精细化垂直领域。

朋新宇表示,全新升级后的阿里云数据中台将成为企业数智化的新基建,未来将帮助超过100万企业,实现数智化加速升级。

]]>
35个国内外社会调查数据工具介绍 //www.otias-ub.com/archives/972434.html Thu, 28 Nov 2019 10:35:20 +0000 //www.otias-ub.com/?p=972434
1、UK Data Archive
UK Data Archive1967年成立于英国埃塞克斯大学,是一个国际公认的为社会科学和人文学科获取、管理和提供数据的专业技术中心。目的是为了分析和再次利用而收集高质量的研究数据。 
数据来源:大规模的政府调查,例如劳动力调查;英国主要的调查,例如英国家庭小组调查、民意测验以及环境研究项目的多媒体定性数据资源。
研究领域:老龄化、犯罪、经济、教育、环境与能源、种族、食品和食品安全、健康与健康行为、房屋和当地环境、信息与交流、劳动力市场、政治、贫困和社会歧视等。 
用户群体:主要为英国的大学或学院
 
http://www.data-archive.ac.uk/
主要功能: 
数据检索:可根据目录、关键词、主要数据、最新数据等获得数据;
数据上传:可在线上传;
数据下载:仅对会员开放 
2、Data.gov.uk
Data.gov.uk是由英国政府创办的可以快速查找政府服务和信息,英国政府部门,英国相关政策等与政府和民生息息相关的网站,并且所有政府部门和许多其他机构、公共机构的网站都被收录到了这里。 
数据来源:中央政府部门、一些其他公共机构和地方当局 
研究领域:商业和经济数据、环境、犯罪与司法、政府、社会、保卫、政府支出、乡镇和城市、教育、健康和运输等方面。  
用户群体:主要为英国公民,网站共有30074328次点击量,其中81%来自英国,3%来自美国,0.65%来自中国。
平台主要功能:
 
数据检索:可根据数据主题和地区进行搜索; 
数据下载:支持的数据格式有HTML\CSV\XLS\PDF\WMS\XML。
https://data.gov.uk/data/search 
3、nter-university Consortium for Political and Social Research(Michigan)
ISPSR于1962年成立于美国密西根大学安娜堡分校,以大量收集系统化的社会科学数据著称,是世界上最大的社会科学数据中心。 
ICPSR研究涉及21个领域,如教育、老龄化、刑事司法、恐怖主义等,储存了超过 50万种社会科学研究资料,包含一个拥有25万份关于研究社会和行为科学文件的档案库。 
用户群体:来自40多个国家的700多个成员机构,包括大学和研究中心等。每年网站访客超过60万,每月有5.2万个数据文件下载。 
数据来源:儿童和家庭机关、卫生部门和公共事业,Alfred P. Sloan基金、Henry Luce基金、美国心理协会、卫生与人类服务部疾病预防控制中心、联合国粮食和农业组织、博物馆与图书馆服务研究所、全国大学生体育协会、国家艺术基金会、国家儿童健康和人类发展研究院、国家老化研究所、国家药物滥用研究所、国家科学基金会、司法部司法程序办公室、Robert Wood Johnson基金会、Spencer基金会、美国国际开发署、美国退伍军人事务部等。 
http://www.icpsr.umich.edu
平台主要功能:
数据搜索:根据关键词搜索数据、数据相关文献、研究资源还可检索和对比变量; 
数据上传:定量数据;定性数据:面试、半结构化访谈、结构化面试、非结构化或半结构化日记、野外观测笔记、案例研究、会议记录、新闻剪报、法庭记录等;其他类型:如视频和录音等需与管理员商定如何存储; 
数据下载:下载的数据支持SAS/SPSS/STATA/ASCII/ EXCEL格式; 
线上线下交流:每年都有关于社会调查定量方法的夏令营和课程。 
4、National Data Archive on Child Abuse and Neglect
National Data Archive on Child Abuse and Neglect成立于1988年,由美国康奈尔大学人类生态学学院创建。是一个用于促进儿童虐待领域研究者之间进行学术交流的资源库。 
数据来源:相关领域的研究人员和国内数据收集资料。 
研究领域:儿童虐待与忽视。 
平台主要功能: 
数据检索:根据数据集名称和摘要搜索数据集及相关文献; 
数据上传:数据集(spss/sas/stata)和相关资料通过管理员邮件传递; 
数据下载:数据支持sas/spss/stata; 
线上交流:学习儿童虐待和忽视数据的再利用、促进研究者的交流与协作。 
http://www.ndacan.cornell.edu
5、Data & Information Service Center
Data & Information Service Center由威斯康辛大学麦迪逊分校创办。为在社会科学方面进行二级分析的研究员和学生提供了定量数据和数字数据,对于不熟悉统计软件的用户,其拥有一系列基于菜单界面的软件产品。 
数据收集范围:纵向调查、宏观经济指标、选举研究、人口研究、社会化模式、贫困措施、劳动力参与、民意调查、教育和健康以及户口普查数据。
 
用户群体:仅对UW-Madison大学的学生、教师和工作人员开放。  
平台主要功能:
数据查找:可通过关键词、学科、前沿课题进行查找;
 
数据下载:问卷(pdf)、数据(仅对本校师生开放)。 
http://www.disc.wisc.edu 
6、Harvard-MIT Data Center
Harvard-MIT Data Center 1960年在哈佛大学作为对政治和社会科学的原始数据中心而成立,它是定量社会科学机构的一个成员。使命是研发和提供世界顶级的研究计算资源、数据服务和支持信息技术,为了将社会科学研究和教育发展得更远。 
近些年来HMDC通过艺术科学部门和哈佛大学的其他学校,已经逐渐演变成了为社会科学研究和教育领域提供信息技术服务的提供者。它能提供先进的计算机设备和基础设施,包括功能强大且方便使用的研究计算工具、集群计算、应用程序和服务器托管和现场计算机实验室。 
HMDC还提供统计研讨会和班级、用户界面友好的桌面支持,其也将继续为哈佛大学和麻省理工大学担任社会科学数据经销商。 
http://www.hmdc.harvard.edu/
7、Integrated Health Interview Series
Integrated Health Interview Series是由美国国家儿童健康和人类发展研究所创办的。旨在收集和整合1963年至今可获得的关于美国公民健康、医疗保健覆盖和健康行为的数据。以方便研究者分析每样本跨时间的变化。
目前该网站的整合的数据有:1850年至今的美国人口普查数据和社区调查数据; 
1962年至今的当前人口调查包括每月的补充调查; 
1960年至今的覆盖82个国家的人口普查微数据;
 
1980年至今的跨时间与地区的人口与健康综合调查; 
1960年至今的人口与环境整合数据;
 
1960s年至今的国家健康访谈调查数据; 
1993年至今的科学和工程劳动力方面的调查数据等。
http://www.ihis.us/ihis/
8、Roper Center for Public Opinion Research
Roper Center for Public Opinion Research由美国康奈尔大学始建于1947年,是世界上关于社会科学数据的顶级数据中心之一,尤其是在公众舆论调查方面。中心的任务是收集、保存和传播公众舆论数据。 
用户群体:会员,会员机构大多是学校、科研机构、政府等,目前会员数量已有280个。 
网站包含的数据主要是关于选举的数据。 
数据来源: 通过商业调查公司来调查的国家、州和其他一些关于公众舆论的调查数据,也有来自美国国家民意研究中心和普林斯顿大学公共舆论研究室的一些学术数据。目前已有超过12000个美国国内的数据集和8000多个国外的数据集。
平台主要功能:
数据搜索:可以通过关键词、国家、组织、样本类型、时间等搜索。 
 
http://www.ropercenter.uconn.edu/ 
9、General Social Survey
General Social Survey由美国芝加哥大学创建于1972年。 
目前该平台只有GSS一个项目的数据。主要研究美国社会日益增长的复杂性,从1972年开始,目前已调查了44年,是唯一一个用以监测美国社会特征和态度变化的全概率的面对面访谈调查。 
研究领域:公民自由、犯罪和暴力、种族宽容、道德、国家支出重点、心理健康、社会流动、压力和创伤性时间等。 
用户群体:研究者、学生、政策制定者、记者等,每年的学生用户就有40万人。 
平台主要功能:
数据检索:可根据变量名、变量描述和调查描述搜索变量,还可以通过年份、主题进行筛选; 
在线分析:可以做交叉表/多层交叉表/相关/回归等; 
数据下载:可随意下载变量和数据集,支持sas、spss、stata格式。 
http://gss.norc.org/For-The-Media 
11、中国国家调查数据库
中国国家调查数据库(Chinese National Survey Data Archive, 缩写为CNSDA)受中国国家自然科学基金重点项目资助,由中国人民大学中国调查与数据中心(National Survey Research Center, NSRC)负责执行,是一个经济与社会数据共享的平台。 
数据内容:是以“中国社会调查开放数据库(Chinese Social Survey Open Database,CSSOD))和中国人民大学科学研究基金“数据高地项目”资助下的各项大型追踪项目和横截面调查数据为基础,收集在中国大陆所进行的各类抽样调查的原始数据及相关资料。 
数据涵盖了经济、综合、健康、社会、教育、企业、宗教、政治、科学和历史等领域。 
http://www.cnsda.org/
主要功能: 
1.检索数据:可根据关键词、类别、执行时间、地理区域进行检索 
2.存储数据:保存机构和个人有知识产权的数据
3.管理数据:中心会对收集的数据按照国际标准进行管理
4.分析数据:在某个指标上进行横向比较 
12、国家自然科学基金-北京大学管理科学数据中心(Data Center of Management Science, NSFC-PKU)
成立于2014年12月,是由国家自然科学基金重大项目支持、服务全国管理科学的数据收集与数据服务中心。
13、复旦大学社会科学数据平台
旨在收集、整理和开发中国社会经济发展数据,为学者提供有最具竞争力的研究条件和数据服务,为学生提供更加坚实的社会科学调查方法和应用的训练,鼓励跨学科的研究,为复旦大学履行大学传承、记录文明的职责和成为 “国家智库”提供重要和基础性的支撑。 
数据类型:研究论文、学位论文、研究报告、政策法规、专项调查及统计年鉴。 
核心业务: 
数据服务 
定量研究方法教学 
跨学科研究  
平台主要功能: 
数据检索:根据课题进行检索; 
数据下载:访问受限,仅对高校、政府及科研机构开放。 
http://dvn.fudan.edu.cn/dvn/ 
14、台湾调查研究与数据档案库
「學術調查研究資料庫」蒐集、保管及整理各類問卷調查資料,並採會員制對外開放資料使用。資料來源包括各大專校院、研究機構進行的學術研究調查計畫,以及政府部會應業務規劃及施政決策需要所辦理的調查統計。
 網站上可供查詢使用的資料超過2千筆,涵蓋社會、政治、經濟、教育等社會科學重要領域,其中包含多項長期進行的主題型或追蹤調查。各筆資料提供資料檔、問卷、研究報告、資料使用說明,以及利用該資料發表的著作書目。 
這些資料可作為調查方式或問卷設計之參考,或以不同的研究假設、方法進行分析,產生新的研究成果,亦可以應用於教學活動中,有助於提升學生的統計分析與研究能力。 
除在網站提供數位課程及在YouTube平台設立SRDA頻道之外,每年也會舉辦資料使用工作坊、研習班、網路研討會,以及提供到校推廣課程服務等,以期觸及更多潛在的資料使用者,並讓資料能被廣泛運用,發揮最大價值。 
http://srda.sinica.edu.tw/
15、Databank for China Studies 中国研究服务中心
Databank for China Studies1963年成立于香港,由西方研究中国的大陆学者创建。旨在建立一流的地理信息系统兼容的数据库,以便观察中国地方发展的动态。数据库包括333个地级市和 2,862个县的多年度的社会、经济、政治及社会领域内的各种指标。这些指标由人类学、人口统计学、生态学、经济学、教育学、地理学、历史、公共行政管理、政治学、社会工作、社会学等等学科的学者们共同挑选。 
用户群体:中国研究者服务。 
数据查找:通过书名/作者/关键词、出版社和地区进行搜索;
 
中心活动:午餐讲座、纪录片放映会及映后谈、学术会议等。 
 
http://www.usc.cuhk.edu.hk/Eng/AboutDCS.aspx 
16、Australian Social Science Data Archive澳大利亚社会科学数据库
Australian Social Science Data Archive是由澳大利亚国立大学创建于1981年,目的是将收集和保存的研究数据提供给学术研究人员和其他用户进行二次分析。 
数据涵盖的领域有:社会科学、历史、犯罪与司法等等。该平台储存的数据类型有定性数据、定量数据、时间序列、面板数据和纵向数据。目前可以使用的数据集超过2000个。 
数据来源:澳大利亚社会调查、民意调查、人口普查及包括亚太地区在内的其他一些国家的数据。 
用户群体:大学、政府和其他部门社会科学研究人员。 
http://www.assda.edu.au/  
主要功能: 
数据检索:通过关键词、类别查找相关信息; 
数据分析:注册用户可以通过NESSTAR数据分析软件进行常规在线数据分析,受限制的数据则需要通过提交请求来完成; 
数据上传:所有的研究人员和团队能够进行数据存档,上传所需文件问卷、技术报告、文件参考的出版物、其他对研究分析和解释数据有用的材料。研究人员可以通过FTP和安全的存储服务进行在线传输,也可以通过电子邮件或者邮政传输。定量数据的格式一般为SPSS、Stata、CSV,定性数据的格式一般为XML、rtf、txt等; 
数据下载:可以下载数据(SAS、SPSS、Stata格式)、报告(pdf)以及相关材料。 
17、The British Columbia Inter-university Research Data Centre不列颠格伦比亚校际研究中心
The British Columbia Inter-university Research Data Center是由加拿大创新基金和大学合作创建,是不列颠哥伦比亚省的四所大学(西蒙弗雷泽大学、不列颠哥伦比亚大学、维多利亚大学和北不列颠哥伦比亚大学)的研究机构,这项合作旨在加强成员学校学生及教职工的研究能力。 
数据内容包括:国家人口健康调查、全国儿童和青少年纵向调查、劳动和收入动态调查、工作场所和员工调查以及青年调查。 
用户群体:目前只对以上四所大学(SFU、UBC、UNBC和Uvic)中有项目的学生或老师开放。
http://data.library.ubc.ca/rdc/  
平台主要功能: 
数据检索:通过关键词查找;
 
数据下载:仅对用户开放; 
线上线下交流:每年举行各种调查数据分析培训,培训只对学校的教师、学生和工作人员开放。此外,也有专门面向来自加拿大统计局使用纵向和多层数据集的研究员的课程。 
18、SDA Sociological Data Archive社会学数据档案
Sociological Data Archive成立于1998年,由捷克共和国科学院社会学研究所创建。其目的是处理、记录和存储社会科学研究项目的数据文件,并促进其传播,使其广泛用于学术研究的二次利用和教育。 
该数据库的数据涵盖历史数据、经济预期和态度、选举调查、ISSP、社会转型、住房调查、青年调查、志愿服务等领域;其拥有的数据集超过十万个。 
主要用户群体为国内外研究者,年均服务7000用户,学术信息供超过20万研究者使用。 
平台主要功能:
 
数据检索:通过类别查找; 
数据分析:交叉表/相关/回归/权重/做图/做表; 
数据上传:通过邮件上传可以进行二次存储的数据; 
数据下载:用户在注册之后额能够进行数据下载(spss,stata、sas、txt)。 
http://archiv.soc.cas.cz/en/
19、The Danish Data Archive
是丹麦文化部的下属机构(类似于国家图书馆),主要是收集和存储历史数据,并将其提供给公众。 
数据来源:丹麦政府,由国家档案馆安排和转移材料。
 
用户群体:想寻找自己祖先的人群,对历史比较感兴趣的人群以及致力于历史学的研究人员或学生。 
数据查找:通过关键字查找。 
 
http://www.dda.dk/
20、Council of European Social Science Data Archives
于1976年创建,旨在为科研人员提供大型的、综合的和可持续的社会科学服务,加强和扩大与欧洲其他社会科学机构合作,提升数据的质量,促进和提高社会科学和人文科学的可视化,目前已有15个欧洲国家是其成员国。 
平台主要功能:
 
数据检索:根据关键词查找; 
数据分析:交叉表/相关/回归/权重/做图/做表 
数据下载:仅对会员开放 
线上线下交流:CESSDA培训促进调查数据管理和数据整理,能够满足研究和数字保存的需求。 
 
http://www.cessda.org/
21、欧洲社会调查(ESS)
成立于2001年,是一个欧洲范围内的跨国调查,主要目的是了解社会结构的稳定与变化,解释欧洲社会、政治、道德结构是如何变化的。研究来自欧洲30多个国家的多样化的人群的态度、信念和行为模式。
研究领域:媒体和社会信任、政治、主观幸福感、性别与家庭、社会人口统计、人类价值观、移民、公民参与、健康与保健、家庭和幸福工作、寿命、个人幸福、福利、年龄歧视、正义、民主、健康方面的社会不平等、公众对气候变化的态度。
http://www.europeansocialsurvey.org/data/ 
平台主要功能: 
数据检索:通过关键词检索,并通过年份、周期和国家查找数据; 
数据分析:交叉表/相关/回归/权重/做图/做表; 
数据下载:问卷(PDF)、报告(PDF)、数据(spss、sas、stata)。 
22、ESSDA:Estonian Social Science Data Archive
爱沙尼亚社会科学数据档案库由爱沙尼亚塔尔图大学创办于1996年,其涵盖的领域主要有:新闻学、农村社会学、教育社会学、家庭研究、性别研究、城市社会学、越轨社会学、民族政策。 
数据库提供两种数据检索方式:首字母检索和关键字检索。
http://www.psych.ut.ee/esta/essda.html
23、The Réseau Quetelet
是处于数据委员会政策框架下的法国社会科学数据档案库。其任务围绕着三个方面展开:数据归档、免费分发、发展数据。 
数据来源:Maurice Halbwachs中心(ADISP)、社会政治数据中心(CDSP)、INED数据服务。目前,可获取的数据集超过1100个。 
用户群体:法国和外国研究人员、博士生、博士后学生和硕士研究生。用户不仅可以通过数据库下载法国本地研究数据,还可以寻找国际研究数据用以比较研究,一些特定机构或部门还可以获取保密数据。 
http://www.reseau-quetelet.cnrs.fr/spip/?lang=en
平台主要功能: 
数据检索:根据关键字、作者、分类和变量进行查找; 
数据分析:提供在线访问调文档和变量描述,可以实现的功能有频率分析/交叉表/回归分析/图形创建; 
数据上传:签订上传协议→材料:调查描述(主要目标、抽样、收集等)、调查问卷、对研究方法和数据收集的额外信息说明(word、pdf)、在CMH-ADISP存储的数据(SAS); 
数据下载:身份验证之后可以进行下载; 
线上线下交流:提供调查统计和计算处理方面的培训。 
24、Finnish Social Science Data Archive 
是由芬兰教育和文化部成立的国家资源中心,主要任务是采集、处理和保存数据,向用户提供数据及与数据相关的信息服务,例如:数据二次利用、数据研究方法等。 
研究领域:老龄化和老人、孩子/童年与家庭、芬兰选举、当地政府、媒体、健康、移民外国人和种族主义、贫困、性与性别、体育与健身活动、福利与社会关系、工作与生活、青少年,目前,该平台已拥有1259个数据集。
 
用户群体:芬兰的大学、理工学院以及研究机构的学生以及工作人员。 
 
http://www.fsd.uta.fi/english/index.html
主要功能: 
数据检索:可通过数据标题、作者或者组织、摘要、关键词、主题、系列、数据类型、语言进行查找; 
数据下载:所有用户可用的数据集下载需要用户具有有效的电子邮件地址,用于研究、教学和学习的数据集在注册Aila之后可以在线下载定量数据集(SPSS)、定性数据集(RTF/TXT/PDF)。 
25、GESIS
成立于1986年,是德国最大的社会调查机构,目前有300名员工为研究者提供大量的、全面的、国际相关的调查;其专业的知识和服务随时准备回答各级研究人员在最新科学方法基础上与社会相关的问题。 
研究领域:调查方法、应用计算机和信息科学和社会科学调查。 
在研项目有:女性和性别调查、历史调查、社会指标调查、社会结构分析、选举与政治研究、价值观与态度研究。 
http://www.gesis.org/en/services/data/
平台主要功能:
数据检索:通过领域、种类和主题进行查找; 
数据分析:分析功能包括交叉表/相关/回归/权重/作图/重新编码(NESSTAR、NSDStat); 
线上线下交流:针对社会研究方法的培训,发展覆盖在整个研究周期的研究技能的深度培训。 
26、SRIC/TARKI Social Research Informatics Center (Budapest)
TÁRKI成立于1985年,在匈牙利有超过25年的社会科学研究经验。旨在为研究者提供基础设施服务。 
研究领域:社会分层、劳动力市场、收入分配、消费、生活方式和态度和市场研究。 
TARKI的客户群体包括政府机构、科研组织、国际组织和私人企业。 
平台主要功能: 
数据检索:可通过标题、研究者、机构、摘要和关键词进行搜索; 
数据下载:仅对会员开放(SPSS).
http://www.tarki.hu/index-e.html
27、ISSDA:Irish Social Science Data Archive
Irish Social Science Data Archive 由爱尔兰国际大学创办。是爱尔兰领先的定量数据获取、保存和传播中心。其任务是确保广泛获取社会科学的定量数据集并促进在爱尔兰经济和社会方面的国际比较研究。 
数据内容:意见调查数据、全国家庭调查(QNHS)、学校毕业生调查、公众对残疾态度的调查、爱尔兰公众对于林业的态度调查、生活方式和营养态度调查(SLÁN)、Teagasc国家农场调查(NFS)、爱尔兰老年纵向研究(TILDA)等 
用户群体:公共和商业部门的学生以及学术界的研究人员; 
http://www.ucd.ie/~issda/
主要功能:
数据检索:通过关键词查找 
数据分析:Nesstar数据分析软件,分析功能包括交叉表/相关/回归/权重/做图/做表。 
数据上传:需要提交的材料有:数据、数据字典、问卷、ISSDA存档人表格和许可证,上传的数据支持SPSS、STATA、SAS格式。 
数据下载:大部分需要申请,少部分可以直接下载,数据格式主要有SPSS、STATA、SAS、CSV、excel。 
28、Center for Social Research on Japan :Social Science Japan Data Archive日本社会科学数据档案
日本社会调查信息中心2009年由东京大学创建,它是一个日本社会调查数据的综合档案库,负责收集、编制、数字化日本社会的微观数据,目的是促进社会调查数据的再次利用。
数据主要内容:仅包含JGSS一个项目的数据(类似于中国的CGSS)。 
1998年-2015年底,SSJDA共有可用数据集1935个,申请者数量累计22907人,数据提供者累计35759人,累计发表文章1692篇,使用在线搜索系统的累计569017人次,访问的数据列表累计148332次。 
用户群体:研究人员和学生 
http://csrda.iss.u-tokyo.ac.jp/en/
主要功能: 
数据检索:通过主题、关键词和调查组织进行查找。 
数据分析:数据分析功能包括交叉表/相关/回归/权重/做图/做表; 
数据上传:步骤:填写微数据存款表格→向SSJDA提供软盘、CD或磁光(MO)光盘上的数据副本→提交调查报告和说明方法、数据格式以及编码程序的材料、调查问卷→回复SSJDA的任何查询问题,可接受的文件格式包括TEXT/SPSS/SAS/Excel/Lotus; 
数据下载:注册之后通过使用申请可以进行下载。 
29、Korean Social Science Data Archive 
于1983年由Lee Inpyo基金会创立,其主要目标是汇编和提供韩国定量和定性数据以及文献的综合数字档案。 
研究领域:政治、公共行政和法律、经济和商业管理、社会文化、社会问题、社会福利、心理学和教育和区域研究。 
 
用户群体:个人和组织。个人主要包括学生、学者和研究人员;组织主要包含学校图书馆、研究机构公有或私有组织。
 
http://www.kossda.or.kr/
主要功能: 
数据检索:可以通过标题、调查者/作者、出版者、关键词、变量、摘要和数据类别进行查找; 
数据分析:使用Nesstar进行数据分析,主要功能包括交叉表/相关/回归/权重/做图/做表; 
数据上传:接受韩国研究数据和文献,定量数据需要提供的材料包括数据、元数据和调查问卷、收集方法、代码本和编码指南;定性数据包括录像带、照片、CD、盒式磁带;文献包括基于研究数据的研究专著或者不是基于存储数据的研究专著。 
数据下载:会员用户可以请求数据用于研究、教育或浏览,非会员大学教师可以仅请求数据用于教育。每年最多允许下载30个定性和定量的数据,数据下载的有效期为1年; 
线上线下交流:提供数据分析方法的高级培训。 
30、Korean Social Science Data Center
于1997年成立,旨在建立一个管理社会科学数据综合来源的新系统,中心收集和管理与社会科学研究相关的调查数据和统计数据,帮助统计基础较差的学生和学者。
数据涵盖的领域有:政治、选举、管理、社会、文化、教育、环境、健康、法律、女性、科学及通讯。 
数据类型有:国家或地区层面的截面数据与时间序列数据。 
用户群体:学者和学生,仅对会员开放。 
平台主要功能:
数据检索:可以通过关键词、变量、主题和数据系列进行搜索所需内容; 
数据分析:可上传excel格式的数据在平台上分析; 
数据下载:仅对会员开放。 
http://www.ksdc.re.kr
31、Data Archiving and Networked Services
是荷兰的一个数据中心,致力于推动数字研究数据文件的可持续获取,鼓励研究人员归档、再利用数据。主要提供三种核心服务:数据归档、数据再利用和培训及咨询。 
数据主要来自瓦赫宁根大学等24个科研机构,目前汇集了超过6万研究的16余万数据集以供用户对数据进行二次研究。 
http://www.dans.knaw.nl/en/ 
平台功能:
 
数据检索:根据研究机构、研究状态、关键词进行搜索; 
数据上传:研究者可以实时上传并储存自己研究过程中的数据,并可以被DANS分享给更多人。这项服务可以大大提高研究的可见性和可寻性; 
线上线下培训:DANS培训及咨询服务则主要是针对数据管理及认证为用户提供数据再利用方面的建议。 
32、Norwegian Social Science Data Service
是挪威最大的数据中心之一,是由教育和研究部创建的有限公司。为挪威及国外的研究者和学生提供数据。此外,NSD是资源中心,协助研究人员收集数据、分析数据、提供方法等。 
目前该平台提供的数据包含:个人层面数据(个人调查的数据)、地区层面数据(包括范围广泛的数据,如人口统计数据、就业、经济发展和政治制度等)、政治系统数据、机构层面数据(描述组织机构、企业、大学等)。 
http://www.nsd.uib.no/ 
主要功能: 
数据搜索:根据地区、主题等搜索; 
数据分析:交叉表/相关/回归/作图/计算; 
数据上传:可上传的数据类型有:纯文本、文本文档、电子表格、数据库、统计数据、图片、录音、视频等; 
数据下载:支持SPSS、Stata、SAS、Annet dataformat格式数据。 
33、The Slovenian Social Science Data Archives
于1997年创建于斯洛文尼亚的卢布尔雅那大学,旨在获得社会科学家感兴趣的关于社会科学的数据,审查并电子化这些数据以备他人使用,目前保存了社会学科方面的600个调查。 
该平台的数据涵盖了人口学、人口、人口统计和普查、经济、教育、健康、房地产、信息和通信等领域。 
用户群体:国家和国际研究者、教师以及具有数据和统计素养的学生。数据一般用于科学报告和研讨会。数据也被用来做学生教学和实践练习的背景资料,还可以提供可用于设计新研究的相关数据(例如原始问卷和测量仪器)等。 
http://www.adp.fdv.uni-lj.si/en/prva.htm
主要功能 :
数据检索:可根据研究ID、系列、主题、发布者、年份、作者等获取数据; 
数据分析:交叉表/相关/回归/作图/计算; 
数据上传:将数据和相关文件上传至收藏云,由工作人员存储; 
数据下载:下载的数据支持SPSS、stata、sas、Nesstar Publisher等格式。
34、CIS
是马德里社会调查中心的简称。该中心主要通过开展定量、定性研究以此来分析并推进西班牙社会科学知识的发展。研究主要通过两种方式开展:中心自身开展或通过与公共机构或非营利组织合作来实现。
 
研究领域:选举调查、有关青年、移民、生活、公共安全、政治文化的专题调查、消费者信心指数和国际调查。
平台主要功能: 
数据检索:通过关键字进行搜索; 
数据分析:交叉分析/作图/做表; 
线上线下交流:包括对专业人士提供生产和统计数据分析的培训;对大学毕业生提供社会研究技术的培训,侧重于数据收集、分析、解释和演示;对研究生的实习,包括调查活动、管理、编辑文件和其他任何相关的时间活动;研究人员在社会科学方法论和实证研究的研讨会。 
http://www.cis.es/
35、Swedish National Data Service
由瑞典研究理事会创办,总部位于哥德堡大学。是瑞典调查与调查数据的基础。帮助瑞典和国际上的研究者获得瑞典和其他地区的已有的数据,为研究者提供整个调查流程的指导服务。 
研究领域:历史学、考古学、医疗和健康科学、政治学、媒体和交流、健康科学、公众健康/全球健康/社会医疗、社会科学、临床医学。 
数据来源:乌普萨拉大学、瑞典国家数据服务、瑞典哥德堡大学、于默奥大学、隆德大学、瑞典公共卫生机构等。 
主要功能: 
数据检索:可通过目录、类别、系列、调查单元等获取数据; 
数据分析:交叉表/相关/回归/作图/计算; 
数据上传:可在线上传。 
http://www.ssd.gu.se/enghome.html
来自:中国社会科学院社会学研究所、计量经济学服务中心
上述工具均已收录到大数据导航:http://hao.199it.com/
]]>
全球数据治理成为G20大阪峰会的中心议题 //www.otias-ub.com/archives/902059.html Thu, 04 Jul 2019 02:38:42 +0000 //www.otias-ub.com/?p=902059 Jitesh Ghai, Informatica高级副总裁

今年1月份,世界各国领导人齐聚达沃斯的世界经济论坛。来自中国、日本、南非、德国和其他国家的领导人在会议上出人意料地达成了一项共识,即:迫切需要提高数据采集、使用和共享的透明度并制定相关指南。

日本首相安倍晋三针对这一议题明确表示,在2019年6月28 – 29日于大阪举办的二十国集团(G20)峰会上,作为主席国,日本将致力于推动建立新的国际数据监督体系。安倍表示,“我希望G20大阪峰会因启动全球数据治理而被人们长久铭记。”

此外,二十国集团贸易和数字经济部长于近期也发表了声明:“数据、信息、思想和知识的跨境流动提高了生产力、增加了创新并促进了可持续发展。与此同时,我们也认识到,数据的自由流动带来了一些新的挑战。通过应对与隐私、数据保护、知识产权及安全问题相关的挑战,我们可以进一步促进数据自由流动并增强消费者和企业的信任。

从企业和政府的角度来看,以上情况均表明,世界各国普遍意识到了数据的重要性。这一觉醒让人们认识到,原有的企业数据管理方法将不再适合2020年以及之后的企业发展。

墨守成规是不行的。企业和政府部门需要齐心协力,在推动数据驱动的创新以及由此带来的经济增长的同时,共同采取积极措施,保护消费者。

政府的角度

我们正在见证数据治理背后的世界发展趋势。各国政府均意识到,我们所做的有关个人数据的每一件事都应考虑周全,且目的端正。因此,欧洲在去年出台了《通用数据保护条例》(GDPR)等隐私法规,美国则涌现出《加利福尼亚消费者隐私法案》(California Consumer Privacy Act)等一系列新的地方法规,很多人将其视为美国出台相关联邦法律的先兆。

这些全球范围内的立法工作试图解决与个人隐私、数据保护和安全性相关的诸多问题,同时,提高生产力,促进创新和可持续发展。在这些立法工作的推动下,数据治理已被世界各国提上了国家议事日程。

随着各机构将数据转化为创新平台,数字原生和既有品牌之间的界限变得越来越模糊。因此,从数据治理角度看,政府领导人承认,应采取恰当措施治理那些利用个人和敏感数据进行创新和实施管理的机构。

对于政府管控最担心的问题是,过度监管可能阻碍GDP增长,因为数字化所带来的生产力和创新机遇能够促进可持续且包容的经济增长。

在6月份的会议上,部长们认识到平衡两种需求的重要性,即:提高数据使用的透明度需求,以及欢迎并促进创新的需求。部长们表示:“我们认识到,数字时代的治理不仅要有利于创新,其本身也需要创新。同时,还不能丧失法律的确定性”。

令人鼓舞的是,决策者们明白,他们可以通过平衡经济发展和社会信任的方式在创新监管规定和最终实施方面发挥关键性作用。

企业的角度

对于各国政府的领导人来说,将数据治理作为优先任务还是一个重大新闻。但对于大型企业来说,这个话题在过去10年中一直在升温。虽然监管合规是数据治理的最初推动力,但是,基于高质量、可信数据的运营效率和不断提高的业务创新巩固了数据治理作为数据民主化根本推动力的价值。

对许多企业来说,早期的数据治理工作往往是在某个部门范围内,并且基于项目对目标计划提供支持,例如,监管合规性、事务性应用程序的数据质量,以及数据仓库和报表。但对于进入数据3.0时代(即利用数据驱动企业数字化转型)的每家企业而言,他们现在理解了对于整个企业范围内方案决策的方法需求,以便跨企业向技术和非技术数据消费者交付可信的、安全的数据,从而推动实施董事会的战略举措。随着数据量、用户和应用案例的增加、数据类型和用户技能水平的多样性变化,以及技术创新速度的加快,数据达到指数级规模且日趋复杂,这种情况在当下体现得尤为真切。现在,必须治理的信息已远不止在ERP、CRM或数据仓库系统中捕获到的结构化数据了。

我们正在管理数据湖中高达千兆字节(甚至数量更为庞大)的结构化和非结构化数据,以及跨越混合环境的数百个应用程序。各业务领域的人员都希望能访问以上所有数据源,以便提高决策能力和运营执行力,甚至迫切需要将这些数据运用到工作中,从而建立人工智能和机器学习模型,以实现企业未来的规模化发展。

企业也明白,他们的成功依赖于在正确的时间,基于正确的目的,使用正确的数据。获取这些数据需要所有利益相关者之间的信任,包括消费者、合作伙伴和政府部门,要使他们相信,这些数据的使用方式合规且合乎道德标准。实际上,像谷歌和微软这样的企业已经为人工智能和机器学习建立了各自的咨询委员会,并制定了工作指南。

部长们在早些时候的会议上重点讨论了如何确保“提供一个有利的环境,促进以人为本的人工智能,从而推动创新和投资”。部长们在声明中还发表了《G20人工智能原则》(G20 AI Principles),其中包括负责任地管理可信赖的人工智能。数据治理政策和标准将在清晰解释这些原则方面发挥主导作用。

共同的角度

G20大阪峰会已经成功召开,其中有一件事是肯定的:全世界都在关注数据治理,毫无疑问,这将会带来更大力度的监督和问责机制。现在,是国际社会达成共识的时候了,我们应继续培养并欢迎数据驱动创新,同时保护数据并尊重个人隐私。

对政府和企业来说,机会都是巨大的,且政府和企业均无法承担不作为带来的严重后果。如果政府和企业能够合作并认识到以合乎道德的方式使用数据是一种共同的责任,那么,数据就能推动全球经济,推动企业和社会发展。

为在当今数据驱动的经济中取得成功,甚至生存下来,政府和企业双方均应认识到,在数据被明智使用的情况下,数据治理不应被视为一种负担,而应被作为在企业中交付重要业务价值的同时建立信任的机会。我相信,政府和企业都会认同这一点,信任是最有价值的商品之一。

正如部长们给出的详尽阐述,“我们应密切合作,提升人们对数字经济的信任,利用数字化带来的优势,战胜相关挑战。”

]]>
腾讯QQ大数据:Quicksilver快数据处理系统 //www.otias-ub.com/archives/765934.html Thu, 30 Aug 2018 07:09:14 +0000 //www.otias-ub.com/?p=765934 导语: Quicksilver为神盾推出的一款推荐场景下数据快速处理系统,旨在解决数据如何在分钟级、秒级更新并对接线上。
背景

随着神盾推荐业务场景的不断深入,传统的离线训练+线上计算的模式可以说是推荐系统1代框架,已经不能完全满足部分业务场景的需求,如短视频、文本等快消费场景。下面先简单介绍下传统模式以及其在不断变化的场景需求中的不足点。

传统模式简单介绍
传统模式下,整个推荐流程粗略可分为,数据上报、样本及特征构造,离线训练评测,线上实时计算,abtest等。

• 优点:
系统架构简单
普适性较强,能满足大多数业务场景。

• 缺点:
数据及时性不够。
模型实时性不强。

下面举一个简单例子,来说明这样的问题:

小明同学在微视上看了一个视频,那么在推荐场景下,可能会遇到以上四类需求,并且每种需求对于数据的实时性要求并不一样。从推荐系统功能来看,可以概括为已阅实时过滤、用户行为实时反馈、物品池子更新等。所以如果要满足业务需求,从代码层面来看,这样的需求并不复杂,但是从架构层面或者可扩展性来说,神盾作为一个面向不同业务的通用推荐平台,就需要提供一个能满足大多数业务,对于快速据消费的通用平台。
针对不同业务、不同场景需求,神盾希望构建一个快数据处理系统,旨在满足更多业务场景的快速据消费场景。

需求调研

任何系统的搭建及开发离不开特定的业务场景需求调查,神盾根据多年业务经验,收集归纳了相关快数据处理的相关需求,具体如下:

我们深入调研、讨论,结合业界实践以及神盾的实际情况,总结为两类系统需求:

• 1、 近线系统。满足业务对于物品、特征、及其他数据类服务的准实时更新。

• 2、 在线学习。满足业务对于模型的准实时迭代更新。

基于以上调研,神盾推出Quicksilver(快数据计算)系统,解决推荐场景下快数据计算及更新问题。

系统设计

Quicksilver系统是一个集近线及在线学习能力为一体的通用架构系统,我们设计之初,从收、算、存、用四个维度来进行设计,如下:

• 收:数据的收集。目前主要支持基于DC、TDBank数据通道上报。

• 算:计算层。针对不同的数据类型,定义不同的计算模块。不同的计算模块,采样不同的技术方案来实现。例如对于物品池子此类分钟级更新要求的数据,我们采用sparkstreaming,而对于用户行为实时反馈等类数据,我们采用spp实时处理类服务器框架。设计中屏蔽掉用户对于底层实现的细节。

• 存:存储层。针对不同的数据规模及访问频率,神盾采用不同的存储介质来满足数据存储的要求及对线上服务延迟的要求。例如对于物品类特征、池子类数据,神盾采用自研的SSM系统,而对于用户类特征,数据量较大、存储访问实时性要求也较高,我们选型为公司的grocery存储组件。

• 用:使用对接层。通过Quicksilver计算得到的数据,我们均通过神盾产品化来配置管理,降低对于数据使用的门槛,最终可以通过配置,直接与线上的召回、精排、重排、规则等计算单元进行打通使用。

架构实现

以上为Quicksilver整体架构实现图,主要分为近线系统及在线学习系统。下面详细介绍。

近线系统

近线系统主要为了满足以下几类细分需求:

• 实时召回:
Quicksilver处理物料,经过各通道后到线上 (要求秒级,实际分钟级)

• 实时因子:
Quicksilver统计计算,经过各通道后到线上(分钟级)

• 实时特征:
统计型(物料、行为、场景):Quicksilver计算,经过各通道后到线上(分钟级)
实时特征(用户):实时特征构造引擎构造,构造后直接对接线上(秒级)

于是,在选型上,我们针对不同的数据计算模式,选择不同的计算平台,对于统计类型数据,我们选择sparkstreaming来作为我们的计算平台,对于实时性要求较高的数据,如实时反馈类,我们采用spp来进行平台型封装。

数据批处理

数据批处理是基于sparkstreaming实现,如上,有几点说明:
1、对于使用者来说,采用api接口封装,下层通信等均透明化处理。用户只需在处理不同的数据时,选择不同的接口即可,如物品池子接口,特征接口等。使用PB协议进行下层数据通信。

2、底层数据生成后,使用kafka进行缓存。
3、数据线上使用时,统一在神盾产品化上进行配置管理,降低运维成本。

数据实时处理

数据实时处理是基于spp server实现,如上,有几点说明:
1、对于用户来说,希望一次转发,多次使用。Quicksilver通过接入层interface来实现,业务只需要转发到统一的对外L5,即可实现数据一次转发,多次使用,如部分业务可能想即进行特征构造,有可以将数据转发到样本构造,在此即可实现。而所有的这些配置,也通过神盾产品化进行配置管理。
2、对于不同的业务,由于数据上报标准不一样,那么如何实现不同的数据上报标准都可以在Quicksilver上使用,这是实际中遇到的挺头疼的一件事。我们将这样的问题拆解成不同的数据标准,转化成神盾统一的上报标准的问题。于是,在实际代码开发中,只需要留出这样的转化接口,不同的业务实现不同的接口,并可以根据配置选择不同的接口,那么即可解决这一的问题,在这里,反射即可以很好解决这一的问题。

在线学习

在线学习有两方面优点,一是充分利用数据时效性,实时跟踪用户对物品的偏好,比如10点钟上线的新游,在11点的推荐结果中就可以反馈出不同用户对新游偏好情况,使得在尽快适应用户偏好同时,提升了apps转化率;二是在线学习前提是标记数据和特征在线拼接,该操作可以在一定程度上缓解模型离线训练资源不足瓶颈。

以某apps推荐为例,面临效果提升瓶颈,我们分析有两方面原因导致,一是数据源红利降低(新增数据源成本越来越高);二是高维线性模型遭遇瓶颈,暴力式特征交叉是LR模型提升特征维数的主要手段,它存在两个问题,一方面,做不同特征之间交叉组合需要一定成本,另一方面,无法穷尽所有交叉组合方式。

面对推荐效果提升瓶颈问题,有三种解决方案,一是继续想办法引入新数据源构建特征;二是充分利用现有数据源,尝试更好特征工程方法,比如Stacking集成或者特征工程自动化;三是考虑充分利用数据时效性,引入在线学习方案,实时跟踪用户对apps偏好变化。

Quicksilver在线学习架构设计如下:

整个系统主要细分为5个小模块:

• 样本采样:根据模型的优化目标支持自定义采样方法,同时在后期也需要将场景特征考虑进来,采样的结果作为实时拼接的输入

• 实时拼接:将实时样本的userid 、itemid的全量特征进行拼接,拼接的结果一方面可以作为离线平台的输入,另外一方面也可以作为特征引擎的输入;

• 特征工程引擎:根据各个在线训练算法的特征配置,从拼接好特征的样本中进行特征选择、特征交叉等操作,并将处理的结果写入kafka消息队列,模型训练和模型评估模块消费消息队列里面的数据进行训练和评估;

• 流式训练:消费kafka里面的样本数据,采用onepass或者minibatch的形式进行模型参数更新;

• 模型评估:对模型训练出来的模型实例,从kafka消费实时样本数据对模型进行auc评估。

下面关于几个较重要模块进行较详细介绍:

样本采样

• 使用spp server实现类map、reduce操作,采样的结果支持存储到kafka或者下一个实时拼接模块。

• 采样规则引擎基于flex/yacc设计实现。

• 所有采样的配置信息,均通过神盾产品化实现管理。

特征拼接

实时拼接服务主要是将样本中包含的物品和用户的“全量”基础特征拼接到一起,为下一步实时特征提供原料。 特征来源有是三个不同的地方:

• 用户特征(包括实时用户特征):目前主要是来自grocery

• 物品特征(包括实时物品特征): 目前主要从SSM中读取

• 场景特征:是在采样的过程中生成。

实时特征拼接后,下一步便是特征工程引擎的环节,目前主要支持内积、外积、笛卡尔积三种模式,在此不详细介绍。

模型训练

• 目前主要实现基于FTRL的lr及fm算法实现,正在调研参数服务器大规模生产环境使用的路上。

• 动态采样:有的算法算法需要控制正负样本的比例,但线上的流式训练与离线的batch不同,不能再训练之前就知道本次训练总样本量是多少,以及正负样本的比例,故需要根据设置的正负样本比例值,根据时间的推移来动态控制,即在训练的过程中动态采样。

• 低特征覆盖:为了提高模型的可靠性,其中方法之一就是在模型中结合场景特征屏蔽掉低覆盖度特征,与动态采样一样,流式训练时,在训练前无法统计提前统计出每个出现的频率,故也需要动态过滤低频特征,此方法不仅可以用在模型启动时,对于新加入的特征同样适用

模型训练后,即效果评估及上线环节,目前主要支持AUC、MAE等主要评估指标,在此不再详细赘述。

写在最后

对于任何系统设计来说,都不应该脱离实际的应用场景,这是神盾推荐系统一直贯彻的原则。Quicksilver系统也是神盾这么长时间来从实际的业务场景中收集需求、设计、实现的,已经在空间、电竞、手游、动漫、京东等多个业务场景中上线使用,并取得了不错的效果。神盾也不断在实际场景中继续完善、优化其中的相关能力,给业务带来更高的效果提升。

来源:腾讯QQ大数据

]]>
腾讯QQ大数据:机器学习建模问题中的特征构造方法 //www.otias-ub.com/archives/758115.html Tue, 07 Aug 2018 05:09:39 +0000 //www.otias-ub.com/?p=758115 导语 在机器学习建模问题中,合适特征的构造对于模型的性能至关重要,看到很多同学介绍特征工程,包括特征的预处理和特征筛选等,这些非常重要,但是特征预处理和特征筛选的前提是要有基础特征,而这些特征从哪里来,又如何构造?现在总结一下在推荐系统中比较通用的特征构造方法。

场景分析:

推荐场景一般可以抽象为:内容(Item)和受众(User),其中内容主要是指要推荐的Item,在购物场景中Item就是商品,歌曲推荐中Item就是歌曲,受众是访问当前场景的用户,一般是自然行为人;推荐模型一般是计算不同的User-Item对的得分,这个得分反映的是用户点击当前物品的概率,获取得分最高的Top n的Item推荐给用户,所以整个特征关联模型可以抽象为如下图-1所示:

图-1 推荐系统关系模型

其中,可以分解为如下几部分:User-Item特征、User特征、Item特征、User-Item属性分布特征,下面具体阐述每种特征的构造方法。

User-Item特征:

User-Item特征主要从三个维度来刻画User对Item的“兴趣”,如图-2所示:

图-2  User-Item类型的特征构造

1)时间序列上的统计特征:

统计特征从四个角度(绝对值,相对值,是否感兴趣和深度感兴趣)来刻画User对Item的“兴趣”。比如,时间序列中User累积对某个Item的行为次数就是User对Item的绝对兴趣值:如果时间序列分为:一天、三天、一周(实际中时间还需要继续拉长一点来刻画用户长期的兴趣),行为是“点击”。那么这一个特征构造语句就可以翻译成三个不同的特征:分别是最近一天,三天和七天用户对每个Item的点击次数;时间序列上User对Item是否有重复的行为用来刻画和区分哪些Item是对User有深度吸引力的,如果在一段时间上只发生了一次行为,那么很可能User对这个Item并没有兴趣,只是随便看看;时间序列上User对Item是否有行为,用来刻画User过去某一段时间用户的关注点在哪里,对哪些是可能喜欢的,和上面的一条特征的区别在于可以涵盖用户可能比较感兴趣的Item并且这样用户兴趣特征也会更加丰富。

2)时间特征:

时间特征从三个角度(最近时间,行为频度,行为稳定性)来刻画用户对于Item的兴趣在不同时间上的活跃度。比如,User对Item的最后行为时间,可以翻译成一个时间特征,可以将这个时间进行归一化为一个0—1的标量,越接近于1表示User对这个Item具有越强的新鲜度;User对某个Item的平均行为时间间隔用来刻画User对Item的活跃频率,时间间隔越小说明对用户的吸引力越大。User对Item的行为时间间隔方差可以用来刻画User对Item的喜好的稳定性。

3)趋势特征:

趋势特征主要刻画用户对某个Item的兴趣趋势。比如,User一天对Item的行为次数/User三天对Item的行为次数的均值,表示短期User对Item的热度趋势,大于1表示活跃逐渐在提高;三天User对Item的行为次数的均值/七天User对Item的行为次数的均值表示中期User对Item的活跃度的变化情况;七天User对Item的行为次数的均值/ 两周User对Item的行为次数的均值表示“长期”(相对)User对Item的活跃度的变化情况。

User特征:

User特征主要包括用户的属性特征以及从多个方面刻画用户的“活跃度”,User类型的特征构造方法如图-3所示:

图-3  User类型的特征构造

时间序列的统计特征:

主要从三个维度(User总活跃,用户深度活跃,用户对于Item的覆盖度)来刻画用户的活跃。比如,时间序列上User行为次数总和,在划分成三个时间细粒度的情况下,可以翻译成三个特征,分别是一天,三天和七天User的行为总和,来表示User在当前时间段上的活跃。时间序列上User重复行为次数用来刻画用户真实的活跃深度。时间序列上User有行为的Item的数量,可以用来刻画用户的活跃广度,来表示用户是否有足够的意愿尝试新的Item。

1)时间特征:

主要从三个角度(最近时间,行为频度,行为稳定性)来刻画用户的活跃度。比如,User最后行为时间,时间越接近当前时间说明User的活跃度越强;User的平均行为时间间隔用来刻画User的活跃度,时间间隔越小说明User的活跃度越强。User的行为时间间隔方差可以用来刻画User活跃的稳定性。

2)趋势特征:

趋势特征用来刻画User的活跃趋势。比如,User一天的行为次数/User三天的行为次数的均值,表示短期User活跃趋势,大于1表示活跃逐渐在提高;三天User的行为次数的均值/七天User的行为次数的均值表示中期User的活跃趋势;七天User的行为次数的均值/ 两周User的行为次数的均值表示“长期”(相对)User的活跃趋势。

3)属性特征:

主要用来刻画用户的一些属性特征包括性别、年龄、学历以及使用机型等。

Item特征

Item特征主要包括Item的属性特征以及从多个方面刻画Item的“热度”,Item类型的特征构造方法如图-4所示:

图-4  Item类型特征构造

1)时间序列的统计特征:

从三个维度(Item的行为热度,热度趋势和时间间隔)来刻画Item的热度。比如,时间序列上Item行为次数总和,在划分成三个时间细粒度的情况下,可以翻译成三个特征,分别是一天,三天和七天Item的行为总和,来表示Item在当前时间段上的热度。时间序列上Item被重复点击次数用来刻画Item真实的热度深度,尤其在APP的推荐上,重复的使用或者点击说明当前APP对用户的吸引力越强。时间序列上和当前Item发生行为的User的数量(去重)刻画了Item的热度的广度。时间序列上Item的点击和曝光的比值(User不去重)—CTR,刻画了Item在相同曝光下被点击的概率。时间序列上Item的点击和曝光的比值(User去重)—CTR,刻画了Item在相同曝光下被点击的概率,剔除了某些特殊情况某个User对某个Item的行为过于集中的情况。

2)时间特征:

主要从三个角度(最近时间,行为频度,行为稳定性)来刻画Item的热度。比如,Item最后行为时间,表示Item的最近活跃;Item的平均行为时间间隔用来刻画Item的热度,时间间隔越小说明的热度越高。Item的行为时间间隔方差可以用来刻画Item热度的稳定性。

3)趋势特征:

主要刻画Item的热度和CTR的趋势。比如,Item一天的行为次数/Item三天的行为次数的均值,表示短期Item的热度趋势,大于1表示热度逐渐在提高;三天Item的行为次数的均值/七天Item的行为次数的均值表示中期Item的热度趋势;七天Item的行为次数的均值/ 两周Item的行为次数的均值表示“长期”(相对)Item的热度趋势。另外一种特征表示CTR的趋势:其中一天的Item的CTR / 三天Item的CTR表示“短期”Item的CTR趋势信息。

4)属性特征:

主要用来刻画Item的一些属性特征主要包括所属的类别。

User和Item之间的属性分布特征:

主要通过计算在不同时间段上User和Item之间的行为的统计特征:如果当前的User的属性包括:性别、年龄和Device,Item的属性包括:Item_id和类别,那么特征构造方法如图-5所示:

图-5  User和Item之间属性分布特征构造

1)时间序列上Item在Age的分布特征:

通过计算Item在年龄段上的行为数量(User不去重和不去重)来刻画Item在不同年龄段上的热度;Item在年龄段上的行为数量/Item总的行为数量来表示User在年龄上的热度分布;Item在不同年龄段上的点击和Item在相应的年龄段上的曝光之间的比值来刻画Item在不同的年龄段上的CTR。

2)时间序列上Item在Gender的分布特征:

通过计算Item在性别上的行为数量(User不去重和不去重)来刻画Item在不同性别上的热度;Item在性别上的行为数量/Item总的行为数量来表示User在性别上的热度分布;Item在不同性别上的点击和Item在相应的性别上的曝光之间的比值来刻画Item在不同的性别上的CTR。

3)时间序列上Item在Device的分布特征:

通过计算Item在不同Device上的行为数量(User不去重和不去重)来刻画Item在不同Device上的热度;Item在不同Device上的行为数量/Item总的行为数量来表示User在Device上的热度分布;Item在不同Device上的点击和Item在相应的Device上的曝光之间的比值来刻画Item在不同的Device上的CTR。

4)时间序列上User在ItemType上的分布特征:

通过计算User在不同的ItemType上的行为数量来刻画Use对不同的ItemType的喜好,计算User在不同的ItemType上是否有行为来刻画在时间段上User是否对当前的Item的类型感兴趣,计算User的行为在不同的Item上的分布来刻画对不同的ItemType的喜好程度。User在一段时间内,是否在ItemType上有重复行为,来刻画用户是否对当前ItemType深度感兴趣。

5)时间序列上ItemType在Age上的分布特征:

通过计算ItemType在不同年龄段上的行为数量(User不去重和不去重)来刻画ItemType在不同年龄段上的热度;ItemType在不同年龄段上的行为数量/ItemType在年龄段上的用户数量来刻画当前ItemType对这个年龄段的User的吸引程度;ItemType在不同年龄段上的点击和ItemType在相应的年龄段上的曝光之间的比值来刻画ItemType在不同的年龄段上的CTR。

6)时间序列上ItemType在Gender上的分布特征:

通过计算ItemType在不同性别上的行为数量(User不去重和不去重)来刻画ItemType在不同性别上的热度;ItemType在不同性别上的行为数量/ItemType在当前性别上的行为用户数量来刻画当前ItemType对这个性别的User的吸引程度;ItemType在不同性别上的点击和ItemType在相应的性别上的曝光之间的比值来刻画ItemType在不同的性别上的CTR。

上面列举了一些常见属性之间的分布特征,都是User针对Item或者Item针对User的统计分布,这些只是大部分场景中会出现的场景,在具体的业务中可以根据实际可以获取到的属性结合和样本之间的相关性来进行建模。

特征选择:

在实际的业务中,首先需要思考的是如何正确的构建样本对,在恰当的样本对构造的基础上思考和样本标签具有相关性的因素,这些因素包括用户和物品侧,找到这些因素之后才是特征构建,不同的场景和算法情况下需要不同的特征选择:比如说游戏推荐中活跃时长、付费意愿很重要,而弱化了在性别上的分布,因为游戏属于用户粘性比较大的类型,在商品推荐中性别分布和浏览、加购物车行为则同等重要,因为用户的性别和用户之间的兴趣有很强的相关性;对于不同的算法同样也需要不同的特征体系,对于逻辑回归这种解释性很强的线性模型,通常需要根据建模场景选择特征的细粒度,然后生成和样本具有相关性的特征,获取相关性最直接的方法是对特征进行特征交叉,而对于树模型或者FM模型,理论上则不需要进行特征交叉,因为模型本身就具有了特征的交叉能力。总之,合适模型加上适配的特征特征体系才能获得较好的效果。

小结:

特征工程通常在算法调优中占据了大部分的时间,本文旨在通过梳理推荐系统中常用的特征构造方法,实现快速的特征构造。本文主要是面向初涉推荐系统的同学,可以快速构造一些简单有效的特征,同时,本文提到的一些特征构造方法在某些场景下是冗余的,并不能带来新的信息,所以在实际的应用场景中还需要根据需求进行选择。

附录:

整体特征构造框架如图-6所示:

图6 特征构造框架

 

来源:腾讯QQ大数据

]]>
腾讯QQ大数据:相关推荐之反浩克装甲 //www.otias-ub.com/archives/743157.html Sun, 01 Jul 2018 10:57:18 +0000 //www.otias-ub.com/?p=743157
写在前面

本文介绍了神盾推荐系统中基于热传导模型的相关推荐模块. 神盾推荐系统是 SNG 数据中心立身 QQ 大数据构建的通用化推荐平台. 服务于应用宝, 手Q手游推荐, 企鹅 FM 等多个应用场景, 为业务方提升收入, 提高用户体验做出巨大贡献.

代号说明

神盾的基于热传导模型的相关推荐模块的代号是 “反浩克装甲” (Hulk Buster), 来源于”复仇者联盟2” 中钢铁侠开发用来对抗绿巨人浩克的专用装备. 其以模块化思路设计, 平时运行在近地轨道中, 有需要的时候可以分散投射到战场组合使用.

反浩克装甲

神盾推荐的反浩克装甲起步于应用宝的推荐场景, 其后在企鹅 FM 的相关推荐场景上进行了快速的迭代升级. 最终取得对比原始 ItemCF 超过 25% 的效果提升.

什么是相关推荐?

在推荐系统发挥用武之处的各个场景中, 相关类的推荐是一个比较常见的场景. 其要面对的场景可以定义为:用户在找到自己喜欢的东西并进行消费的时候或者消费行为完成之后, 对用户展示一些相关的物品以便用户继续消费.

这可以是电台 app 里面的 “收听过这个电台的用户还听过…”, 也可以是书城里面的 “看了又看”, 也可以是视频网站里面的 “相关视频”. 通过相关推荐, 我们可以为用户提供更好的浏览体验, 并把用户和更多的服务连接起来.

应用宝和企鹅 FM 的相关推荐场景

怎么推荐相关物品

本文讨论的问题是基于物品相关的解决方案:针对每一个待推荐的物品计算一个相似物品列表, 然后在用户访问的时候, 拉取相似度最高的几个物品用于展示.

这种方法的特点是每个用户的推荐结果是一样的, 是一种非个性化的解决方案. 由于所需存储资源和内容库里面的物品数量相关, 因此好处在于能够节省资源, 避免用户增长带来的成本问题. 而且只要物品相似度模型建好了, 用户体验都能够达到令人比较满意的程度. 但这种方法只适合物品数量不会爆发式增长的场景, 例如应用宝的应用推荐, 或者视频网站的视频推荐. 另外, 其毕竟是一个非个性化推荐算法, 每个用户看到的内容都是一样的, 从而推荐效果存在较低的天花板.

神盾的相关推荐方法
1 以图计算的思维做推荐系统

物品相关算法最经典的应该是 ItemCF 算法. 但在神盾的相关推荐场景中, 我们大量使用了周涛1提出的热传导算法, 因为其在我们大量线上实验中获得了更好的推荐效果.
但在此我们更想强调算法背后的复杂网络思维. 这个算法把推荐实例中的用户和待推荐物品的关系类比为二分图, 当用户对物品的行为有操作的时候, 我们就可以在中间连一条线. 通过构建用户 – 物品二分图, 我们可以认为被同一个用户操作过的物品是相互关联的. 这种把问题看做一个图的研究视角, 给我们之后的进一步优化提供了便利.

通过把用户和物品当作网络上的节点的形式, 我们可以更直观的思考推荐

离线训练先行,在线a/b test验证

ItemCF 等物品相关算法, 大多都是根据用户的行为利用统计方法计算得到, 并不是根据某个目标函数朝着最优解优化. 在实际的推荐场景中实现某个优化项的时候, 我们通常会面临许多超参数的选择. 例如, 要选择多长时间的用户行为去构建二分图, 或者热传导算法参数的选择. 有时候囿于流量我们可能没有办法把每一个候选集合都试一遍, 因此在实际操作中我们会构建一个离线训练场景, 用于调试新的算法特性, 然后推到线上用 a/b test 去验证.

至于离线场景的构建, 一般是利用用户的实际流水, 看相关推荐的结果是否能够预测用户的下一步行动. 这里的技巧在于, 构建离线训练场景之后需要依此在线上投放几次 a/b test, 以验证线下场景的有效性.

神盾的反浩克装甲

为了获得更精准的推荐结果, 神盾推荐团队在热传导模型的基础上做了大量的努力, 最终得到现在的代号为反浩克装甲的相关推荐模块. 下面介绍该模块的主要特性:

热传导算法 — 均衡长尾与热门的桥梁

▲  引入热传导, 调整热门和冷门物品的权重, 平衡推荐的精确度和多样性.

在热传导算法的论文中, 作者强调该算法能够平衡推荐的精确度和多样性, 能够在保证精确度的情况下, 让长尾物品的相关度靠前. 在实际操作中, 我们可以利用算法的参数, 调整 “冷门” 和 “热门” 物品的权重, 从而适应不一样的场景. 例如, 我们发现相比应用宝的 app 推荐, 企鹅 FM 的电台相关推荐应该要用一个更加偏向冷门的权重.

热传导算法1实际上是两种能量传递模式的组合, 一个倾向于推荐流行物品, 另一个倾向于推荐冷门物品. 图片来源2

用户和物品的有效链接 — 避免错进错出

 

▲  用户和物品的链接, 应该是建立在用户真正喜欢这个物品的基础上

在用户 – 物品的二分图上, 边的定义是第一步, 也是最重要的一步. 因为有一些用户操作可能并不代表用户真正喜欢这个物品, 盲目投入用户对物品的所有操作行为, 可能会出现 “Garbage In Garbage Out” 的情况. 因此神盾团队在构建推荐算法时, 会分析先行, 用数据确定什么情况下用户和物品才能够有一条链接.

以企鹅 FM 为例, 我们统计企鹅 FM 用户收听比例 (收听时长/节目总时长) 的分布, 发现用户收听行为主要集中在两类, 一类是收听比例<10%, 一类是收听比例>90%. 我们可以认为, 如果用户收听一个节目不足总时长的 10% 就停止播放了, 那么很有可能他们并不喜欢这个节目, 把这些数据投入算法可能会造成不好的影响, 因此在构建二分图前去掉.

物品度过滤 — 工欲善其事必先利其器

▲  过滤用户数较低的物品, 让推荐更有把握, 多阈值融合, 保证覆盖率.

如果一个物品只被一个用户喜欢, 按照热传导的逻辑, 这个用户喜欢的其他物品会出现在这个物品的相关列表中. 但这样实际上很容易把不相关的东西联系在一起, 因为一个用户的兴趣可能非常广泛. 因此, 有必要过滤掉一部分用户数较少的物品.

度小于一定阈值的节点将会被被隔离在训练之外, 取阈值为2, Item3 会在训练前被舍去

以用户 – 物品二分图的视角来看, 喜欢某个物品的用户数量, 就是这个物品的度, 在我们看来, 这个度的越大意味着它的推荐结果越有把握. 对物品的过滤, 实际上就是把度较低的物品进行一次过滤.

支持度过滤阈值越大, 对推荐结果的把握也越大, 但是能够获得推荐结果的物品的数量就会越少. 为了保证覆盖率, 可以分别用两个阈值训练出两个模型, 然后用低阈值的结果给高阈值的结果做补充.

多特征融合 — 尺有所短, 寸有所长

▲  融合用户和物品的属性及不同行为的行为特征, 能提高推荐的覆盖率, 解决冷启动问题, 充分发挥不同特征的数据价值.

在推荐中, 一般除了用户在应用内的行为数据之外, 我们还能够获得其他的一些信息. 例如用户的基础画像, 或者物品的基础信息. 但热传导算法的作者并没有提出如何把多种特征融合到模型中.

这里我们采用了大特征的概念3, 把特征本身当作一个节点加入到二分图中. 例如, 我们可以把企鹅 FM 里面的专辑分类当作一个 “用户”, 专辑对某个分类的隶属关系, 在二分图中可以看做某个分类 “喜欢” 这个专辑. 用户的属性依然, 我们能够把性别(男/女)当作一个物品, 引入到二分图中.

用户的特征被当做一个物品加入到二分图中, 物品的特征则看做一个用户, 此时冷门 Item4 也能获得关联

这样做有一个好处, 就是能够提高推荐的覆盖率, 让一些没有用户操作过的冷门物品(或者新物品)也能够通过物品的基础属性(例如分类)连接起来. 从而能够解决冷启动问题. 但通过简单的推导可以发现, 如果有一个物品没有用户操作行为数据, 只有一个”分类”属性, 那么在热传导算法的推荐结果中, 它会给出同分类最冷门的物品, 也就是另一个没有用户操作行为的物品. 这实际上不怎么合理. 这里的解决办法有二, 一个是引入更多的物品信息, 让物品尽可能多维度的连接起来, 另一个是做物品度过滤.

引入时间因素 — 世事常变,变幻即永恒

▲  利用时间因素, 去掉时间间隔较大的两次用户行为生成的链接.

现有的模型在选定了训练时长后, 会将用户该时间段内形成有效链接的所有物品关联在一起, 这样可能会把一些具有时效性的内容关联在一起. 以企鹅 FM 为例, 用户白天听的 DJ 摇滚和晚上的轻音乐, 躺在床上听的《鬼吹灯》和车上听的交通电台, 都有可能被链接起来.

为了解决这个问题, 我们把用户对物品的操作时间引入到推荐中, 从而让两个物品不再因为时间跨度较大的行为而联系在一起, 这里我们采用的方法是把处在不同时间窗口的用户看做多个节点, 从而强化同一个时间窗口内被操作的两个物品的联系.

用户根据操作日期被看做成多个节点, 从而只有同一天的操作行为会把物品关联起来, 这里 User1 被分割成 9月9日的 User1 和 9月12日的 User1

 

引入CTR重排序 — 他山之石, 可以攻玉

▲  可以利用用户对推荐结果的反馈信息, 修正推荐结果.

虽然特征的丰富和模型的优化能够很大的提高推荐的效果, 但我们认为推出看起来不怎么准确的结果仍是很难避免的. 对此我们的一个做法是: 把推荐的结果推给用户, 看看用户是否有点击, 对于用户喜欢点击的物品, 提高它的权重; 对于没有点击的物品, 则降低它在推荐列表中的排序.

为了利用用户的实际行为修正推荐结果, 我们计算了每一个待推荐物品和相关物品的转化率, 然后用转化率对权重进行调整. 而这里需要考虑的是有些相关物品限于槽位并不会被用户看到, 从而无法计算转化率, 这里我们利用了神盾实现的点击转化率平滑4模块, 对点击量过小的物品赋予一个预估的转化率.

分群热传导 — 物以类聚, 人以群分

▲  按用户属性分群, 各群分别构建热传导, 开创个性化的相关推荐模型.

在服务资源有限的情况下, 非个性化物品相关推荐能够用较少的资源为海量用户提供服务. 但当资源充足的时候, 我们可以考虑把用户的因素考虑进去. 在神盾推荐系统中, 我们实现了按照用户的基础信息和画像分群投放热传导的推荐逻辑. 具体的思路是针对每个群体训练一个热传导模型, 当用户发起推荐请求的时候, 给出对应群体的推荐结果. 为了发挥 QQ 海量用户画像的价值, 神盾对用户展现的推荐结果, 可以由用户所属不同群的推荐结果进行加权获得

不止是相关推荐

本文介绍了神盾推荐团队这几个月内在相关推荐这个场景下的工作成果. 我们在一个简单的网络的基础上, 构建了一个多层次, 能利用多种数据源的推荐策略. 经过线上数据检验, 这个方法能够获得对比传统 ItemCF 算法超过 25% 的性能提升.

但是相关推荐并不是我们努力把物品更准确的链接起来的唯一目的. 计算物品关联还有其他的用处:

1、物品相关的结果可以直接或者间接的被用于个性化推荐,可以根据用户的历史行为, 找出跟用户历史最为相似的物品, 推荐给用户;也可以把物品相似度看做一个特征, 融入到其他模型中;

2、通过把物品关联起来, 我们可以构建一个物品网络, 对物品网络的分析, 能够让我们更加的了解每一个物品. 例如, 我们尝试把企鹅 FM 的电台通过物品相关构建一个电台网络,在分析中我们发现相似的电台会形成社团, 我们认为这隐含了物品的基础特征.

对企鹅 FM 的音乐分类的物品关联网络进行可视化, 节点大小与被关联次数相关, 颜色为社区发现结果

这两个应用场景, 我们认为将可以有效提升推荐效率以至于我们对用户的理解, 因此非常值得我们进一步探索和研究.

附录:推荐系统中的热传导算法简介

热传导算法是一个利用了复杂系统中热扩散思路计算物品相似度的推荐算法. 该算法的把用户和物品看做两类不同的点, 并把用户和物品的操作看做一条边连起来, 从而生成一个二分图. 算法假定每一个物品都分配了一定的能量, 然后沿着二分图的边, 进行能量的传递, 传递后的能量状态揭示了物品的相关程度.

算法原文探讨了两种能量传递的方法, 可以导出两种不同的物品相似度计算方式:

这里 α和 β是两个物品, aαi=1代表用户 i与物品 α有一条边, aαi=0表示没有. 而 ki=∑αaαi是用户的度, 即连接到用户的边的数目, 类似的 kα为物品的度.

可以看到两个相似度计算方式的差异主要在系数上. kα实际上计算了该物品被多少人操作过, 一定程度上代表了物品的热度. 因此 WαβP的计算方式很好的抑制了物品 α和热门物品的相似程度. 从而会让冷门的物品获得更高的关联得分.而真正的热传导模型, 则是通过引入控制参数 λ来实现兼顾精确度和多样性:

参考文献:

1、Zhou T, Kuscsik Z, Liu J G, et al. Solving the apparent diversity-accuracy dilemma of recommender systems[J]. Proceedings of the National Academy of Sciences, 2010, 107(10): 4511-4515. :leftwards_arrow_with_hook:

2、https://www.zybuluo.com/chanvee/note/21053 :leftwards_arrow_with_hook:

来源:腾讯QQ大数据

]]>
腾讯QQ大数据:手Q游戏中心的个性化推荐实战 //www.otias-ub.com/archives/743170.html Sun, 01 Jul 2018 10:49:00 +0000 //www.otias-ub.com/?p=743170

前言

自手Q游戏中心V6.0改版以来,产品形态发生了较大的转变,不再是纯粹通过app列表做游戏分发,而是试图通过内容来带游戏分发,全新的产品形态给推荐算法带来了许多的挑战。截至4月初,算法一期的工作已接近尾声,借此机会写下总结,一方面是将整个游戏中心的推荐逻辑进行梳理,并将其中的一些经验沉淀总结,方便回溯;另一方面也试图在梳理的过程中,整理出遇到的一些挑战,能够更加明确算法二期的一些迭代思路。

背景

手Q游戏中心作为腾讯手游重要的分发渠道之一,既是用户发现感兴趣游戏的重要入口,同时也提供了各手游平台运营的能力。新版游戏中心不再是纯粹地通过传统app列表的方式做游戏分发,而是新增了一系列通过内容(攻略、视频、直播、礼包等)拉下载、拉活跃的场景(如图1所示)。为了更好地提升用户进入游戏中心的体验以及满足平台精细化运营(拉新、拉活、拉付费等)的需求,通过海量用户的行为流水挖掘用户游戏偏好,精准推荐用户感兴趣内容成为了必然趋势。为此,我们设计了全新的个性化推荐框架,给业务带来了显著的转化率提升。

图1:游戏中心个性化推荐场景

       为了更好地制定算法二期的迭代计划,本文主要对算法一期的工作做一个简单的复盘,一方面是将项目开展过程中的一些经验进行总结沉淀,另一方面也是想对游戏中心推荐场景中比较有挑战性的问题进行梳理,以便算法二期迭代过程中更加具有针对性。

整体推荐框架

本节主要结合游戏中心个性化推荐的算法框架(如图2所示)以及工程框架(如图3所示),对项目过程中遇到的一些问题进行总结归纳。游戏中心所采用的推荐框架是业界常见的三段式推荐逻辑:offline—nearline—online。离线层主要负责存储全量用户在游戏中心的流水数据、计算用户长期的行为属性以及训练用户的游戏偏好模型等;近线层主要是为了解决离线层计算周期长,响应速度慢的缺点,通过实时计算用户的短期兴趣,反馈到线上,从而能够对用户在游戏中心的行为做到实时反馈;在线层可以理解为推荐引擎,主要是对业务请求通过一系列的计算,返回最终的推荐结果列表,在线层可以细分为召回层—精排层—重排层结构。

图2:游戏中心个性化推荐算法架构图

图3:游戏中心个性化推荐工程架构图

  • 离线层

离线层适用于用户长期兴趣的计算、离线模型的训练、模型参数的实验以及其他对时效性要求不高的任务,因此离线层主要采取HDFS+Spark的工程实现(批处理的计算方式)。业务数据通过DC或者TDBank上报,累计一定的数据量(游戏中心是以每小时为周期)周期性落地到HDFS或者TDW中以库表的形式存在,以Spark为计算引擎,对库表数据进行一系列处理后,将结果数据推送到线上存储,构成线上推荐引擎的重要数据来源。对于游戏中心这个场景,离线层的工作流可以划分为6大步骤:推荐物料的准备、数据处理、样本设计、特征提取、模型训练、数据上线。

1、推荐物料的准备

对于推荐系统来讲,第一个需要确定的就是推荐物料(也就是推荐池子)。游戏中心推荐的物品主要有两大类:第一大类就是游戏app,目前游戏中心接入算法的游戏app主要包括精品游戏、单机游戏,基本上每天变化不大,因此该类物料由业务每天例行上报更新并推送到线上存储即可。第二大类就是游戏内容了,主要包括攻略、视频、直播等,该类物料相对来讲实时性要求会高一些(新游上线当天需要内容同步更新)。目前游戏中心的内容来源数据链路如图4所示,主要来源是一些上游PGC内容的采购,经过自动Tag提取之后进入到标签内容库,算法侧直接从标签内容库获取推荐物料,目前是按小时更新。

图4:内容源数据链路

2、数据处理

熟悉推荐流程的同学可能比较清楚,数据处理过程繁琐枯燥且耗时较长,占据了整个算法开发周期60%以上的时间,贯穿整个开发流程。没入坑之前有些人可能会以为推荐算法工程师是一个高大上的职位,每天舒舒服服地看下paper,研究下算法,做下实验,特别酷。入坑之后就会发现,每天干的最多的活就是处理数据。但这也充分说明了数据处理的重要性,毕竟只有充分了解数据才能更了解业务,才能更加合理地设计你的推荐策略。这儿讲的数据处理主要包括数据验证、脏数据过滤以及数据转换等。下面主要总结一下在数据处理过程中所踩过的坑:

(1)一定要做好数据上报准确性的验证:前端同学有时候可能不是特别了解算法同学对于上报数据的诉求,所以在上报的时候可能会出现目标不一致的情况。常见的情况有:上报逻辑出错(分页feeds曝光只上报了第一条feeds的数据)、上报id错位(曝光的operid报了下载的数据),上报id缺失等。而验证数据上报准确性的常规操作就是打开游戏中心,将每个场景你有可能会用到的用户行为都操作一遍,记下操作时间,一个小时后从流水中捞出你的数据,逐一验证是否合理(噩梦)。

(2)推荐逻辑出现问题时候优先考虑数据的准确性:当推荐结果产生问题或者出现bug的时候,优先检查数据的准确性。模型的鲁棒性以及容错性一般都较高,最可能出现问题的往往是数据环节。通常都是沿着数据链路往上游逐步排查从而定位问题。

(3)对业务流水数据做一层数据中间表做解耦:算法开发过程中,最好不要直接操作operid相关的逻辑,遇上业务改上报id时(比如产品改版换了新的一套operid),改代码改的你头疼。

(4)算法接入后一定要跟产品以及前端同学再三确认算法ID的上报准确性:业务在调用推荐引擎时都会获得一个算法ID,算法ID上报的准确性直接影响效果监控报表的可信度。很多时候上了一个算法策略结果发现线上效果突然下降,排查半天才发现原来部分转化行为的算法ID上报缺失,所以这儿一定要仔细验证清楚。

(5)脏数据过滤是一门玄学:脏数据的定义通常需要根据业务场景来决定,有时候信心满满地将所有脏数据都过滤之后,线上效果反而降了,所以在过滤数据时要留个心眼(什么样才是脏数据?脏数据是不是一定没用?不要想当然,还是用线上效果说话吧!)。

(6)建立完善的报表监控体系:推荐的一个重要环节就是报表监控,不仅仅包括对效果的监控,还包括对池子的监控、核心用户的监控、item场景表现的监控等。只有建立完善的监控体系,才能在推荐结果受到挑战时快速定位问题。

图5:游戏中心报表监控体系

3、样本设计

一般来讲,推荐问题都会转换成二分类问题,也就是判断用户对某个物品是否会产生操作行为(通常一个U-I对就是一个样本),那么要训练出一个看起来合理线上效果又比较理想的二分类模型,正负样本的设计显得极其重要,下面总结一下游戏中心在设计不同场景的样本时的一些经验:

(1)如何正确定义正负样本?在纯icon推荐的场景,咋一看可以理解为用户下载了该app就是正样本,没有下载就是负样本。但仔细一想这样做会产生两个问题,第一个问题就是正负样本极其不均衡(机器学习中经典问题之一),因为用户浏览几十个app可能也就下载1个app,当然,机器学习针对正负样本不均衡问题会有很多解决方法,这儿就不展开描述了;第二个问题就是用户没有下载并不代表就是不喜欢,这儿会有几个值得推敲的地方:1)用户曝光了但是从没有产生过下载行为,可能因为是无效曝光,用户关注的焦点不在这,所以无法判断用户到底是喜欢还是不喜欢;2)用户在游戏icon曝光的场景并没有产生下载行为,但是用户产生了点击行为,从而进入到游戏详情页后产生下载行为,这样是不是可以认为用户其实是喜欢的,产生的也是正样本呢?举这么个例子主要是为了说明,对于每个不同的推荐场景来说,正负样本的设计都应该充分结合业务特性,不然容易产生有偏样本。

(2)设计样本时应保证每个用户样本数的均衡:在app分发或者内容分发场景,容易存在一些刷量用户;该批用户频繁进入游戏中心从而产生多次操作行为,因此在设计样本时应对多次操作的U-I样本对去重,并保证每个用户样本数的均衡,从而避免模型被少数用户所带偏。

(3)样本权重的设计问题:在feeds推荐的场景中,不同推荐槽位所产生的样本权重应该有所不同;比方说首页feeds场景,用户刚进入场景时,注意力会比较集中,产生的负样本应该置信度较高,权重也较高;当用户下滑到后面feeds的时候,对feeds的内容可能会比较乏味了,产生的正样本置信度应该也是较高的,权重应该也设置较高。

(4)适当丰富样本来源的多样性:一般样本都是基于当前场景所产生的用户行为来选取的,而当前场景用户的行为某种程度是受推荐结果而影响的(“你给我推荐了王者荣耀,那么我只能喜欢王者,但是可能我更喜欢你没给我推的吃鸡呢”),随着算法的迭代,越到后面,算法其实是在迭代自身,越学越窄,这也是推荐系统经典的多样性问题。youtube所采用的一种缓解的方法就是从其他没有算法干扰的场景选取部分样本,来避免这个问题,而在游戏中心的样本设计中,都会单独开设一股没有算法干扰的小流量作为干净样本的补充。

4、特征提取

特征决定机器学习的上限,而模型只是在逼近这个上限。可想而知,特征设计的重要程度是多么的高。关于特征设计的方法论有很多,这儿就不具体讨论。这里主要介绍一下游戏中心各个场景在设计特征时候的通用思路以及为了解决首页feeds特征空间不一致时所采用的多模态embedding特征。

(1)通用特征设计思路:如图6所示。这儿需要提一下的是,游戏中心的推荐场景由于涉及平台利益,所以一般情况下,特征设计时都需要考虑特征的可解释性。

图6:特征设计思路

(2)多模态embedding特征向量:首页feeds流分发场景是一个具有挑战性的场景,其中一个比较有意思的难题就是待推荐的内容类型较多。传统的feeds推荐场景要么都是纯视频流、要么是纯文字feeds等,而游戏中心首页这儿待推荐的内容类型有攻略、视频、直播、活动、礼包等,而且每一种内容类型的二级承载页产品形态也不一致,这样会导致可提取的特征空间维度不一致。比方说视频承载页的观看时长与图文承载页的观看时长量级不一致,视频承载页有icon点击等操作而图文承载页则没有。特征空间的不一致会导致模型在打分的时候会有所偏颇,离线实验过程中发现视频由于特征维度较齐全,打分结果整体偏高。因此,为了减缓特征空间维度不一致问题,游戏中心首页feeds流引入了多模态embedding特征向量,该方法在企鹅电竞视频推荐场景已经取得了较好的效果(如图7所示)。多模态embedding特征向量的设计主要参考youtube的论文,从而获得每个user、item的低维特征向量,一方面解决item的原始特征空间维度不一致问题,另一方面也根据用户的历史行为,学习user、item的隐语义特征维度,起到信息补充的作用。

图7:多模态embedding网络

5、模型训练

好了,终于到了别人所认为的高大上的步骤了——模型训练,其实一点都不高大上,尤其是有了神盾推荐这个平台。目前神盾推荐离线算法平台已经集成了大部分常见的推荐算法,包括LR,Xgboost,FM,CF等,因此离线训练只需要准备好样本跟特征,配置好参数,就可以一键点run喝咖啡了(开玩笑开玩笑,是继续搬下一块砖)。傻瓜式的模型训练(调包侠)其实并没有太大的坑,但是有几点经验也在这稍微写一下哈:

(1)注意调参的正确姿势:目前神盾默认是将数据集划分为train跟test,如果盯着test数据集的指标来调参的话,是很有可能出现线下高线上低的情况。因为盯着test指标进行调参的话容易加入个人先验,本身就是一种过拟合的操作,正规的操作应该是将数据集划分为train-test-validation。

(2)同样的业务场景建议共用一个大模型:新版游戏中心目前有9个场景需要算法接入,如果每一个场景都单独建模的话,一来维护成本高,二来浪费人力。适当对场景问题进行归纳,训练通用模型可以有效地节省开发时间。比如说首页分类列表推荐,游戏Tab的热游列表推荐等,其实都是纯icon的推荐,可以用统一的大模型来建模。通用模型首先要考虑的问题就是样本、特征的选取,样本可能比较好设计,汇总所有场景的样本即可,最多就是根据场景特性设计不同的权重;而特征就需要好好斟酌,是分场景提取特征还是汇总后提取、不同场景特征维度不一致如何处理等。

(3)选择合适的机器学习方案:目前首页feeds是将排序问题转化为二分类问题,评估指标选取的是auc,所以优化的重点在于尽可能地将正负样本区分开(正样本排在负样本前面),但对于正样本之间谁更“正”却不是二分类模型的关注重点。神盾近来已经支持pari-wise的LTR算法,可以解决任意两样本之间置信度问题,后续可以在首页feeds场景上做尝试。

(4)选择合适的优化指标:对于视频瀑布流场景,优化的目标可以有很多,比如人均播放个数、播放率、人均播放时长,具体需要跟产品同学沟通清楚。

(5)避免对分类问题的过度拟合:前面已经提过,在推荐场景,经常将推荐问题转化为分类问题来处理,但是需要注意的是,推荐问题不仅仅只是分类问题。分类问题是基于历史行为来做预测,但推荐问题有时候也需要考虑跳出用户历史行为的限制,推荐一些用户意想不到的item,因此,推荐是一个系统性问题,应当避免过度拟合分类问题。

6、数据上线

数据上线可以说是推荐系统中较为核心的环节,其中会面临很多难题。这儿的数据主要指的是离线计算好的物料数据、特征数据(用户、物品)、模型数据等。目前神盾会周期性地对需要上线的数据出库到hdfs,通过数据导入服务推送到线上存储,主要是grocery(用户特征)跟共享内存ssm(物品特征以及池子数据等查询较为频繁的数据)。目前这儿会有几个小问题:

(1)数据的一致性问题:离线模型在训练的时候,会对样本数据跟特征数据做拼接,通常都是将当前周期的样本跟上一周期的特征做拼接,以天为例,也就是今天的样本会跟昨天的特征数据做拼接。但是离线数据的计算以及上线是会有时间延迟的,尤其是特征数据。有可能今天的凌晨0点到5点,线上所拉到的特征数据其实是前天的特征数据,5点之后,昨天的特征数据才计算完并更新到线上。也就是说凌晨5点之前,所产生的推荐结果其实是用前天的特征数据来计算的,那么离线训练的时候,拼接的特征数据就会与实际的数据不一致。

(2)数据的实时性问题:前面也讲了,业务数据一般会周期(按小时)落地到hdfs或者tdw以库表形式存在,基于spark进行数据处理之后又推送到线上存储,这种复杂的数据处理链路导致数据时效性得不到保证(频繁地数据落地以及数据上线所导致)。因此,离线层仅适用于对数据时效性不高的任务,比如长期兴趣的计算等。

  • 近线层

前面已经提到,离线层在数据时效性以及数据一致性的问题上面临较大的挑战。本质上是由于数据频繁落地以及上线导致的延迟所引起的,给游戏中心推荐带来较大的困扰。企鹅电竞也面临同样的问题,因此,两个业务联合设计了近线层(如图8所示)。目前整个数据链路已经打通,并且也在企鹅电竞业务上试点成功。整个框架是基于kafka+spark streaming来搭建的,目前主要实现两个功能点:实时特征的提取以及实时样本特征的拼接。由于近线层不需要落地以及线上导数据服务,而是直接对业务流水进行操作后写入线上存储,因此耗时较少,基本可以做到秒级别的特征反馈,解决了离线层计算周期长的缺点,适用于用户短时兴趣的捕捉。

实时样本特征的拼接主要是为了解决数据一致性问题。离线层对样本、特征进行拼接的时候一般都是默认当前周期样本拼接上一周期的特征,当由于特征上线的延迟,有部分当前周期样本的产生其实是由t-2周期的特征所导致,因此为了保证训练数据的准确性,我们在近线层设计了实时的样本特征拼接。当用户请求时,会带上读取的特征数据,拼接到用户的操作流数据上,构成离线层的训练数据。

图8:近线层功能逻辑

  • 在线层

在线层是推荐系统的关键环节,直接影响最终的推荐结果。一般分为召回层,精排层、重排层(或者是matching、ranking、rerank)。召回层一般是起到粗筛的作用,对于内容推荐来说,推荐的池子一般都是上万级别,如果直接进行模型打分的话,线上服务压力会比较大,因此,通常都会采用各种召回的策略来进行候选集的粗筛。目前游戏中心所采用的召回策略主要有标签、热度、新鲜度、CF等。精排层所干的事情就比较纯粹了,一般就是模型加载以及模型打分,对召回的物品进行一个打分排序。最后就是重排层,主要是对模型打分结果进行一个策略的调整。游戏中心的重排排层主要有以下几个逻辑:1)分类打散:首页feeds在推荐的时候,如果只由模型进行打分控制的话,容易出现游戏扎堆的现象,也就是连续几条feeds都是同款游戏,因此需要重排层来调整展示的顺序;2)流量分配:游戏的分发涉及平台的利益,每款游戏的曝光量会影响平台的收入,因此需要合理分配每款游戏的展示量;3)bandint策略:主要是用于兴趣试探,feeds场景会涉及多种内容类型,如何在推荐用户历史喜欢的内容类型以及尝试曝光新的内容类型之间做平衡是推荐系统典型的E&E问题,这儿我们设计了一个简单的bandint策略,下面会详细讲一下。4)运营策略:一些偏业务性质的运营策略也会在重排层体现。

推荐系统中会遇到一个经典的问题就是Exploitation(开发) VS Exploration(探索)问题,其中的Exploitation是基于已知最好策略,开发利用已知具有较高回报的item(贪婪、短期回报),而对于Exploration则不考虑曾经的经验,勘探潜在可能高回报的item(非贪婪、长期回报),最后的目标就是要找到Exploitation & Exploration的trade-off,以达到累计回报最大化。对于游戏中心首页feeds而言,一味推荐用户历史喜欢的内容类型或者大量尝试曝光新的内容类型都是不可行的;首先用户的兴趣可能会有所波动,过去可能喜欢视频类型,但是下一刻就可能不喜欢了;其次一味推荐用户历史喜欢的内容类型,可能会让用户产生厌倦。为了平衡两者之间的关系,我们在重排层设计了一个简单的策略,具体如图9、图10所示。

图9:游戏中心bandit策略算法逻辑

图10:游戏中心bandit策略具体实现

迭代计划

        目前游戏中心个性化推荐所遇到的难点以及下一步的迭代计划主要如下:

1、外部数据的引入:1)结合第三方数据做推荐:目前游戏中心个性化推荐的依据主要是用户的场景表现、游戏内表现以及一些基础的画像数据,数据来源较为单一。引入更多的第三方业务数据(比如企鹅电竞),一方面可以丰富用户的特征维度,另一方面可以给用户带来体验上的提升(用户刚在企鹅电竞看了个吃鸡的直播,来到游戏中心就给推荐了“刺激战场”)。2)丰富推荐物料:目前游戏中心的内容来源部分存在“同质化”现象,素材类型还不是特别丰富,需要引入更多优质的外部内容。

2、多模态特征提取:游戏中心的推荐内容类型较为丰富,包括了视频、图文、活动、礼包等,如何在同一个特征向量空间对各个item进行信息抽取是目前遇到的难题之一。现有的解决方案是基于youtube的embedding网络进行user、item的embedding向量学习。该网络的输入是无序的,也就是没有考虑用户历史行为的轨迹,那么是否可以用图来表示行为的轨迹,基于graph embedding的方法获得信息更加丰富的item向量?目前业界也有若干基于graph embedding的推荐案例(手淘首页 、阿里凑单 )。

3、内容元信息的提取:目前游戏中心对于item的特征提取要么是基于统计的特征,要么就是基于item历史行为的embedding特征或者tag提取,对于内容本体信息的提取还较为薄弱,如何有效地提取非结构化内容的信息是下一步迭代需要考虑的问题。

4、模型的快速更新:对于用户兴趣的实时捕捉,不仅依赖于数据的实时更新,同样依赖于模型的实时更新。目前线上的模型是按天例行更新,如何快速地训练模型以及部署模型是后续不可避免的问题。

5、优化指标考虑收入相关因子:当前的优化指标基本是转化率、时长等推荐系统常见的指标,但游戏中心涉及平台收入,需要综合考虑每个游戏的收益(类似广告系统中的竞价)。如何设计合理的优化指标(考虑游戏arpu、ltv等)以及在用户体验跟平台收入之间做平衡也是下一步迭代的关键。

6、流量分配问题:首页feeds场景既涉及游戏流量的分配,也涉及内容类型流量的分配,如何有效地设计流量分配方案,从而减轻重排逻辑的负担也是需要考虑的优化点。

7、拉活还是拉新:如何根据用户在游戏生命周期的不同阶段推荐合适的内容是首页feeds场景需要考虑的问题。

8、新品试探:目前我们只是在内容类型上做了一些简单的策略,后续还需要调研更加成熟的解决方案来解决E&E问题。

总结

       本文主要是对游戏中心在算法一期的接入过程所遇到的问题做一些总结,以及梳理下一步迭代的计划。由于算法一期的重心在于算法的快速接入,因此整个个性化推荐框架中所涉及到的策略可能都略显“着急”,希望各位同行大佬多多包涵。关于游戏中心推荐问题,欢迎随时交流。

来源:腾讯QQ大数据

]]>
腾讯QQ大数据:从用户行为去理解内容-item2vec及其应用 //www.otias-ub.com/archives/743192.html Sun, 01 Jul 2018 00:54:58 +0000 //www.otias-ub.com/?p=743192

导语 在内容推荐系统里,一个常用的方法是通过理解内容(挖掘内容属性)去挖掘用户的兴趣点来构建推荐模型。从大多数业务的效果来看,这样的模型是有效的,也就是说用户行为与内容是相关的。不过有一点常被忽略的是:相关性是对称的!这意味着如果可以从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。

相关性是对称的

在内容推荐系统里,一个常用的方法是通过理解内容(挖掘内容属性)去挖掘用户的兴趣点来构建推荐模型。从大多数业务的效果来看,这样的模型是有效的,也就是说用户行为与内容是相关的。不过有一点常被忽略的是:相关性是对称的!这意味着如果可以从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。

利用行为数据生成内容向量

推荐系统里我们一直有基于用户行为去理解内容,典型的例子是基于用户行为构造内容特征,例如内容的点击率、内容的性别倾向,内容的年龄倾向等。这样的理解是浅层的,仅仅是一些简单的统计。我们其实有更好的办法可以构建内容特征,它的第一步是利用用户行为将内容转化为向量,下面会以应用宝业务为例讲解利用用户行为将app转化为向量的思路。
从直觉上来看,用户下载app的先后关系是相关的,以图1的行为数据为例,一个用户之前下载过街头篮球,那么他接下来会下载体育类app的概率会比他接下来下载时尚类app的概率更大。也就是说 P(腾讯体育|街头篮球)>P(唯品会|街头篮球)

到这里我们已经大致介绍了利用用户行为将内容转化为向量的方法,这里将这种技术称作item2vec。以应用宝为例,它的item是app,它的实际应用也可以称作app2vec。

内容向量聚类

基于应用宝已有的类别体系观察,可以明显区分开角色扮演类游戏app和理财app。

也可以发现一些没有加入类别体系的特殊app群体。

 

now直播业务也基于该方法进行了生成了主播向量并对主播进行了聚类,初步结果来看是聚类是可以明显区分开男女主播的,并且也发现了几个有趣的主播类型,例如直播玩王者的主播,直播电影电视剧的主播,直播农村生活的主播。

基于内容向量的分类模型

应用宝的app分类(打标签)场景长期以来都存在这样的痛点:

  1. 分类体系经常会面临变动
  2. app的人工标注成本高,复杂标签体系下app的标注数据很少
  3. app属于复杂数据结构的内容,它的内在难以用已有算法进行挖掘,过去只能通过它的描述和图片来挖掘其信息

这里我们可以先思考一个问题:为什么要给app做分类和打标签?
答:给app做分类和打标签实际上是为了让用户可以更方便的找到自己想要的app,为了让我们可以更容易地结合用户兴趣给用户推送app。

从问题和答案我们可以得出一个结论:给app做分类和打标签有意义的前提是用户的行为是和app的类别、标签相关的!例如下面的这个例子里,第一位用户喜欢下载纸牌类游戏,第二位用户喜欢下载跑酷类和儿童类游戏,第三位用户喜欢下载休闲类游戏。

上面的分析我们知道用户行为应该可以用于判断app的类别标签。因此在给应用宝的app进行分类和打标签时,我们引入了基于用户行为生成的app向量。具体框架可看下图:

通过增加app向量作为分类模型的特征,可以很大程度上提高app分类的准确度(可以参考聚类中的例子),在实际业务中,部分标签的分类准确率和覆盖度都有大幅度提升。

基于内容向量的推荐召回

直观的例子是相关推荐,因为这一场景通常不会对召回结果做太多的加工。常见的召回结果生成方法是先计算item与item之间的相似度(一般使用cosine相似度),再取其中的top n相似item。

在应用宝的两个场景中基于app向量做了app的推荐召回进行了测试,相对于原模型效果有明显的提升。

基于内容向量的语义召回

在app搜索场景基于行为数据生成的搜索词向量优化了语义召回,明显增强了词的模糊匹配能力。例如搜索“潮流”,出来的结果是从用户行为角度跟“潮流”相关的app,而不是单纯基于语义匹配。

或者举一个更直观的例子,吃鸡游戏出来的时候,搜索吃鸡出来的都不是吃鸡游戏。但是对此感兴趣的用户后续还是会去找到正确的搜索词,例如之后搜索“绝地求生”,或是下载了“绝地求生”,基于这些词,基于这些行为,可以将“吃鸡”和“绝地求生”关联起来。

基于内容向量的应用场景还有很多,加入我们,我们一起来玩转机器学习!

来源:腾讯QQ大数据

]]>
腾讯QQ大数据 :从“增长黑客”谈数据驱动的方法 //www.otias-ub.com/archives/743270.html Sun, 01 Jul 2018 00:49:47 +0000 //www.otias-ub.com/?p=743270

对于增长黑客(Growth Hacker),行业里有一个很清晰的定义就是数据驱动营销,以市场指导产品,通过技术化手段贯彻增长目标的人。所以这里有一个很核心的理念就是数据驱动营销和增长,这个也是数据团队的核心价值所在。经过多年的实战经验积累,我们沉淀了一套适用于自身业务的数据驱动方法,希望能够拿出来跟大家做个分享,欢迎大家关注。

1. 背景

近两年来,随着“增长黑客”的概念从大洋彼岸的硅谷传入国内,相关的理念和方法开始在互联网技术圈流行起来。2015年,《增长黑客》一书的出版和流行更是把“增长黑客”这个名词正式带入了大众的视野。“增长黑客”近年来兴起于美国互联网创业圈,指的是一种新型的职业或团队角色,主要是依靠技术和数据的力量来达成营销目标,而非传统意义上靠砸钱来获取用户的市场推广角色。因此,增长黑客有一个很重要的理念就是“数据驱动”,也就是通过对数据的分析挖掘来发现有价值的数据洞察,并推动线上的落地应用,再通过A/B test来不断的迭代优化,最后找到最有效的策略方案,帮助业务实现持续增长。

作为公司历史最悠久的数据团队之一,SNG数据中心早在2008年就开始建设专门的数据团队,9年来一直致力于大数据的分析和挖掘,通过数据来支持SNG业务的发展。在这个过程中,我们也积累了不少的理论方法和实战经验,希望能够拿出来跟大家做个分享。我们的分享计划分批展开,涉及的内容包括数据基础能力建设、大盘指标预测、用户增长分析、营收增长分析、产品优化分析等。后面我们会有相关系列文章陆续发出,这篇文章算是一篇开篇的综述,旨在让大家能够对我们的经验方法有个整体的了解。当然,数据涉及到的知识体系和领域太过庞大,我们的分享也只是冰山一角,希望能够给大家带来一些启发,欢迎大家关注。

2. 基础能力建设

问渠那得清如许,为有源头活水来。数据行当里面有一句老话叫做“Garbage in,garbage out(垃圾进,垃圾出)”,指的就是要从源头上确保数据的及时和准确,以保证上层的分析和挖掘能够得出正确的、有价值的结论。SNG的数据异构现象突出,业务上包含了即时通讯(QQ)、社交平台(QQ空间)、增值产品(QQ会员、黄钻等)、游戏(手Q游戏、空间页游)等庞杂的业务体系,而且个个都是海量的数据,不仅如此,随着公司组织架构的调整我们还经历过大范围的PC数据和移动端数据的整合,有大量的历史遗留问题要解决,复杂程度可想而知。这一节将为大家介绍我们为了管理和维护这么多纷繁复杂的业务数据是如何建设基础的数据能力的。

2.1 数据上报通道建设

对于大部分的数据挖掘工程师来说,对数据的理解和应用都是从数据仓库开始的,殊不知,用户在产品上的每一次操作行为要上报到数据仓库成为某个库表中的一行记录都要经过Agent部署、埋点、上报、转发、清洗、调度入库等多个步骤,每一个步骤都需要严格保证数据的一致和稳定。在数据量小、数据结构简单的情况下,这或许不是一件太难的事情,但是面对SNG海量异构的复杂数据环境,要保证好数据的一致、稳定、实时,绝不是一项容易的工作。为了更好的应对海量复杂的数据上报问题,早在2012年,我们就开始了新一代数据上报通道DataCollector(简称DC)的建设。经过4年多的持续迭代优化,DC现在每天要支持1P+大小,1万亿+记录条数的数据的稳定上报,为SNG的底层数据建设立下了汗马功劳。DC通道的架构可以参考图1:

图1:DC数据上报通道架构图

按照DC数据上报通道的架构,我们只需要六步即可完成一次新的数据上报:

第一步:安装及检查DCAgent版本

第二步:按照API文档进行数据上报埋点

第三步:创建新的数据接口

第四步:检查上报通道

第五步:查询流水数据

第六步:查看入库情况

2.2 数据体系建设

完善的数据上报通道的建设解决了数据来源的问题,但是海量的数据在上报到数据仓库的过程中以及上报之后如果没有科学有效的治理,后果将是灾难性的,就像洪水来袭时没有防洪工程,任由洪水泛滥一样恐怖。比如在日常的数据工作中,我们经常遇到这样的情况:数据库表没有说明文档,字段定义和统计逻辑不清晰,业务核心指标口径不统一,库表搜索难度大,等等。这些问题都是由于缺乏科学合理的元数据管理和数据体系导致的。SNG在多年的数据工作中也是深受这些问题的困扰。痛定思痛,我们通过规范数据上报、建立标准化接口、规范数据字典等一系列优化措施的执行,针对即时通讯、社交平台、包月增值等业务,沉淀了一套适合SNG业务特点的数据体系建设的方法。

以社交平台为例,我们总结了一套适用于社交产品用户写操作行为的数据体系如表1以及写操作维表如表2:

写操作时间 QQ号码 写操作来源 一级操作ID 二级操作ID 写操作次数
20170313 123456 1(PC) 5 822 5
20170313 123456 2(iOS) 5 823 10
20170313 123456 3(Android) 5 36 15

表1:社交平台写操作行为数据体系示例

 

一级操作ID 一级操作名 二级操作ID 二级操作名
5 UGC操作 822 原创
5 UGC操作 823 转发
5 UGC操作 36 评论回复

表2:社交平台写操作维表示例

该数据体系及维表体系建设起来之后,纵使业务变幻,万变不离其宗,有新的写操作功能特性发布之后,只需要按照约定好的数据体系进行埋点上报,同时在维表里添加新的写操作ID的映射关系,报表即可自动生成,不需要数据分析师再额外开发,可见一个科学的数据体系的重要性,可以大大减少人力成本,提升开发效率。

       2.3 指标体系建设

曾经听一个从鹅厂出去创业的同事讲过他自己亲身经历的一个创业故事。在他们的产品上线初期,公司最大的目标就是获取更多的安装用户。为了达成这个目标,他组建了一个庞大的线下团队在各个网点做地推,同时线上也在购买各种渠道和广告,进行品牌宣传。一段时间的运营下来,成效显著,安装用户数每天都在成倍甚至十几倍的增长。就在整个公司上下都在为安装用户数的大涨而欢呼雀跃的时候,他自己却陷入了极大的恐慌之中。因为他发现,在庞大的安装用户里,日均活跃用户数(DAU)非常少,也就是说公司花费了巨大的精力和成本获取来的用户,最终却没有在产品中留存下来。在接下来的时间里,他迅速调整了公司目标,开始以提升DAU为导向指导运营思路,最终成功的提高了用户的留存,DAU也随之改变了之前的颓势,开始稳步上涨。

同样的故事在硅谷也发生过。早在 Facebook 成立之前,美国社交网络的老大是MySpace。MySpace 历史久,用户多,还有东家加大金主新闻集团撑腰,从任何一个角度看都应该可以轻易碾压由几个大学辍学生创办的 Facebook,最终却输得一败涂地。其中的原因当然不只一个,但是有一个有趣的区别是:MySpace 公司运营的主要指标是注册“用户数”,而 Facebook 在 Mark 的指引下,在成立的早期就把“月活跃用户数”作为对外汇报和内部运营的主要指标。

相比之下,从“用户数”到“月活跃用户数”,看起来只是多了三个字,却确保了 Facebook 内部的任何决策都是指向真实持续的活跃用户增长。

这样的故事背后,其实考验的是一家公司或者一个产品的指标体系规划和建设能力。在“增长黑客”的理念当中,有一个“北极星指标(North Star Metric)”的概念,指的就是有一个唯一重要的的指标,像北极星一样挂在天空中,指引着全公司上上下下,向着同一个方向迈进。当然,不同的产品形态会有不同的北极星指标,平台产品关注的是活跃用户数、活跃留存率这类指标,营收产品关注的是付费用户数、付费渗透率等等。在不同的产品发展阶段,指标体系的规划也会有所不同。我们对不同的产品形态及产品发展阶段的指标体系进行多年的研究之后,针对产品从灰度上线到稳定期的各个阶段总结了一套适用于大多数产品的不同发展阶段的指标体系,如图3:

图3:产品各发展阶段的指标体系规划

3. 用户增长分析

前面介绍了我们在数据上报、数据体系、指标体系等方面做的基础建设工作。面对每天上报的1P+大小,1万亿+记录条数的海量数据,我们当然不会止步于报表开发层面,更加不会让这些有巨大价值的数据躺在仓库里面睡大觉。特别是在人口红利衰减,业务增长乏力的大环境下,如何从海量的数据中挖掘出对用户、对产品有价值的信息助力业务增长,成了我们数据团队每天都在思考的问题,这也是“增长黑客”的核心使命。在本节中,我将通过用户生命周期管理(CLM)和用户分群两个在数据精细化运营中经常用到的方法来介绍我们是如何通过数据来驱动业务增长的。

       3.1 用户生命周期管理(CLM)

任何一名产品运营人员,每天思考的无非是这三个哲学上的终极问题:用户是谁,用户从哪里来,用户要到哪里去。为了解决好这三个问题,用户生命周期管理(Customer Life-Cycle Management)方法应运而生。传统的用户生命周期管理基本上包含五个阶段:获取、提升、成熟、衰退、离网,用户在不同的生命周期阶段会有不同的诉求,产品运营上也会有不同的方案和侧重点:

图4:用户生命周期

这里有很多数据可以发挥巨大价值的地方,以新用户获取为例,通过对历史新进用户的特征进行分析和数据建模,我们能够建立一个预测用户转化概率的精准拉新模型,在推广资源有限的情况下,锁定高转化概率的潜在用户进行资源投放,大大提升投放效率。从我们实际应用的情况来看,通过模型筛选出来的潜在用户,在转化率上往往比通过人工经验判断筛选出来的用户有20%-60%的提升,比随机筛选出来的用户更是有成倍甚至几倍的提升。

我们对CLM方法的研究和应用,最早始于2012年,当时跟麦肯锡的驻场团队一起封闭开发,以新用户获取为切入点,整理了8亿用户的近千个特征字段,进行了详细的数据分析,近十轮的模型迭代,在多个渠道进行了200多次的活动投放试点,试验用户群+渠道+文案+活动形式的各种组合,期间还陆陆续续邀请了近百个QQ用户参加深度访谈调研,验证我们的数据结论,最终使得实验组的点击率比对照组的提升稳定在40%-110%以上。随后,我们又把在新用户获取项目中沉淀下来的经验和方法复用到了活跃用户流失预警以及流失用户拉回的运营活动中,效果都有了显著的提升,数据在增长分析中的价值得到了有利的验证。自此,整套的用户生命周期管理方法就此打磨成型。接下来,我们把这套方法先后在QQ会员游戏联运项目、空间页游项目、手Q游戏运营项目中进行了推广和复用,进一步放大了数据的价值。到今天,CLM的方法和理念已经渗透到了SNG的多个重要业务中,并且还在持续的探索和优化。以手Q游戏运营为例,我们每天都会通过QQ手游公众号投放数以亿计的精准拉新、拉付费、关怀等类型的CLM消息,并且能够自动采集数据进行效果监控,彻底改变了以前“产品经理提号码包需求->数据团队提包(排期)->产品经理上传号码包->投放->产品经理提效果统计监控需求->数据团队开发报表(排期)”的传统而又痛苦的模式,不仅大大提高了资源使用效率,也帮助业务大大减少了运营成本。

在推广CLM方法,拓展业务场景的同时,为了更好的服务业务,我们自身的能力建设也没有停下脚步,特征库、算法库、AB test工具等已经日趋完善和成熟,另外值得一提的是,我们近期上线的lookalike功能使得需求的响应速度又有了进一步的提升。以前业务有一个拉新的需求,需要先跟我们沟通需求,我们了解需求之后要经过数据准备、采样、模型训练/验证/部署等过程,这么一个过程下来,快则一两个星期,慢则一个月,模型才能上线使用,这个对于需求紧急、心情急迫的运营同学来说显然是不能忍的。现在,运营同学只需要上传一个种子用户号码包就可以通过lookalike功能进行人群扩散,返回跟种子用户相似的其他用户进行运营活动的投放,前后只需要一个小时左右,速度有了质的飞跃,当然这也得益于我们投入了很多精力进行基础特征库的建设。

       3.2 用户分群

CLM模型建立之后,我们可以通过模型找到更加精准的目标用户,但是为了把运营活动做的更加精细,我们还需要考虑这些问题:我们的目标用户的人群属性怎样?有什么行为特点和兴趣爱好?根据这些应该怎样设计运营活动。这就要用到用户分群了。用户分群从语义上理解就是对用户群进行细分,不同的用户群有不同的特征,好的分群能够帮助业务充分认识群体用户的差异化特征,从而找到正确的营销机会、运营方向。所以在数据分析行业里,有一句老话叫做“不细分,毋宁死”,讲的就是这个道理。既然用户分群这么重要,那我们要怎么做呢?用户分群常见的维度包括以下几个:

1.    统计指标:年龄,性别,地域

2.    付费状态:免费,试用,付费用户

3.    购买历史:未付费用户,一次付费用户,多次付费用户

4.    访问位置:用户使用产品的区域位置

5.    使用频率:用户使用产品的频率

6.    使用深度:轻度,中度,重度用户

7.    广告点击:用户点击了广告 vs 未点击广告

在维度少的情况下,用户分群是很好做的,比如年龄维度,我们经常会按照人生不同的生命阶段进行划分,再比如活跃维度,我们可以划分成低活跃、中活跃、高活跃用户群体。但是当维度增加到几十个甚至几百个维度时,人脑就完全处理不过来了,这个时候无监督聚类的方法就派上用场啦。举个例子,我们采集了以下10几个维度的数据,需要对用户进行分群。

图5:用户特征维度

就算经验再丰富的运营同学,面对这十几个复杂的数据维度,相信也很难对用户群进行准确的划分。而我们借助无监督聚类分析的方法,可以很快的把用户分成以下几类:

图6:用户无监督聚类结果

当然这里的结果都是数值信息,还不能直接指导运营方向和思路。但是结合业务理解对数据进行提炼和解读,我们很容易将数据转化成人可以理解的用户分群:

聚类1特征:年龄未知或低龄,好友少,活跃度和使用粘性都极低【低端低龄群体】

聚类2特征:年龄偏小,前台在线和消息活跃均比较高【学生活跃群体】

聚类3特征:平均27岁左右,PC端和手机端活跃度均非常高  【职场高粘性群体】

聚类4特征:平均28岁左右,前台在线和消息活跃都极低【职场低粘性群体】

聚类5特征:年龄较高,手机在线时长高,但消息沟通极少   【高龄低活跃群体】

当运营同学拿到这样一个科学、可理解的用户分群结果时,就可以针对不同用户群体的特征设计符合该群体特点和需求的文案、道具和活动形式。运营活动也必将取得事半功倍的效果。

4. 总结

正如文章开头所说,数据涉及到的知识体系和领域太过庞大,这里的介绍只是冰山一角,海量的数据中蕴含着丰富的金矿还等着我们去开采。回顾这些年的数据工作,我们在数据类型上,从结构化的用户行为数据挖到LBS轨迹数据,从关系链的图数据挖到文本数据,在系统架构上,我们也在不断完善和优化我们的数据系统及架构,为业务提供更好的数据服务。我们一直相信,通过数据驱动来帮助业务增长是数据团队最大的使命和价值,我们会在这条道路上持续探索,不忘初心,砥砺前行。

来源:腾讯QQ大数据 

]]>
腾讯QQ大数据:逻辑回归如何用于新用户识别与触达 //www.otias-ub.com/archives/741423.html Wed, 27 Jun 2018 07:34:45 +0000 //www.otias-ub.com/?p=741423 背景

目前,某产品营收运营正处在从过去依赖产品经理的经验到通过数据来驱动增长(Growth Hacking)的过渡期。在这里梳理一下通过数据模型帮助该产品营收的一些经验。

正文

本文主要包括7部分:定义目标:转化为数据问题、样本选择、特征搭建、特征清洗、特征构造、特征选择、模型训练与评估。如图1下:

图1

一、定义目标:转化为数据问题

营收活动就是要从大盘中找出那些响应活动的高潜用户,这实际上是一个有监督的分类问题。通过训练集找出典型的响应用户特征,得到模型。再将模型用于实际数据得到响应用户的分类结果。这里选择逻辑回归(Logistic Regression)。为什么是逻辑回归?因为逻辑回归鲁棒性好,不容易过拟合,结果便于解释,近些年有很多新的算法可能分类效果会更好,但很多前辈的经验表明,精心做好特征准备工作,逻辑回归可以达到同样好的效果。

二、数据获取

特征主要包括画像和行为数据,画像数据最稳定且易获取,行为数据预测能力最强。基础特征包括画像数据(取自达芬奇)、特权操作、平台操作、历史付费行为、QQ和空间活跃等共计236个特征。

三、样本选择

选择最具代表性的样本,如果样本倾斜严重,则进行抽样,保证正样本比率不低于10%。

训练样本的选择决定模型的成败,选择最能代表待分类群体的样本。最佳选择是用先前该活动的数据做训练集,如果是新的活动,用先前相似的活动数据。

有时遇到这样的情况,先前活动的号码包是通过模型精选出来的,通常,这些号码包不是整体的有效代表,不能直接用来做为新的模型的训练样本,当然如果这些号码包占整体用户的80%以上基本就没问题。一种解决办法是随机选取样本投放活动等待响应结果来构建模型,这种方法比较耗时耗力,通常不用;另一种方法是抽取部分未投放的号码标记为非响应群体,这样构建的模型虽然不是效果最优的,但却能提升模型的泛化能力。

样本多大合适?没有标准答案,一般来说特征越多,需要的样本越大。我们建模一般有上百的特征,训练样本会选择几十万数据级。

当前计算机的计算能力已经提高了很多,抽样并不是必须的,但抽样可以加快模型训练速度,而且用单机来做模型的话,抽样还是很有必要的。通常目标用户的占比都很低,比如该产品某次活动的目标用户占比只有1‰,这样数据是严重倾斜的,通常做法是保留所有目标用户并随机抽取部分非目标用户,保证目标用户占比大于10%,在该产品营收模型训练中,一般用目标用户:非目标用户=1:4。

四、数据清洗

了解数据特性是保证优质模型的第一步。数据清洗是最无聊最耗时但非常重要的步骤。包括脏数据、离群数据和缺失数据,这里了解数据的先验知识会有很大帮助。用箱线图来发现离群点,这里关于数据的先验知识会有很大帮助。如果变量太多,不想花太多时间在这个上面,可以直接把脏数据和离群数据处理成缺失值。对于缺失值,先给缺失值建一个新变量来保留这种缺失信息,连续变量一般用均值、中位数,最小值、最大值填充。均值填充是基于统计学中最小均方误差估计。如果数据是高度倾斜的话,均值填充是较好的选择。或用局部均值填充,如年龄分段后所属年龄段的均值。还可以用回归分析来填充,实际中用的比较少。分类变量一般用频数填充。

五、特征构造

已经有原始特征,为什么要进行特征构造?特征构造的必要性主要体现在发现最适合模型的特征表现形式。

清洗工作之后,就可以进行特征构造了,主要有3种特征构造方法:汇总、比率、日期函数。

  • 汇总:如按天、周、月、年汇总支付金额,近三天、近7天、近14天、近21天、近31天听歌/下载次数,统计用户近一年累计在网月份等。
  • 比率:曝光点击转化率、曝光支付转化率、点击支付转化率、人均支付金额、次均支付金额。
  • 日期衍生:首次开通服务距现在时长、最近一次到期时间距现在时长,到期时间距现在时长。
  • 转换特征:对原始连续特征做平方、三次方、平方根、立方根、log、指数、tan、sin、cos、求逆处理。然后从所有转换中选择2个预测性最好的特征。实际中,使用最多log处理。

逻辑回归本质上是线性分类器,将预测变量尽量线性化,虽然我们的特征有连续变量和分类变量,模型训练时会把所有变量当做连续变量。

连续变量可以直接用来训练模型,但分段会使得变量更具有线性特征,而且可以起到平滑作用,经验表明分段后的特征会提升模型效果。分段一般依据经验划分或先分为均等10段然后观察各段中目标变量占比来确定最终分段。如年龄分段主要基于常规理解,分为幼儿园、小学、初中、高中、大学、硕士、博士、中年、壮年、老年。

六、特征选择

特征选择的目的是要找出有预测能力的特征,得到紧凑的特征集。

特征成百上千,对每一个变量进行深入分析并不是有效的做法,通过相关系数和卡方检验可以对特征进行初步筛选。相关性强的特征去掉其一,对每个特征进行单变量与目的变量间的回归模型,如果卡方检验小于0.5,说明预测能力太弱,去掉该变量。

做过初步变量筛选后,用剩余变量训练模型,根据得到的回归系数和p值检验,剔除回归系数接近0和p值大于0.1的特征,得到最终用于建模的特征集。

特征多少个合适?这个没有标准答案,主要原则是保证模型效果的同时鲁棒性好,并不是特征越少,鲁棒性越好。主要取决于市场,如果市场比较稳定,变量多一些会更好,这样受单个变量变动的影响会较小;当然如果想用用户行为来预测未来趋势,变量少一些比较好。对我们做营收增长来说,模型特征尽量简化,这样便于从业务角度进行解读,便于跟老板和产品同事解释。

七、模型训练和评估

前面花了大量时间来确定目标、准备特征、清洗特征。使用一些简单的技术来过滤一些预测性弱的特征。接下来,用候选特征来训练和验证模型。

模型实现步骤:

1、 通过挖掘算法获取不同群体的差异特征,生成模型用于分类。

2、 待分类用户群通过分类器筛选出目标人群,形成标识和号码包。

3、 用户号码包通过渠道进行投放,营销活动正式在外网启动。

4、 收集曝光、点击、成交数据用于评估模型效果,明细数据用于修正模型的参数。

5、 重复1——4

图2

另外,活动投放参见组选择很有必要,一般是依据产品经验或随机选取,参照组的效果一般不如模型选择的,这会导致收入有所减少,有时很难说服产品,但对于对比、监控和检验模型效果来说很有必要。

该产品营收依据模型精细化运营以来,收效显著,支付转化率提升30%~150%。

最后致上一句名言:Your model is only as good as your data!

参考文献

[1]. OP Rud. Data mining cookbook: modeling data for marketing, risk, and customer relationship management. 2001

[2]. https://zh.wikipedia.org/wiki/逻辑回归

 

来源:腾讯QQ大数据

]]>
今日推荐工具:全球卫生观察站数据 //www.otias-ub.com/archives/668451.html Wed, 27 Dec 2017 08:56:26 +0000 //www.otias-ub.com/?p=668451 名称:全球卫生观察站数据

网址:http://www.who.int/gho/en/

简介:全球卫生观察站是世卫组织关于世界各地卫生相关统计数据的网站,其目的是为获取以下信息提供方便:

  • 国家数据和统计信息,重点为对照性估计数;
  • 世卫组织为监测全球、区域和国家情况与趋势作出的分析。


主题信息

全球卫生观察站各主题网页涵盖全球卫生重点,对数据进行组织以便监测可持续发展目标的进展情况,包括:

  • 用以监测整体卫生目标进展情况的卫生状况指标(死亡率和全球卫生估值,包括预期寿命);
  • 用以跟踪卫生指标公平性的指标;
  • 关于可持续发展目标下特定卫生和卫生相关具体目标的指标(涉及生殖、孕产妇、新生儿和儿童健康;传染病;非传染性疾病和精神卫生;伤害和暴力以及卫生系统等领域的指标)。

数据库

全球卫生观察站的数据库提供了机会,可利用一个交互性的卫生统计数据储存库。用户能够显示选定指标、卫生主题、国家和区域的数据,并能以Excel格式下载按需要定制的表格。

国家数据

全球卫生观察站的国家数据包括世卫组织可获得的所有国家统计数据和卫生概况。

全球卫生观察站数据已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>
今日推荐工具:欧盟统计局-数据中心 //www.otias-ub.com/archives/668167.html Tue, 26 Dec 2017 14:43:27 +0000 //www.otias-ub.com/?p=668167 名称:欧盟统计局-数据中心

网址:http://ec.europa.eu/eurostat/data/database

简介:

欧洲统计局(Eurostat),是欧洲联盟负责统计工作的行政机构,总部位于卢森堡

该统计体系由欧洲统计局、欧盟成员国及冰岛、挪威和列支敦士登的统计机构和中央银行共同组成。成员国机构负责收集本国统计数据并进行编辑,欧洲统计局的作用则是与各成员国统计机构紧密合作,协调、整合统计资源,按照欧盟的需要汇总分析成员国提供的统计数据。统计范围涵盖欧盟经济社会活动的主要方面,包括经济、就业、研发创新、环境、公共健康、国际账户收支、对外贸易、消费价格、农渔业、交通、能源、科技等。其统计报告及统计数据定期在其官方网站上发布。此外,欧洲统计局还负责帮助入盟候选国改善其统计系统,代表欧盟与联合国、经合组织及其他非欧盟国家开展统计合作等。

欧盟统计局-数据中心已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>
今日推荐工具:联合国粮农组织数据中心 //www.otias-ub.com/archives/667095.html Mon, 25 Dec 2017 14:28:31 +0000 //www.otias-ub.com/?p=667095 名称:联合国粮农组织数据中心

网址:http://www.fao.org/faostat/zh/#data

简介:

粮农组织制定粮食和农业统计方法和标准,提供技术援助服务并传播全球监测数据。粮农组织的统计活动包括制定及实施收集、验证、处理和分析数据的相关方法与标准。粮农组织还在全球粮食和农业统计数据的编制、处理和分发方面发挥了重要作用,并为成员国提供了必要的统计能力发展支持。

粮农组织的统计活动涉及农业、林业和渔业、土地和水资源及其使用、气候、环境、人口、性别、营养、贫困、农村发展、教育和卫生以及许多其他多种领域。

联合国粮农组织数据中心已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>
今日推荐工具:世界银行公开数据 //www.otias-ub.com/archives/666140.html Fri, 22 Dec 2017 16:50:26 +0000 //www.otias-ub.com/?p=666140 名称:世界银行公开数据

网址:https://data.worldbank.org.cn/

简介:世界银行认识到,透明和问责对于发展进程至关重要,对于实现世行减轻贫困的使命不可或缺。世行希望通过其公开数据的努力,培养公有意识,与广大的利益攸关方建立伙伴关系,吸引各方参与到发展中来。作为一个知识机构,世界银行迈出的第一步就是免费、公开地分享其知识。 

世界银行公开数据已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>
今日推荐工具:BOM全球票房数据 //www.otias-ub.com/archives/665984.html Thu, 21 Dec 2017 14:02:18 +0000 //www.otias-ub.com/?p=665984 名称:BOM全球票房数据

网址:http://www.boxofficemojo.com/

简介:BoxOfficeMoJo 是美国的一个电影票房数据统计网站,通过分析、评论、采访和最全面的在线票房追踪,艺术与商业结合;隶属于是亚马逊公司旗下一个系统性计算电影票房的网站,由创办人Brandon Gray于1998年8月创办。

BOM全球票房数据已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>
今日推荐工具:实时航班跟踪–flightaware //www.otias-ub.com/archives/665301.html Wed, 20 Dec 2017 15:52:19 +0000 //www.otias-ub.com/?p=665301 名称:实时航班跟踪–flightaware

网址:https://zh.flightaware.com/live/

简介:FlightAware是全世界最大的航班跟踪数据公司,为超过10,000家飞机运营商和服务商以及超过12,000,000名乘客提供全球航班跟踪解决方案。FlightAware使用来自超过55个国家的空中交通管制系统、分布于超过150个国家的FlightAware ADS-B地面站网络以及Aireon天基全球ADS-B的数据,支持各大供应商的全球数据链路(卫星/VHF),包括ARINC、SITA、Satcom Direct、Garmin、Honeywell GDC和UVdatalink。

FlightAware无缝集成全球数以千计的实时数据源,结合FlightAware基于Web的强大、直观、可靠而且响应迅速的界面和数据馈送,带来了最强大、最实用的飞行跟踪应用程序和服务。 

实时航班跟踪–flightaware已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>
199IT今日推荐工具:用数据看世界 //www.otias-ub.com/archives/665002.html Tue, 19 Dec 2017 14:24:43 +0000 //www.otias-ub.com/?p=665002 名称:用数据看世界

网址:https://ourworldindata.org

简介:用数据看世界(Our World in Data)是由英国牛津大学的勒泽尔投入时间研究各国数十年来有关人类生活水平的数据而创办的网站,这些数据可以显示世界各地的生活条件是如何潜移默化的改变,对未来有什么影响。

用数据看世界广泛涵盖了许多学科主要包括:卫生、食品、收入增长和分配、暴力、政治、战争、文化、能源、教育、环境等行业趋势进行了分析和可视化呈现。

用数据看世界已收录大数据工具导航,近2500款工具导航网址:http://hao.199it.com

]]>