数据 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Tue, 18 Feb 2025 09:45:10 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 MAGNA:受众数据+创意优化的交叉点 //www.otias-ub.com/archives/1733422.html Tue, 18 Feb 2025 20:30:46 +0000 //www.otias-ub.com/?p=1733422 IPG Mediabrands旗下的媒体情报和投资部门MAGNA和Nexxen发布的一份报告探讨了受众数据如何使广告更具相关性并激发行动。该研究测试了多个垂直行业的品牌广告主的内容,包括电子商务、服装和娱乐。

高保真度、规模化受众数据的增长,已经逐步改善了广告程序化购买技术将品牌与受众联系起来的方式。研究发现,64%的受访观众认为联网电视(“CTV”)广告与他们无关。精确定位每个消费者的相关性的难度放大了这种脱节。尽管经常与合适的流媒体视频观众互动,但品牌一直在错失让他们的CTV广告创意更能引起他们共鸣的机会。

这项研究产生了两个关键的见解:

1、受众数据既可以用于受众接触,也可以用于开发共鸣创意:

相关性是成功的关键。如果不知道如何将其带入生活,品牌可能会错过最佳的活动效果,应该考虑预先激活测试,以增强创意,更好地与关键受众产生共鸣。

2、优化并不意味着重新开始创造,并且可以在飞行前处理:

一旦观众数据确定了增强创意的方法,简单的调整,例如,添加品牌覆盖,QR码或智能音箱集成,可以在后期制作中进行,并由动态创意工作室执行。这些可以推动消费者更接近转化,而不需要修改广告。

研究表明,无论品牌类别如何,通过这些手段优化的广告都能推动用户的意图和行为。事实上,当将优化广告与未优化广告进行比较时,发现新客户的搜索意图提高了78%,现有客户的购买意图提高了65%。


​文档链接将分享到199IT知识星球,扫描下面二维码即可查阅!

]]>
2024年数据和人工智能领导力报告 //www.otias-ub.com/archives/1696774.html Sun, 19 May 2024 21:30:12 +0000 //www.otias-ub.com/?p=1696774 2024年参与者总结

调查显示,参与人数达到了创纪录的水平。在2023年期间,在100多家不同的财富1000强和领先的全球组织中担任执行数据、分析和人工智能领导职位的数据高管参加了今年的调查。

今年的调查还值得注意的是,就所代表的行业而言,数据领导者的集合最为多样化,在医疗保健和生命科学、零售和包装消费品、媒体和娱乐以及从政府到专业体育、高科技、电信和制造业等其他行业的代表性不断增加,此外,金融服务领导者的代表性继续保持强劲。

值得注意的是,2024年越来越多的调查参与者代表全球或国际公司。今年,7.4%的受访者来自欧洲、非洲、中东和拉丁美洲的组织。

调查对象是在各自公司内负责监督数据和分析计划的最高级企业高管。

在高管参与者中,89.8%的人在其组织内担任首席数据官、首席数据与分析官或数据、分析或人工智能主管,CDO/CDAO高管的比例比前一年增长了5.2%。

我们询问了数据负责人的专业背景和经验。随着领先的公司希望确保其数据和人工智能投资带来商业价值,值得注意的是,越来越多的CDO/CDAO和数据/人工智能领导者现在来自商业和分析背景(72.9%),比去年的62.3%大幅增加。这进一步证明,数据和人工智能领导力正逐渐演变为一种与交付可衡量的商业价值相关的业务功能。

去年有人指出,CDO/CDAO和数据/人工智能领导者需要了解他们通过组织在数据、分析和人工智能方面的投资来寻求支持的业务驱动因素,并且数据和人工智能领导者有责任使用业务语言,用业务领导者理解的业务术语进行沟通。


​文档链接将分享到199IT知识星球,扫描下面二维码即可查阅!

]]>
Salesforce:2023年数据和分析报告 //www.otias-ub.com/archives/1667617.html Thu, 21 Dec 2023 21:30:20 +0000 //www.otias-ub.com/?p=1667617 营销人员很清楚人工智能(AI)的好处。但根据Salesforce的一项研究,60%的人认为生成式人工智能将改变他们的角色,也有可能被抛在后面,这是许多营销人员所担心的。

在全球接受调查的业务部门领导者中约有九成强烈同意(44%)或同意(47%)生成式人工智能将使他们的企业受益。

事实上,在接受调查的营销领导者中有88%担心他们的公司会错过生成人工智能的好处。相比之下,78%的销售主管和73%的服务主管持同样观点。

这可能是因为营销人员担心被抛在后面,因为他们是最接近生成式人工智能的功能之一。最近的一项研究发现,企业对生成式人工智能的使用在营销和销售职能方面最高,而在服务运营方面的应用则较少。

造成这种担忧的一个原因可能是数据的准确性。绝大多数接受调查的分析和IT领导者(87%)同意:人工智能的输出只能与其数据输入一样好,但这些技术部门的领导者也比他们的业务线同行更有信心。57%的数据和分析领导者对其数据的准确性完全有信心,大多数的IT领导者(53%)也完全有信心。相比之下,只有不到一半的营销(45%)、销售(42%)和服务(40%)领导者对他们数据的准确性完全有信心。

分析和IT领导者预计,在未来12个月,整体数据量平均增长22.8%,第一方数据平均增长21.3%,这是一个需要解决的问题。


]]>
海尔智家:AIGC时代企业更关注数据和算法 //www.otias-ub.com/archives/1624652.html Tue, 11 Jul 2023 04:03:43 +0000 //www.otias-ub.com/?p=1624652 AIGC作为当下最热门的技术领域,被越来越多的行业所关注。在2023亚马逊云科技中国峰会上,亚马逊全球副总裁、亚马逊云科技大中华区执行董事张文翊指出,大模型并不是生成式AI的全部,而是生成式AI生态系统的一个底层基础平台。平台的使命是让人们可以更容易地在上面构建机器学习的应用,用好生成式AI去解决自己的特定领域或行业场景问题,这才是真正在To B领域改变行业的关键因素。

在工业设计领域,海尔智家及海尔创新设计中心在AIGC方面已经走在了行业前列。海尔创新设计中心成立于1994年,是中国首个企业工业设计中心,也是首批国家级工业设计中心。中心构建了全球工业设计创新体系,拥有国际视野的多元文化设计团队,业务覆盖领域广,服务能力强,以设计战略承接品牌战略,助推海尔实现全球化品牌。

在2023亚马逊云科技中国峰会召开期间,199IT参与了对海尔智家副总裁、海尔创新设计中心总经理吴剑专访。

(海尔智家副总裁、海尔创新设计中心总经理吴剑)

AIGC围绕的两个核心价值

早在2022年3月,海尔创新设计中心已经携手亚马逊云科技在数字化领域进行探索,目的是希望去做一些提效、降本、提高生产力和创造力的工作。因为它会基于企业现有的流程、基于企业现有的知识图谱,基于现有的在某种意义上会有一定的重复、低效的流程和复用。

当AIGC概念被正式提出来,到工业设计领域落地仍然处于探索阶段。吴剑表示,在工业设计领域,AIGC其实还是基于知识图谱、基于现有积累去取代一部分的人工工作。吴剑坦言,在和同行交流下来之后,大家都认为AIGC现阶段并没有那么的高度成熟和高度创新,现阶段还做不到。很多林林总总的科技概念在一线真正能解决问题的其实并不特别多。在工业设计领域,新的技术都要面对两个核心价值。数字化转型两个主线就是提升用户体验、创造企业效益,这也是目前AIGC所围绕的两个核心价值。

目前海尔创新设计中心利用AIGC能够实现文生图、图生图、定量图和全场景图四个方面的提效。

例如文生图,海尔作为全球化企业,用户遍布全球。需要大量的用户洞察,要了解用户需要什么,传统的方式都是做用户访谈,去架摄像机观察,其实效果不佳。比如一天只能访谈两家,回来还要整理照片、文字、视频,非常低效。现在有了AIGC之后,可以把过去需要花7个小时来整理用户的信息,现在只需半小时就可以了。并且不简单是文字,可以灵活添加现场图片,更可以主动绘出故事板和相应产品概念。

海尔是一个非常强调响应速度的企业,历史上有很多比如17个小时开发出一个新产品的经典案例。传统全球协作就是全球接力式开发。吴剑认为AIGC对企业的开发流程是很大的改变,与AIGC进行结合,能够很高效地减少过程中的一些反复,AIGC能够在某些方面非常快地在现有最优的方案之上得到对用户最快的响应。

算力并不焦虑 企业更关注算法和数据

在洞悉到AIGC技术广阔的应用空间和无限的可能性后,亚马逊云科技携手海尔设计、Nolibox计算美学将AIGC应用到工业设计领域,以探索产业新范式,为行业升级按下加速键。

亚马逊云科技为海尔设计提供了包含四套系统的整体解决方案,全面替代自有机房,让设计中心的工作流程实现了全面云化。上线后,自动化设计系统应用让相关业务的操作周期缩短了30%,获得巨大成功。

在大模型领域,各大厂商对算力充满了焦虑。从海外OPEN AI抱怨GPU卡不够用,到国内字节跳动斥资十亿美金屯英伟达显卡,无不透露出对算力的渴求。

具体到各行业领域,如工业设计行业,吴剑反倒觉得算力并不是问题。在与亚马逊云科技的合作中,亚马逊云科技联合Nolibox定制工业设计AIGC解决方案。

吴剑表示,现在企业最关注的是数据和算法,数据和算法是呈现在企业内部的,因为算力毕竟是不可能每个企业都做得出来的。现在不管是国家提的在各个地方做超算中心,包括海尔有私有云、公有云,亚马逊云科技也做了非常好的算力支持。其实算力从总的来说够用了,从资源有效性的分配来看,也不需要每个企业都去自建算力池,因为它的很多运营其实是需要能力的,不是以前做个机房,买几台GPU就能做的。

再就是从企业来看,很关注的是数据,因为不管是现在国家的隐私要求,还是对客户、用户的信息保护,企业都很重视,将数据看作资产而不是负担。数据如何用好,是企业自己去做数据的积累、清洗、数据的挖掘,都是靠企业自己来做的。

中间在算法上,海尔创新设计中心使用的是Amazon SageMaker,和亚马逊云科技可能会做一些深度的定制,然后形成带有这个行业特色的产品方案。因为海尔创新设计中心所涉及的智慧生活范畴比较大,有toB和toC客户需求。

吴剑强调算力是OK的,数据是非常重要的,算法是要积累不同的场景的应用,海尔创新设计中心有针对家庭、移动、能源管理、智慧生活的场景。海尔有一个工业互联网平台叫卡奥斯,是国内起步最早的工业互联网平台之一,获得了国家和行业的认可。这是我们自己建的,把很多像订单管理、物料管理、设备管理、很多工业互联网的一些能力都对外赋能,在双创平台和数字化工厂做得非常好,它会把现在海尔在前端、在研发端、在制造端、在后面的业务端的很多能力都会封装、集成,对不同行业进行赋能,像很多危化品管理,还有陶瓷行业、建材行业、汽车行业,我们对千行百业做赋能。

AIGC在工业设计行业的应用及价值

在谈及AIGC对海尔创新设计中心的价值和影响。吴剑认为AIGC提效是两方面。

第一方面因为海尔创新设计中心和传统的工业设计公司不一样。海尔创新设计中心是全流程的。所以AIGC对海尔创新设计中心的改变,它不是一个简单去画个图。其实AIGC是需要有前提的,它的产出也是一个系统。工业设计领域的AIGC不是直接从大模型应用,这种东西是没有意义的,它需要在实际业务中的积累去对它进行训练。所以海尔创新设计中心和亚马逊云科技合作的方案不是想象中的把一些现成的大模型搬过来就可以用好,它需要企业很多的生成式的对抗性训练,才能够产出有意义的设计。

海尔创新设计中心一开始先做草图,比如先是语音生文字、文字生成草图、生成概念图。概念图我们是通过对抗性训练,把概念图的有效性、创新性对比现有的成熟设计、人工设计,以及对比专利图,要进行很多对比等,最后才能够标签化,才能具备价值和意义。同时海尔创新设计中心还有很多要求,比如设计一个常用的冰箱和厨房冰箱是不一样的,常用的室内的空调和车载空调也不一样,因为它里面的很多条数据是不一样的。

AIGC改变了设计中心的一些流程,流程不再是原来那种人工和人工的交流、人工和人工的那种靠个人主义式的设计,所以它在某种意义上会把所有设计师都会拉到一个标准线以上。

第二方面AIGC会把企业所丢失的数据重新找回来,因为以前很多设计中心的经验、能力是跟着人走的,不是留在一个企业内部。国外的很多成熟企业做得是比中国企业好,企业资产的沉淀,要把这个能力沉淀下来。海尔创新设计中心过去也做了很多不完全统计,在工业设计、在产品创新上,在过去累积了30年,企业花了很多费用和知识的投入、积累,未来都要变成一个虚拟的设计师,能够沉淀在企业之上。

与亚马逊云科技合作的契机

海尔创新设计中心如此阐释亚马逊云科技合作的原因:“亚马逊云科技作为全球知名的云服务提供商,在传统的业务升级,尤其是数字化转型这方面有很广泛的成熟经验。它在帮助企业降低成本、提高效率,包括很多开发流程的优化,整个产品组合的优化,制造更敏捷和端到端交付,包括物流、仓储等方面都有自己独到的见解,提出了很多优秀的创新方案。这些创新方案非常有助于我们海尔设计去面对未来的市场挑战,尤其是在全球目前生活方式、消费方式都有巨大的变革的今天,对我们保持领先地位、提供更优质的生活解决方案非常有帮助。”

亚马逊云科技为海尔创新设计中心提供的方案包括3D云桌面系统、渲染农场系统、文件共享系统以及自动化设计系统等四个部分:

云桌面,彻底解决资源困扰

在海尔创新设计中心的青岛办公室,3D云桌面系统为300多位3D设计师、平面设计师提供便捷易用的桌面环境。通过公有云上的资源隔离划分,海尔设计在彻底解决原自建IDC的VDI方案“资源挤兑造成卡顿、闪退或宕机”以及“多人使用时性能衰退”等问题的基础上,还能有约 30% 性能提升,可以说是一举多得。

共享存储,让储存限额不复存在

基于Amazon S3特性构建的文件共享系统,让公司、小组和个人之间得以共享存储。这种对冷热数据进行自动分层的无限容量存储系统让数据安全性提高了 3 倍,而此前自建 IDC 每人最大分配 500G 容量、每天只允许一个备份且最多保留 7 天的设定,自此成为历史。

渲染农场系统,和业务排队说再见

渲染农场系统使用亚马逊云科技自有渲染产品Amazon Thinkbox deadline软件及 HPC 集群进行图片渲染,具备高性能和弹性,让设计师提交任务后就能拿到渲染效果图,彻底解决渲染任务排队问题。而低负载时它会自动降低Amazon EC2 Spot 数量且按实际使用时间(精确到秒)付费,从此不再浪费。

从3天到10分钟,智能设计系统让效率“飞起来”

自动化设计系统/智能设计渲染系统通过 Amazon EC2、Amazon Thinkbox Deadline、Amazon DynamoDB 等运行自动化设计软件, 10 分钟就能自动生成人工需要数天才能完成的大批量渲染效果图,彻底解决了原自建 IDC 存在算力瓶颈问题。

早在生成式AI爆火之前,海尔创新设计中心与亚马逊云科技就已经开始了AIGC领域的探索,海尔创新设计中心很早就认识到AI对工业设计未来的发展的价值。海尔设计中心未来还将在AIGC等新兴领域,继续与亚马逊云科技深度合作。借助亚马逊的AI服务和机器学习的能力,以及生态服务伙伴,与智家的用户数据有机结合,可以更快的服务用户和客户,扩大海尔智家业务的全球引领。

]]>
Informatica:2023年首席数据官报告 //www.otias-ub.com/archives/1571114.html Sun, 16 Apr 2023 22:00:41 +0000 //www.otias-ub.com/?p=1571114 根据Informatica最近的一份报告,大多数数据领导者(55%)报告称,他们的企业中有1000多个数据源。如果这还不够,调查的受访者预计会更多,91%的受访者预计今年数据来源会增加。

预计这些增长将来自分析数据源(77%)、云数据存储(77%)和应用程序(77%)。难怪600名首席数据官、首席分析人员以及接受调查的首席数据和分析人员报告的最大挑战之一是数据的数量和种类不断增加。

面对堆积如山的数据和保护隐私至关重要的环境,52%的受访者表示,改善数据和数据流程的治理是他们今年数据战略的首要任务。过去人们发现,数据治理是企业数据领先者和落后者之间的关键区别。

除了数据治理之外,今年数据战略的其他主要优先事项包括改善数据驱动的文化和数据素养(46%)、获得更全面/单一的客户观(45%)以及改善数据隐私和安全性(44%)。

为了支持他们今年的数据管理优先事项,一半的数据领导者预计他们至少需要5个独立的工具。在衡量其数据策略的有效性时,受访者将依赖各种指标,首先是改进数据在业务决策中的使用方式,其次是提高决策所用分析的质量和提高数据质量。


]]>
德勤:是时候认真对待数据了 //www.otias-ub.com/archives/1570746.html Thu, 30 Mar 2023 20:00:39 +0000 //www.otias-ub.com/?p=1570746 德勤发布了新报告“是时候认真对待数据了”。在最低级别的详细信息中收集所有可能的数据可能会让您以后遇到麻烦和瓶颈。接收的数据越多,尤其是如果它以不同的格式来自不同的来源,并且没有围绕关键属性进行标准化。不一致的定义,或使用更广泛的管理维度,如产品、客户、地理、渠道或业务线,也会增加混乱。

只关注财务数据

如果从事财务工作并密切关注数据来源,那么很可能需要考虑得更多。现在的财务部门需要来自供应链、营销、人力资源和外部数据的来源。此外,其工作成果有助于推动整个企业的决策,将税务、法定会计和财务规划与涵盖商业、供应链、运营、人才等预测和模型联系起来。

没有正式的财务数据组织

数据是共享资产,但不是共同责任。数据标准和数据质量的正式所有权是有效管理数据的关键,如果没有所有权和治理,它可能难以利用。数据所有权和流程所有权不是一回事。

这并不是某一个人或某一个角色的责任。数据财务用途的不同组成部分有不同的要求,有时是转型要求。监督数据的团队应该能够说出所有使用它的利益相关者的名字,并知道他们使用的真实来源。

没有“数据人”的财务角色和职业道路

如果为财务部门服务的数据专业人员的职业道路是一刀切的,那么他们就不会认真对待数据。同样,如果财务员工认为他们的职位使他们成为“非数据”人员,那么CFO就需要做更多的事情。访问和使用数据的能力是嵌入在整个组织中,以构建数据能力,让每位财务员工都能发现、使用、分析的机会并获得洞察力。


]]>
CGO:大部分美国人不信任科技公司收集和使用数据 //www.otias-ub.com/archives/1365066.html Sun, 02 Jan 2022 18:00:31 +0000 //www.otias-ub.com/?p=1365066 CGO调查了人们对不同科技公司收集和使用数据的信任程度。最不被信任的科技公司是TikTok(59%)、Facebook(58%)和Twitter(55%)。男性普遍更不信任这些科技公司。

受教育程度越高的人越不信任科技公司。与高中毕业生(49%)相比,拥有研究生学位的美国人对Facebook更不信任(73%)。

政治意识形态也影响着信任度。保守派比自由派更不信任Facebook(分别为69%vs.55%)亚马逊(40%vs.34%)和谷歌(53%vs.28%)等科技公司。

调查发现,对Twitter和亚马逊的不信任度略有上升,分别从50%和28%上升至55%和34%,而Zoom是唯一一家声誉显著改善的公司。

对政府的不信任

2020年大选后,共和党人对联邦政府正确使用个人数据的不信任度急剧上升,而民主党人的不信任度则在下降。

对科技公司的监管

大约一半的美国人希望拆分Facebook(53%)、亚马逊(48%)和谷歌(44%),但其他人并不确定。

大多数美国人原则上支持言论自由(81%)。与此同时,大多数人支持社交媒体对虚假帖子(62%)或攻击性内容(53%)负责。

传统观点认为,美国年轻人更支持限制言论。

大多数保守派和自由派都支持拆分大型科技公司(分别为60%vs.54%)。对于加强政府监管是否是正确的做法,意见分歧更大。

新闻媒体

当被问及“大多数新闻报道是否有益于美国社会”时,美国人的意见几乎是平均的(41%同意,43%不同意)。

社交媒体与政治

只有少数美国人使用社交媒体主要是为了分享他们的政治信仰(23%),许多人对此感到不安(49%)。大多数人认为社交媒体是“重要公共政策对话”的平台(55%)。

]]>
Gartner:2021年十大数据和分析技术趋势 //www.otias-ub.com/archives/1218044.html Mon, 22 Mar 2021 18:30:29 +0000 //www.otias-ub.com/?p=1218044

趋势1:更智能、更负责、更可扩展的人工智能

人工智能(AI)和机器学习(ML)的影响越来越大,这就要求企业应用新技术,开发出更智能、更少需要数据、更具道德责任感和更具弹性的人工智能解决方案。

趋势2:可组合数据和分析

开放的、容器化的分析体系结构使分析功能更加灵活。

趋势3:数据结构是基础

数据结构使用分析来不断监控数据管道。数据结构利用数据资产的连续分析来支持各种数据的设计、部署和利用,从而将集成时间减少30%,部署时间减少30%,维护时间减少70%。

趋势四:从大数据到小数据、宽数据

新冠大流行带来的极端业务变化导致基于大量历史数据的ML和AI模型变得不那么相关。

趋势5:XOps

XOps(包括DataOps、MLOps、ModelOps和PlatformOps)的目标是使用DevOps最佳实践实现效率和规模经济,并确保可靠性、可重用性和可重复性。

趋势6:工程决策智能

工程决策智能不仅适用于单个决策,而且适用于决策序列,将它们分组到业务流程中,甚至包括紧急决策。

趋势7:数据和分析作为核心业务功能

D&A不再是一种次要活动,正在向核心业务职能转变。

趋势8:图表关联一切

Gartner预测,到2025年图形技术将用于80%的数据和分析创新,高于2021年的10%,促进整个组织的快速决策。

趋势9:扩大消费的崛起

如今,大多数业务用户都在使用预定义的仪表盘和手动数据探索,这可能会导致错误的结论和有缺陷的决策和操作。

趋势10:边缘数据和分析

到2023年,数据和分析领导者的主要责任将超过50%,包括在边缘环境中创建、管理和分析的数据。

199IT.com原创编译自:Gartner 非授权请勿转载

]]>
Winterberry Group:2021年协作数据解决方案报告 //www.otias-ub.com/archives/1210050.html Tue, 16 Mar 2021 21:30:35 +0000 //www.otias-ub.com/?p=1210050 Winterberry Group发布了新报告“协作数据解决方案”,当隐私法规变得越来越常见,新的后cookie时代迫使人们重新思考如何最好地优化收入并在各个渠道之间实现一致的消费者互动。

在欧洲,许多人正在求助于协作数据解决方案;在美国,这种解决方案也正越来越多地被采用。这些解决方案超越了新的后cookie身份替代方案,涵盖了品牌、媒体所有者、数据所有者和为其服务的技术公司之间更为全面的合作方式。这些解决方案涵盖:

数据合作社(DATA CO-OPS),多个品牌提供第一方数据,能够获得第二方数据以进行洞察和测量;在某些模型中,合作社可以将这些洞察和模型应用于第三方数据,以用于定向受众。

数据市场和交易所,所有者可以在其中交换数据,以便使用第三方解决方案或在营销用例之外进行进一步分析。交换或授权同样基于权限,并以一对一的方式提取或混合并导出重新编译的文件。

技术数据环境,旨在促进公司与合作伙伴获得最高级别的隐私和安全性。这些数据环境并不是替代用作第一方数据的主要存储的CDP,而是对其进行补充并提供中立的解决方案,帮助合作伙伴之间共享数据。

合作和协作并不是什么新鲜事。2020年11月进行的品牌营销人员调查显示,81%的美国消费者和70%的英国消费者目前正在共享数据或打算共享,这表明市场正在朝着合作的方向全面发展。

总之,研究表明,未来将出现企业间和企业内部协作解决方案的激增。

PDF版本将分享到199IT知识星球,扫描下面二维码即可!

]]>
2020年度喜茶数据报告(完整版) //www.otias-ub.com/archives/1202840.html Sun, 07 Feb 2021 16:19:23 +0000 //www.otias-ub.com/?p=1202840 伴随年轻人对饮品需求的转变,奶茶逐渐成为了他们不可或缺的一部分。作为当红茶饮品牌,喜茶不但深受消费者的喜爱,更是带动了整个市场的品牌化、年轻化。

近日,喜茶发布了《茶势喜人 灵感永驻 喜茶 2020 年度报告》。从各门店的发展、产品销量、消费者分析、企业责任等方面向我们展示了喜茶过去一年的发展。

报告显示,截止到 2020 年 12 月 31 日,喜茶在海内外 61 个城市共计拥有门店 695 家。在不同城市开办不同门店的同时,喜茶也十分注重根据不同城市不同灵感,开展不同的主题门店。像深圳海岸城环保主题店、上海新世界大丸百货黑金店等,希望借此为消费者带来现代、古典、环保等不同空间体验感。

在空间体验的基础上,喜茶还致力于产品研发。平均每 1.2 周就会推出一件新品,在工艺上也开创了茶饮界的新技术。并且,为保证原材料的质量,还建设了自己的茶园。

报告还显示,喜茶去年全年的鲜果消耗超过 1000 吨,为供应链上游的农民创造了高达 7.5 亿元的收益。

同时,喜茶表示在鼓励顾客使用纸吸管的同时,还会对回收的塑料进行设计,实现二次利用,以倡导环保理念。

附:《茶势喜人 灵感永驻 喜茶 2020 年度报告》全文

]]>
全球最大航空联盟星空联盟全面使用AWS 将所有数据、平台和关键业务应用迁移到AWS //www.otias-ub.com/archives/1172154.html Tue, 15 Dec 2020 02:15:37 +0000 //www.otias-ub.com/?p=1172154 全球最大航空联盟选择 AWS提高系统稳定性,提高运营效率,提升旅客体验

北京– 2020 年 12 月 15 日 –今天,亚马逊云服务(AWS)宣布,全球最大的航空联盟——星空联盟将所有 IT 基础设施迁移到全球领先的云AWS,以降低成本,提高性能,成为一家在云端、更敏捷的公司。星空联盟正在与AWS合作伙伴网络核心级咨询合作伙伴–塔塔咨询服务公司(TCS)合作,将所有数据、平台和关键业务应用迁移到AWS,并关闭数据中心,这将使基础设施总拥有成本降低25%。同时,利用AWS在分析、安全、管理数据库、存储和机器学习等方面的领先优势,星空联盟为其26家成员航空公司提供实时洞察力,即使在新冠疫情导致的不确定性下,也能帮助改善乘客的全球旅行体验。

通过迁移到AWS,星空联盟变得更为敏捷,可以立即优化现有基础设施的使用和成本,尤其在疫情期间,可以满足全球航空旅行不断变化的需求。当隔离检疫令和旅行限制生效时,星空联盟立即将其基础设施空间占用和支出减少了30%,缩减使用AWS容量,不必为多余的本地部署容量付费。通过AWS,星空联盟正在为未来全球旅行限制开始放松、客户恢复定期飞行做好准备。现在引入应用程序只需以前一半的时间,利用Amazon Elastic Container Service(亚马逊弹性容器服务)与AWS Fargate (适用于容器的无服务器计算引擎,可轻松构建应用程序)来支持服务,使乘客旅行更加轻松和安全。例如,星空联盟使用Amazon Aurora(AWS为云端构建的关系型数据库)构建了行李追踪应用,处理来自多个航空公司行李系统的数据,提供运营报表和集中式报告,以便在世界各地机场的航空公司客服人员可对行李进行追踪。此外,在AWS上运行”星空联盟成员航司值机中心 “应用可在高峰期每月处理和分析超过1200万笔交易,让旅客能够通过星空联盟成员航司办理多站行程的登机手续并获得登机牌,从而使旅客的登机过程变得更加顺畅,实现无缝衔接。

通过成为云端的数据驱动型组织,星空联盟正在使用AWS分析和数据库服务,包括Amazon Relational Database Service (Amazon RDS)、Amanzon Athena(AWS无服务器、使用标准SQL的交互式查询服务)和Amazon QuickSight(AWS商业智能服务),来识别未来的旅行需求和趋势,同时改善客户体验。星空联盟的转机决策工具可以帮助其成员航空公司实时管理有风险的航班转机,以便他们采取积极主动的行动,例如快速跟踪乘客通过海关和移民署(边检),迅速将客户及其行李运至转机航班上。该工具是对星空联盟新推出的 “转机服务”(一款移动应用,可为旅客提供通往出发登机口的最快路径指引,并在转机紧张时解锁机场快速通道)的补充,提供更快速的非接触式机场体验。此外,通过将传统历史数据库迁移到Amazon Aurora,星空联盟可以使其成员的客户服务团队能够做出快速、明智的决策,帮助他们更快地处理常旅客计划请求,并结合乘客偏好,提供个性化的旅行体验。未来,星空联盟计划在Amazon Simple Storage Service (Amazon S3)上创建数据湖,将成员航空公司的数据访问集中起来,以加速企业应用和客户功能的开发。此外,星空联盟还将把Amazon SageMaker(使数据科学家和开发人员能够快速构建、训练和部署机器学习模型的服务)等AWS机器学习服务应用到整合后的数据中,从而提供增值服务,比如预防会员常旅客网络中出现与忠诚度相关的欺诈行为。

星空联盟数字化与技术负责人 Jeremy Drury介绍说:”我们决定全部迁移到AWS,获得我们所需的系统可靠性和可扩展性,支持每年越来越多的全球旅行者成为星空联盟会员,这场疫情也证明了在云端拥有灵活敏捷的基础设施的必要性。没有人能够预测到2020年至今所发生的事情,但由于我们与AWS的合作,我们能够迅速调整目标,缩减开支。除了节约成本和满足弹性需求,AWS还为我们提供了一套最全面的云服务,让我们能够快速创新,推出新的服务,保障旅客安全,不断重塑全球旅行体验。”

AWS旅行与酒店行业业务总经理 David Peller 表示:”通过全部迁移到 AWS,星空联盟正在利用云的弹性来根据行业趋势调整运营,以应对剧烈变化的市场动态。作为一个全球化的机构,星空联盟是一个成功拥抱云计算,以渡过不确定时期的范例。随着全球边境预计再次开放,我们很高兴能与星空联盟进行合作,助力他们利用AWS全面服务套件,大规模地创新产品,同时提高了全球航空旅行新时代的可能标准。”

“全球新冠疫情让旅游行业更加需要拥抱新技术,提高运营弹性、业务敏捷性,提高响应客户需求和当地法规不断变化的能力,”塔塔咨询服务公司欧洲旅游、交通和酒店业主管Arun Pradeep说。”在AWS上加速了星空联盟的IT转型后,我们现在正利用高级分析和机器学习能力,帮助星空联盟实现价值最大化,提供更高水平的个性化和卓越的客户体验。”

关于亚马逊云服务(AWS)

14年来,亚马逊云服务(Amazon Web Services,AWS)一直是世界上服务丰富、应用广泛的云服务平台。AWS提供超过175项全功能的服务,涵盖计算、存储、数据库、联网、分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面,遍及24 个地理区域的77个可用区(AZ),并已公布计划在澳大利亚、印度、印度尼西亚、日本、西班牙和瑞士新建6个AWS区域、18个可用区。全球数百万客户,包括发展迅速的初创公司、大型企业和领先的政府机构都信赖AWS,通过AWS的服务强化其基础设施,提高敏捷性,降低成本。欲了解AWS的更多信息,请访问:http://aws.amazon.com

关于亚马逊

亚马逊秉承四大原则:顾客至尚、崇尚创新、卓越运营与长远思考。公司开创了诸多创新服务,包括客户评价、一键下单、个性化推荐、Prime会员服务、亚马逊配送、亚马逊云计算服务、Kindle直接出版(Kindle Direct Publishing)、Kindle、Fire tablets、Fire TV、Amazon Echo以及Alexa等。更多信息,请访问www.amazon.com/about

关于星空联盟

星空联盟网络成立于1997年,是第一个真正意义上的全球航空联盟。它的建立以全球覆盖、全球认可和无缝服务的客户价值主张为基础。自成立以来,星空联盟提供了最大、最全面的航空网络,专注改善整个联盟旅程中的客户体验。26家成员航空公司为:爱琴海航空、加拿大航空、中国航空、印度航空、新西兰航空、全日空、韩亚航空、奥地利航空、阿维安卡航空、布鲁塞尔航空、科帕航空、克罗地亚航空、埃及航空、埃塞俄比亚航空、长荣航空、波兰航空、汉莎航空、北欧航空、深圳航空、新加坡航空、南非航空、瑞士航空、葡萄牙航空、泰航、土耳其航空和美联航。

 

总的来说,星空联盟网络目前每天有超过12000个航班飞往197个国家的1300多个机场。星空联盟转机合作伙伴均瑶航空和泰航微笑航空还提供更多的转机服务,www.staralliance.com。

 

 

]]>
2020年数据与人工智能行业图谱 //www.otias-ub.com/archives/1149615.html Sun, 08 Nov 2020 14:48:43 +0000 //www.otias-ub.com/?p=1149615

PDF版下载地址:https://t.zsxq.com/AqFujYj

]]>
DMA:2020年5月冠状病毒对数据和营销行业的影响 //www.otias-ub.com/archives/1070204.html Sun, 05 Jul 2020 22:00:20 +0000 //www.otias-ub.com/?p=1070204 DMA发布了新报告 “5月冠状病毒对数据和营销行业的影响”。调查结果显示,许多人仍然担心COVID-19对他们业务的影响,那些“非常担心”的受访者从4月份的24%上升到5月份的33%。尽管那些表示不关心或中立的受访者在同一时期从17%上升到26%。

企业估计,在停工期间他们的收入已经减半(52.8%),越来越多的受访者预计不得不裁员(27%)或让员工休假。DMA预测休假员工人数从上个月的5.2人上升到7.8人。

但是,企业对其运营状况“一切照常”的估计也出现增长。从4月份的56.9%上升到64.6%,可能出现了一些初步改善的迹象。

进入新阶段

事实上,在家工作的人从之前的90%以上下降到5月份的80%。但是,许多人也认为他们的远程工作效率可能也在下滑,从89%下降到68%。

随着我们进入一个新的阶段,数据和营销专业人员似乎对他们的企业将他们的健康和安全放在首位的信心也有所减弱。这一数字从前两个月的90%以上下降到52%。但是,积极的是,在封锁期间提供技能发展和学习机会的企业数量大幅增加,从之前的一半增长到5月份的84%。

“追踪”对数据隐私的影响

数据还显示,42%的受访专业人士担心,英国政府的“Test, track and trace ”(测试、跟踪和追踪计划)可能会对消费者未来分享个人数据的普遍意愿产生负面影响。许多人担心政府战略可能会对消费者的长期信任产生影响,特别是对代理机构(59%)和品牌(43%)如何使用个人数据的信任产生负面影响。

PDF版本将分享到199IT知识星球,扫描下面二维码即可!

]]>
GWI:创建消费者洞察 //www.otias-ub.com/archives/1035284.html Fri, 24 Apr 2020 21:00:15 +0000 //www.otias-ub.com/?p=1035284 现在的品牌可以访问无穷无尽的数据,但数据丰富并不意味着你有洞察力。洞察力是关于客户的普遍的、人类的真理。它揭示了关于客户的独特的看法和行为,你可以从中了解客户的真实面目。

进行足够深入的研究,以发现可执行的洞察,有助于品牌为正确的受众创建正确的信息。将这一点整合到营销战略的每个阶段,可以实现更有针对性的创造力和坚实的投资回报。

GWI的报告将演示如何从数据到洞察力,并建立与客户的持久且有意义的联系。

我们对当今的消费者有多少了解?

每月有超过70%的消费者在网上购买产品。

网民平均拥有8个社交媒体账户,高于2012年的3个。

千禧一代每天在社交媒体上花费2小时38分钟。

在16-24岁的人群中有46%使用社交媒体进行产品研究。

消费者平均每天花6个半小时使用互联网设备和服务。

这说明了什么?

随着现代消费者跨平台、跨设备和跨渠道变得更加分散,在网上花费的时间和金钱越来越多,品牌需要知道什么是有效的,什么时候有效,为什么有效。

这使得数字空间对营销人员和研究人员来说变成了一个挑战,但它也打开了更多的机会。拥有上述洞察力并知道如何使用它们是在竞争中脱颖而出的唯一方法。只有你足够了解你的消费者,为他们提供他们期望的体验,并在关键时刻拥提供正确的信息,才能在竞争中脱颖而出。

PDF版本将分享到199IT知识星球,扫描下面二维码即可!

]]>
试着说说推荐算法 //www.otias-ub.com/archives/1030218.html Fri, 03 Apr 2020 08:34:47 +0000 //www.otias-ub.com/?p=1030218 首先申明一下,推荐算法是个很大的话题,实际工程中也是很多策略交织在一起,所以本文主要是尽量通俗易懂的讲清楚推荐算法是个什么东西,不追求深入、全面和绝对的精确!轻喷

以下内容分三部分:算法的核心;算法有多大用;实际工程中算法怎么工作的

1. 算法的核心是什么

推荐算法的核心是基于历史信息寻找被推荐的东西(可能是人、物、信息)与用户的一种关联性,进而去预测你下一步可能喜欢什么,本质上还是基于统计学的一种推测(谷歌的深度学习除外)。

这里有两个关键点:历史信息;关联性

历史信息也就是大家所说的标准化数据

关联性也就是大家常说的算法,他做的事情就是猜测你可能会喜欢怎样的东西.要搞清楚这个问题,还是得回到人在不同的场景中会喜欢怎样的东西,这个在不同的场景中差别比较大。举两个例子说明一下

对于微信朋友圈:用户最关心的是我跟发布者的亲密度,其次是内容的质量和内容的发布时间,这也就是Facebook智能信息流的雏形,根据跟发布者的亲密度,内容的质量和内容的新鲜程度的一个混排算法。

对于美团外卖:用户最关心的是这家餐厅好不好吃,价格贵不贵,有没有优惠,配送时间长不长。至于我认不认识这家餐厅的老板,这家餐厅开业时间就不是重点,所以算法就可能是完全不一样的思路。

不管Facebook信息流还是美团外卖,核心还是得去理解用户在你的产品中到底喜欢怎样的东西,这个是基础,算法只是工具。

2. 算法真的有那么大效果吗

这几年今日头条的成功,包括业内各种AI、人工智能的吹,让我们以为算法无所不能,实际上算法真的有这么神奇吗?

答案是没有。。。

今日头条的成功我认为主要还是靠对流量的理解,战略和公司的运营、算法、数据化思维形成的执行力。算法在里面只是一环

举一个淘宝的例子,去淘宝的人从需求的强弱程度来看分三种:明确知道我要买啥的,知道我要买啥品类但具体买啥不知道,就是来逛的。

第一类算法没有增长点,我就要买个苹果的iphoneX,你再怎么推荐我也是买个苹果X

第二类算法的增长点一般,我要买个蓝牙耳机,算法处理的好能提高成单率,客单价,利润,但也是有限的,因为用户进来之前已经有了一些基本的预算之类的预设。

第三类是比较大的增量空间,因为第三类属于激发性需求。就像你去商场听导购一顿忽悠,买了本身不需要的东西。但是第三类的成单量本身的占比并没有那么大。

所以综合下来,算法实际的效果也就是在完全没有算法的基础上有1.1,1.2,1.3倍这样的效果,这是由用户的需求总量决定的。

当然我不是说算法没用,因为在同等成本结构的基础上,你的转化率哪怕比竞争对手高5%,那也是巨大的效率碾压。我只是想说算法没有大家吹得那么厉害,并不能直接决定一家公司的成败,算法只是一个辅助。

3. 水果店案例说明算法在实际工程中的工作过程

在实际的商品类的推荐系统中,主要分三大块:收集数据和整理(商品画像、用户画像);算法推荐;上线实验及回收结果。

收集数据及整理

假设小明开了一个有3家分店的大型水果连锁店,收集数据阶段主要包括:

商品属性信息:小明将店内的每一个水果以及水果的信息都记下来,甜的还是酸的,品质S还是A,有没有损坏,性寒还是热,单价贵不贵,有没有优惠等等。这是商品的基本属性信息。

商品反馈信息:销量咋样,停留率咋样,停留转化率咋样,用户的评价反馈咋样。这个是基本的反馈信息。

人的基本属性:什么人,什么小区,穿着打扮咋样,年龄多大,哪里人

人的行为信息:这次买了啥,下次买了啥,看了啥,咨询过啥,买完之后反馈咋样。

数据阶段收集是一方面,最关键的是收集的数据是结构化的,是在用户的购买决策中是有效的,比如说用户中途出去抽了一根烟这种信息就没啥用。。。

算法推荐

算法阶段关键的还是搞清楚用户在不同的场景中会喜欢怎样的水果。

我个人喜欢把商品推荐主干算法分为4个部分:质量评估,个性化,场景化,人工干预

质量评估:有些标准是存在绝对的好与坏的,水果是不是好的,性价比高不高,销量好不好,优惠力度大不大,用户反馈好不好这些是存在绝对的好与坏的,我相信没人想买个烂苹果。

个性化:有些东西是存在个体差异的,甜的还是酸的,进口的还是国产的,水果的品种是樱桃还是芒果,性凉还是热的,品质分级是S还是A(跟前面的烂没烂两个概念)。

举个例子:一个金融白领可能喜欢的是甜的车厘子,进口的,品质S级的,优惠不敏感,客单价高;而小区的家庭主妇喜欢的可能是杨梅,品质还过得去的国产的就行,很在乎优惠,客单价适中的。那对于前一种用户就可以推一些客单价高的,毛利高的进口产品,相应的也可以少设置优惠;对于后一种就应该推一些性价比高的,有折扣的清仓的商品。

场景化:不同的时间和地点会一定程度上影响用户的消费决策,比如夏天大家喜欢吃西瓜,在医院边上香蕉好卖,中午的时候不带皮可以直接吃的东西好卖因为大部分下午还要上班,晚上则需要处理的也卖的还可以。这个就是不同的场景带来的影响

人工干预:算法本身是不带意志的,但是很多时候人会强加一些意志上去,比如说最近年底冲业绩了,需要强推高毛利的商品了;比如这个樱桃是合作方的,需要强推;比如有些东西快过期了,需要强推。这个时候就需要人工去做一些干预

算法最后做的就是把里面每一个环节打上一个分,最后再把这些因素去加总得到一个最后的结果呈现在用户面前。但是这个分怎么打?这个就涉及到算法的价值观

所谓算法的价值观,就是你希望算法最终的结果是怎样的,我是希望销量最大化还是销售额最大化还是利润最大化。不同的目标带来不同的结果。因为算法只是为目标最大化负责的。

算法在处理每一项得分的时候也挺简单,简单说就是,如果我的目标是销量最大化,那有两个特征:优惠力度,评价,如果随着优惠力度的提高购买转化率急剧提升,那么我认为优惠力度这个特征权重就高,如果随着评价的提升购买转化率提升较慢,那么我认为评价这个特征的权重就一般。

这个过程并不复杂,算法的优势在于他能记录更丰富的信息(工程中特征数量可能达到百万级),处理海量的数据。这是算法比人有优势的地方

这个大概能支撑起一个算法的框架,实际的应用中会在一个主干算法的基础上去迭代很多小的策略。

下面举几个具体的细分迭代策略:

比如说买了芒果的用户很大比例都买了樱桃,那相应的会把买芒果的用户列表中的樱桃相应的往前提。这个就是大家常说的购物篮算法

比如说同样是国贸摩根大厦的用户更喜欢进口水果,那对于一个摩根大厦的用户他列表中的进口水果,高客单价水果需要往前提。这个类似协同过滤,通过找到跟你类似的人,再去看他们喜欢啥。

比如说你第一次买了榴莲之后打了差评,以后就需要降低榴莲及相关水果的权重。这个就是负反馈。

比如说你的列表中连续出现了3种葡萄,那这时候大概率是应该把他们打散一下,尽量一页别出太多葡萄。这就是打散

比如当你在浏览的过程中点击了樱桃,那根据购物篮原来喜欢买樱桃的人也喜欢买芒果,那下一页加载的时候需要动态的增加芒果的权重  — 这个是实时反馈

实验及回收效果

个人认为快速的实验迭代和效果回收是算法高效率的关键,也是互联网的核心。修路造桥错了就是错了,而互联网产品这版效果不好下一版还能优化。算法是将这种快速迭代推向了顶峰,同时几十个实验在线上AB测试,不需要发版,好不好马上就能看出来。

AB测试的过程有点类似如果我有5家水果店,我要验证新引进的樱桃设置怎样的价格能收益最大化,我可以5家店同时设置5种价格,卖一周看看结果。

实验主要分两个部分:实验及效果回收

实验就是在其它东西都一样的情况下,留出一个不一样的东西,然后观察最后的结果,这样比较好确定最后的结果差异就是由这个不一样的东西带来的。

效果回收主要是看数据和人去看实际推荐的结果,看数据需要覆盖多一些的指标,因为很可能销量好了毛利降了,或者毛利好了当天剩余率升高了。

人工去看结果主要是一个二次确定的过程,比如在头条里面各种数据都很好,但是推出来的内容很低俗,或者这种数据好人看完之后凭经验知道这不是长久之计,比如周围就一家水果店你恶性提价。。

作者:s_crat

]]>
2019年11月中国奶业贸易数据月报 //www.otias-ub.com/archives/979107.html Wed, 11 Dec 2019 08:19:09 +0000 //www.otias-ub.com/?p=979107
01、奶业贸易概况

乳品贸易概况

1.1.1  1-10月进口干乳品+3.9%至168万吨 液态奶+38%至77万吨

2019年1-10月我国共计进口各类乳制品244.14万吨,同比增加12.5%,进口额91.83亿美元,同比增长10.1%。

其中,进口干乳制品167.62万吨,同比增加3.9%,进口额82.25亿美元,同比增长8.7%,进口液态奶76.52万吨,同比增加37.8%,进口额9.57亿美元,同比增长23.2%。

从单个品类来看,奶油和乳清进口量大幅下降,其余品类进口量均有不同幅度增长。其中:

大包粉 进口83.29万吨,同比增加24.5%,进口额25.19亿美元,同比增长22.9%,平均价格为3024美元/吨,同比下降1.3%。主要来自新西兰占74.4%、欧盟占14.1%。

婴配粉 进口28.56万吨,同比增加8.7%,进口额43.51亿美元,同比增长11.7%,平均价格为15233美元/吨,同比上涨2.8%。主要来自欧盟占70.5%、新西兰进占20.8%。

奶  酪  进口9.4万吨,同比增加5.7%,进口额4.27亿美元,同比增长1.2%,平均价格为4540美元/吨,同比下降4.3%。主要来自新西兰占58.1%、欧盟占17.5%、澳大利亚占15.4%、美国占6.7%。

奶  油  进口6.78万吨,同比减少35.2%,进口额3.76亿美元,同比下降41.6%,平均价格为5548美元/吨,同比下降9.9%。主要来自,新西兰占83%、欧盟占13.6%。

乳  清  进口36.84万吨,同比减少21.2%,进口额5.08亿美元,同比下降2.2%,平均价格为1378美元/吨,同比上涨24.1%。主要来自欧盟占46.3%、美国进占33.6%、白俄罗斯占8.3%、阿根廷占5.4%。

包装牛奶 进口73.59万吨,同比增加39.1%,进口额9.06亿美元,同比增长25%,平均价格为1231美元/吨,同比下降10.1%。主要来自欧盟占54.3%、新西兰占31.7%、澳大利亚占12%。

Table 1‑1中国乳制品进口情况2019.1-10

单位:万吨、亿美元、%

1.1.2  1-10月我国出口各类乳制品4.49万吨,同比增加4.2%

中国乳制品出口量很小,多年来,主要出口产品一直是以广东供应香港的鲜奶为主,近年来液态奶出口逐年下降,婴幼儿配方粉成为最主要出口产品,主要目的地也是香港。2019年1-10月我国共计出口各类乳制品4.49万吨,同比增加4.2%,出口额3.64亿美元,同比增长32%,出口额2445.33万美元,同比下降4.5%。

干乳制品  1-10月出口干乳制品2.18万吨,同比增加16.5%,出口额33931.44万美元,同比增长35.8%,出口液态奶23173.79吨,同比减少5.2%;9月出口干乳制品2363.89吨,同比减少30.6%,出口额3767.66万美元,同比下降28.9%。

液态奶  1-10出口液态奶2.32万吨,同比减少5.2%,出口额2445.33万美元,同比下降4.5%;9月出口液态奶2486.75吨,同比增加0.2%,出口额260.9万美元,同比增长8.4%。

牧草及饲料原料

1.2.1  干草进口1-10月-14%至125万吨

中国进口干草主要是苜蓿和燕麦干草。据海关统计,1-10月,我国进口干草125.18万吨,同比减14.3%,进口金额4.27亿美元,同比减7.0%。

其中,进口苜蓿干草累计104.92万吨,同比减13.6%,占进口干草总量的83.8%;进口燕麦干草20.26万吨,占干草进口量16.19%,同比减17.5%。

02、乳品原料贸易

乳品进口

2.1.1 干乳制品1-10月进口167.62万吨 同比增加3.9%

2019年1-10月我国进口各种进口干乳制品167.62万吨,同比增加3.9%,进口额82.25亿美元,同比增长8.7%。主要的三大类产品包括,大包奶粉83.29万吨,占49.7%,乳清36.84万吨,占22%,婴幼儿配方奶粉28.56万吨,占17%。

其中,10月进口干乳制品12.82万吨,同比增加0.3%,进口额6.99亿美元,同比下降2.1%,主要的三大类产品:大包奶粉5.03万吨,占39.2%,乳清3.55万吨,占27.7%,,婴幼儿配方奶粉2.68万吨,占20.9%。

2.1.2  大包奶粉1-10月进口+24.5%至83.3万吨,价格同比-1.3%

据中国海关统计,2019年1-10月中国共进口大包奶粉83.29万吨,同比增加24.5%,进口额25.19亿美元,同比增长22.9%,平均价格为3024美元/吨,同比下降1.3%。

其中,从新西兰进口61.99万吨,占74.4%,同比增加24.3%,从欧盟进口11.78万吨,占14.1%,同比增加47.3%,从澳大利亚进口5.54万吨,占6.6%,同比增加30.6%。

10月中国共进口大包奶粉5.03万吨,同比增加18.3%,进口额1.73亿美元,同比增长36%,平均价格为3445美元/吨,同比上涨15%。

其中,从新西兰进口3.11万吨,占61.9%,同比增加31.8%,从欧盟进口1.03万吨,占20.5%,同比减少1.6%,从澳大利亚进口0.57万吨,占11.3%,同比增加36.6%,从白俄罗斯进口0.19万吨,占3.8%,同比减少33.9%。

Table 2‑1中国大包粉进口量变化2014-2019

单位:万吨、亿美元、美元/吨

Table 2‑2中国大包粉进口来源地2019.1-10

单位:万吨、%

注:以2019年当年累计数排序,占比均为占全国进口总量的比重。

2.1.3  乳清1-10月进口-21.2%至36.84万吨,价格同比+24.1%

据中国海关统计,2019年1-10月中国共进口乳清36.84万吨,同比减少21.2%,进口额5.08亿美元,同比下降2.2%,平均价格为1378美元/吨,同比上涨24.1%。

其中,从欧盟进口17.05万吨,占46.3%,同比减少0.2%,从美国进口12.36万吨,占33.6%,同比减少47.1%,从白俄罗斯进口3.05万吨,占8.3%,同比增加101.8%,从阿根廷进口1.99万吨,占5.4%,同比增加1.6%。

10月中国共进口乳清3.55万吨,同比减少8.8%,进口额0.44亿美元,同比下降5.4%,平均价格为1248美元/吨,同比上涨3.8%。

其中,从欧盟进口1.54万吨,占43.5%,同比减少8.4%,从美国进口1.32万吨,占37.1%,同比减少16.2%,从白俄罗斯进口0.35万吨,占9.7%,同比增加24%。

Table 2‑3中国乳清进口情况2019.1-10

单位:万吨、%

Figure 2‑2中国乳清月度进口2018-2019

2.1.4  奶酪1-10月进口+5.7%至9.4万吨,价格同比-4.3%

据中国海关统计,2019年1-10月中国共进口奶酪9.4万吨,同比增加5.7%,进口额4.27亿美元,同比增长1.2%,平均价格为4540美元/吨,同比下降4.3%。

其中,从新西兰进口5.46万吨,占58.1%,同比增加23%,从欧盟进口1.64万吨,占17.5%,同比增加11.9%,从澳大利亚进口1.45万吨,占15.4%,同比减少10.5%,从美国进口0.63万吨,占6.7%,同比减少40.7%。

10月中国共进口奶酪0.84万吨,同比增加18.1%,进口额0.4亿美元,同比增长15.7%,平均价格为4698美元/吨,同比下降2%。

其中,从新西兰进口0.45万吨,占52.8%,同比增加48.6%,从欧盟进口0.2万吨,占23.2%,同比增加35.5%,从澳大利亚进口0.12万吨,占13.7%,同比减少41.8%,从美国进口0.06万吨,占7.2%,同比增加65.1%。

Figure 2‑3中国奶酪月度进口2018-2019

2.1.5  奶油1-10月进口-35.2%至6.78万吨,价格同比-9.9%

据中国海关统计,2019年1-10月中国共进口奶油6.78万吨,同比减少35.2%,进口额3.76亿美元,同比下降41.6%,平均价格为5548美元/吨,同比下降9.9%。

其中,从新西兰进口5.62万吨,占83%,同比减少40.1%,从欧盟进口0.92万吨,占13.6%,同比增加14.9%。

10月中国共进口奶油0.41万吨,同比减少10.4%,进口额0.23亿美元,同比下降17.8%,平均价格为5650美元/吨,同比下降8.3%。

其中,从新西兰进口0.3万吨,占73.5%,同比减少15.4%,从欧盟进口0.1万吨,占24.3%,同比增加41.3%。

Figure 2‑4中国奶油月度进口2018-2019

乳品出口

2.2.1  干乳制品1-10月出口+16.5%至2.18万吨

据中国海关统计, 2019年1-10月出口干乳制品2.18万吨,同比增加16.5%,出口额3.39亿美元,同比增长35.8%,主要三大类,婴配15676.71吨,占72%;奶油1886吨,占8.7%,;大包奶粉1317.75吨,占6.1%;10月出口干乳制品2364吨,同比减少30.6%,出口额3767.66万美元,同比下降28.9%,主要是婴配粉1653.42吨,占69.9%;奶油4012吨,占17%。

其中,1-10月中国共出口婴配15676.71吨,同比增加40.5%,出口额3.22亿美元,同比增长41%,平均价格为20514美元/吨,同比上涨0.4%,出口香港14768.57吨,占94.2%,同比增加39.7%。

10月出口婴配1653.42吨,同比减少39.4%,出口额0.35亿美元,出口香港1571.53吨,占95%,同比减少40.5%。

Figure2‑5中国婴幼儿配方奶粉月度出口2018-2019

2.2.2  液态奶1-10月出口+3.4%至2.53万吨, 价格同比+0.8%

据中国海关统计,2019年1-10月中国共出口液态奶25290.07吨,同比增加3.4%,出口额0.24亿美元,同比下降55.8%,平均价格为1055美元/吨,同比上涨0.8%,从。出口至香港21681.93吨,占85.7%,同比减少7%,出口至新加坡794.91吨,占3.1%,同比增加56.5%。

10月出口液态奶2486.75吨,同比增加0.2%,出口额0.03亿美元,同比下降91.9%,平均价格为1049美元/吨,同比上涨8.2%。出口至从香港出口2325.33吨,占93.5%,同比减少1.1%,出口至新加坡出口75.58吨,占3%,同比增加46.4%。

Figure 2‑6中国液态奶月度出口2018-2019

03、消费乳品贸易

消费乳品进口

3.1.1  婴配粉1-10月进口+8.7%至28.56万吨,价格同比+2.8%

据中国海关统计,2019年1-10月中国共进口婴幼儿配方奶粉28.56万吨,同比增加8.7%,进口额43.51亿美元,同比增长11.7%,平均价格为15233美元/吨,同比上涨2.8%。

其中,从欧盟进口20.14万吨,占70.5%,同比增加0.9%,从新西兰进口5.95万吨,占20.8%,同比增加44.4%,从澳大利亚进口1.06万吨,占3.7%,同比增加15.3%。

10月中国共进口婴配2.68万吨,同比减少17%,进口额4.14亿美元,同比下降12.6%,平均价格为15484美元/吨,同比上涨5.3%。

其中,从欧盟进口1.88万吨,占70.4%,同比减少20.4%,从新西兰进口0.6万吨,占22.4%,同比增加1.3%,从澳大利亚进口0.1万吨,占3.9%,同比增加42.7%。

Figure3‑2中国婴幼儿配方奶粉月度进口量及价格2018-2019

Figure3‑2中国婴幼儿配方奶粉进口来源国及比重2019.1-10

单位:万吨

Figure 3‑3中国婴幼儿配方奶粉进口量及来源国变化2008-2019

3.1.2  包装牛奶1-10月进口+39.1%至73.59万吨,价格同比-10.1%

据中国海关统计,2019年1-10月中国共进口包装牛奶73.59万吨,同比增加39.1%,进口额9.06亿美元,同比增长25%,平均价格为1231美元/吨,同比下降10.1%。

其中,从欧盟进口39.95万吨,占54.3%,同比增加45.5%,从新西兰进口23.32万吨,占31.7%,同比增加31%,从澳大利亚进口8.83万吨,占12%,同比增加35.9%。

10月进包装牛奶7.82万吨,同比增加32.2%,进口额0.96亿美元,同比增长9.5%,平均价格为1224美元/吨,同比下降17.2%。

其中,从欧盟进口4.69万吨,占60%,同比增加83.3%,从新西兰进口2.14万吨,占27.3%,同比减少17.6%,从澳大利亚进口0.85万吨,占10.8%,同比增加34.4%。

Table 3‑1中国进口包装牛奶2019.1-10

单位:万吨

Figure 3‑4包装牛奶月度进口量2018-2019

3.1.3  酸奶1-10月进口+11.7%至2.94万吨,价格同比-11.9%

据中国海关统计,2019年1-10月中国共进口酸奶2.94万吨,同比增加11.7%,进口额0.51亿美元,同比下降1.6%,平均价格为1748美元/吨,同比下降11.9%,从欧盟进口2.73万吨,占92.9%,同比增加19.2%,从新西兰进口0.09万吨,占3.1%,同比减少61.2%。

10月中国共进口酸奶0.29万吨,同比增加11%,进口额0.05亿美元,同比下降10.7%,平均价格为1684美元/吨,同比下降19.6%,从欧盟进口0.28万吨,占94.3%,同比增加20%。

04、遗传物质贸易

种牛进口

4.1.1  种牛进口1-10月+75.9%至6.04万头 

根据中国海关提供的数据,2019年1-10月累计进口种牛6.04万头,同比增75.9%,平均价格为1780美元/头,同比下降3.4%。其中,4.19万头来自澳大利亚,1.85万头来自新西兰。

10月进口种牛8340头,同比增长116%,平均价格1727美元/头,同比上涨降3%,环比下降2.5%。

Figure 4‑1中国改良种用牛(月度)进口2018-2019

单位:头、美元/头

冻精进口

4.2.1  牛冻精进口额1-9月+19%至2749万美元

中国进口海关数据没有统计牛冻精进口数量,从金额来看,2019年1-10月累计进口额达到3211.2万美元,同比增加25.5%,来源国主要是,美国占82.1%、加拿大占6.7%、德国占4.2%、法国占2.5%、荷兰占0.7%、英国占0.8%、澳大利亚占1.7%、罗马尼亚占0.5%。

05、牧草及饲料原料

干草进口

据海关统计,1-10月,我国进口干草累计125.18万吨,同比减14.3%,进口金额4.27亿美元,同比减7.0%。其中苜蓿干草占83.8%,燕麦草占16.2%。

5.1.1  进口苜蓿:1-10月-14%至105万吨 美国占76%  班牙占17%

据海关统计,1-10月,我国进口苜蓿干草累计104.92万吨,同比减13.6%,苜蓿进口量减少与牧场2018年下半年配方调整有较大关系;进口金额3.54亿美元,同比减9.9%,平均到岸价337.86美元/吨,同比涨4.3%。

从进口来源国看,2019年1-10月从美国进口苜蓿量为79.26万吨,同比-24.87%,占苜蓿总进口量75.55%,,惩罚性关税暂停增加后,进口量有小幅回升;进口金额27550.91万美元,同比-21.06%;平均到岸价347.59美元/吨。

从西班牙进口脱水苜蓿量为18.24万吨,同比+55.93%,占总苜蓿进口量的17.38%;进口金额5264.17万美元,同比+68.7%;平均到岸价288.64美元/吨,相比美国进口苜蓿,价格方面有近50美元/吨的价格优势。

此外,加拿大、南非、苏丹、阿根廷、吉尔吉斯斯坦、俄罗斯等国家保持少量对华出口。

从加拿大进口3.3万吨,同比+1.87%,占总进口量的3.14%;平均到岸价367.84美元/吨。从南非进口1.26万吨,占总进口1.21%,平均到岸价335.67美元/吨;从苏丹进口1.51万吨,同比+129.95%,占总进口1.44%,平均到岸价392.61美元/吨。据了解,目前已有部分港口少数贸易商拿到惩罚性关税退还,但由于今年多数牧场当家日粮青贮玉米收获情况较理想,未来进口苜蓿市场格局尚不明朗。

Figure 4‑2  2019年1-10月进口苜蓿来源国分布

10月进口苜蓿65.43%来自美国  27.04%来自西班牙

10月中国从美国进口苜蓿进口量11.21万吨,同比增+72.98%,环比持平;进口金额3990.18万美元,同比+79.89%;平均到岸价355.8美元/吨,同比增加4%。

10月从西班牙进口苜蓿量4.63万吨,占当月苜蓿干草进口量27.04%,同比-4.68%,环比持平;进口金额1346.51美元,同比持平;平均到岸价290.5美元/吨,同比增加5.7%。

10月从加拿大进口苜蓿量为0.58万吨,占当月苜蓿进口量的1.42%,同比+22.3%;进口金额221.37万美元,同比+29.38%;平均到岸价377.87美元/吨,同比+5.78%。

10月从南非没有苜蓿进口,从苏丹苜蓿进口草进口量为1506.94吨,占当月苜蓿总进口量的0.88%。10月意大利进口大幅增加,进口量5319.32吨,平均到岸价304.18美元/吨。

Figure 5‑1  中国苜蓿草进口情况2019

单位:万吨、美元/吨

5.1.2 进口燕麦草:1-10月-17.5%至20万吨 价格358美元/吨

据海关统计, 1-10月,我国进口燕麦干草累计20.26万吨,占干草进口量16.19%,同比减17.5%,进口金额7258.49万美元,同比增10.4%,平均到岸价358.24美元/吨,同比涨33.7%。

其中,10月,进口2.27万吨,占当月进口干草总量的11.67%,同比减31.6%,环比持平,金额842.26万美元,同比减7.7%;平均到岸价371.8美元/吨,环比涨1.1%,同比涨35.0%。

燕麦草的进口全部来自于澳大利亚,澳洲干旱带来供应短缺价格上涨影响进口量,进口燕麦草到港价为2014年来最高且已经超过进口苜蓿平均到岸价,牧场出于成本考虑,减少进口燕麦用量,预计2019年进口燕麦将减少20%左右。

Figure 5‑2中国燕麦干草进口情况2018-2019

来自: 奶业经济观察 

]]>
民生银行数据中台体系的构建与实践 //www.otias-ub.com/archives/938021.html Thu, 12 Sep 2019 13:23:00 +0000 //www.otias-ub.com/?p=938021 在大数据、人工智能、庄闲网络娱乐平台进入 等新兴技术的驱动下,各家银行纷纷利用新技术制定数字转型改革战略,寻找差异化经营的可行模式。

民生银行积极推进改革转型,2018年在“民营企业的银行、科技金融的银行、综合服务的银行”战略指导下,民生银行从科技视角制定了“技术+数据”双轮驱动的改革方案,全力打造以客户为中心的数字化智能银行,为广大客户提供科技+金融的综合生态服务。

如何真正将“数据驱动”的这个轮子落地,扎扎实实地支撑民生银行数字化改革转型,是大数据建设需要攻克的难题。

一、民生银行数据体系演进历程

▲ 图1 民生银行数据发展里程

我行数据体系演进经历了三个阶段:信息分散阶段、数据仓库阶段和大数据平台化阶段,受到经营模式、组织架构、技术条件等诸多因素影响,不同阶段在数据层面会表现出不同的应用模式:

1、信息分散阶段
在早期经营模式直接,产品简单,这个时期的数据应用主要体现在业务系统内的简单数据统计报表,零碎化特质明显,数据统计分散在独立的系统中。

2、数据仓库阶段
随着经营管理模式进一步细化,加上事业部混合经营的组织架构调整,产品系统逐步增多,形成复杂的产品矩阵,在管理端,需要通过集中整合多个系统的业务经营数据来到达对全局经营效果的跟踪以及结构调整的决策支撑,在数据上出现数据集中建设的必然性,技术面上表现为数据仓库实现核心业务产品系统的数据大集中,应用上形成了具备体系化和平台化特质的数据统计报表、经营管理驾驶舱等能力平台。

3、大数据平台化阶段
随着社会和技术进一步发展,银行业的经营模式同质化特质越来越重,各家银行努力探索差异化经营发展的模式,这个阶段如何围绕客户为中心的数据驱动成了各家深入耕耘的模式。集技术与理念的数据中台新模式,承担起这个阶段的使命走上了数据的舞台,为数据驱动业务奠定基础。

二、数据中台意义

“中台概念”早期是由美军的作战体系演化而来的,技术上说的“中台”主要是指学习这种高效、灵活和强大的指挥作战体系。国内阿里巴巴约2017年左右对外率先提出数据中台的概念,在技术层面指通过数据技术统一标准和口径,对全域数据进行采集、计算、存储、加工和服务。

数据中台把数据统一之后,形成标准数据,形成数据资产层,进而为业务层和决策层提供高效服务,包括模型服务、算法服务,以及数据产品。这些服务和产品是企业业务和数据的沉淀,通过数据中台统一服务管理与云化资源部署,降低数据重复性建设、减少烟囱式建设成本。

▲ 图2 科技金融银行的哑铃型新模式

银行业的数据中台建设,在前台业务系统和后台数据系统之间构建了一条数据和能力的通道,为前台的业务团队、客户经理、财富顾问与后台的数据专家、算法模型专家、人工智能专家的工作衔接形成一条强有力的支撑纽带,业务团队专注于产品的具体逻辑与业务管理流程,数据专家专注于加速从数据到价值的过程,提高对业务的响应能力。这样一个快速通道、纽带,为商业银行的数据体系注入了新的活力。

1、模式创新
改变数据后台交付模式,形成以横向平台加纵向业务领域的模式形成矩阵式交付组织结构,对各领域打造数据产品,以产品化模式输出数据能力,为“Open Bank”理念积累数据产品内容。

2、降本增效
将业务策略作为应用场景沉淀到数据中台,通过人工智能模型应用,解放操作岗,审批岗,流程岗等人力工作。

3、服务方式创新
口径统一,实现标准化的数据服务内容和数据服务模式。

三、构建数据中台体系,打造场景金融服务

数据中台自身和业务结合紧密度高,结合现阶段金融业务经营的迫切诉求,在战略上对数据中台建设从技术平台和数据交付内容两个层面制定如下图的建设目标。

▲ 图3 数据中台建设目标

1、数据中台体系技术方案

▲ 图4 数据中台体系全景

数据中台在金融领域的落地应用属于前沿技术,民生银行经过自主探索、自主研发,形成由4大功能体系、12个子系统构成的金融数据中台体系,如表1所示。

▲ 表1 数据中台核心模块

数据中台核心运转模式由Engine引擎体系、Service服务体系、Open路由体系、Plus管理体系核心组件协同运转完成。首先,由Engine引擎体系完成对数据能力、模型能力的抽象封装,以应对不同场景的智能数据需求。

进而,Service服务体系完成引擎抽象能力与实际业务数据的结合应用,通过灵活搭配,打造具备业务属性的数据服务产品,目前已构建智能客户信息中心、数字化决策中心、标签洞察等多项智能数据产品。

最终,通过Open体系(OpenAPI、OpenFILE、OpenMSG、OpenCFG)完成对业务系统与业务人员的快速赋能。Plus管理体系则完成数据资产目录、数据可视化、云化管理等统一管理功能,并通过DevOPS、容器、高性能数据访问缓存等前沿技术组件完成数据服务高并发、高可用、弹性部署等技术能力的提升。

引擎、服务、路由协同运转,统筹管理,共同打造了场景化金融数据服务能力。从数据指标、数据决策、智能推荐、智能模型等多个层面提供了立体化的快速支持,直面客户,赋能场景,为金融业务数字化、智能化转型升级的重要支撑。

2、场景金融服务管理方案
银行的金融业务场景门类齐全,经营的客群多样,围绕客户为中心、差异化经营的场景金融服务模式逐渐成为主流。场景金融服务模式在沉淀共性数据服务的同时,具备面向特定业务领域、特定客群的个性数据服务,不同业务领域、客群间的金融数据口径、服务级别等都存在一定差异。

数据中台作为统一的数据服务平台,支撑各业务领域的场景金融服务,就需要制定指导性规范,对数据中台服务集、服务组件,从业务场景、是否对客、组件多租户使用等角度进行管控,保证数据中台服务可管理、可控制,能够长期有序的运行。

民生银行在建设银行数据中台过程中,结合自身经营现状,提出了一套“场景分区+技术分级”的数据中台场景服务管理方案,形成由11项业务场景、4级服务、18组管控域组成的数据服务管理矩阵。

场景分区标准主要依据业务领域及服务客群,划分为以下11个业务场景:

▲ 表2 数据服务管理矩阵-场景分区

根据服务与用户触达类型对服务进行分类,包括对客服务类、客户经理类、内部管理类、监控查控类,制定不同界别的响应和应急策略。

▲ 表3 数据服务管理矩阵-技术分级

通过技术平台的技术分区和数据内容的服务分级建设思路,数据中台在为各业务场景快速提供在线数据价值输出的同时也能够做到数据使用的管控和跟踪,为数据应用长期优化奠定一个良好的支撑基础。

四、助力改革转型,数据中台典型案例实践

1、支撑小微新模式探索,全流程数据驱动
小微3.0新模式是民生银行积极推进改革转型战略级项目,全技术架构实现中台化,借助业务中台和数据中台提供的能力,完成常态化产品推荐、场景化产品推荐、厅堂服务、收单结算、大额流入与流出营销、在线抵押贷款、小微红包、小微账单、有贷户综合营销等多项业务领域创新性应用的落地,做轻业务前台、做强中台的中台体系架构试点取得成功。

▲ 图5 聚焦小微数字化业务战略

2、助力网金数字化运营和转型落地

▲ 图6 支撑网金数字化运营平台

在数据中台的支撑下,网金数字化运营平台打通了管理驾驶舱和线上服务平台的数据链路,使经营管理决策、策略投放执行、效果评估反馈、迭代完善优化等环节能够闭环执行。

通过内容运营、产品运营、客户运营、服务运营几个领域,提升外部获客能力、转化提升能力、产品销售能力、粘性服务能力,构成流量导入、激活转化、资产提升、粘性服务、决策支持闭环的线上流量经营体系。首家试点行一季度实现理财资产增长二十余亿元,代发目标客群资金留存率显著提升,累计带来近五十亿元行外资产。

3、助力零售风险,探索量化评分
 在零售“天眼”预警系列模型投产取得较好的业务效果之后,大数据管理部进一步的投入专业人才对消贷A卡评分进行量化研究探索,通过中台模型引擎进行灰度发布,能够对机器学习模型的专业评估指标进行在线跟踪,加速机器学习模型的监控迭代。

▲ 图7 消贷A卡量化评分模型效果评估

五、结语

“求木之长者,必固其根本;欲流之远者,必浚其源泉。”当前商业银行正在从“规模化”、“速度化”向“轻型化”、“价值化”进一步深化转型,数据与技术的广泛深度应用是推动这次转型的不竭动力,从数据视角,我们一直在思考并实践如何真正将“数据驱动”的这个轮子落地。

民生银行数据中台是一次执行层的数据建设探索,把长期以来“藏在”后台的数据能力(数据、模型、算法)快速输送到对客系统、业务流程中,直面客户、快速迭代、数据赋能,借助新技术组件提供的强大服务能力,将过去主流的面向宏观决策统计及分析的数据应用模式,提升到面向微观的个体的预测决策数据应用模式。

在沉淀共性数据服务的同时,也具备面向领域的个性数据服务,以客户为中心,差异化服务,深化数据应用价值。

本文作者:何鹏

]]>
数据科学家年薪12万美元算高吗?我爬取近6年三千份数据后发现了这些秘密 //www.otias-ub.com/archives/935797.html Mon, 09 Sep 2019 07:41:33 +0000 //www.otias-ub.com/?p=935797 数据来源

我从这个网站(https://h1bdata.info/index.php)获得这些薪资数据,这个网站对劳工部(DOL)的劳动条件申请(LCA)数据进行了索引。当一家公司打算雇佣一名需要 H1B 签证担保的员工时,他们需要在提交 H1B 签证申请之前向 DOL 提交 LCA。LCA 中包含了与公司、薪水和职位相关的数据,这些数据都是公开的。

我从上面提到的网站(如果你想自己抓取,可以在我的 GitHub 上找到爬虫代码:https://github.com/yiuhyuk/ds_salary_h1b)搜索以下地区数据科学家的薪资数据(我主要关注美国西海岸,因为我在那里生活和工作):

  • 旧金山湾区 (旧金山、圣何塞、库比蒂诺、山景城、帕洛阿尔托等);
  • 西雅图 (包括微软雷德蒙);
  • 奥斯汀;
  • 洛杉矶 (包括圣莫尼卡)。

此外,这次薪资分析只针对数据科学家,所以不包括资深数据科学家或员工数据科学家等更有经验的数据科学职位,也不包括数据分析师。

在经过这些过滤器过滤之后,我得到了 2818 个样本。

需要注意的是,这是与 H1B 相关的薪资数据,所以用于分析的薪资数据不包括美国公民的收入。由于没有看到任何反面证据,我将会假设美国公民数据科学家和持有绿卡的数据科学家的薪资数据也遵循与 H1B 数据相同的趋势。

年薪在 12万 美元上下徘徊

看下面这幅图,你会发现这些数据科学家的平均年薪中位数为 12 万美元,而且按照年薪的划分,趋势是相当平稳的。但是有一点请记住,这个中位数只是基本工资,不包括现金奖金、股票和福利。因此,数据科学家的总体薪酬中位数可能比这些要高得多。

数据科学家年薪中位数

工作岗位逐年递增,薪资却缓慢下降

在过去的五年时间里,被雇佣的数据科学家的数量显著增加。请注意,这篇文章是在 2019 年 8 月份写的,这一年还没有结束,所以最后一根柱子(棕色)较短。

年度被雇佣的数据科学家数量

数据科学家无疑是目前的一个时髦又性感的职业,而且我认为,过去几年被雇佣的数据科学家人数大幅上升,这也反映了另一种趋势——很多公司正试图赶上大数据和人工智能的潮流。这些公司的团队以前叫作决策分析或研究,现在改名叫数据科学。因此,几年前的研究分析师现在摇身变成了数据科学家。

但我不认为这有什么问题。数据科学家的头衔并没有那么神圣——如果你能够以一种饱含见解的方式应用定量数据来帮助企业做出更好的决策,那么在我看来,你就是一名数据科学实践者!

但请注意,并不是所有的数据科学工作都是一样的。数据科学家的头衔被过度使用了,A 公司的数据科学家可能将 80% 的时间花在 SQL 上,而 B 公司的数据科学家则一整天都在用 Python 实现机器学习算法。不管是否合理,这可能是数据科学家的工资差异如此之大的原因之一(其他原因还包括经验、雇佣地点、公司的平均薪资水平,以及员工是否拥有高等学位)。

我们通过柱状图来查看薪资的分布情况。由于不同年份的数据差别不大,我用柱状图来表示五年的数据。两条黑线分别表示 25 百分位 (102,600 美元) 和 75 百分位 (135,475 美元),红线表示中位数 (120,000 美元)。

数据科学家薪资柱状图

这些年来薪资的分布变化并不大,如果你不相信我的话,可以用方框图来比较年度薪资分布:

数据科学家年度薪资方框图

供参考,2015 年薪资分布情况为:

  • 25 百分位:100000 美元
  • 50 百分位:115000 美元
  • 75 百分位:130000 美元

2019 年分布情况是:

  • 25 百分位:100000 美元
  • 50 百分位:119850 美元
  • 75 个百分位:135000 美元

薪水确实有所上升,但不是很明显。此外,在撰写本文时,2019 年数据科学家的薪资与 2018 年相比有所下降。

Airbnb 出手最大方,沃尔玛给钱也不少

那么,到哪些公司可以拿到较高的薪资呢?下图从公司维度按照从高到低的顺序对数据科学家薪资中位数进行排列。这张图只包含了样本中涉及的雇佣了 10 个或更多数据科学家的公司——如果有某家公司只雇佣了一名数据科学家,即使他或她挣了 20 万美元,这些信息对于你来说也没有多大意义。

你会发现,AirBnB、Lyft、Facebook 和苹果的薪水高达 13.5 万美元或更高,这个并不足为奇。让你感到惊喜的是,Ancestry.com 居然是数据科学家的主要高薪雇主(我也没想到沃尔玛会接近榜首——我一直以为低价就意味着低工资)。

去哪些公司可以拿到较高的薪资

我在下图中给出了数据科学家的主要雇主(那些提交 H1B 申请最多的雇主)。正如我们所料,排在前面的都是些大型的科技公司。但很明显,谷歌被遗漏了。不管是因为什么原因,数据库中有关谷歌数据科学家的信息并不多。也许谷歌使用了不一样的头衔——我以后再去研究这个问题。

雇主排行

后续的报告

我希望以上这些数据对读者来说有所帮助。虽然这不是一个全面的分析,因为只基于 H1B 的数据,但我分析出来的结果与我所听到的和所看到的薪资聚合网站(如 Paysa:https://www.paysa.com/salaries/data-scientist–san-francisco,-ca–tl)上的结果都相当吻合。

在下一篇文章中,我将深入研究数据,绘制其他与数据相关的角色(如数据工程师和数据分析师)的图表。我还将研究公司内部的趋势——例如,Facebook 是否会随着时间的推移为数据科学家提供越来越高的薪水?

英文原文:

https://towardsdatascience.com/how-much-do-data-scientists-make-cbd7ec2b458

来自: AI前线

]]>
Freeman:数据指标调查报告 //www.otias-ub.com/archives/805386.html Fri, 19 Jul 2019 17:59:34 +0000 //www.otias-ub.com/?p=805386 Freeman和Chief Marketer发布了“数据指标调查报告”,企业营销人员用各种方法使用数据改善营销组合和体验。但是,调查证明事件数据和关键绩效指标(KPI)也被广泛用于营销策略和规划。

调查发现,88%的营销人员在营销决策时使用事件数据和关键绩效指标。至少2/3的受访者将事件数据用于提高体验(70%)、企业数据库/CRM(70%),以及业务情报(67%)。大部分受访者还将数据用于产品开发(67%),竞争力分析(56%)和营销调查(54%)。

时间营销是营销公式的一个策略部分,其结果有益于更广泛的营销规划。

同时,事件数据也被用于改善事件体验和组合。更常见的是营销人员用事件数据和指标来建构事件营销策略和规划(74%),并测量事件的整体成功与否(62%)。很少有人将事件数据用于计算销售影响和投资回报。

营销人员在收集什么数据和关键绩效指标

对B2C和B2C事件营销来说,出席人数、访客数和参与者的数量是收集最多的数据点。这些数据不仅容易获得,而且可以了解年复一年事件营销的趋势。

对B2B事件营销来说,优质潜在客户的数量最下一个最重要的数据点(65%),其次是全部潜在客户的数量(57%),以及社交媒体活动和帖子(57%)。

对B2C事件来说,社交媒体活动(65%)是更流行的KPI,而且优质潜在客户的数量(52%)也不如品牌知名度(55%)重要。

从整体来看,优质潜在客户的数量对大部分B2B事件营销人员(61%)来说更重要,而对B2C事件营销人员来说,出席和参与者的数量才是首要指标。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
IAB:2019年营销受众数据概览 //www.otias-ub.com/archives/857854.html Sat, 18 May 2019 16:56:12 +0000 //www.otias-ub.com/?p=857854 随着营销人员继续个性化客户体验,他们最大的挑战之一就是用自己的数据讲述正确的故事。根据IAB的新报告,各企业在受众数据上的投入越来越多。

超过2/3的营销人员(69.2%)表示,2018年他们的支出比前一年更多,超过3/4的受访者(78.2%)计划今年支出更多。

但是他们会用这些受众数据做什么呢?超过一半的营销人员(57.3%)表示,跨渠道测量和归因是一个重要用例,2019年他们将在这方面花更多的时间和资源。

了解不同渠道之间的互动对营销人员和广告商来说是一个特别棘手的问题。与此同时,超过一半的受访者(52%)表示,跨渠道识别和匹配受众是他们花费时间和资源的另一个用例。另有44%的受访者表示,他们将在预测建模和细分方面花更多精力。另一份IAB的报告表示,美国企业将在托管服务方面花费20多亿美元获得基于预测建模、测量和归因的洞察。

但是,在欧盟的GDPR和美国联邦对隐私法采取行动时,政府法规将成为一个重要挑战。大多数的受访者(53%)认为,这可能会妨碍他们部署数据驱动的营销能力或从数据驱动的营销中获得价值。

尽管如此,对于营销者来说,一线希望就是企业对他们的技术越来越有信心。去年,一半的受访者表示,他们的数据驱动营销面临的最大挑战是技术支持或功能不足。今年,这一比例下降至22%。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
8种数据分析师必备方法 //www.otias-ub.com/archives/830935.html Fri, 08 Feb 2019 13:37:16 +0000 //www.otias-ub.com/?p=830935
对于具体的业务场景问题该怎么办呢?本文以一个电子商务网站为例,用数据分析对该网站进行快速地数据采集、清晰和可视化展示,总结出以下 8 种常见的数据分析方法。

对于具体的业务场景问题,我们该怎么办呢?我们以一个电子商务网站为例,用数据分析对该网站进行快速地数据采集、清晰和可视化展示,然后给大家分享这 8 种常见的数据分析方法。

01 数字和趋势

看数字、看趋势是最基础展示数据信息的方式。

在数据分析中,我们可以通过直观的数字或趋势图表,迅速了解例如市场的走势、订单的数量、业绩完成的情况等等,从而直观的吸收数据信息,有助于决策的准确性和实时性。

对于电子商务网站,流量是非常重要的指标。

上图中,我们将网站的访问用户量(UV)和页面浏览量(PV)等指标汇汇聚到统一的数据看板(Dashboard),并且实时更新。这样的一个数据看板,核心数字和趋势一目了然,对于首席增长官来说一目了然。

02 维度分解

当单一的数字或趋势过于宏观时,我们需要通过不同的维度对于数据进行分解,以获取更加精细的数据洞察。在选择维度时,需要仔细思考其对于分析结果的影响。

举个例子,当监测到网站流量异常时,可以通过拆分地区、访问来源、设备、浏览器等等维度,发现问题所在。

03 用户分群

针对符合某种特定行为或背景信息的用户,进行归类处理,是我们常常讲到的用户分群(segmentation )的手段。

我们也可以通过提炼某一群用户的特定信息,创建该群体用户的画像。 例如访问购物网站、寄送地址在北京的用户,可以被归类为“北京”用户群体。

而针对“北京”用户群体,我们可以进一步观察他们购买产品的频度、类别、时间,这样我们就创建出该用户群体的画像。

在数据分析中,我们往往针对特定行为、特定背景的用户进行有针对性的用户运营和产品优化,效果会更加明显。

上图中,我们通过用户分群将一次促销活动中支付失败的用户挑选出来,然后推送相应的优惠券。这样精准的营销推广,可以大幅度提高用户支付的意愿和销售金额。

04 转化漏斗

绝大部分商业变现的流程,都可以归纳为漏斗。漏斗分析是我们最常见的数据分析手段之一,无论是注册转化漏斗,还是电商下单的漏斗。

通过漏斗分析可以从先到后还原用户转化的路径,分析每一个转化节点的效率。其中,我们往往关注三个要点:第一,从开始到结尾,整体的转化效率是多少?第二,每一步的转化率是多少?第三,哪一步流失最多,原因在什么地方?流失的用户符合哪些特征?

上图中注册流程分为 3 个步骤,总体转化率为45.5%;也就是说有 1000 个用户来到注册页面,其中 455 个成功完成了注册。

但是我们不难发现第二步的转化率是 56.8% ,显着低于第一步 89.3% 和第三步转化率 89.7%,可以推测第二步注册流程存在问题。

显而易见第二步的提升空间是最大的,投入回报比肯定不低;如果要提高注册转化率,我们应该优先解决第二步。

05 行为轨迹

关注行为轨迹,是为了真实了解用户行为。

数据指标本身往往只是真实情况的抽象,例如,网站分析如果只看访问用户量(UV)和页面访问量(PV)这类指标,断然是无法全面理解用户如何使用你的产品。通过大数据手段,还原用户的行为轨迹,有助于增长团队关注用户的实际体验、发现具体问题,根据用户使用习惯设计产品、投放内容。

上图中展示了一位用户在某电商网站上的详细行为轨迹,从官网到落地页,再到商品详情页,最后又回到官网首页。

网站购买转化率低,以往的业务数据无法告诉你具体的原因;通过分析上面的用户行为轨迹,可以发现一些产品和运营的问题(比如是不是商品不匹配等等),从而为决策提供依据。

06 留存分析

在人口红利逐渐消褪的时代,留住一个老用户的成本要远远低于获取一个新用户。每一款产品,每一项服务,都应该核心关注用户的留存,确保做实每一个客户。

我们可以通过数据分析理解留存情况,也可以通过分析用户行为或行为组与回访之间的关联,找到提升留存的方法。

在 LinkedIn,增长团队通过数据发现,如果新用户进来后添加 5 个以上的联系人(上图红色线条),那么他/她在 LinkedIn 上留存要远远高于那些没有添加联系人(上图绿色和紫色的线条)的留存。

这样,添加联系人称为 LinkedIn 留存新用户的最核心手段之一。除了需要关注整体用户的留存情况之外,市场团队可以关注各个渠道获取用户的留存度,或各类内容吸引来的注册用户回访率,产品团队关注每一个新功能对于用户的回访的影响等等,这些都是常见的留存分析场景。

07 A/B 测试

A/B 测试用来对比不同产品设计/算法对结果的影响。产品在上线过程中经常会使用 A/B 测试来测试不同产品或者功能设计的效果,市场和运营可以通过 A/B 测试来完成不同渠道、内容、广告创意的效果评估。

举个例子,我们设计了两种不同的产品交互形式,通过比较实验组(A 组)和对照组(B 组)的访问时长和页面浏览量两个衡量指标,来评估哪一种交互形式更佳。要进行 A/B 测试有两个必备因素:

第一:有足够的时间进行测试;

第二:数据量和数据密度较高。

因为当产品流量不够大的时候,做 A/B 测试得到统计结果是很难的。而像 LinkedIn 这样大体量的公司,每天可以同时进行上千个 A/B 测试。所以 A/B 测试往往在公司数据规模较大时使用会更加精准,更快得到统计的结果。

08 数学建模

当一个商业目标与多种行为、画像等信息有关联性时,我们通常会使用数学建模、数据挖掘的手段进行建模,预测该商业结果的产生。

作为一家 SaaS 企业,当我们需要预测判断客户的流失时,可以通过用户的行为数据、公司信息、用户画像等数据建立流失模型。利用统计学的方式进行一些组合和权重计算,从而得知用户满足哪些行为之后流失的可能性会更高。

我们常常说,不能度量,就无法增长,数据分析对于企业商业价值的提升有着至关重要的作用。当然,仅仅掌握单纯的理论还远远不够,实践出真知。数据分析的方法大家不妨在自己日常工作中,有分析相关项目里尝试使用,相信可以事半功倍,创造更多商业价值。

源自|大数据观察

转自|中国统计网

]]>
IAB:2018年数据状态报告 //www.otias-ub.com/archives/812918.html Wed, 26 Dec 2018 16:59:21 +0000 //www.otias-ub.com/?p=812918 IAB发布了新报告“2018年数据状态”。到2018年年底,美国公司将花费超过190亿美元用于支持其广告、营销、媒体销售和相关工作的第三方受众数据解决方案,比去年增长17.6%。第三方受众数据支出(+17.7%)和数据激活解决方案支出(+17.2%)的增长率相似。

今年,第三方受众数据支出(119.4亿美元)比数据激活解决方案支出(72.3亿美元)高出约65%。

受众数据支出:119.43亿美元(+ 17.7%)

调查包括五种类型的数据,分别为:

网络:36.66亿美元(+ 36.9%).这是受众数据支出的最大部分,包括网络设备和媒体渠道中的客户和潜在客户的网络行为,以及位置数据。这类数据还显示出受众是如何跨不同设备和媒体渠道进行交互的。

PII(个人信息验证):36.18亿美元(+ 2.5%)。2018年,美国公司将花费超过36亿美元用于其客户和潜在客户的个人身份信息数据,如姓名、电子邮件地址和地址。这类数据通常用于传统和跨渠道广告,以及与客户的互动方式。

交易数据:27.96亿美元(+ 3.5%)。与PII数据一样,这部分的受众数据支出保持平稳。交易数据是指与受众和细分市场相关联的购买历史,可用于确定兴趣和需求,以支持营销个性化。

专业/紧急数据:10.17亿美元(+ 50.9%)。这是受众数据支出中较小的分支,也是增长最快的。指的是来自新兴渠道的独特的或不常见的数据,如可寻址电视和可穿戴设备。这些数据可以深入了解受众行为。

身份数据:8.46亿美元(+ 50.9%)。这也是一个增长很快的数据分类,可以帮助营销人员协调多触点获得的客户和潜在客户资料。

数据激活解决方案:72.31亿美元(+ 17.2%)。包括数据管理、处理和集成(49.67亿美元,+ 25.1%),以及分析、建模和细分(22.64亿美元,+ 2.9%)。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
Databricks:96%的企业在执行AI项目时面临着数据相关的问题 //www.otias-ub.com/archives/763049.html Tue, 04 Sep 2018 16:28:17 +0000 //www.otias-ub.com/?p=763049         Databricks发布了美国和欧洲大型公司的AI难题的调查结果。只有1/3的人工智能项目取得了成功,更重要的是企业从概念转向生产需要六个多月。这些挑战背后的主要原因是96%的企业面临着数据相关的问题,如孤岛和不一致的数据集。80%的企业引发了重大的组织摩擦,如数据科学家和数据工程师之间缺乏协作。90%的受访者表示在整个机器学习生命周期中统一数据科学和数据工程的方法将克服AI难题。

        调查发现:

        98%的受访者认为及时准备和汇总大型数据集是一项重大挑战;

        96%的受访者认为数据探索和迭代模型培训具有挑战性;

        90%的受访者认为快速可靠地将模型部署到生产中是一项重大挑战;

        87%的企业平均投资七种不同的机器学习工具,增加了企业的复杂性。

        那么,有什么能帮助这些企业克服人工智能的困境呢?接受调查的高管表示,他们需要将数据处理与机器学习功能相结合的端到端的解决方案。这些简化的解决方案可以简化工作流程、提高效率并最终提高业务价值。

        事实上,近80%的受访高管表示,他们高度重视统一分析平台的概念。统一分析解决方案为数据科学家和数据工程师提供协作功能,以便在整个AI开发到生产生命周期中有效地工作。由于机器学习工具的爆炸式增长,超过90%的大公司面临与数据相关的挑战和日益增长的复杂性,因此对可以消除技术和孤岛的平台和流程的需求比以往任何时候都更加明显。统一分析为面临现代AI实施障碍的公司提供了理想的方法。

        199IT.com原创编译自:Databricks 非授权请勿转载

]]>
Roymorgan:超过90%的澳大利亚人不了解应用如何使用他们的数据 //www.otias-ub.com/archives/758035.html Wed, 15 Aug 2018 16:36:55 +0000 //www.otias-ub.com/?p=758035         199IT原创编译

        超过90%的澳大利亚人要么“不确定”,要么只是“稍微理解”领先的应用程序如何使用和共享他们的数据。

        94.6%的正在使用Apple应用程序的澳大利亚人“不确定”或只是“稍微理解”Apple如何使用或分享他们的个人数据,高于调查中提到的任何其他品牌。

        紧随其后的是领先的社交网络,包括Twitter(94.3%的Twitter用户)、Instagram(94.0%的用户)、Snapchat(93.7%)、Messenger(92.8%)、Google(91.9%)和Facebook(90.9%)。

        其他应用程序更糟糕,95.8%的澳大利亚人“不确定”或“稍微理解”其他应用程序如何使用或共享其个人数据。 94.4%的智能家居设备用户和94.1%的在线销售应用用户也这么表示。

        Roy Morgan首席执行官Michele Levine表示,澳大利亚人对社交媒体和技术公司如何使用他们的个人数据的担忧并不意味着他们“完全理解”这些公司如何使用和共享他们的数据。

        尽管有人担心个人数据可能被滥用,包括财务、医疗、位置数据、购买和交易数据、浏览历史、政治偏好、性取向、电话联系、个人照片或其他个人身份信息,只有5-10%的澳大利亚人认为他们“完全理解”Apple、Twitter、Facebook、Snapchat和Google等公司如何使用和分享他们的个人数据。

        而且,调查发现社交媒体在澳大利亚的形象不佳,47%的受访者不信任社交媒体,零售公司、慈善机构和旅游公司的则更值得澳大利亚人信任。

        199IT.com原创编译自:Roymorgan 非授权请勿转载

]]>
Interana:2017年数据洞察状态报告 //www.otias-ub.com/archives/636222.html Sat, 11 Aug 2018 16:56:00 +0000 //www.otias-ub.com/?p=636222 Interana调查170名来自创业公司到500强企业的C级管理人员、副总裁和董事,并发布了“2017年数据洞察状态”报告。

公司非常了解有价值的数据洞察为业务决策带来的影响。从Google到Uber,成功的科技公司已经发现了数据带来的竞争优势。从跟踪基本指标,如收入和烧钱率到KPI和成功指标,不同团队获得数据洞察的方式各有不同。总之,几乎所有企业都已经认识到数据洞察的重要性。

91%的受访者表示,他们的公司目前已经有分析解决方案。

此外,调查发现,大多数人有能力分析或做出决策(76%),但是,并没有主宰某一种角色。经理(22%)、专家(18%)和董事(16%)是调查中最常见的头衔。

尽管分析和数据驱动的决策广泛使用,但是,只有25%的受访者表示,每个人都明白数据驱动决策重要性,以及使用正确的工具和专业知识的重要性。事实上,大多数受访者(62%)表示,只有少数人使用正确的工具和专业知识进行数据驱动决策。

虽然分析在不同团队中广泛使用,但是并不是每个人都能轻松访问数据洞察。75%的受访者表示,企业员工能独立回答一些简单的分析问题,但是,复杂的问题则需要帮助。

目前,数据分析的缺点与灵活性和性能有关。 43%的受访者表示,他们的分析不够灵活,还有32%的受访者表示,查询速度慢是最大的问题。

人们希望他们的分析能够提供行为洞察,并易于访问。 目前正在研究分析解决方案的用户希望他们的产品深入了解用户如何与其产品(31%)进行互动,同时,所有最终用户可以轻松访问(20%)。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
想让数据变得更好看?适合你的业务就是最好的! //www.otias-ub.com/archives/757014.html Sat, 04 Aug 2018 06:01:00 +0000 //www.otias-ub.com/?p=757014 想让数据变得更好看?不必成为经验丰富的数据科学家,也不必成为平面设计师。有一些能让数据从简单的表格变成多种多样的图形,地图甚至词“云”。并不是所有的工具都适合你,但这些工具确实很有用。希望你不仅能从中学到新的技能和极具创新的工具,更能从中结合你自己的业务有新的发现。

01  Infogr.am

在Infogr.am网站中,你可以使用30多种图形和6种主题创建互动和可嵌入的图表。

动图

02 Fusion Tables

谷歌Fusion Tables是一款数据管理应用,通过Fusion Table,用户可以快速生成相惜的图表,图形或者地图。用户还可以将图表与其他人协作并支持使用共有数据或私有数据。英国的《卫报》(Guardian)也使用这个工具哦~

03 Piktochart

Piktochart拥有大量免费的优质模版,可用于图表,报告,banner和演讲。

04 dygraphs

dygraphs是个开源的Javascript图表库,通过调用接口,用户可以直接把大型数据集制作成任何想要的形式。

动图

05 Timeline

Timeline是由Simile发明的,可以让用户通过简单的滚动和水平拖拽而生成简单的交互时间轴。

06  Leaflet

Leaflet也是个开源的javascript库,用户可以创建友好互动的地图。

07  D3.JS

D3.JS 是主要为基于HTML,SVG和CSS的操纵型文档设计的JavaScript库。

动图

08 Tagxedo

Tagxedo 是一款简单的词云生成器。对于任意文本,都可以将单词提取出来,并根据其出现的频率调整单词的大小。

09 Easel.ly

Easel.ly是一款非常简单好用的信息图形生成器,拥有好几百个模版,当然,如果你喜欢,也可以不用模版哦~

10 Creately

Creately 可以制作有50多种图,包含几千个例子和形状库,支持实时协作。

11 Sisense

Sisense 支持组合多个数据源,可以让用户从丰富的数据可视化数据中发现病分享见解。

12 Nuvi

Nuvi是个高端的社交媒体可视化平台,用户可以创建实时可视化,监控主题或关键字并构建定制报告。

13 Bime

Bime是一个高端的数据和仪表盘云平台,其跨设备设计相当时尚。

14 Color Brewer

Color Brewer 由Penn State开发,是一款用于选择地图颜色的工具,用户可以用它来保证特殊区域的独立性。

动图

15 iCharts

iCharts是一个可视化分析云平台,用户可以轻松嵌入,分享和收集图表。

16  Better World Flux

使用 Better World Flux可以通过观察社交,经济,政治指标来跟踪国家的发展,并发现重要的趋势和模式。

 

以上工具均已收录至大数据导航:199IT大数据导航(http://hao.199it.com)目前上线3000多款数据工具,欢迎大家收藏并分享更多的人。

]]>
闲鱼空巢青年租房数据 //www.otias-ub.com/archives/717428.html Sat, 28 Apr 2018 13:22:11 +0000 //www.otias-ub.com/?p=717428 阿里巴巴旗下闲置交易平台闲鱼出具了一份《闲鱼空巢青年租房数据》,数据分析了闲鱼上的空巢青年群体的生活状况,闲鱼租房用户中,32%是空巢青年,在北京上海等城市,空巢青年人均租房花费低于平均水平,与此同时,大家同为空巢青年,租房却有着明显的差距,他们中的整租群体人均花费2200元租用整套房,而租用单间的每月只花1200元。

]]>
Pitney Bowes:近一半商务人士购买第三方数据 //www.otias-ub.com/archives/669462.html Wed, 03 Jan 2018 16:30:10 +0000 //www.otias-ub.com/?p=669462         199IT原创编译

        Pitney Bowes的一项调查发现,近一半(46%)的商务人士购买第三方数据。行业领导者正在使用第三方数据做出商业决策,因为他们发现它很有价值(85%),或是最新的(83%)。2017年12月Pitney Bowes委托Forrester Consulting调查了800名美国、加拿大、英国和澳大利亚高级广告、市场营销、数据、分析和IT专业人士。

        83%的企业仍然依赖第一方或现有数据,但是,第三方数据越来越受到认可和普及。第一方数据可以让企业做出内部业务决策,往往没有完全考虑客户的环境。第三方数据则为增加信息深度提供了巨大机会。

        企业对第三方数据的信心越来越强,但是,有效使用这些数据仍然有挑战。例如,提高数据质量和准确性(70%)、数据改变时维持其质量(69%)、提高检测和追踪数据的能力(69%)。

        除了对第三方数据缺乏信心外,96%的受访者发现第三方数据难以获得。从第三方获得可靠数据集的高昂成本(55%),开放数据集的时效性和可靠性(54%),以及在公开市场找到正确的数据产品(50%)是最常见的挑战。

        目前,访问数据的首要方法是通过API(81%)和自助服务接口(77%)。99%的企业表示未来将通过网络数据市场购买。38%的受访者将花费超过1万美元购买市场数据。

        越来越多的企业正在寻求轻松访问和购买第三方数据的方法。但是,各地区企业购买数据的类型有些差异。美国企业购买最多的第三方数据包括客户行为数据(60%)和人口统计数据(60%)。加拿大企业对网络数据(51%)、社交媒体数据(45%)和客户行为数据(59%)最感兴趣。英国企业则最爱购买网络数据(58%)和社交媒体数据(59%)。澳大利亚企业对交易数据(54%)和客户行文数据(43%)最感兴趣。

        199IT.com原创编译自:Pitney Bowes 非授权请勿转载

]]>
Winterberry:2017年数据状态报告 //www.otias-ub.com/archives/666972.html Fri, 29 Dec 2017 16:59:59 +0000 //www.otias-ub.com/?p=666972 Winterberry携手IAB和DMA发布了“2017年数据状态”报告。多年来,数据一致在重塑品牌与可定址受众的互动方式。大数据对营销人员来说已经不是什么陌生的名词。Winterberry的报告希望揭开美国公司如何投资受众数据的神秘面纱,帮助从业者制定合适的数据支出规划。

2017年,美国公司支出202亿美元,用于购买第三方受众数据和数据急活解决方案,以支持其广告、营销、媒体购买和其他相关工作。

企业将其主要数据预算用于第三方供应商提供的服务和技术(101亿美元),以支持激活受众数据,而非数据本身。这反映了收集、管理、清理和部署一组动态数据集的复杂性。

在所有数据类型中,营销人员投资最多的是提供一系列“全渠道”标识符的数据集(35亿美元),从而支持其跨媒体触点识别和吸引消费者,包括直邮、电子邮件、展示广告、网站内容和其他渠道

在数据激活类别中,2017年,托管和管理解决方案(包括CRM数据库,数据管理平台和数字营销标签管理)和侧重于处理、清理、整合和保护这些数据源的解决方案的支出分配相对比较平均,分别为42亿美元和 43亿美元。

包括建模和细分在内的分析仅占外包数据预算中相对较小的一部分(16亿美元)。这可能源于两个因素:许多企业利用内部资源进行其营销分析工作,以及服务提供商已经将通用方法捆绑到付费媒体、广告策略和其他产品中。

 

PDF版本将分享到199IT交流群,199IT感谢您的支持!

]]>
WARC:数据、客户体验和AI是2018年营销工作的重点 //www.otias-ub.com/archives/665644.html Thu, 28 Dec 2017 16:30:46 +0000 //www.otias-ub.com/?p=665644         199IT原创编译

        根据WARC的一项调查调查,2018年,从数据中获得见解对品牌(55%)和广告代理商(59%)都很重要。

        除此之外,数据的组织和管理将成为广告策略的另一个支柱(品牌:40%,广告代理商:45%)。

        客户体验在三大优先事项中排在第三位。超过一半的品牌(53%)和广告代理商(58%)认为这将是未来12个月内的重要事项。

        使用数据的企业面临的最大挑战就是GDPR(《通用数据保护规范》)的实施,但是,很少有营销人员认为他们的企业已经准备就绪。

        只有1/4的欧洲营销人员已经准备好迎接GDPR(25%),40%的营销人员认为企业还没准备好。

        对于其他地方来说,情况更糟糕,只有12%的营销人员认为企业已经准备好迎接GDPR,尽管所有与欧盟消费者有关的公司都将受到影响。

        从全球来看,品牌比广告代理商更有可能相信他们有能力应对变化(22% vs. 15%)。

        新兴技术方面,品牌(56%)认为人工智能是最有潜力的,其次是聊天机器人和即时通讯应用(46%)。但是,广告代理商则对聊天机器人更热衷(52%),其次是AI(50%)。

        超过1/3的品牌认为管理咨询公司比广告代理机构更能够帮助他们实现数字化转型(38%),只有31%不同意这一说法。

        199IT.com原创编译自:WARC 非授权请勿转载

]]>
一个广告数据分析师的出家故事 //www.otias-ub.com/archives/661705.html Sat, 09 Dec 2017 05:49:48 +0000 //www.otias-ub.com/?p=661705

以下故事根据真实事件改变,如有雷同,纯属巧合

阴差阳错,大学数学专业毕业的小明来到了某家互联网公司工作,内容是做用户获取的运营。在小明过来之前,部门领导希望能够更好地建立对外部买量广告渠道的质量进行数据监测,于是小明就担负起了这个重任。

公司外部买量的线上渠道主要有四大媒体来源,它们分别是应用商店,信息流,搜索,其他(网盟,CPA,DSP)。

此时应用商店的流量资源主要掌握在手机厂商里面,如OV,小米,华为等,苹果应用商店因为没有开启商业化,所以公司没法做广告投放,只是做了一些刷榜的工作。而百手,360,应用宝等第三方应用商店的流量在手机厂商的冲击下,逐渐日薄西山,流量日渐稀少,只剩下应用宝因为有腾讯系的导流才苟延残喘。

信息流其实就是以前PC互联网的展示广告,目前市场上规模较大的信息流流量主要有腾讯系的广点通,今日头条,百度,微博等,小明的公司在这些地方的投放量也较大。

随着用户转向应用商店搜索下载应用,搜索这个渠道对公司获取流量占比已经越来越少,现在只是维持投放着。

除了上面这些看得见,摸得着的渠道外,剩下的小明统统归类为其他渠道,因为这些渠道摸不着,充满着技术和AI的味道,有各种高大上的词汇。即便如此,明眼人一眼就看出这些都是长尾流量,而低劣,垃圾,作弊流量充斥期间。

于是乎,小明一个个开始了这些渠道的攻克工作。

手机厂商应用商店:好一个东北大乱炖

在梳理应用商店的资源类型后,小明画了下面这张图,将手机厂商应用商店的资源分为三大类:应用商店搜索,商店展示资源,手机厂商的信息流。

应用商店搜索和展示资源都在应用商店APP里面,手机厂商的信息流则包括手机厂商的其他广告位资源如手机厂商自带的浏览器,新闻资讯等APP上面的广告位。

应用商店的搜索下载量主要取决于用户的主动搜索需求,如对社交的需求,对音乐的需求,每天的量都是一定的,搜索小明所在公司APP的人也是一定的。理想的投放情况是,广告只投放到行业的相关词里面,而不应该浪费在品牌专属词上面。但倘若小明不投放自家的品牌专属词,自家的词就会有一定比例的流量被隔壁的老王抢走,于是小明不得不保持对专属品牌词的积极投放。这样的结果自然导致付费的量侵蚀了自然量,小明公司得为这些词花了冤枉钱,就跟过去在百度投放广告一样。

面对商店广告投放无法归因的问题,小明他们不得不采用投放一阵子广告,然后停止投放广告投放来对比自然量和付费量变化来分析付费量跟自然量之间此消彼长的关系。

除了这个无法区分自然量和付费量的问题外,跟其他公司一样,小明还需要避免高估应用商店,低估其他渠道的麻烦。毕竟小明公司在线下影院,地铁,户外等媒体资源上做的品牌广告投放最终都会变成一个个主动的搜索,在线上的投放也有一部分会转化为应用商店的搜索。再加上有部分手机厂商出于商业利益,还会设法劫持其他渠道的流量,这样就导致了其他渠道的效果被严重低估。

手机厂商劫持第三方的安装,有明劫和暗劫两种,明劫就是在侦测到用户下载某个应用后,自动弹出窗口提示用户刚下载的安装包过旧,不安全,建议用户通过应用商店下载安装;暗劫就是神不知鬼不觉中把第三方渠道的安装包替换为手机厂商自己的

信息流:转化真如此多娇吗

为了优化代理商结构,小明公司在同一个信息流媒体上引入了新的代理商开始了投放。但这些代理商的投放表现很差,首先在量级上面,这些新代理商能竞争到的曝光量很少,虽然已经给出了较高的竞价。咨询媒体后,原来是有所谓账户质量评分的因素,也就是说一个新开的账户,他的账户质量只有平均水平,这个分数会随着他的投放时间和投放表现不断增加,质量分数高的账户拿到的潜在曝光也会比较高。若广告主在投放过程中,中断投放也会影响这个质量分数。知道这个情况后,小明心里万马奔腾,心想这些广告平台真是够凶残的。

能否获取曝光是一方面,更让小明公司郁闷的是,这些测试公司,根本达不到公司对转化成本的要求,公司要求的一个APP激活用户为10块钱,但这家新引入的测试公司成本已经达到了30块钱。眼看测试期,还有一个星期就要结束了,公司跟对方商务下了通牒,说若成本达不到要求就停止合作了。没想到过了几天,成本突然好转了,达到了8~9块钱一个激活。

小明知道后很高兴,想了解下代理商如何做到的,于是找了代理公司负责优化的小A了解,但小A也说不出所以然来。这个事情直到小明观察了数据几天后有有了结论。原来这个好的转化,全是梦幻泡影,真实情况是代理商销售在外面找灰产做了一点假量。

网盟/CPA/DSP:一场心力憔悴的斗智斗勇

如果一个行业热衷于造概念,那这个行业一定没有好好干事,而恐怕没有哪个行业的概念和新词有广告行业多了。

网盟是网站联盟的意思,最早始于PC时代,其作用是通过技术的手段聚合长尾媒体的流量资源,从而可以规模地变现。在移动端,则演变成了移动APP联盟,如腾讯广点通联盟,admob等。

DSP字面的意义是需求放平台的意思,广义上,这个概念可以属于任何广告主投放广告的平台,但真实情况是,售卖DSP概念的公司往往是偏网盟类的公司。

CPA意思是按效果计费,基本全部信息流媒体按cpc(点击)或cpm收费,应用商店也有按下载收费的业务,所以CPA在今天往往被用于长尾的,非标的,或者说不清道不明的资源推广。

在了解到这些渠道的性质后,小明深知水深,不敢怠慢。信息流代理商刷量的事件也让他增加了通过数据反作弊的意识。当时公司产品的平均次留为60~70%,其中应用商店更高一些,信息流稍差,其他渠道最低,于是小明对网盟CPA/DSP这些渠道制定了次留一个不低于40%的标准。通过这个标准,小明排除掉了一半质量低劣的渠道包。

渠道包是在安卓下面用来区分不同代理商/不同媒体安装来源的方法,一般CPA类的代理商会从广告主那边获取很多渠道包,然后分发给上游的各个媒体或做量公司。

但是过了一阵子,这个次留的标准也不好使用了。有天反作弊的同事过来找小明说,渠道的新用户里面充满了诸多登录后就闪退的情况,并给小明提供了一系列的数据,小明看后,深感悲愤,悲的是自己考虑不周,愤的是行业节操竟已如此之低。

于是小明加强了甄别标准,同时增加了每个各个功能操作的渗透率,使用次数等判断指标,于是又干掉了一大半。

…..(中间省去斗智斗勇好几个来回)

最终,小明对渠道的甄别标准囊括了留存率,各项行为指标,甚至付费转化率,付费金额这些,建立了水泄不通的质量判断标准。

小明心想可以高枕无忧了,直到有天有个精通灰产的人告诉他,这个世界上还有劫持这样的黑科技存在。

渠道包劫持是通过运营商网关或者手机底层对用户下载的安装包进行替换,达到用户由A渠道变成B渠道的目的。

至此,小明对数据的信仰全面奔溃。他从公司辞了职,一个人去了西藏。而公司在小明的建议下,也全面停止了跟这类公司的合作。

]]>
创新趋势报告:目标驱动的数据 //www.otias-ub.com/archives/528341.html Sat, 16 Sep 2017 16:56:07 +0000 //www.otias-ub.com/?p=528341 《目标驱动的数据》报告提出了“影响工程师”的概念,这些专业人士能够深入理解企业社会责任影响、国际发展与可持续性实践和趋势,能够将数据科学知识与传播有机结合在一起。该报告还展示了对万博宣伟若干专家进行的深度采访,其中包括一些企业社会责任专家,他们介绍了关于目标驱动数据相关话题的观点,同时强调了人类独创性对解读和赋予数据意义用以服务推动社会化以及环境发展进程所起的重要作用。

由万博宣伟全球企业社会责任团队构建的创新趋势报告系列旨在有效帮助企业促进自身声誉建设,加强企业、政府、公益组织等跨领域和部门围绕经济快速发展所产生的问题开展合作和对话,共同解决复杂的社会问题。

创新趋势报告:目标驱动的数据_000001 创新趋势报告:目标驱动的数据_000002 创新趋势报告:目标驱动的数据_000003 创新趋势报告:目标驱动的数据_000004 创新趋势报告:目标驱动的数据_000005 创新趋势报告:目标驱动的数据_000006 创新趋势报告:目标驱动的数据_000007 创新趋势报告:目标驱动的数据_000008 创新趋势报告:目标驱动的数据_000009 创新趋势报告:目标驱动的数据_000010 创新趋势报告:目标驱动的数据_000011 创新趋势报告:目标驱动的数据_000012 创新趋势报告:目标驱动的数据_000013 创新趋势报告:目标驱动的数据_000014 创新趋势报告:目标驱动的数据_000015 创新趋势报告:目标驱动的数据_000016 创新趋势报告:目标驱动的数据_000017 创新趋势报告:目标驱动的数据_000018 创新趋势报告:目标驱动的数据_000019 创新趋势报告:目标驱动的数据_000020 创新趋势报告:目标驱动的数据_000021 创新趋势报告:目标驱动的数据_000022 创新趋势报告:目标驱动的数据_000023 创新趋势报告:目标驱动的数据_000024 创新趋势报告:目标驱动的数据_000025 创新趋势报告:目标驱动的数据_000026 创新趋势报告:目标驱动的数据_000027 创新趋势报告:目标驱动的数据_000028 创新趋势报告:目标驱动的数据_000029 创新趋势报告:目标驱动的数据_000030 创新趋势报告:目标驱动的数据_000031 创新趋势报告:目标驱动的数据_000032 创新趋势报告:目标驱动的数据_000033

 

获取PDF版微信扫描下面二维码

199IT知识星球(原小密圈)已有1400+资深用户、3000+份最新最好的行业文档,欢迎您的加入!

]]>
第一手游网:2017年6月手游曝光度数据报告 //www.otias-ub.com/archives/610521.html Mon, 10 Jul 2017 10:25:44 +0000 //www.otias-ub.com/?p=610521 第一手游网2017年6月中国手游曝光度报告,通过对国内主流手机应用市场的每日下载量TOP100游戏的曝光量进行监测,罗列了新游入榜、游戏厂商和游戏升降榜,对热门游戏、热门游戏厂商、商店分发和用户情况进行了分析。力求能还原国内手游市场的真实情况与发展趋势,希望能为市场各方提供参考意见与建议!

一、6月份手游用户Android与IOS市场分布

二、6月份百强手游曝光度Top 10与百强游戏类型分布

三、6月份新游戏入榜时间、新游Top10以及新游类型分布

四、6月手游曝光度上升最快榜和下降最快榜

五、6月份重度、中度、轻度游戏使用应用商店、平台分布

六、6月份热门手游厂商排行榜Top10

七、6月手游用户使用手机硬件设备市场分布

八、6月手游用户地区、年龄、性别分布

]]>
当今世界最宝贵的资源不再是石油,而是数据 //www.otias-ub.com/archives/592918.html Sat, 13 May 2017 15:31:49 +0000 //www.otias-ub.com/?p=592918

有一种全新商品孕育了一个快速发展且利润丰厚的产业,这使反垄断监管者不得不介入以约束商品流动的控制者。上个世纪,存在相同问题的资源是石油。如今,数据就是数字时代的石油,数据交易巨头们同样产生了担忧。这些企业巨头看起来不可阻挡,如Alphabet(Google的母公司)、亚马逊、苹果、脸书和微软。它们是五大世界上估价最高的上市公司。其利润激增:2017年第一季度它们的净利润加起来超过250亿美元。美国的网络消费额有一半都来自亚马逊。谷歌和脸书几乎占据美国去年所有数字广告的增长收益。

这种市场地位引发人们对呼吁分解科技巨头企业,就像二十年代早期分解美国美孚石油公司一样。本报(《经济学人》)过去反对过如此激进的行为。企业规模庞大无罪可言。这些巨头的成功同时也是消费者受益。所有人都离不开谷歌的搜索引擎,亚马逊的次日到货,以及脸书的新闻推送。这些企业在标准反垄断审查实行后,也未引起警觉。他们并没有对消费者漫天要价,许多服务都是免费的(实际上,用户也会买单,只不过方式是不断发回数据)。如果考虑到线下竞争者,他们的市场份额并没有庞大到那么令人担忧。此外,新兴创业公司的出现,如Snapchat,表明后来者也能“兴风作浪”。

但是,担忧是有原因的。互联网公司对数据的操控赋予了它们无限权利。所谓的“数据经济”(见简报)已经到来,石油时代产生的对竞争的传统观点已经过时。现在需要新途径新方法。

数量中自有质量

有哪些东西发生了改变?智能手机和互联网使数据变得丰富繁多,无所不在,价值更大。无论你是在跑步,看电视,或甚至堵在路上,几乎所有活动都制造了数字痕迹——数据处理库里的原始数据愈发庞大。随着各种设备都连接到互联网,如手表,汽车,数据的容量也在增加。据估计,一辆自动驾驶汽车每秒将会产生100千兆字节。同时,人工智能(AI)技术挖掘数据的价值更大,比如机器学习。算法可以预测顾客何时想购物,喷射发动机何时需要维修,以及人类何时有患病的风险。包括美国通用和西门子在内的工业巨头,现在都自我宣传为数据公司。

数据的庞大改变了竞争的性质。技术巨头企业总是能从网络效应受益:注册脸书的用户越多,就会有越来越多的人被吸引去注册。由于数据的存在,网络效应更加凸显。一个企业通过收集更多的数据,能获得更大空间改善产品,这相反又能吸引更多用户,产生更多数据,以此类推。特斯拉从其自动驾驶汽车获取的数据越多,它就能生产出更好的自动驾驶汽车——这也是为什么该公司第一季度只销售了25,000辆车,其股价却超过销售额达到23万辆的美国通用的部分原因。由此可见,庞大的数据池也可以充当护城河。

此外,数据准入也以另外一种方式保护公司受到竞争者的伤害。如果在科技产业中对竞争持乐观态度,很可能导致大公司被创业公司攻其不备,在汽车间或是一次意外的科技转向。但是这两种情况都不大可能在数据时代发生。巨头企业的监测系统横跨整个经济体。谷歌可以看见人们的搜索内容,脸书可以看见用户的分享内容,亚马逊可以看见用户购买的商品。这些企业不仅有应用程序商店和操作系统,还将计算能力租给创业公司。它们拥有“上帝视角”,能看见其市场及其他市场中的一举一动。他们清楚什么时候一种新产品或服务开始受欢迎,然后因此模仿或直接在创业公司变成威胁之前将其收购。许多人认为,脸书2014年以220亿美元收购员工不到60的消息应用程序WhatsApp,属于消灭潜在竞争对手的“枪战收购”。通过对准入设置障碍和使用预警信号系统,数据可以抑制竞争。

你打算向谁求助?反垄断机构?

数据的性质决定了过去反垄断的补救方法无效。将谷歌一样的公司分解称五个小公司,并不会阻止网络效应券土重来:一定时间内,其中一个公司必定重新占据市场主导地位。需要理智再三思考——随着新途径的轮廓逐渐显现,有两个思路引人注目。

第一,反垄断当局需要走出工业时代,融入二十一世纪。例如,在审查并购时,他们传统上会用规模大小来认定当局是否介入。现在,他们在评估交易影响时,需要考虑公司的数据资产规模。收购价格也能释放出信号,从中看出占据市场主导地位的公司收购是否会构成市场新威胁。从这些指标来看,脸书愿意花天价收购WhatsApp,而且毫无利润可言,这其中已经透露出危险信号。反垄断机构在分析市场动态是,也必须要对数据变得敏感,比如,通过使用经济模型,找出勾结性的价格算法,或决定怎样能最好促进竞争(参考自由贸易)。

第二大原则是,减小网络服务供应商对数据的控制权,并对这些数据供应商予以监控。加大透明度也会起作用:可以强迫公司告知消费者其手上的信息,以及他们怎样从这些信息中获利。政府应该鼓励新服务,开放政府更多的数据储存库,或将数据经济中的关键部分作为公共基础设施管理,就像印度对其数字身份识别系统Aadhaar所为。同时,政府可以在用户的同意下,强制性要求共享某些种类的数据——这是欧洲在改革金融服务是使用的方法,要求银行将客户数据提供给第三方。

在当今信息时代,重新启动反垄断工作实在不易。这意味着新风险的产生:例如,更多数据共享将威胁到隐私权。但是,政府如果不想数据经济被巨头企业主导,就必须尽快采取行动。

编译自:译言

]]>
数据大起底,是谁在沉迷直播? //www.otias-ub.com/archives/583135.html Tue, 18 Apr 2017 08:38:07 +0000 //www.otias-ub.com/?p=583135
说起直播圈新闻,

前有“风油精”,后有“黄鳝门”,

如果你问这是什么梗,

U君表示它俩很无辜,而你一定是位新司机。

有趣好玩新潮的直播,也有灰暗的另一面:低俗内容俯拾皆是,主播们屡刷下限…

那么,到底是谁沉迷直播?

肯定不是我、不是你。

U君猜测,一定是他们!

今天,U君就揭开“他们”的小面纱。

绝对主力:“屌丝男”

群体上:75%是男性,他们出没在游戏直播、赛事直播、秀场直播中;而女性用户对购物、娱乐直播青睐有加。

年龄上:25岁以下占67%,新新人类,会玩爱玩,对新潮的娱乐方式接受度更高,粘性也更高。

有闲 ·木钱,直播来凑

婚姻状况:89%是单身汪,空闲时间多。

消费状况:近50%的直播用户消费水平偏低(300-1200元),直播消费门槛低、形式丰富,简直是U君娱乐的首选。

学生党+职员

职业分布:学生党和普通职员,直播的中流砥柱;

平凡的小生活,辛苦的学习工作啊,看看直播傻乐一会,最简单的生活调剂。

午夜&直播,更配哦

时间分布:白天的时间,都卖给老板了,拼命的讨生活啊。晚上自由了,困的累得睡不着,看一会儿直播,抚慰下小心灵。于是20点~0点成为直播的高峰时段。

小镇姑娘/小伙

农村化与国际化同等重要。三四线在网民基数上远远<北上广,但是直播用户的渗透率更高,“我的家乡没有霓虹灯”,但直播让我们看到一样的世界。

无法自拔

日均时长:游戏直播、赛事直播、美女直播,都让人无法自拔呀。直播平台的性质决定打开次数虽然不多,但人日均浏览时长都是半个小时起。

此情趣!彼情趣!

消费兴趣:游戏-动漫-数码、羞羞的情趣用品,一个都不能少,浓郁的宅男气息扑面而来。幸福的人生不一定与财富直接相关,旅行、美食和音乐也是宅男们调剂生活的法宝。这便是此情趣与彼情趣兼得!

还在哪些APP出没

TGI:APP使用行为习惯与消费兴趣高度一致,他们就是这样一群简单易懂的汉子。

[小贴士] TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势;TGI指数=100表示平均水平,>100,代表该类用户对某类问题的关注程度高于整体水平。

]]>
数据驱动决策的13种思维方式 //www.otias-ub.com/archives/581921.html Thu, 13 Apr 2017 14:32:10 +0000 //www.otias-ub.com/?p=581921

“数据驱动决策”,为了不让这句话成为空话,请先装备以下13种思想武器,将来你一定能用上!~
文/胡晨川

第一、信度与效度思维

这部分也许是全文最难理解的部分,但我觉得也最为重要。没有这个思维,决策者很有可能在数据中迷失。

信度与效度的概念最早来源于调查分析,但现在我觉得可以引申到数据分析工作的各方面。
所谓信度,是指一个数据或指标自身的可靠程度,包括准确性和稳定性取数逻辑是否正确?有没有计算错误?这属于准确性;每次计算的算法是否稳定?口径是否一致?以相同的方法计算不同的对象时,准确性是否有波动?这是稳定性。做到了以上两个方面,就是一个好的数据或指标了?其实还不够,还有一个更重要的因素,就是效度!
所谓效度,是指一个数据或指标的生成,需贴合它所要衡量的事物,即指标的变化能够代表该事物的变化。
只有在信度和效度上都达标,才是一个有价值的数据指标。举个例子:要衡量我身体的肥胖情况,我选择了穿衣的号码作为指标,一方面,相同的衣服尺码对应的实际衣服大小是不同的,会有美版韩版等因素,使得准确性很差;同时,一会儿穿这个牌子的衣服,一会儿穿那个牌子的衣服,使得该衡量方式形成的结果很不稳定;所以,衣服尺码这个指标的信度不够。另一方面,衡量身体肥胖情况用衣服的尺码大小?你一定觉得荒唐,尺码大小并不能反映肥胖情况,是吧?因此效度也不足。体脂率,才是信度和效度都比较达标的肥胖衡量指标。
在我们的现实工作中,许多人会想当然地拿了指标就用,这是非常值得警惕的。你要切骨头却拿了把手术刀,是不是很可悲?信度和效度的本质,其实就是数据质量的问题,这是一切分析的基石,再怎么重视都不过分!!

第二、平衡思维

平衡

说到天平大家都不陌生,平衡的思维相信各位也都能很快理解。简单来说,在数据分析的过程中,我们需要经常去寻找事情间的平衡关系,且平衡关系往往是关乎企业运转的大问题,如市场的供需关系,薪资与效率关系,工作时长与错误率的关系等等。
平衡思维的关键点,在于寻找能展示出平衡状态的指标!也就是如图中红框,我们要去寻找这个准确的量化指标,来观察天平的倾斜程度。怎么找这个指标呢?以我的经验,一般先找双向型的问题,即高也不是低也不是的问题,然后量化为指标,最后计算成某个比率,长期跟踪后,观察它的信度和效度。

第三、分类思维

分类

客户分群、产品归类、市场分级、绩效评价…许多事情都需要有分类的思维。主管拍脑袋也可以分类,通过机器学习算法也可以分类,那么许多人就模糊了,到底分类思维怎么应用呢?
关键点在于,分类后的事物,需要在核心关键指标上能拉开距离!也就是说分类后的结果,必须是显著的。如图,横轴和纵轴往往是你运营当中关注的核心指标(当然不限于二维),而分类后的对象,你能看到他们的分布不是随机的,而是有显著的集群的倾向。
举个例子,假设该图反映了某个消费者分群的结果,横轴代表购买频率,纵轴代表客单价,那么绿色的这群人,就是明显的“人傻钱多”的“剁手金牌客户”。

第四、矩阵思维

矩阵化

矩阵思维是分类思维的发展,它不再局限于用量化指标来进行分类。许多时候,我们没有数据做为支持,只能通过经验做主管的推断时,是可以把某些重要因素组合成矩阵,大致定义出好坏的方向,然后进行分析。大家可以百度经典的管理分析方法“波士顿矩阵”模型。

第五、管道/漏斗思维

管道/漏斗

这种思维方式已经比较普及了,注册转化、购买流程、销售管道、浏览路径等,太多的分析场景中,能找到这种思维的影子。
但我要说,看上去越是普世越是容易理解的模型,它的应用越得谨慎和小心。在漏斗思维当中,我们尤其要注意漏斗的长度
漏斗从哪里开始到哪里结束?以我的经验,漏斗的环节不该超过5个,且漏斗中各环节的百分比数值,量级不要超过100倍(漏斗第一环节100%开始,到最后一个环节的转化率数值不要低于1%)。若超过了我说的这两个数值标准,建议分为多个漏斗进行观察。当然,这两个是经验数值,仅仅给各位做个参考~
理由是什么呢?超过5个环节,往往会出现多个重点环节,那么在一个漏斗模型中分析多个重要问题容易产生混乱。数值量级差距过大,数值间波动相互关系很难被察觉,容易遗漏信息。比如,漏斗前面环节从60%变到50%,让你感觉是天大的事情,而漏斗最后环节0.1%的变动不能引起你的注意,可往往是漏斗最后这0.1%的变动非常致命。

第六、相关思维

相关

我们观察指标,不仅要看单个指标的变化,还需要观察指标间的相互关系!有正相关关系(图中红色实线)和负相关关系(蓝色虚线)。最好能时常计算指标间的相关系数,定期观察变化。
相关思维的应用太广了,我这里就说一点,往往是被大家忽略的。现在的很多企业管理层,面对的问题并不是没有数据,而是数据太多,却太少有用的数据。相关思维的其中一个应用,就是能够帮助我们找到最重要的数据,排除掉过多杂乱数据的干扰!
如何执行呢?你可以计算能收集到的多个指标间的相互关系,挑出与其他指标相关系数都相对较高的数据指标,分析它的产生逻辑,对应的问题,并评估信度和效度,若都满足标准,这个指标就能定位为核心指标!
建议大家养成一个习惯,经常计算指标间的相关系数,仔细思考相关系数背后的逻辑,有的是显而易见的常识,比如订单数和购买人数,有的或许就能给你带来惊喜!另外,“没有相关关系”,这往往也会成为惊喜的来源哦。

第七、远近度思维

远近度

现在与许多处在管理层的朋友交流后,发现他们往往手握众多数据和报表,注意力却是非常的跳跃和分散。这当然不是好现象,但如何避免呢?一是上文说的通过相关思维,找到最核心的问题和指标;二就是这部分要说的,建立远进度的思维方式。
确定好核心问题后,分析其他业务问题与该核心问题的远近程度,由近及远,把自己的精力有计划地分配上去。比如,近期你地核心任务就是提高客服人员的服务质量,那么客服人员的话术、客户评价通道、客服系统的相应速度等就是靠的最近的子问题,需要重点关注,而客户的问询习惯、客户的购买周期等就是相对远的问题,暂时先放一放。当然,本人经历有限,例子举得不恰当的地方还望读者们海涵。

第八、逻辑树思维

逻辑树
如图的树状逻辑相信大家已经见过许多回了。一般说明逻辑树的分叉时,都会提到“分解”和“汇总”的概念。我这里把它变一变,使其更贴近数据分析,称为“下钻”和“上卷”。当然,这两个词不是我发明的,早已有之。
所谓下钻,就是在分析指标的变化时,按一定的维度不断的分解。比如,按地区维度,从大区到省份,从省份到城市,从省市到区。所谓上卷就是反过来。随着维度的下钻和上卷,数据会不断细分和汇总,在这个过程中,我们往往能找到问题的根源。
下钻和上卷并不是局限于一个维度的,往往是多维组合的节点,进行分叉。逻辑树引申到算法领域就是决策树。有个关键便是何时做出决策(判断)。当进行分叉时,我们往往会选择差别最大的一个维度进行拆分,若差别不够大,则这个枝桠就不在细分。能够产生显著差别的节点会被保留,并继续细分,直到分不出差别为止。经过这个过程,我们就能找出影响指标变化的因素。
举个简单的例子:我们发现全国客户数量下降了,我们从地区和客户年龄层级两个维度先进行观察,发现各个年龄段的客户都下降,而地区间有的下降有的升高,那我们就按地区来拆分第一个逻辑树节点,拆分到大区后,发现各省间的差别是显著的,那就继续拆分到城市,最终发现是浙江省杭州市大量客户且涵盖各个年龄段,被竞争对手的一波推广活动转化走了。就此通过三个层级的逻辑树找到了原因。

第九、时间序列思维

时间序列

很多问题,我们找不到横向对比的方法和对象,那么,和历史上的状况比,就将变得非常重要。其实很多时候,我更愿意用时间维度的对比来分析问题,毕竟发展地看问题,也是“红色方法论”中的重要一环。这种方式容易排除掉一些外在的干扰,尤其适合创新型的分析对象,比如一个新行业的公司,或者一款全新的产品。
时间序列的思维有三个关键点:一是距今越近的时间点,越要重视(图中的深浅度,越近期发生的事,越有可能再次发生);二是要做同比(图中的尖头指示,指标往往存在某些周期性,需要在周期中的同一阶段进行对比,才有意义);三是异常值出现时,需要重视(比如出现了历史最低值或历史最高值,建议在时间序列作图时,添加平均值线和平均值加减一倍或两倍标准差线,便于观察异常值)。
时间序列思维有一个子概念不得不提一下,就是“生命周期”的概念。用户、产品、人事等无不有生命周期存在。本人最近也正在将关注的重心移向这块,直觉上,生命周期衡量清楚,就能很方便地确定一些“阀值”问题,使产品和运营的节奏更明确。

第十、队列分析思维

队列思维

随着数据运算能力的提高,队列分析的方式逐渐展露头脚。英文名称为cohort analysis,说实话我不知道怎么表述这个概念,我的理解就是按一定的规则,在时间颗粒度上将观察对象切片,组成一个观察样本,然后观察这个样本的某些指标随着时间的演进而产生的变化。目前使用得最多的场景就是留存分析。
举个经常用的例子:假设5.17我们举办了一次促销活动,那么将这一天来的新用户作为一个观察样本,观察他们在5.18、5.19…之后每天的活跃情况。
队列分析中,指标其实就是时间序列,不同的是衡量样本。队列分析中的衡量样本是在时间颗粒上变化的,而时间序列的样本则相对固定。

第十一、循环/闭环思维

闭环

循环/闭环的概念可以引申到很多场景中,比如业务流程的闭环、用户生命周期闭环、产品功能使用闭环、市场推广策略闭环等等。许多时候你会觉得这是一个不落地的概念,因为提的人很多,干出事情来的例子很少。
但我觉得这种思考方式是非常必要的。业务流程的闭环是管理者比较容易定义出来的,列出公司所有业务环节,梳理出业务流程,然后定义各个环节之间相互影响的指标,跟踪这些指标的变化,能从全局上把握公司的运行状况。
比如,一家软件公司的典型业务流:推广行为(市场部)➡流量进入主站(市场+产研)➡注册流程(产研)➡试用体验(产研+销售)➡进入采购流程(销售部)➡交易并部署(售后+产研)➡使用、续约、推荐(售后+市场)➡推广行为,一个闭环下来,各个衔接环节的指标,就值得关注了:广告点击率➡注册流程进入率➡注册转化率➡试用率➡销售管道各环节转化率➡付款率➡推荐率/续约率…这里会涉及漏斗思维,如前文所述,千万不要用一个漏斗来衡量一个循环
有了循环思维,你能比较快的建立有逻辑关系的指标体系。

第十二、测试/对比思维

测试

AB test,大家肯定不陌生了。那么怎么细化一下这个概念?一是在条件允许的情况下,决策前尽量做对比测试;二是测试时,一定要注意参照组的选择,建议任何实验中,都要留有不进行任何变化的一组样本,作为最基本的参照。
现在数据获取越来越方便,在保证数据质量的前提下,希望大家多做实验,多去发现规律。

指数化思维

指数化

指数化思维,是指将衡量一个问题的多个因素分别量化后,组合成一个综合指数(降维),来持续追踪的方式。把这个放在最后讨论,目的就是强调它的重要性。前文已经说过,许多管理者面临的问题是“数据太多,可用的太少”,这就需要“降维”了,即要把多个指标压缩为单个指标。
指数化的好处非常明显,一是减少了指标,使得管理者精力更为集中;二是指数化的指标往往都提高了数据的信度和效度;三是指数能长期使用且便于理解。
指数的设计是门大学问,这里简单提三个关键点:一是要遵循独立和穷尽的原则;二是要注意各指标的单位,尽量做标准化来消除单位的影响;三是权重和需要等于1。
独立穷尽原则,即你所定位的问题,在搜集衡量该问题的多个指标时,各个指标间尽量相互独立,同时能衡量该问题的指标尽量穷尽(收集全)。举个例子:当初设计某公司销售部门的指标体系时,目的是衡量销售部的绩效,确定了核心指标是销售额后,我们将绩效拆分为订单数、客单价、线索转化率、成单周期、续约率5个相互独立的指标,且这5个指标涵盖了销售绩效的各个方面(穷尽)。我们设计的销售绩效综合指数=0.4*订单数+0.2*客单价+0.2*线索转化率+0.1*成单周期+0.1*续约率,各指标都采用max-min方法进行标准化。
通过这个例子,相信各位就能理解指数化思维了。

小节

本篇内容在我脑中酝酿了2月有余了,但当起笔成文时,依然觉得自己的思考还不够全面,经验也不够丰富。各种思维方式的应用,似乎没有孰好孰坏,是否启用看似也比较随机。希望随着我经历的不断丰富,能够总结出一套行之有效的思维技巧,但目前还不行。
总的来说,数据质量依然是我觉得最大的前提。重要事情说三遍,动手前,一定要保证好数据质量!

来自:个人微信公众号“川术”

 

]]>
图解:每分钟(60秒)网络世界产生了多少数据?–信息图 //www.otias-ub.com/archives/516506.html Sun, 11 Sep 2016 14:59:41 +0000 //www.otias-ub.com/?p=516506 16_domo_data-never-sleeps-4

]]>
北京公共交通IC卡数据在城市治理中的应用 //www.otias-ub.com/archives/515966.html Fri, 09 Sep 2016 14:15:24 +0000 //www.otias-ub.com/?p=515966 本期嘉宾演讲为北京市政交通一卡通公司数据运营总监张翔带来的分享,看了他讲的内容才知道,我们每天都在用的公交卡真是一种神奇的东西,以它为媒介积累了海量数据,从中能进行各种有趣而使用的挖掘实践。

1473430482-7397-94de80684e44193c7a3f01
 

北京市政交通一卡通公司数据运营总监张翔

各位嘉宾、各位朋友,大家上午好。我今天带来的题目是北京市政交通IC卡数据在城市治理中的应用。

我主要讲三个方面,首先是北京市政交通一卡通业务介绍。第二是数据现状平台功能,第三是城市治理中的应用实践。

1473430482-3512-94de80684e44193c7ac002
 
北京市政交通一卡通有限公司成立于2000年,在历年的发展过程当中,我们渐渐扩展到四个领域,28个应用,典型的是城市交通。北京的公共交通基本上是全覆盖的,市政服务方面我们覆盖了像燃气、公园景点、公共电话、环保系统、学生卡、养老助残卡、残疾人一卡通。

1473430483-1404-94de80684e44193c7aca03
 
1473430483-2081-94de80684e44193c7ad204
 
这四大领域,28类的应用在一年发展过程中积累了海量的数据。现在我们在公交和市政领域累计的可用数据是460亿笔,每天还有3000万笔左右的增量。

1473430482-6946-94de80684e44193c7adf05
 
在上述数据基础上,我们建立了和数据相关的三套体系,为政府提供服务。

第一套是具有鲜明一卡通特色的数据治理体系。第二套是我们数据挖掘分析和计算体系。第三套是我们应用和展示体系。

1473430483-4016-94de80684e44193c7aed06
 
这是我们的数据治理体系的标签画像,中间是一张基本的IC卡,这是最基本的卡,我们还有很多扩展功能的卡。我们在做的时候有30多个纬度,比如说这张卡发卡的标签、持有时长的标签,我们以某种方式先画出来。

在卡片当中应用比较多的像通勤的OD、充值的次数、票价敏感度等等都是标签。还有学生卡、老年人卡,我们单独会有专项的标签。目前我们发了1亿张,保有量8000万。但是正常活跃在用的大概是3000万张,我们经过一年的努力把3000万市民的画像基本上做全了,这也是为政府各项数据分析服务提供了基础。

我们的标签基本上分成三类,一类是公共交通类,一类是市政服务类,还有一类是外源融合类,包括天气数据、商业化的数据等等。

1473430484-8502-94de80684e44193c7b0007
 
这一页是我们典型可视化的的应用,这是路网全天监控的站点。通过全天24小时监控界面,可以跟踪整个公共交通路网在特定时段的动态变化,我后面会有一段动画演示。

1473430484-8399-94de80684e44193c7b0b08
 
这一页是我们的线路客流的监控界面,包括线路站点流量变动,右上角大家可以看到。还有换乘的状况,来源地和目的地,它和所有线路之间的换乘状况。一条线路上人从哪里来,可以从这张表客观的体现。

1473430484-2418-94de80684e44193c7b1a09
 
再往后一张是特定区域的分析,一种纬度按照网格化管理,一种纬度是物理的管理,或者是按照商务区、居住区和学习区。现在我体现的这张是中关村的昊海楼,因为昊海楼前一段在做功能转换,应市里面的要求我们做了详细的特定分析。

从这张图可以看出来,昊海楼中的工作人群(当然我们要限定了,它只限于公交方式的人群,私家车我没有加进去),他的出行距离、上班的时间分布、使用的交通工具,以及换乘的方式和各个区域之间的方式,可以很典型的通过这张图来实现。我们和国家发改委规划院和北京规划院有深入的合作,为他们的规划提供了支持,用他们的术语叫数据驱动规划。

1473430484-8832-94de80684e44193c7b290a
 
这张是厦门的支柱平衡分析,因为我们这个平台是垂直的通用分析平台,IC卡数据只要接进去,各种功能都可以体现出来。国家发改委觉得我们整个平台具有推广价值,所以当时建议把厦门的数据接进来。厦门是岛状结构,这个是厦门岛外各个重点站点之间的往来关系。

前面我简单介绍了企业情况,以及我们的数据和数据平台的情况。下面我分四个方面介绍一下北京一卡通的数据,我把一年来做的各种案例梳理了一下,主要分为四类,一是政策效果评估,二是城市规划支撑,三是特定人群的分析以及服务,四是公共交通的优化。

第一个案例是北京的重大政策的评估。评估分为事前、事中和事后,北京在2014年做了一次票改,减少非刚需的地铁客流,引导客流的合理出行。我们取了票改前后各一个月的10亿条数据,我们在国内外交流的时候,很多专家告诉我们,至少这是国内第一份基于全口径的分析。票改后第一个月地铁刷卡次数减少了10%,从结果上来看,基本上达到了市政府票改的目的。

1473430484-1895-94de80684e44193c7b360b
 
1473430484-4438-94de80684e44193c7b400c
 
从结构上来看,右边这张表有两个纬度,一个是地铁减少,一个是公交增加,是指这一个人在这一个月里面乘坐公交和地铁的方式和次数的变化。

从这个图可以看出来,整个票改对北京人群出行影响有149万,同时一个月超过十次的我们称他改变了出行结构,我们把地铁转化为公交的定为票价敏感人群。这20万人群是下一步票改需要重点考虑的人群。

第二个案例选择的是2015年北京的大阅兵,阅兵的过程当中采取了交通限行措施,我们研究了单双号限行对整个北京区域内公交的影响。我们从右边可以看出来结果,限行期间和限行前,整个公共交通的出行增量增长了7%,其中公交增加了10%,并且早高峰提前了十分钟,地铁略降了2%。

1473430485-8681-94de80684e44193c7b4f0d
 
1473430485-8992-94de80684e44193c7b590e
 
我们选了北京三条典型的公交线路,分别是长安街的1路和二环的44路和三环的300快。站点的颜色代表前后变动的比率大小,通过右边这张表可以看出来,我们看到前面这张图整体的公交增量是10%。但是典型线路增量会高于普通线路,同时,从右边可以看出来非工作日它的增量反而更大,那么下一步我们做相关政策安排的时候可能要多做一些典型线路的车辆频次和密度。

因为这次是限行,主要是想让私家车出行转成公交方式出行。所以我们重点研究了一下有车族转至公交的情况。从上面的图可以看出来,前两周一次都没有坐过公交系统的,在限行期间内坐了两次或者两次以上的有329万人。在限行期间乘坐公共交通八次以上的有94万人,从效果来看达到了政策设计的目的。

现在政府非常推崇绿色出行,就是自行车。当然这个里面是直观的体现,从总人群上看增加了10%,每一个使用的频次都有相应的增加。

刚才是关于城市重大政策的事前、事中、事后的案例。因为北京区域非常大,各个区之间跨区的工作现象非常多,这里面我们和国家发改委一起合作,做了北京区域内的跨区工作的分布。

1473430485-2288-94de80684e44193c7b710f
 
我们从右边的图可以看出来,颜色越深代表跨区之间人的流量越大。在北京居住和工作跨区工作中,昌平居住在海淀工作,朝阳居住在海淀工作,丰台居住在海淀工作的比例最高。这个说明在海淀它能提供的工作岗位相对是比较多的。

1473430485-8122-94de80684e44193c7b8a10
 
我们再从具体某一个区域职住平衡分析来看,大家从我画的绿色圈可以看到,在金融街上班人群中,以金融街为中心十公里为半径的居住人群占69%。大型的居住区我选的是天通苑,半径十公里范围内的工作人群只占39%,它呈现偏态的失衡分布。这两张图我们和北京相关的规划部门和发改委相关的规划部门都已经有过交流,说明在早前我们设计的时候可能对功能区和居住区的分布考虑的不是很充分。

关于城市规划支撑,第二个案例是通州,通州现在被定义成北京的副中心。而且它的高度现在也被提到了已经不是北京的通州了,它是京津冀的通州。包括国家发改委、市发改委都委托我们研究通州它的公共交通影响的静态和动态的人群。

1473430485-5706-94de80684e44193c7b9711
 
1473430485-4692-94de80684e44193c7b9f12
 
这里面我们做了三个纬度,一个是在通州居住在外区工作,以及在通州工作在外区居住,一个在通州居住,也在通州工作。通州居住在外区工作的人群中,在朝阳区个海淀、石景山的最高,占比依次为31%、19%和14%。

我们再看右边这张图通州工作外区居住,从这个图可以典型看出来朝阳、丰台和大兴区居住人群到通州上班的比例是比较高的。

这两张图反映的也是刚才的,是通州和各区之间的关系。下面是以热力图的方式来反映,左边是它的工作地分布,右边是通州的居住地分布。

1473430486-6104-94de80684e44193c7bb013
 
1473430486-3194-94de80684e44193c7bb814
 
这是第三个纬度的图,在通州工作通州居住,我们可以从左边看,左边体现的是居住地分布,右边体现的是工作地分布。如果仅仅从职住平衡的角度来看,我们认为通州内部职住分布是相对平衡的。但是从分布来看合理性是有待调整的。

北京的工作人群不仅仅受北京的影响,还受河北的影响,典型是河北的北三县,公共交通出行的工作人口中,超过40%是在北京的区域里工作,其中又以朝阳和通州的比例较高。

1473430486-6164-94de80684e44193c7bcd15
 
前一段时间很多媒体在热炒,很多在三河的居住人每天非常拥挤,坐直达公交到国贸上班,变成典型的社会现象了,这个可能是下一步通州设计的时候需要考虑的。

第三个案例是对特定人群的分析,原来我的PPT没有这个,但是这段时间有一个现象,英国的学者提出来用IC卡数据来抓小偷,好像在数据分析师圈子里面流传很广。实际上这件事情,我们五年前就在做和北京公交总队合作在做,为什么没有说呢?因为你说出来有负面影响,但是为了增加趣味性我今天就把这个题拿出来说一下。

我们有一套系统称为北京一卡通特定人群分析系统,它有三个层次。第一个层次我们可以分为大学生、中小学生、老年人、小偷、乞讨,它有一个宏观的北京市的整体的考虑,相关的政府部门必须考虑,我们按照他们的要求做的这套系统。其中灰色人群的体系里面,有一块专门是小偷、乞讨和其他的灰色人群,包括有些快递我们也归为灰色人群。

1473430486-9770-94de80684e44193c7bdc16
 
它是怎么做呢?首先我们给特定人群做定义,定义完以后在整个画像里面抓人群时空的出行特征,最后我们对这个人群识别完以后,要用其他的线索和数据来验证,包括很多外联数据,包括公安部门的数据。做完之后,验证完之后我们把这部分人群挑出来,交给相关部门做管理或者是服务。

1473430486-6139-94de80684e44193c7be617
 
中间的红色标签前四行就是我们如何识别小偷的,我们通过它的轨迹可以看到,一般这种人群是偏离正常的出行规律,他偏好短途或者是频繁换乘。同时他随机停留,没有明确的目的地。同时,这部分IC卡更多会聚集在商业区域、旅游精典,把这个量交给警方,由警方和各个案发地的效果进行匹配,从效果来看是很好的。虽然识别的百分比非常低,但是总量是很大的。

我们更多做的是一些普通人群,包括老年人、中小学生,特别是中小学生在北京是IC卡应用起到了相当大的作用。这四张图体现的是北京的中小学生每天通学的距离。

1473430486-5837-94de80684e44193c7bf218
 
第一张图绿色的它的距离是0到10公里,第二张是10到20公里,第三张红色的是大于20公里。所以北京有很多孩子很辛苦,因为我们的界定前提是坐公共交通工具的,这个孩子每天在路上可能要一个多小时。

1473430487-6828-94de80684e44193c7bff19
 
我们来看这张图,右边的是中小学生,0到6公里基本上在北京的整个学生体系里面占了55%,6到12公里占21%,12到20公里占了11%,剩下的13%人群,我们对这批进行了深度的分析,这一批是拿了学生卡,但是不是学生。从出行的时间、轨迹和目的地来看,那个地方没有学校,而且不是上学时间出行,因为学生卡比较便宜,可能有人冒用学生卡,打的折扣比较大。

右边是通勤人群,我们可以看到北京人民还是很辛苦的。特别是出行公里数在25%左右是12到20公里,还有剩下16%是20公里以上,像我每天单程是20公里。

第四部分是我们公共交通优化的分析体系

我们是四个层次,第一层次是对整个路网的监控。第二层次是某一条路网的某一条。第三个层次是线路里面的站点。第四个层次从线路里面出来的人,以及人的轨迹的分析。

这是全天路网24小时动态分布图,颜色越深代表这个站点出行的人群密度越大。大家可以看到北京最北边和右下方这个位置有几个站,从早上开始一直要红到晚上十点钟。

1473430487-2450-94de80684e44193c7c171a
 
刚才讲的是路网动态的监控,这是线路,我选择的是地铁1号线,它反映的是1号线客流的来源和去向。右边可以看到1号线、2号线、10号线是强相关的。

1473430487-3361-94de80684e44193c7c271b
 
第三个层次是站点,我选择典型站点是天安门,我们对天安门的人群特征可以做一个细分和描述。从左边可以看到,天安门上班族、旅行者和购物群体的分布。如果跟西单一比就非常典型了,西单的购物人群非常多,包括进出站人群的性别比例、年龄比例,更往下的是其他部门的一些特征。最下面那张表反映的是天安门全天进站和出站人流量的比例。

第四个层次是个人轨迹,我们通过对个人通勤轨迹的分析,我们可以找出它的通勤方式的偏好,通勤的距离、时长、换乘的方式、居住的区域,以及它的工作的区域,居住区的车站分布等等特征都可以通过他的刷卡行为体现出来。当然如果再融合其他的外源数据可能有更深的发现。

1473430487-7073-94de80684e44193c7c351c
 
比如说右边这张图,上面白色九个纬度是用IC卡的数据做描述的,下面这四个是我们和中国移动合作,用移动信令做的轨迹描述。因为它从公交站出来之后,我们就监控不到了。但是我们可以和移动数据进行拟合之后一直跟踪他进入小区。

整个这一块我们对标签画像轨迹的描述,对很多设计部门、政府管理部门,甚至是一些商业单位是很有价值的做法。我们四层结构的包括路网、线路、站点和个人分析,在工作当中对交通优化起到了很强的数据支撑作用。比如说对通勤班车线路的设计、公交、地铁站点之间换乘接驳,有很强的指导意义。

从刚才我们描述的诸多案例可以看出来,IC卡数据确实在城市治理当中起到了一些典型的效果。它提升了城市政策制定的效果和效率,提升了政府对特定人群服务的质量和水平。同时,它更可以优化公共交通资源的配置,我们北京一卡通公司做这种数据分析工作,已经有三四年时间了。在这三四年的过程当中,我们也应用了很多计算基础和国内国外的计算工具和方法。在做的过程当中,我们感觉到我们打开了一扇门,这个门里面目前做的是为政府提供服务。但事实上我理解就我们现在的数据基础和经验完全可以为社会提供更深的数据服务,可以为公众提供服务,甚至为个人提供服务或者是对商业企业做很多具体的应用。

后面几项是更广阔的空间,我们公司下一步确实在探索和研究,看是不是可以往商业化的方向考虑。我觉得在座的都是同行,如果大家有兴趣的话我们是不是可以从这几个层面。包括数据研究的层面和数据互换的层面,我们可以直接从商业层面合作,希望大家会后有机会可以交流。

1473430487-9077-94de80684e44193c7c451d
 
从我们这几年为政府服务的过程当中来看,大数据提法慢慢开始越来越热。我们从中碰到了很多困难,方方面面都有。但是我相信随着政府相关政策的明晰化,大家观念的转变,技术的提升,城市IC卡数据肯定会发挥越来越广泛、越来越深入,以及越来越精彩的应用。

]]>
如何成为一名数据科学家? //www.otias-ub.com/archives/514326.html Mon, 05 Sep 2016 14:42:10 +0000 //www.otias-ub.com/?p=514326 作者Alec Smith是数据科学领域中资深HR,之所以写这篇文章是因为经常被问到一个问题:“如何才能获得一份数据科学家的职位?” 不仅这个问题经常被问引起了注意,另外问这个问题的人不同的背景也非常很令人感兴趣。作者曾经和以下这些职业的人有过类似对话:软件工程师、数据库开发者、数据架构师、保险精算师、数学家、学术界人士(不同领域)、生物学家、天文学家、理论物理学家—我还能接着往下数。通过和他们的这些谈话,作者发现在这之中有很大的误解存在,很多人都非常困惑——为了闯入这个领域的话,他们需要做些什么?

1473086483-5655-57cd39c68c668

作者决定深入调查这个项目,同时提供一个任何想要加入商业计算机科学都能受益的干货资料——无论你是刚刚开始,或者早已点满所有的技能只是没有相关的业界经验。因此我打算主要回答这两个概览性的问题:

  • 数据科学需要哪些技能?如何才能学会这些技能?
  • 从求职市场的角度来看的话,怎样做才能最大化在数据科学岗位上被录用的机会?

你可能会疑惑,凭什么我能回答这些问题?

因为我每天都喝数据科学家打交道,并且作为一个资深的HR,我需要了解相关职业道路,怎样才能成为一名优秀的数据科学家,以及雇主期望能招到哪一种员工。因此对于这件事我还是相当了解的。但是我也想直接找到那些沿着这条路走下来的人,所以我以不同背景的数据科学家开始,期待能发掘到不同的东西。这一次我找到了一个前软件工程师、前天体物理学家、甚至还有一个前粒子物理学家(这令我非常激动,因为他曾经亲身参与过21世纪以来最重大的科学突破之一)。

1473086483-2256-57cd3a63eb8ff

第一章:什么是数据科学?

你已经下定决心要做一名数据科学家了,很好你已经开始了。但是现在你有了另外一种选择:你想做哪一种数据额科学家呢?因为(认识到这个很重要)虽然数据科学被承认是一种职业已经有很多年了,但是有关于它到底是什么还没有一个大家都认可的定义。

在现实生活,“数据科学家”这个词可以指代非常广泛的工种,因此它存在很多种形式,考虑到工业界以及商业界各种需求的不同,还有问题中目标与输出角色的不同。因此,在某些方面拥有技能的话比其他要更好一些,这就是为什么通向数据科学的路径是不相同的,可以通过多种领域如统计、计算机科学与其他科学学科来实现。

目的是决定数据科学形式类别的最大因素,这也与相应的A类以及B类相关联。广义上来说,分类可以总结如下:

  • 面向人类的数据科学(A类),举例:分析支持以证据为基础的决策
  • 面向软件的数据科学(B类),举例:智能推荐系统,如Netflix和Spotify

当这个领域越来越成熟之后,我们可以见到这些定义会愈加完善,在这里我们也要介绍我们第一个专家:Yanir Seroussi,Yanir目前是Car Next Door的首席数据科学家。

探讨职位头衔

在我们深入研究之前,值得花一点时间来反思“数据科学”中的“科学”,因为在某种意义上,所有的科学家都是数据科学家,因为他们都是与各种各样的数据进行打交道。但要考虑到通常被认为是数据科学的这个行业,究竟是什么使它成为一门科学?这个问题很好!答案应该是:“科学方法”。考虑到科学的多学科性,科学方法是把这些领域结合在一起。

然而,业界中职位名称貌似越来越宽松了,并不是所有的数据科学家都是真正的科学家。可以这样问你自己:你能证明自己是一个科学家即便你的工作并不包含真正的科学呢?个人来说,我不认为“分析师”不能作为一个选项 ,或者其他的最合适的也能作为选项。但是这可能只是我个人意见,也许我最好称自己为招聘科学家。

通过讨论的方式我们将继续探索,哪些领域的专业知识你还需要掌握(如果你还没有的话)。

1. 解决问题

如果这个不是你清单中的首位的话,马上去修改。所有科学核心都是解决问题:一个伟大的数据科学家也是一个伟大的问题解决者;就是这么简单。需要更进一步的证明吗,基本我在这个项目中碰到的每一个人(不管其背景和目前工作环境如何)都提到数据科学中最重要的因素就是解决问题。

很明显,你需要有工具去解决问题,但是它们只是:工具。在这种情况下,即便是统计/机器学习技术也可以认为是你解决问题的工具。新的技术出现了,科技进步了。唯一不变的就是解决问题。

在某种程度上,你解决问题的能力是由天赋决定的,但是与此同时有且仅有一个方式来进行提高:那就是练习、练习、练习。在后面我们会回顾这部分内容,但是现在你只需要记住:你只能通过尝试来掌握某件事情。

2. 统计/机器学习

1473086484-4803-57cd3b2facca7

看完上面的内容,似乎我轻视了统计和机器学习。不过在这里我们并不是讨论一个强力的工具;它们是非常复杂的(而且在某种程度上是非常深奥的领域),如果你没有专业的知识,你也不会很快地解决数据科学问题。

进一步对这些词进行解释说明,机器学习可以被认为是从人工智能/计算科学与统计学中发展起来的多学科领域。它通常被认为是人工智能的一个子领域,这是正确的,但是很重要的是要意识到没有统计学的话就没有机器学习(机器学习非常依赖统计算法来工作)。很长一段时间依赖统计学家都被机器学习所轻视,但是在这两个领域的合作才造就了最近的发展(参见统计学习理论),顺便提下高维统计学习只有在统计学家与机器学习结果合作时才会有良好的结果。

3. 计算

  • 编程

对于我们来说只需要简单的接触程序就行,因为它应该是很直观的:但是对数据科学家来说编程是必须要会的。设想下如果你不会编程的话,如何才能通过编写一段独特的算法来实现你的理论?又或者建立一个统计模型?

1473086483-4875-57cd3b55e8deb

  • 分布式计算

并不是所有事情都需要超级大的数据组,但是考虑到现代世界的情况,建议在工作中都加上大数据。简而言之:单一计算机中的主要内存并不能实现大数据处理,如果你想同时在数百台虚拟机中训练模型的话,你需要能够使用分布计算与并行算法。

  • 软件工程

对于A类数据科学而言,让我明确一点:工程是一门独立的学科。因此如果这是你想成为的数据科学家类型,你其实不需要成为一个工程师。然而,如果你想把机器学习算法转化到应用中(即B类),那么你将需要一个强大的软件工程基础。

  • 手动转换数据

数据清理/准备是数据科学的重要内在组成部分。这将耗费你大多数时间。倘若你没有成功地对数据集进行降噪(例如,错误赋值,非标准化分类等),将会对建模的准确性产生影响,最终导致产生错误的结论。因此,如果你尚未做好处理数据的准备,这将使你先前的知识积累显得无关重要。

有一点是非常重要的且值得注意的,即在商业化组织中数据质量一直以来成为饱受争议的话题,在数据储存方面,许多业务又涉及到复杂的基础事务需要处理。所以,如果你尚未准备好融入这个环境中,想要处理纯粹的数据集,商业数据科学可能不是最适合你的选择。

  • 工具与技术

直至目前,你应当意识到,成为一名具备解决问题的能力的数据科学家相比于其他一切条件来讲是重中之重:因为技术将不断发生变化,能够在相对较短的时间内得到掌握。但是,我们不能对其他影响因素置之不理,因而,能够认清楚如今应用最广泛的工具对于成为一名数据科学家是有用的。

让我们先从编程语言谈起,R与Python是两种最常用的编程语言,因而,如果能够选择的话,希望你选用其中一种语言用于实验研究。

尤其是在A类数据科学工作领域,具备能够直观地观察数据的能力将会对与非技术型商业股东交流沟通产生重大影响。你可能具有最优的模型和最深刻的见解,但是如果不能有效地呈现/解释这些研究成果,那又将有什么用呢?事实上,你运用什么工具实现数据直观可视化并不重要,可以是通过使用R或Tableau(当时最为流行的编程语言),但是,说实话,工具是不太重要的。

最后,不论我们所讨论的是关系型数据库,还是运用大数据技术获得的SQL衍生数据库,由于SQL是当时产业界用于数据库中最为广泛的编程语言,大多数公司都非常看重SQL这种编程语言。SQL对于手动转换数据尤为重要,至少在处理更大规模的数据库时。总之,SQL真的值得你花费一定的时间来好好研究应用。

  • 交流/商业头脑

在商业数据科学领域工作,具备交流沟通能力/商业头脑是不容忽视的。除非你将要从事非常具体的工作,可能是纯研究类型的工作(尽管我们要面对现实,在产业界并没有很多这种类型的工作),绝大多数数据科学领域的工作都涉及到业界交流互动,通常是与非学者类型的人打交道。

具备将商业化问题和催生这些问题的环境概念化是极为重要的。将统计学方面的观点转化为可以想普通大众推荐的行动或启发性观点也是重要的,特别是对于A类型数据科学领域的工作来讲。我曾与Yanir就该话题交谈过,他的观点如下:

“我发现一种奇怪的现象,当一些技术型人才开始使用行话与人交流时,他们并不留意他们的交谈者——那些非技术型人才,的目光早已落到了别处。在交谈过程中,能够设身处地地为他人着想是重要的。”

摇滚明星

乍看这样一个标题,你可能会困惑不解:事实上,我用这一标题暗含讽刺意味。当然,数据科学家可不是摇滚明星,忍者,独角兽或其他任何一种神秘生物。如果你计划视自己为上述任何一种生物,那你可能该对着镜子好好大量自己一番。但是,讲到这里,我离题了。我想要表达的观点是,有一些数据科学家,他们具备顶尖的专业水平,也可能专业水平更为高端。在别人眼中,可谓稀有物种,尤为宝贵。如果你有此般天赋或愿望成为其中一员,那简直是太棒了。但是,如果你不具备这种才能或愿望,请记得:你可能在数据科学的某些领域做的术业有专攻,而且通常,好的团队是由精通于不同专业领域的数据科学家组成的。决定自己的研究重点在哪一领域,这个问题有回到我们之前讲的个人兴趣和能力这个话题上,我们将在下一章对该话题作继续讨论。

第二章:自我剖析

现在我们正在取得进步!成功地消化了第一章的内容之后,你现在要做好准备开始制定个人目标。但是,我们首先要回顾一下——不妨来杯咖啡,寻一隅安静之所,深思下面的问题:

1.你为什么想要成为一名数据科学家?

2.对哪一类型的数据科学感兴趣?

3.你已经具备了哪些天赋或相关技能?

为什么认真思考这些问题是重要的?简而言之:数据科学是一个专业的研究领域,因而,除非你已经掌握了我们在第一章中提到的知识与技能,否则从事该领域的研究并不是一种轻松的选择。讲到这里,有一点对合理解决前两个问题尤为重要:你需要为从事数据科学领域的研究找到合理的理由,否则,当遇到困难时,很容易半途而废。

为了详细阐释上面的观点,我们来听听Dylan Hogg的见地。Dylan之前是一名软件工程师,现在是数据科学研究协会的领导者,数据科学研究会为运用机器学习(NLP)为雇主和相关候选人员建立联系搭建了一个平台。Dylan是如何从软件工程师成功地转型为数据科学家的(他仍然处于转型期),下面我们将讨论转型过程中应当具备的条件,他讲到:

“不论学历高低,经历丰富与否,有一些内在的东西尤为重要,那就是一个人的求知欲、决心和毅力。你会遇到很多困难:也许是算法方面出错,也许是遇到技术瓶颈。不论遇到什么样的困难,你都能够找到最优的方法来研究机器学习算法或软件工程,但是,倘若你的信心不够坚定,你将会放弃或无法克服遇到的困难。”

这下你会懂了:在学习过程中,你不仅仅会遇到困难;在工作生活中,你会接二连三地遇到难题,因而,你最好能够保证有合理的理由来激励自己,而不仅仅因为你觉得拥有“科学家”这一头衔有多酷。

但是,我们应当如何应对第三个问题?为什么拥有相关技能是重要的?对,一个人的起点会对选择最适合自己的数据科学类型及你应当从自己感兴趣的领域学到的知识产生影响?为了能够恰当地回答这个问题,有必要探寻通往数据科学领域的典型途径,我们应当首先从更为广阔的科学领域开始。

注:在许多定量学科中有许多人具备向数据科学转型的素质。在这里我就不一一列举了,但是,需要强调的重点是:如果你花费时间来真正理解每种类型数据科学之间存在的细微差异,不论你的知识背景如何,你都将会意识到自己所具备的相关技能的重要性。

其他科学学科

1473086484-8975-57cd3c7c14490

这不是通往数据科学领域最平凡的道路;我们接下来将要讨论统计学与计算机科学在数据科学研究中的重要性。但是,许多领域的科学家都具有娴熟的相关技能(特别是物理学领域),许多人在这一方面已经跳过了。

为了对此进行解释,请允许我介绍Will Hanninger,澳洲联邦银行数据科学家。之前,Will是欧洲核子研究中心的粒子物理学家,发现了希格斯玻色子,下面是他的语录:

“在物理学界,你能够自然而然地学习到所需要的数据科学领域的知识:编程、操作数据,获取原始数据并根据实用性对数据进行转换。你能够学习到统计学知识,重要的是:你将学到解决问题的能力。这些是作为一名数据科学家应当具备的基本技能。”

因此,技能组合具有高度可转换性,最重要的是获取解决问题的能力。工具与技术两者之间将会产生差异,例如,尽管机器学习是数据科学的同义词,但是,就更为宽泛的科学而言,这种同义关系是不常见的。在上述讨论中,我们一直谈及的是高智商人才,他们具有在短时间内学会使用工具与技术的能力。

下面我们以Sean Farrell的科研经历为例。Sean所学专业是天体物理学,之后进入澳大利亚商业数据科学研究领域,在研究过程,他就“为什么科学家在数据科学领域的损失反而是收获”这一题目写了一篇著名的博文。下面这段话尤为中肯:

“至今为止,尚未发现一种能够培养出一位数据科学家的正式训练方法。多数数据科学家都来自统计学或计算机科学领域。然而,尽管其他研究领域也能够培养上述列举的技能,但是不能涵盖所有的相关技能。统计学家非常擅长数学和统计,通常在编程这一块儿的技能稍显欠缺。计算机科学家非常擅长编程,但是,在理解统计学知识方面存在难度。两个领域的科学家都具备高水平的(尽管不同的)数据分析技能,但是不擅长创新性地解决问题,这种技能也是难以教会的。”

为了避免误解,请记得我们今天讨论的上下文语境。Sean的一席话并不意味着来自统计学或计算机科学领域的所有数据科学家都缺乏创新性解决问题的能力;他的观点是:相比统计学和计算机科学,广泛意义上的科学对解决问题的技能要求很高。

统计学

谈及到科学,应当仔细研究统计学。近来,许多统计学中的分支学科被重新冠以数据科学之名,因此,在某种程度上,我们好像正在谈论语义学知识。但是,正如我先前谈到的,我认为科学方法应当被当作一门科学:难道提出假设,设计可行的实验方案等研究步骤不能称得上“方法论”吗?倘若不是的话,也许像“统计学家”或“模型分析师”这样的头衔更为贴切。

暂且将这一问题放一放,倘若你是产业界的一名统计员或者刚刚从统计学专业毕业,那么你可能已经拥有成为一名数据科学家应当具备的知识与素养。相关知识素养的形成主要依靠以下因素:

  • 首先,你在机器学习技能方面有何经验?正如我们在第一章提到的,统计建模与机器学习是相互关联的,但是,在应用到大型数据集中,后者具有更多的优势。当机器学习在产业界的应用越来越受到关注,实际上,机器学习已经成为各种类型的数据科学。
  • 其次,我们再重复一遍,你对数据科学的哪一领域感兴趣?很明显,拥有统计学背景更加有利于你胜任A类型职位,因而,如果你将目标设定为B类型职位,未来还需要学习很多知识。
  • 最后,你是否拥有处理数据的实际经验?正如我们在第一章中提到的,手动转换数据是商业数据科学的重要组成部分,而来自统计学领域的科学家手动转换数据的能力相对薄弱。

计算机科学/软件工程

如果你在人工智能或计算机科学领域的学习已经达到前沿水平,你极有可能已经能够胜任B类型的数据科学研究工作。但是,我们这里将要考虑一条数据科学家常走的科研道路:一名经验丰富的软件工程师想要转型进入数据科学领域。

一名软件工程师在机器学习领域可能富有经验,也可能经验甚少。但是,B类型数据科学要求在软件工程原则方面拥有扎实的基础,因而,不论怎样,拥有软件工程方面的学术背景将使你更适合该领域的研究。我曾经与澳洲联邦银行高级数据科学家(先前是一名软件工程师)就此问题交流过,以下是他的观点:

“大量数据科学工作其实都涉及到软件工程方面的知识,不仅仅包括设计健全的系统,而且包括简单地编写软件。你可以通过自动化完成众多任务,如果想要开展实验,你需要编写代码,如果你能够快速编码,将对实验进展产生重大影响。在攻读博士学位过程中,我每天要做成千上万项实验,如此浩大的工程是不可能通过人工完成的。拥有软件工程专业的学术背景意味着我能够快速完成设定的实验任务,然而,许多其他学术背景的学生需要费力处理基本的软件问题:他们真的非常擅长数学,但是要切实证明他们的观点还需要耗费大量时间。”

Dylan对于该问题补充道:

 “如果你想要在生产环境中高效运用机器学习算法,良好的软件工程实践能力是非常宝贵的。这其中涉及到各种各样的软件工程知识——如可维护的代码,可供分享的代码库,以便于更多的人能够投入到数据科学领域的研究中,如在计算机中记录信息,排除生产过程中的故障,算法扩展,你应当认识到:一旦这些知识得到加强,你便能够通过这样的方式构建数据科学领域的知识框架。因此,如果你正在寻找一份能够有效利用所掌握的知识的工作,这将使得软件工程学术背景变得更为重要。”

我认为,上述两名数据科学家已经对如何成功实现转型这一问题做出了详细阐释,下面由我来总结如下:如果你是一名软件工程师,而且很喜欢数学,这将有助于你成为一名(B类型)数据科学家,前提是你已经做好准备在工作中掌握统计学/机器学习领域的知识。

数学

很容易得出这样一个结论:数学知识为数据科学的所有研究领域打下坚实的基础。因而,期望许多数学家从事数据科学家的研究工作是合理的。但是,相对来讲,少之又少的数学家成功转型成为数据科学家,这一现象引发了我浓厚的兴趣。

针对这一现象,有一种解释:与其他研究领域相比,数学(纯理论数学与应用数学)领域有相对较少的毕业生,但是,这种解释未免显得牵强。为了深究导致这种现象的原因,我曾经同Building IQ(一家新成立的运用先进的算法优化商业建筑中能源应用的公司)首席数据科学家Boris Sackovic交谈过。Boris拥有电气工程与应用数学双重学术背景,与当时许多数学家合作过,以下是他对该现象的见解:

“许多数学家为理论层面的问题,美丽的方程着迷,能够洞察众多数学原理所蕴含的深层意义,当时商业数据科学研究讲求实证性,涉及到的多种多样的知识与能力。一些数学家喜欢这种实证性,而一些则表现出讨厌的态度。真实的情况更为复杂,你不能兼顾所有的情况,因而得具备能够灵活处理所遇到难题的能力。而这是商业数据科学的重点所在:找到更快更好、切实可行的挣钱方案。对于那些具有浓厚数学背景或理论背景的科学家而言,要理解商业数据科学领域的运行模式可能存在不少难题。我曾经遇到过很多数学专业的博士,他们在由学术界向商业数据科学领域过度期间可是吃了不少苦头。”

需要注意的是,Boris在这里谈及的是纯理论数学家,当然,他也补充说,在自己的职业生涯中也曾与许多优秀的应用数学家打过交道。这样一来上面的讨论便讲得通了,因为纯理论数学家可能会吸引那些热爱理论的人,而不会吸引那些热爱解决实际问题的人。理论研究工作并未涉及到太多数据处理问题,但是,我们都知道数据对于数据科学领域的研究极为重要。

就工作类型匹配度问题,多数数学家可能更适合学习A类型数据科学领域的工具和理论。但是,也有一些学习计算机科学的(实质上,理论计算机科学属于数学的一个分支)数学家,因此,具备这种学术背景的数学家可能更适合B类型数据科学领域的工作。

从上述讨论结果中可以得出一条非常重要的观点,即要理解商业数据科学真正要求数据科学家具备哪些知识和技能。倘若你能够真正清楚地认识到面临的挑战,所需要做的便是为了自己的目标努力前行。但是,倘若相比实际应用,你更热衷于理论研究,你可能要三思而后行。

一块空白的画布

如果你刚刚起步,也许你还是一名学生,喜欢数学、科学与计算,喜欢数据科学,这对你来讲不失为一则好消息:你可以不受先前学术背景的限制,选择属于自己的科研道路。现在有许多与数据科学相关的专业课程,涵盖计算机科学和数学/统计学等。当然你不可能一夜之间成为一名数据科学家,现阶段你需要树立不断学习的理念,利用各种数据科学领域的学习资源, 累积数据处理方面的实际经验,具备与人交流沟通的能力,积极迎接商业数据科学领域未来的挑战!

 

来自:雷锋网

]]>
阿里云推全新动态LOGO:计算和数据生生不息 //www.otias-ub.com/archives/505588.html Tue, 09 Aug 2016 06:05:03 +0000 //www.otias-ub.com/?p=505588 8月9日,阿里云在云栖大会·北京峰会上宣布启用全新的动态LOGO,新LOGO以简洁的符号设计更清晰地展现出阿里云“为了无法计算的价值”这一理念。阿里云的国际化战略也将受益于更换中文“云”后的新LOGO。

新旧logo对比

据悉,这是阿里云自2009年成立以来第二次更新LOGO,最为人熟悉的“云”LOGO已经使用了近六年。

在过去的数年间,阿里云发展成为中国市场的绝对领导者。财报显示,阿里云在过去四个季度中始终保持三位数收入增幅,正在成为阿里巴巴集团的“第三级火箭”。国际上,阿里云出海的步伐不断加快,开始与亚马逊、微软的云计算并肩,“3A鼎立”(AWS、Alibaba Cloud、Azure)的格局正在形成。

随着阿里云向全社会输出海量计算、大数据处理、中间件和安全能力,阿里云更深刻地认识到,云的本质是计算,“计算正在重新定义我们眼前的世界”。简单的“云”,已经无法准确地表达阿里云的理念,满足公司在海内外市场的发展需要,这也正是此次升级LOGO的初衷。

阿里云总裁胡晓明在一封公开邮件中,详细解读了启用新LOGO背后的战略思考——

      从云到计算

阿里云的新LOGO是从计算出发。“[  ]”来自代码中常用的符号,代表计算;中间的“ – ”代表流动的数据。作为现代社会基础设施的计算和数据,是随时随地在运行的,因此我们的LOGO也是动态的。

      从中国到世界

代码是无国界的通用语言。新LOGO的设计灵感从代码中而来,代表着阿里云从服务中国到服务全世界的梦想。

      从科技到普惠

阿里云从来就不仅是一家科技公司。计算,一定要成为普惠科技,成为各行各业能够简单获取的能力,才能不断去创造“无法计算的价值”。新LOGO是黑白的,我们希望跟所有客户一起,计算出一个多彩缤纷的世界。

      从成长到守护

新LOGO的形象包含守护的动作,寓意着阿里云将以安全稳定的服务,去守护客户每一份无法计算的价值。

阿里云Logo1

阿里云Logo2

]]>
酷传:2016上半年移动应用数据报告 //www.otias-ub.com/archives/497461.html Wed, 20 Jul 2016 13:00:52 +0000 //www.otias-ub.com/?p=497461

1469018851-4516-E5B081E99DA2-01

1469018846-1189-E79BAEE5BD95-01

1469018855-1111-1-01

1469018857-3942-2-01

1469018857-2009-3-01

1469018870-2638-4-01

5_01

1469018876-7461-6-01

7_011469018870-1772-8-01

1469018876-8992-9-01

1469018878-3191-10-01

1469018885-5123-11-01

1469018889-8647-14-01

1469018846-1189-E79BAEE5BD95-01

15_01

1469019220-9640-16-01

]]>
2016年5月中国移动MM应用数据报告 //www.otias-ub.com/archives/482852.html Sun, 12 Jun 2016 10:37:43 +0000 //www.otias-ub.com/?p=482852 中国移动MM2016年5月应用数据报告_000001 中国移动MM2016年5月应用数据报告_000002 中国移动MM2016年5月应用数据报告_000003 中国移动MM2016年5月应用数据报告_000004 中国移动MM2016年5月应用数据报告_000005 中国移动MM2016年5月应用数据报告_000006 中国移动MM2016年5月应用数据报告_000007中国移动MM2016年5月应用数据报告_000008

中国移动MM2016年5月应用数据报告_000009

]]>
9k9k:2016年5月16-22日一周网页游戏数据报告 //www.otias-ub.com/archives/474917.html Mon, 23 May 2016 09:25:40 +0000 //www.otias-ub.com/?p=474917 一、运营平台开服排行

1463995472-5303-WkEToDKWPC96xzmz05icv2loSrTg

点评:本周网页游戏一线平台开服榜单较上周变化不大,开服前三平台依然是37游戏、360游戏、顺网游戏;YY游戏开服总数增长3.7%,榜单排名上升两位。本周一线平台共开服5613组,榜单开服共3002组,占一线平台开服总数的53.5%;其中榜单前三平台开服共1157组,占榜单平台开服总数的 38.5%。本周一线平台共引入新游13款,37游戏《雪鹰领主》于本周开启首测。

搜狗游戏本周新晋《热血战歌》为主打游戏,目前开服频率稳定在2服/天;新游《部落争霸》目前开服形势尚不明朗,有待观察。此外,由同名电视剧改编页游的《秀丽江山之长歌行》本周于51游戏开启测试,游戏不仅坐拥优质IP,剧情上更最大程度还原西汉末年群雄逐鹿的历史画幅,相信不久就将崭露头角。

本周顺网游戏开服增长幅度达3.5%,热游《九阴绝学》、《武神赵子龙》目前在顺网游戏的开服频率长期稳定于5服/天、4服/天。新游《天问》于本周末正式运营,目前开服频率暂时稳定于2服/天,后期或许有望上调。

二、运营平台开服分析

1463995472-7198-8Femc1UfM6T0ogUtXfSs0eVNU3Zg

点评:本周一线平台主打游戏开服分布情况与上周基本保持一致,《蓝月传奇》本周新入驻爱奇艺游戏、哥们网、迅雷牛X页游等7家一线平台。据9K9K网页游戏开服数据统计,《蓝月传奇》目前已入驻20家一线平台,发展迅猛。

其他一线平台引入新游一览:VS游戏平台《开天战神》、《书剑恩仇录》;起点游戏《热血战歌》、《小小冒险村》;360游戏《三国之怒》;37游戏《通天西游》;妖豆游戏《主宰西游》;哥们网《足球掌门》。

三、网页游戏开服分析

1463995472-6918-ymUTdcwaalNLwMb5S2MRibVJWAkg

点评:本周一线平台中开服排行前三的游戏为:《九阴绝学》、《传奇霸业》、《武神赵子龙》;《蓝月传奇》开服总数锐增28.7%,首次上榜且排名第八。本周上榜游戏共开服2503组,占一线平台开服总数44.6%;其中开服前三游戏共开服1041组,占榜单开服总数41.6%。

四、热门游戏分布

1463995472-7214-b6niaDKUYvdChmOZKm1iaqMlV04w

点评:本周《九阴绝学》开服有微量涨幅,其在哥们网开服占比增加1.4%,达39.1%。新增分布占比平台37游戏,日均开服2服/天。

1463995472-7746-NzbzchmAgWN5xtRSeUwDlbuOicUg

点评:本周《传奇霸业》开服稳定,2144本周开服频率调整为3服/天,开服占比减少2.3%。其他平台开服趋势保持不变。

1463995472-9638-rkc0pfRFaKAO5VZUV9icqPRXkhSw

点评:本周《武神赵子龙》开服情况总体保持稳定,迅雷牛X页游于本周末开服频率下调为2服/天。新增分布占比平台7k7k。

1463995473-5711-jjl6ia1cibMQfucliaafoWRZ35EQ

点评:本周《传奇盛世》开服基本稳定,新增分布占比平台PPTV、乐都网,日均开服频率为1服/天。

1463995473-7757-mndJAfkW6BMYBPo1CLmrCQWHwIyw

点评:《决战武林》本周开服总数较上周减少2.6%,榜单排名仍旧第五。

五、研发商开服分析

1463995473-7444-HBf0IGCqbmicwXMia1eRrc3cAwmw

点评:本周网页游戏研发商开服排行前三:上海三七互娱、广州创思、墨麟集团;新入榜单研发商浙江盛和,旗下主打游戏《蓝月传奇》在各平台发展形势迅猛。本周游戏榜单开服共3366组,占一线平台开服总数60%;其中开服前三游戏共开服1729组,占榜单开服总数51.4%,该占比较上周减少0.4%。

]]>
如果科技泡沫破灭,你的数据将流向何方? //www.otias-ub.com/archives/474603.html Sun, 22 May 2016 16:01:12 +0000 //www.otias-ub.com/?p=474603 导读:如果科技泡沫破灭最终变成现实,独角兽最终纷纷倒下,科技巨头也在浩劫中无法独善其身的话,我们的数据将会何去何从?

1463932857-4349-3417eb9bbd9018a4eba74e
想象一下如果硅谷的梦魇——科技泡沫破灭——最终变成现实,独角兽最终纷纷倒下,科技巨头也在浩劫中无法独善其身的话,会发生什么?

这就是由伯克利长期网络安全中心的研究人员所公布的一份报告中所设定的网络世界末日的情景,该报告于上月发表。基于目前的网络安全趋势,研究人员得出了五种不同的情景,而以上提到的科技泡沫破灭则是其中最惨烈的一种情况。如果股票价格发生暴跌,Facebook 和 Twitter 的世界还会剩下些什么?就像一辆报废的汽车只能回收零部件一样,如果科技公司最终倒下,那么它们留给世界的就只剩下用户的数据。

在该报告中,研究人员想象了这样的场景:科技公司一开始会遭遇缓慢的下跌,而最终会导致网络时代的坍塌。一开始,人们会对硅谷失去信心,对于硅谷的一切幻想都破灭;进而导致大量的开发人员流向亚洲;而欧洲则会采取更加激进的措施来监管科技;对于创新类项目,投资者也是避之不及;最终,一些外部事件(例如其他地区发生的革命)会动摇整个市场,进而引发市场坍塌;股票价格也会狂跌 90% 以上。处在危机中的公司也会拼劲全力向外出售他们长期以来搜集的用户数据,包括用户个人身份信息、喜好、习惯、爱好,甚至涉及国家安全的文件等。尽管在这之前,这些数据仅会提供给广告商,但是在动荡时期,这些信息对于犯罪分子来说也变得触手可及。易于搜索的数据库可以催生新的创新和投资,但是人们却很难知晓究竟是谁在背后购买这些数据。

即使合同和一些与隐私有关的政策法规会限制公司出售这些数据,公司也会想出其他的办法来盈利。大多数承诺不会出售用户个人数据的隐私政策都涉及到了一种极端情况,那就是公司破产或者出售。事实上,去年《纽约时报》一项关于美国 100 家网站的分析表明,其中的 85 家公司都在其隐私政策中提到了相关条款,例如在 Facebook 的隐私政策中就有这样的规定:

如果本公司的服务或者资产的所有权和控制权发生变更或者部分发生变更,公司有权将您的相应数据转移到新的所有者手中。

这个条款看起来就像是允许将你的数据直接运送到垃圾场一样。如果像 Facebook 这样的社交媒体型公司不能合法地处理其用户数据,那么它或许会直接出售公司以便减少损失。当破产的公司只剩下破砖烂瓦时,唯一能引起买家兴趣的恐怕就只有其搜集的用户数据了。但是,可能会遭遇这样结局的公司并不仅限于社交网络、在线购物等科技公司,所有持有用户数据的公司都需要提高警惕。

即便最终不会发生我们上面所描述的末日景象,目前的种种迹象也已经勾勒出了拥有大量用户数据的公司最终消亡时可能遭遇的情形。当去年 RadioShack 公司申请破产时,该公司出售的一项资产就是包含数百万用户信息的详细数据库。这也引发了多家公司加入到数据的争夺之中:AT&T 和 Apple 公司声称对其中的部分数据拥有所有权,一些地方政府也表明出售这些数据可能会触犯相关法律。联邦贸易委员会也介入其中,并且裁定 RadioShack 公司只能将这些数据出售给具有同样业务的公司,并且购买者必须承认 RadioShack 与用户签订的隐私政策,并且继续履行相应的隐私政策。如果购买者想要将数据用作它用,则必须获得用户的授权。事实上,这已经不是联邦贸易委员会首次进行干预:2000 年,联邦贸易委员会起诉了名为 Toysmart.com 的网站。这次事件也最终促使很多公司在其隐私政策的首页中添加与出售数据相关的条款。

对于联邦监管机构来说,监管大型零售商和科技公司搜集的用户数据是很重要的一件事情。但是当这些公司出现崩溃或者倒闭时,面对那些将自己出售的拥有大量数据的公司,联邦调查委员会也是有心无力,无法做到面面俱到。在这种情况下,我们的个人数据则会被那些破产的科技公司随意丢弃,而我们却对此无能为力。

来源:The Atlantic.

编译:TECH2IPO-林云箫

]]>
蹩脚数据科学家的10种现象 //www.otias-ub.com/archives/470905.html Tue, 10 May 2016 10:38:52 +0000 //www.otias-ub.com/?p=470905 1.优秀的数学家可以成为顶尖的数据科学家,但光是会在笔记本上写公式可不行,他们还必须熟练地运用计算机来处理数据。

2.如果他们的所有经验都来自学术机构,当他们面对现实问题时,可能会束手无策。寻找有实践经验的人,不要在这方面妥协。

3.对数据科学的热情以及掌握一定的技能,这是成功的关键。如果你只是假装有兴趣,或者并不具备重要的技能,总有一天,你会原形毕露。

1462876703-5870-3417eb9bbd90189b914461
如今,数据科学家已是炙手可热,那些曾经对其毫无所知的企业,眼下也开始在全世界搜寻最好的数据科学家。问题在于,优秀数据科学家的标准是什么?和其他东西一样,数据科学家也是良莠不齐,招聘他们是一项重要的投资,如果选了个“次品”,你会付出沉重的代价。凭借一批出色的数据科学家,Facebook为自己的社交媒体平台注入了富有创造力的新功能,令用户为之兴奋。

过去10年里,数据呈现爆炸式增长。大数据扑面而来,普通人很难弄懂它的含意,更别提加以利用了。但数据科学家能从中提取出有价值的信息。对一家公司来说,数据科学家的雇用成本很高,由于这方面的人才供不应求,他们的薪水会迅速上涨。

在当今这个时代,解雇员工同样代价不菲,错误的招聘会使你的公司倒退几个月。所以,在寻找优秀的数据科学家时,你也应该警惕蹩脚数据科学家的迹象。如果发现以下10个迹象中的任何一个,你都应该迅速远离。

1. 糟糕的数学背景

许多计算机专家和程序员都会把自己说成是数据科学家,但实际上,真正出色的数据科学家通常拥有数学背景。优秀的数学家可以成为最好的数据科学家,但数学不好的程序员不行。蹩脚的数学家无法有效地分析数据,而这恰恰是数据科学家的首要任务。

2. 计算机知识贫乏

没错,优秀的数学家可以成为顶尖的数据科学家,但光是会在笔记本上写公式可不行,他们还必须熟练地运用计算机来处理数据,要熟悉Spark和其他系统。如果你的数据科学家坚持要求配一名助手,因为他用不来电脑,那么你应该继续寻找,去雇用其他人。

3. 没有全能型人才

一个人集统计学家、开发员、数学家和其他身份于一身,并不意味着他能成为一名数据科学家。几乎可以肯定的是,他拥有跨领域知识,能够根据不同的职位需求来推销自己。他也许什么都会,但可能什么都不精。

4. 纯粹的学术派

你需要有实践经验的人。如果他们的所有经验都来自学术机构,当他们面对现实问题时,可能会束手无策。寻找有实践经验的人,不要在这方面妥协。

5. 缺乏团队精神

数据科学家将和其他人共事,所以你不会想要一个不合群的人,即便他再怎么聪颖过人。数据科学家应该真正地融入团队,了解整体情况,做出全面改进。而如果他们不能和其他人融洽相处,就做不到这一点。

6. 缺乏商业知识

数据科学家不能只会运用理论。他们还要重视经过验证的技巧,运用可靠的传统方法。这些都来自于实践经验。

数据科学家需要参加商务会议,通过演示向高级管理层阐述分析结果。因此,在雇用一名数据科学家之前,要确保他拥有一定的商业知识,这一点非常重要。

7. 不熟悉工具

你面前的那个人拥有丰富的技术知识,但他们能否运用这些知识?如果他们没有实际运用过SAS、R、Scala、Python或其他计算机语言,他们可能只会像一个“绣花枕头”,中看不中用。

他们必须能够利用工具来阐释和转化信息流。

8. SAS成瘾者

有些SAS开发人员会把自己包装成数据科学家,但他们不是。数据科学家应该掌握多项技能,对于某个具体的问题,他们可以运用多种不同的系统。而蹩脚的数据科学家在遇到任何问题时,都只会采用同一种技能,他们希望用一种语言就能解决所有问题,这是不切实际的。

9. 没有理科学位

这是个不好的迹象,因为数据科学属于理科范畴。你也可能自学成才,但如果有人能秉持科学原则,并且掌握了分析学的一般性应用,还毕业于名牌大学,此人更有可能给企业带来价值。最好能拥有硕士学位。如果在其他领域还拥有一技之长,此人将是一只潜力股。

10. 不会用通俗语言来解释

数据科学家应该能用通俗易懂的日常用语来解释最复杂的问题,不能与现实世界脱节,这会导致你的解决方案无法被人理解,而且你需要花费一定的时间和精力来克服语言障碍。

虽然有很多重要的数据科学技能可以后天习得,但有些却是天生的。那些妨碍你进入数据科学领域的因素常常无法改变或纠正。对数据科学的热情以及掌握一定的技能,这是成功的关键。如果你只是假装有兴趣,或者并不具备重要的技能,总有一天,你会原形毕露。

原文:10 Signs of a Bad DataScientist

来源:Datanami

编译:车品觉

]]>
数据基础设施:思考数字时代的基础设施 //www.otias-ub.com/archives/470844.html Tue, 10 May 2016 04:06:32 +0000 //www.otias-ub.com/?p=470844 此次开放数据前沿专栏将聚焦于一个崭新的命题,数据基础设施(data infrastructure)。数据基础设施是开放数据议题下更为底层也更为宏观的一个命题,我们如何确保服务于社会运作的基本数据得到开放并确保我们拥有其所有权?此篇专栏整合了来自英国开放数据研究院(ODI)的两份文件内容。第一份是其写给英国基础设施建设委员会主席的公开信,作为序言引出数据基础设施的重要性和迫切性。而第二份文件则是ODI所编写的宣传册《Who owns our data infrastructure》,向读者更为细致的诠释数据基础设施的含义。

1462853167-3298-3417eb9bbd90189ba0370b

◆ ◆ ◆

序言

一封给基础设施建设委员会主席的公开信

亲爱的Lord Adonis:我们强烈建议基础设施建设委员会将数据视为现代社会及其经济运作的根本基础设施。

◆ ◆ ◆

数据是基础设施

数据是一种基础设施。它是透明度、问责制、公共服务、业务创新和公民社会的基础。无论是统计数据、地图数据还是实时传感数据,都是帮助我们开展决策、构建服务并获取洞见的重要基础资源。其可来自于数据光谱中封闭数据、共享数据、开放数据的任何一段。

数据的价值来自于我们对数据的应用。在过去几十年中,我们对数据的应用有了显著的增长,而因此数据所能发挥的价值也越大。其不仅体现在移动应用数量的增长之上,也体现在农业生产力的提高、运输网络的高效利用和互联数字经济的发展之上。

开放数据有着很强的的经济价值。据估计,仅在公共部门中,开放数据所创造的价值就占到了0.4%和1.5%的GDP之间。而随着更多组织和部门加入开放数据大军,则其经济价值将越发凸显。在英国皇家统计协会的数据宣言中就指出,开放数据是社会发展所依赖的核心参考数据,同时其也是释放其他数据集经济价值的催化剂。英国虽然已经走在开放数据和数字经济的世界前沿,但我们应当加快发展进程从而保持领先优势。

◆ ◆ ◆

我们应当即可强化英国的数据基础设施

经济合作与发展组织(OECD)近日评论道:“像道路和桥梁这些实体基础设施所带来的效益是不可预期且往往具有“溢出效应”的。比如说道路和桥梁的修建便能促进贸易和社交往来,从而通过贸易和社交带来远超原本道路和桥梁自身的效益。。而提高对数据的访问性,也有同样的“溢出效应”。通过数据利用者对数据的加值利用,将能为我们的社会提供重大发展机会,或为整个社会创造出数据采集时绝无预期的效益。。

数据联通着不同行业。在英国,无论是农民,还是交通运输从业者,又或是普通市民,都是英国气象局所发布的开放气象数据的使用者。而英国国家地图测绘机构(简称OS)所发布的地图数据,则也得到包括谷歌、建筑公司和房屋保险公司等在内各类利用者的加值利用。因此,数据作为我们城市和国家的一种基础设施,联通着我们每一个行业。

建立完善的数据基础设施对我们有着诸多的要求。不仅需要我们加强将数据视为资产的管理能力,也需要加强我们本身对数据资产所有机构的管理经营能力,同时也需要制定使用、管理和保护数据的规范。当然在我们面向所有人开放提供那些应当开放的数据时,我们也需要保护那些需要保持私密的数据。唯有兼顾开放和隐私,才能建立信任关系。

这已非简单的数据科学问题,而是事关整个社会的数据素养。无论是城市居民和社会团体,还是商业机构;无论是首席执行官还是律师、会计和程序员等专业人员;无论是政客和决策者,还是一线公务人员;数据素养都与社会的每一个人有关。

如今,我们尚未将数据视作基础设施。尽管我们从工业革命到现在,都十分重视道路、地铁和能源网络,但我们并没有给予数据同样的重视。我们贸然无视了数据作为推动效率和社会发展的引擎作用,而仅仅将其视作透明化的工具。因此,是时候去强化我们的数据基础设施了。

◆ ◆ ◆

数据基础设施将成为21世纪的竞争优势

强化数据基础设施要去整个经济社会中的个体和组织进行技术和文化的转型。我们必须更善于处理复杂的社会问题,例如数据隐私问题,学会如何保证数据安全,健全资助模式以支持数据的加值利用,并设计新的运营模式。

我们所构建的数据基础设施能帮助我们更好的利用数据,并从中获得更多价值。消费者将对社会服务,无论是金融服务还是零售服务,有更多信心;数字商业将能更快地创新,从而创造更好更新的服务;农场和工厂的效率将得到提升,并变得环境友好;城市将充分利用道路和能源网络,从而变得更加适宜居住;市民能够享受更好的教育和医疗;民主进程也将随着政府的持续开放而得到改善。

建立最佳和最开放的数据基础设施,将使得城市,国家,乃至大陆在21世纪经济发展中具备巨大的优势。

数据基础设施应当如同我们的道路,铁轨和能源网络一样,为社会公益而得到建设维护。

我们诚挚希望将有机会同基础建设委员会详细讨论这些想法。

祝好,

Hetan Shah, 执行董事, 英国皇家统计学会

Gavin Starks, 首席执行官, 英国开放数据研究院

◆ ◆ ◆

1.如何建立数据网络的基础?

万维网让我们以未曾想象过的方式相连。通过网络,国家能迅速应对市民、目标资源、贸易出口和服务的需求。在国际市场中,万维网使得无数的群体得以聚集起来,交流想法,共同实现创新。

如同铁路基础设施的建设,不同的团体需要共同参与并努力协作,才能够充分释放数据网络的价值。有些人视数据为“新石油”,认为其能够加速经济增长,并改善服务;有些人则认为数据是同更为透明的政府间建立信任的一种方式;而有些人认为在接下来的25年中,万维网从链接文件变为链接数据,因此其影响将远超过去25年所达到的。但是数据资产并非突然出现。我们并非“发现”数据并从其获取价值。相反,我们是创造并维护数据,并通过分享数据来增加其价值。

无论是交通,能源,教育和健康等行业的数据,还是作为关联地理位置的地图或地址数据,都是一个社会完善运行的必须品。数据就像交通工具一样,能够帮助你到达你需要去的地方:无论是收货新的发现,还是获得新的洞见,无论是提供更好的服务或仅仅是获得更多关于你所生活社区的信息。

政府、商业和社区对于必要的实体基础设施——高速公路、电线、河道和宽带连接——都做了极为仔细的规划。而如今,对于数据,我们应该采取同样的方式,来计划和构建数据基础设施。

当我们构建数据基础设施时,我们必须考虑一些重要的问题:隐私究竟意味着什么?哪些

数据可以被合理出售获取利润,哪些数据又应当为社会公益而提供给所有人?在我们尽量最大化释放数据价值的同时,我们如何减少数字鸿沟?

◆ ◆ ◆

2.数据所有权如何塑造我们的未来

数据作为政务的核心有着悠久的历史。在古希腊迈锡尼文明时期(公元前1600年至公元前1100年),书记员就以一种今天我们称之为“线性文字B”的文字记录下政务数据。在当时,这些数据由国家掌控,只有极少人可以接触到。

而随着科技和社会习惯的转变,我们收集、保存和分享数据的方式也变得更加多样。。

我们如今还是有目的性地通过问卷和人口普查之类的方式来收集数据,但有些数据则是作为公共服务和私营服务的副产品而被创建的。在一个数字化的时代,所有的产品和服务都能产生对某些人有用的数据。

而和我们的实体基础设施一样,重要的数据也通常由不同的群体所有和管理。

在有的国家,实体基础设施为政府所有,政府可以管控它们的使用。而在其他国家,实体基础设施则由控股收费公路、航空以及铁路运输的公司所共同管控。在这种混合的模式下,政府通常会出台相关的政策和法规,以保证这些公共设施能够真正地为民所用。

数据基础设施存在的目的,就是让重要的数据可以尽可能地被人们获取和使用。

数据基础设施可以帮助我们辨别出那些对社会正常运转有重要意义的数据。通过这样的方式,数据的质量和可访问性都可以得到保证,进而为社会团体正向所用。

如今的组织——不论是政府还是企业——都可以拥有数据宝藏。这些宝藏对于它们而言是非常有价值的:它可以揭示这个组织的运作方式。但是就如同某些实体基础设施一样,这些数据对于其他更多的团体而言也同样具有巨大价值。

例如,对手机数据的汇总分析可以揭示人流是如何增长、收缩和变化的。电话公司利用它们来定位无线电发射桅杆的位置。但如果这些数据可以被其他组织团体访问,那么零售商就可以利用它们来优化店面的选址地点和营业时间。政府也可以利用它来做应急响应预案,慈善团体也可以利用这些数据来确定他们的目标人群。

在某些情境下,上述有价值的数据可能会被出售。出售数据对于公共部门、私有企业、非盈利组织而言都是有利可图的。在其他的一些情况下,企业或政府也会选择开放数据,来让所有人访问、使用和分享这些数据,挖掘出这些数据中蕴藏的更大价值,带来更广泛的社会效益。但是否授权公众访问这些数据则取决于其所有者。

◆ ◆ ◆

3.我们如何定义“数据基础设施”

交通、能源和医疗健康方面的实体基础设施,能够让我们吃得饱、穿得暖、生活得更加美好,而数据基础设施则能让我们更加明智。

数据基础设施遴选出那些为重要服务、产品和研究提供支撑的数据。通过便捷化数据获取,并提供战略框架完善数据管理,数据基础设施能够帮助社会更优化地运转。

数据基础设施是由来自不同组织团体的数据构建而成——这些数据可能会是封闭数据,可能是流通于特定组织团体间的共享数据,也可能是经过开放授权了的开放数据;而数据拥有者则也横跨政府,企业和非营利组织。

数据基础设施帮助我们识别出那些具有社会价值、环境价值和经济价值的数据,并通过让这些数据最大程度的方便访问和使用,来释放这些价值。

一些国家已经开始筹划他们的数据基础设施。 2012年,丹麦政府提出了基础登记记录(Basic Registries)的发展路线图,基础登记记录包括了所有跨部门服务必要的数据。而自2013年起,英国政府也已经开始了对建设国家信息基础设施(NII)的讨论。

我们需要从本地化、国家和全球三个层面,深入探讨数据基础设施:

本地化的数据基础设施

在本地化层面上,数据基础设施能够让市民、社区成员和地方政府决策者更加明智,进而让我们的城市变的更加智慧,加快智慧城市的发展步伐。

国家级数据基础设施

在国家层面上,数据基础设施能够帮助各国建立经济、社会和环境的应变能力。基于此,政府和企业能够给公民提供更丰富的服务,并开发出公民所需的个性化产品。同时,这些方面的透明化也将增强一个国家的民主参与度,并推动问责制的发展。

全球级数据基础设施

在全球层面上,数据基础设施能够帮助我们很好的应对全球化的挑战。它能帮助我们监控跨国组织,也能让我们在有助于衡量国际政策进度的比较统计学上达成一致。

数据基础设施的定义要求我们能够确保重要数据是可访问的,并能得到广泛的应用。但我们该如何保证呢?

让数据开放:确保数据的授权协议允许任何人访问、使用和分享这些数据;

让数据可用:通过政策或法规来促进数据的可访问性,即使需要收取一定费用;

责任制管理:确保那些管理数据基础设施的组织,能够对数据的可访问性和可重用性负责。

◆ ◆ ◆

4.我们期望管理数据的组织团体做哪些工作

我们对掌管数据资产的组织团体的信任基于如下三方面的判断:这些组织收集的数据类型、他们收集数据的理由及其组织性质。

当我们认为数据是一个社会正常运作的基础时,我们会期待那些拥有和管理数据的组织做些什么呢?

在研究了政府部门、非营利组织、私营公司和慈善机构等不同的信息所有者之后,一些规范核心数据资产管理的基本准则逐渐清晰了起来,它们是:

长期可持续性:具有持续的资金支持、管理支持和管理目标。组织应具备稳定性,且能长期管理数据。

权威性:组织应成为其所管理数据的可信且权威的来源。

透明性:组织应公开数据来源及如何处理和管理数据。同时,它应设有一定的相关机制,以便利益方询问和数据相关的问题(例如,公共部门组织可通过信息自由法来了解情况)。

开放性:组织应对用户开放,并且能够响应用户的要求,包括:组织内部和外部的用户、直接和间接用户,以及将数据用于已知用途和新用途的用户。组织应积极开放其运作机制,并尽可能地让用户方便获取数据。

保证数据的可用性:如果组织垄断了此类信息,它有权拒绝用户的数据访问请求,导致不正当竞争或者忽视数据质量,在这种情况下,该项准则将非常重要。如果组织持续提供高质量的数据,而使用的标准和格式又能确保持续可用性,就应受到褒奖。该奖励可能是财务激励(创收),或得到提供访问管理的授权(如通过立法),或一项社会荣誉。

敏捷性:在数据背景下,’敏捷性’有两层含义:实体应该能够让数据管理适应不断变化的社会和技术环境,并满足不断变化的用户需求;它也应当能够快速地更新数据,包括对外部反馈的响应。

原作者:英国开放数据研究院

授权协议:CC-BY-SA 4.0 国际

译者:王建嘉,汪羽婷,赵璇,谭学垒

主编:高丰

]]>
数据新闻工具 //www.otias-ub.com/archives/469612.html Thu, 05 May 2016 14:28:31 +0000 //www.otias-ub.com/?p=469612 1462458466-2233-5bb53b9b487831d3d539b700bcec

本文由swissinfo的数据新闻编辑和工程师Duc Quang Nguyen发表在medium.com

FlowingData 的Nathan Yau近日描绘了他自己是如何进行数据可视化工作的。他的帖子非常贴合于数据驱动新闻工具的选择:

“我应该学习什么工具?哪个才是最好的?”我迟迟不愿回答,因为最适合我的工具并不一定是其他人的最佳选择。

如果你已经对某一套软件非常熟悉,那你最好通过已知方法来完成工作,因为如果可以用数字来编程绘图,那么你就可以将数据可视化。

而我回顾了我自己的工具包——以数据为基础并反复涉及R语言。这是因为我对此比较熟悉。我不认为每个人都非得照搬我的工作流程,而我也不会大篇幅地去讨论 Excel,Python,Javascript等,虽然我非常清楚这些才是数据新闻中更典型的工具。

另外,在我开始陈述我的工作流程和2016年的工具介绍前,我需要提出的是我是我所在编辑室中的独立数据新闻记者。更常见的情况是新闻机构往往拥有由专长于具体领域的人员构成的数据新闻/可视化新闻团队。我的工作流程看起来就更加“寒酸拮据”。

又出于个人思想原因再加上我是一个书呆子,我几乎都是独自使用开源免费的工具。再次声明,这只是因为我更加熟悉。如果有一个框架能够让我更快更好地完成工作,我会毫不犹豫地转向那个工具。

数据获取、清理和格式化

1462458466-6700-2e732142ecaa8001a18b86d6fa89

Tabula(http://tabula.technology/)

有的时候你会遭遇到数据新闻记者最不想面对的灾难:PDF格式的数据。Tabula不需要编码就可以降低你在PDF中提取数据表格的痛楚。

Open Refine(http://openrefine.org/)

我在工作中经常遇到R语言的原始数据,但是如果你的数据太凌乱,手动录入进电子表格或用编码来清理数据会非常枯燥乏味。Open Refine可以让数据清理变得可交互且可复验。它拥有世界上最好的编码或手动清理。

LibreOffice https://www.libreoffice.org/download/libreoffice-fresh/ / Google sheet (https://www.google.com/sheets/about/ / MS Excel

1462458466-2877-8bd4188ad8b7a68b87d6267ff989

越少使用电子表格,我心情就会越好。不幸的是Excel依然是分配数据的标准样板。我会用它来检查数据或做最基本的数据清理和调整。

R(https://www.r-project.org)

我会在接下来的内容中再次提到我深爱的利器:R语言。R是一个开源免费的统计处理语言。统计学框架是不是听起来就已经超过了众人的理解范畴了?那就把它当作最受欢迎的数据处理程序。R拥有无数拓展包来拓展它的功能并且拥有非常有帮助的用户社区。

你可以通过R获取数据或者直接从开放的API数据接口获得数据,但是R真正闪光之处在于通过 tidyr 和dplyr等拓展包使你的数据成型。

分析数据

对于数据新闻而言,迅速探索数据是直观重要的,也就是指带着相应的问题来查询数据或找到数据中的模式和极值等。

数据探索这项工作会因为你探索数据发现新问题而不断重复。对我而言,没有比R更好地数据分析工具了。你可以非常迅速地使你的数据成型,并根据你的问题相适应地生成大量的数据图表。拓展包ggplot2(http://ggplot2.org/ )对此尤其有帮助。

1462458466-5719-4fc2ca6fda83e2dde71190ef6d07

更重要的是,通过R markdown(rmarkdown.rstudio.com)你可以生成PDF和html格式的报告,包含了代码及结果图表。这不仅对于你的工作文档的生成,同时对你发布完整新闻而言都起着极大的作用。与科学报告类似,用于数据新闻的方法应当是明确、透明、可复验的。

图表成品化

静态数据可视化

R(ggplot2 + Inkscape/Illustrator)

用R自带生成的默认图标恐怕只会戳到工程师的点,然而只需要几行代码,你可以极大地提升图表的形态。

1462458466-5016-87d688e9c199000828381e30fd89

为图表配上文本和解释性文字通常都相当重要,当然这个步骤也可以用R以编程的方式来完成,但是如果你有许多说明需要补充,这项工作就会变得非常无聊枯燥。

R生成的图表可以以pdf或svg格式保存,再在 Inkscape (https://inkscape.org/en/ 这同样是一个开源免费的软件)/ Adobe Illustrator添加“说明层”。下图是我的一个操作案例。

1462458466-9156-d562a538ba6be01190ef76c66c07

(使用R + Inkscape完成)

在未来我会只用R来制作更多数据图。如果你要更加适应于移动端优先的战略,你可能会减少使用大型交互式图表而生产更多响应式矢量图。采用矢量图是因为你需要让你的图在任何屏幕尺寸中都看起来干净清晰。响应式设计也可以对不同尺寸的屏幕通过图层的增减进行适应性调整。下面的截图呈现了许多图表框,在实际网页中这些图表框会依据屏幕尺寸进行排列,更小的屏幕就会显示得更少。

1462458467-5429-f8dc8c9ee417ca11728b46102890

交互式数据可视化

1462458467-5826-95ca8348f830ce177f3e660952f2

1462458467-3428-a7869d9720886009c93d71cf50f2

交互式等值线图案例(用datawrapper绘制)

datawrapper(https://datawrapper.de/)

数据新闻≥富于想象力的数据可视化。我想人们应该都知道数据新闻远不止是好看奇特的数据可视化。数据新闻并不一定非得是用创造性的图表来承载信息。原始的柱状图或者折线图或许更能清晰地说明问题。因此我非常喜爱图表工具datawrapper。

它是开源免费的,但是通常会对一些响应式交互图表收费。编辑室内的所有记者几乎都在使用datawrapper。我们在主页中使用了适用于datawrapper图表层的格式因此我只需要按照代码生成图表而不用再花费时间来调整细节设计。最近datawrapper又扩展了图表选向:等值线图、气泡图、平面条形图、子弹图等。

1462458467-8759-728b268ee7a4cffcc3cec2fd2c90

R + rCharts / htmlwidgets 

d3.js(https://d3js.org/)是交互式数据可视化的利器。尽管我在javacript/d3.js并不精通并且我所在的媒体需要将图表制作成十种语言(包括自右向左阅读的阿拉伯语),在d3.js上为数据可视化编码有些太过消耗时间。

就我个人而言,我会在R的拓展包(诸如rCharts(http://rcharts.io/) 和htmlwidgets(http://hafen.github.io/htmlwidgetsgallery/))与javascript拓展包中二选一来制作交互式数据可视化作品。

当然,这样操作可视化的自由度和d3.js还是不同的,但我认为在可能性和定制性上所损失的价值可以用节省的时间来弥补回来。在同一个工作流的优势在于你的数据分析和数据图表产品化的代码可以在同一个基于相同基础代码的脚本中进行,这样可以重复操作且一旦需要更新数据就变得轻而易举。

R的两个拓展包 leaflet.js (主要用于绘制地图—https://rstudio.github.io/leaflet/) 或 Highchart (一个图表库—jkunst.com/highcharter/)提供了大量的交互式图表模式。非常值得一试。

1462458467-8594-1f305db2e72fae014c086f06f089

1462458468-7970-c93d284f6471983df8dcd00054f2

案例展示

下面就是一使用这些工具制作的数据可视化案例,链接附在图表下方:

1462458468-5160-c8fca7509d4bfb039245d7882190

http://www.swissinfo.ch/eng/data-story_2015–when-the-wave-of-migrants-reached-europe/41844230

1462458468-6596-f01f15247243e7fe9925bc317d07

http://www.swissinfo.ch/directdemocracy/explore-600-national-votes_how-direct-democracy-has-grown-over-the-decades/41481992

1462458468-9499-94eede12659f2af5e0fe99257e07

http://www.swissinfo.ch/eng/asylum-policy_switzerland-s-defence-of-the-dublin-accords-is-not-a-coincidence/41970948

1462458469-9656-0a7bb99e24420dd162d9f3d3c989

http://www.swissinfo.ch/eng/data_who-are-the-two-million-foreigners-living-in-switzerland-/41942052

以上就是我想要分享的,长度已经超出了我的预期,并且总觉得讲解这套工作流程比用起来更麻烦。而我也非常想知道其他数据新闻记者或团队对于更好更快地完工有怎样的好工具或好想法。

来自:百度新闻实验室

]]>
9k9k:2016年4月25-5月1日一周网页游戏数据报告 //www.otias-ub.com/archives/469798.html Mon, 02 May 2016 10:00:02 +0000 //www.otias-ub.com/?p=469798 一、运营平台开服排行

1462528856-7904-N6ZU7sayG0MvqQWp5RzWgp18iayQ

点评:本周网页游戏一线运营平台开服排行前三分别为:37游戏、360游戏、西游网;YY游戏本周开服趋势较为稳定,排名上升一位。本周一线平台共开服5976组,榜单开服共3116组,占一线平台开服总数的52.1%;其中榜单前三平台开服共1287组,占榜单平台开服总数的41.3%;一线平台共引入新游19款,《蓝月传奇》、《热血战歌》接续传奇热潮均入驻有5家以上一线平台,37游戏新作《神泽》首次开测。

二、运营平台开服分析

1462528856-5504-bwosKXhHMtve0U0bSS4SCN0rBVYQ

点评:360游戏本周提升《热血战歌》的开服频率为5服/天,开服占比增长1.8%,晋升为首位主打游戏;引入新游《通天西游》,本周开服频率稳定于1服/天。

搜狗游戏本周下调《九阴绝学》、《热血战歌》的开服频率为2服/天并趋于稳定,就此再次抹匀旗下热门游戏的开服分布。51游戏《传奇霸业》本周开服力度再获提升,日均开服频率约为4服/天。

三、网页游戏开服分析

1462528856-6423-dVCSKaPNLlkRFNRUA0BZwgzOVM5w

点评:本周在一线平台开服数量排名前三的游戏与上周保持一致:《九阴绝学》、《传奇霸业》、《武神赵子龙》,且此三款游戏均有表现出成熟稳定的开服变化曲线。新增上榜游戏《决战武林》、《热血战歌》分列榜单第四、十位,上升空间较大。本周游戏榜单开服共2768组,占一线平台开服总数46.3%;其中开服前三游戏共开服1175组,占榜单开服总数42.4%。

四、热门游戏分布

1462528856-7536-0nTsXicxYLf3aRNtUkqZZUpcDsaw

点评:本周《九阴绝学》在哥们网的开服频率由上周23服/天锐减至17服/天,开服占比减少5.9%。另外《九阴绝学》在搜狗游戏的开服数量同样有小幅度减少,本周开服占比较上周减少了1.4%。其他平台开服占比相应有所增长。

1462528856-4407-nzOPNcbKfAWNqiaw4weibFuaZiaQ

点评:《传奇霸业》本周开服总体情况依然稳定,其在51游戏社区的开服频率略有提升,本周51游戏开服占比较上周增加2.2%。新增分布占比平台快玩游戏,日均开服频率约为2服/天左右。

1462528856-9318-s5bib80BblvaoXNXiatbiayz4JYQ

点评:本周《武神赵子龙》保持较好的发展趋势,新增分布占比平台PPS游戏,目前开服频率为2服/天,较为稳定。本周《武神赵子龙》最新入驻斗鱼TV,上升潜力较大。

1462528857-3971-HS9rT3q26d1HCt8Aib0mRmBZZfyw

点评:《决战武林》本周最新上榜,后期发展值得看好。

1462528857-6023-PUHbVOEsMq2gr1S0cNfZdndk1O5g

点评:本周《传奇盛世》在一线平台的开服情况与上周相比变化不大,新增分布占比平台PPTV、顺网游戏,其开服频率均为1服/天,本周开服占比暂为3.4%。

五、研发商开服分析

1462528857-9111-rTckPQGKvnYFtuL3eF3siaFOD0Sg

]]>
数据是一种信仰——它到底是否值得信赖? //www.otias-ub.com/archives/461489.html Mon, 11 Apr 2016 16:52:33 +0000 //www.otias-ub.com/?p=461489
数据真实性

现如今,我们可以用很多不同种类型的性质来描述数据,在大数据时代,其中有三种关于数据的特性——规模、速度和多样性——已经主导了人们在谈论大数据话题时候的内容。但是还有一些人又为数据的特性引入了另外三种特性(比如Value-价值,Veracity-真实性,Viability-可行性)。但是Seth Grimes正确地指出了这三种新特性正在误导人们对大数据的理解,因为和三种特性并没有清晰地向你解释你的数据有何“大”之有。尽管如此,我们还是需要考虑数据的这些特性——你的数据体量庞大还是渺小,稳定还是不断移动,结构化的还是非结构化的。

你的数据的真实性关乎到数据的准确和可信赖程度,也关乎数据分析得到的结果。你的数据的真实性会因其生成、收集以及分析等过程中所产生的不同类型误差而收到影响。如果你的数据在处理过程中引入越多的误差,那么你的数据的可信任程度就不会很高。

EnsuringVeracity of your Data

务必确保数据的准确真实性

在2013年年初,Kate Crawford(凯特·克劳福德)在《哈弗商业评论》期刊上面以一篇名为《大数据背后隐藏的偏见》的文章发表了自己对于数据“真实性”的这种特质的观点。“如果你的足够量的数据的话,它的数量就已经不言而喻了”——对于这个观点的争论,凯特正确地阐述道人们为数据赋予了发言权;人们从数据当中得出推断,并赋予了数据跟多的内涵。但不幸的是,人们将自己的偏见引入到了其中,无论是刻意为之还是出于无意,这种做法都将数据的质量大打折扣。

如果向提高数据的真实性,那么你必须降低来自不同误差源的发生频率。这些误差源往往和以下方面息息相关:采样方法、缺失数据、科研偏见以及差强人意的测量方式等。

在你利用数据做出决定之前,请先认真回答下面的问题:

1.What is (are) your hypothesis(es)?

你的假设是什么?

1460393529-8895-3417eb9bbd90187558ec49
“大数据技术就是找到各个变量之间的关联性而非检测有这种关系存在的原因”——尽管该观点广受欢迎,但是我相信对于企业的长期价值而言,大数据技术应该是弄清楚变量之间的偶然关联问题。假设实验是为了辨认出为什么变量相互之间会存在某种关联,以及驱使这些被发现的关系的基本流程。假设实验有助于通过试错法改进分析模型,这样做可以找到因果变量并帮助你从不同的条件当中找到新发现。

在过剩的变量和数据集的帮助下,企业能够快速检测出成百上千种关系。发现数据中存在的统计学关系的可能性会在检测关系的绝对数量时有显著的提升。经常因为几率的原因,当变量之间的关联性不存在原因的时候,实际上,我们可以发现两个变量之间存在的统计学关系。因此,如果你使用这些虚假的发现结果为支持你现存的想法的化,那么这样做的结果就是你的决策肯定不是最优的。

你能做的就是先做一个假设,然后对其进行测试。

2.Whatare your biases?

你的偏见有哪些?

1460393529-6616-3417eb9bbd90187558f44e
人们总是寻找/记住/解释支持他们现有观念的结果,并忽略或者低估那些无法支撑他们观点的结果。这些被当作确认偏见的认知捷径,往往导致你对数据的错误结论。

你能做什么呢?具体来讲,你需要做的是就是查看你的数据,并从中得到可以驳斥你的信念的证据。如果你在预测消费者忠诚度的是时候人为产品质量远比服务质量重要的话,那么你一定要为服务质量带来的相关影响搜集证据。

你也不要依赖你的记忆。在任何一种数据的基础上做决策的时候,记得要引述那些有相关数据出现的报告或者研究案例。参考你的信息员可以帮助其他人辨认信息并帮助他们理解你的决策,并让他们知道你将如何实现你的决策。如果他们得到结论和你大相径庭,一定要弄清楚你的结论和别人相比存在怎样的差异(数据质量?不同的指标?还是不同的分析?)

你还要使用推理统计学方法从随机杂音当中区分出真实的、系统性的以及有内涵的数据差异。在图片下面要加上语言描述。清晰的描述可以保证你的图片不会引起太多的误解。你也可以让来自不同领域的专业人士(比如IT或者销售)为你进行阐述,,这样的话你会得到关于一个数据的不同角度的解读。

3.What isthe sample size?

样本的大小如何?

我们几乎很少(或者根本没有)获取到那些对我们感兴趣的所有群体。相反,我们依靠从该群体中提取出的样本的测量来对这些群体进行推断。比如从我们的客户群(样本)中的一部分收集消费者满意度信息来了解整个消费群体的满意度。

当你使用样本来理解整个群体情况的时候,你不得不去了解样本中存在的误差。样本误差可以反映出来自客户群体数据的样本的误差。因为这种样本仅仅是整个群体的一个子集,我们的评估仅仅会因为样本只是整个消费群体的一部分,而涵盖误差在里面。

你可以做什么?你可以利用推断统计学方法帮助你进行理解,如果你发现样本有可能会反映出整体人群当中的情况。

4.What is the data source?

数据源是什么样子的?

1460393529-4200-3417eb9bbd901875590053
即使当我们有大量数据集的时候,其中存在的样本误差可能会因为数据量的巨大而有所降低,我们需要知道数据源在哪里——因为数据不会凭空产生。我们可以刻意产生一些数据并进行收集,然后通过这些数据来解决问题。比如,我们可以分析在飓风桑迪发生期间人们发布推特的地点,数据向我们展示了和新泽西相比,更多的博文来源于曼哈顿的闹市区。依靠简单的数据计数,你会发现飓风的主要攻击地点位于曼哈顿闹市区。但事实上,飓风袭击的是新泽西,但是飓风让新泽西电力供应瘫痪,所以人们一时无法使用推特发布推文。

除此之外,据估计仅有18%的美国青年网民使用推特,其年龄主要分布在18到29岁之间。同样,在2012年仅有8%的人使用移动设备进行购物并通过推特发布自己的购物体验。推特,在商业情景当中,代表了一小撮,也许也是一种有偏见的数据集。

你能做什么?仔细审查数据源,看看数据是否适合有足够信息量来支撑你的发问。可以考虑使用不同的数据源对你的假设进行测试。多重线路的聚合证据总比单一线路的证据更有说服力。

最后的想法:

商业决策的质量取决于商业数据的质量(以及使用数据的预测分析模型)。如果你从最最华而不实的分析模型当中进行推论的时候,而且你的数据建立在不可靠而且无效的信息基础之上,那么当你的模型在实际中运行时(比如你的模型可以预测现实),整个过程就像炼狱一样。就像业内人士说的那样——输入的是垃圾,输出的也是垃圾!

编译丨化学数据联盟-丑灿

]]>
10款最受欢迎数据可视化工具 //www.otias-ub.com/archives/460872.html Sun, 10 Apr 2016 03:20:38 +0000 //www.otias-ub.com/?p=460872 在数字经济时代,人们需要对大量的数字进行分析,帮助用户更直观的察觉差异,做出判断,减少时间成本。当然,你可能想象不到这种数据可视化的技术可以追溯到2500年前世界上的第一张地图,但是,如今利用各种形态的数据可视化图表帮助用户减少分析时间,快速做出决策一直扮演着重要的作用。

1460258332-3416-3417eb9bbd90187058ac42

世界上的第一张地图(公元前550年)

这里给你推荐十款现今最受欢迎的数据可视化工具,供你参考:

1、Tableau

1460258333-8722-3417eb9bbd90187058cd43

Tableau

数据可视化工具除了图片美观之外,是否容易上手,海量数据的处理速度等都是考量工具优劣的标准。而Tableau以其高度的灵活性和动态性高居榜首。Tableau不仅可以制作图表、图形还可以绘制地图,用户可以直接将数据拖拽到系统中,不仅支持个人访问,还可以进行团队协作同步完成数据图表绘制。输出方便,同时Tableau也是免费的哦。

2、Excel

1460258333-4858-3417eb9bbd90187058dc44

Excel

额,笔者并没有疯掉。笔者恰恰想说的是Excel作为一种简单、方便、覆盖面广的office软件,无疑是数据可视化工具的典型。我们平时会经常使用Excel制作简单表格,实际上,Excel的功能十分强大,你完全可以用它来做一些让人眼前一亮的图表。

Excel可以说是典型的入门级数据可视化工具,但同时,它也支持3D的可视化展示,微软发布了一款叫做GeoFlow的插件,它是结合Excel和Bing地图所开发出来的3D数据可视化工具。GeoFlow的概念最早提出于2011年6月,据悉可以支持的数据行规模最高可达100万行,并可以直接通过Bing地图引擎生成可视化3D地图。

3、FusionCharts

1460258334-4044-3417eb9bbd90187058e645

FusionCharts

FusionCharts是Flash图形方案供应商InfoSoft Global公司的一个产品, FusionCharts可用于任何网页的脚本语言类似于HTML , .NET,ASP , JSP, PHP , ColdFusion等,提供互动性和强大的图表。

FusionCharts能够提供九十多种图表,带有JavaScript API,可以很容易的集成AJAX或者JavaScript。您可以在服务端建立复杂的图像,然后再流给客户端,从而有效降低服务器负载。

另外,FusionCharts支持基于Flash/JavaScript的3D图表,提供服务器端APIs,支持成千上万的数据点,并在几分钟内完成向下钻取

4、Modest Maps

1460258333-8452-3417eb9bbd90187058ef46

Modest Maps

很多人把Modest Maps当作一个简单的地图制作API,但实际上它是目前最小的可用地图库,只有10KB大小,你可以用它创建在线地图,设计者可以按照自己的设想定制,满足用户需求。

它是一个Flash和ActionScript的区块,且支持Python。

5、WolframAlpha

1460258332-6956-3417eb9bbd90187058fd47

WolframAlpha

WolframAlpha最初是由开发数学应用软件的沃尔夫勒姆研究公司研发的,Mathematica也是其中的代表,后来,Wolfram公司和Alpha公司合作打造了WolframAlpha,提供了一个简单的小工具生成器,就可以是数据可视化。同时WolframAlpha也被标榜为“计算型知识引擎”。

6、jqPlot

1460258333-6611-3417eb9bbd901870590548

jqPlot

jqPlot能够自动机算趋势线,但它也是一个jQuery绘图插件,提供了多种多样的图表样式。可以通过网站访问者进行调整的能力,互动点,相应地更新数据集。可以利用jqPlot来制作漂亮的线状图和柱状图,jqPlot提供Tooltips,数据点高亮和显示功能。

7、D3.js

1460258334-4300-3417eb9bbd901870590d49

D3.js

可以说,D3(Data-Driven Documents)是目前最受欢迎的可视化数据库之一,并用于很多表格插件中。D3.js是一个JavaScript库,特利用现有的Web标准,通过数据驱动的方式实现数据可视化。

D3.js允许绑定任意数据到DOM,然后将数据驱动转换应用到Document中。你可以使用它用一个数组创建基本的HTML表格,或是利用它的流体过度和交互,用相似的数据创建惊人的SVG条形图。能够轻松的兼容大多数浏览器,同时避免对特定框架的以来。

8、JpGraph

1460258334-2500-3417eb9bbd90187059184a

JpGraph

JpGraph是一款开源的PHP图表生成库,当然在使用之前你需要保证PHP打开了Gd2的扩展。然后我们只需从数据库中取出相关数据、 定义标题,图表类型,然后只需掌握JpGraph内置函数就可以得到你想要的炫酷图表。

同时,JpGraph是免费的

9、Highcharts

1460258334-2565-3417eb9bbd901870592a4b

Highcharts

Highcharts是一款功能强大、开源、美观、 图表丰富、兼容大多数浏览器的纯JavaScript图表库。Highcharts不需要像Flash和Java那样需要插件也可以运行,并运行的很快。其官网显示,全球100前企业中有67家都在使用Highcharts,同时Highcharts也提供云服务,可以提供图表生成,托管和分享等功能。

10、iCharts

1460258335-6025-3417eb9bbd90187059344c

iCharts

iCharts是一款可视化云服务工具,可以方便的制作高分辨率的可视化与信息图。iCharts有很多不同的图表类型,用户可以定制适合自己网站主题和颜色的方案。它可以拉离谷歌文档、Excel表格等数据,实现元素互动,iCharts是一款免费软件,但是你也可以付费,实现附加功能。

199IT大数据导航,汇集1000多款与数据相关的工具(http://hao.199it.com/ ),欢迎分享收藏!

]]>