在过去的 6 年里,本文的作者一直在关注 Data Eng Weekly(前身是 Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章、产品公告和行业新闻。
今年,作者打算将分析 Data Eng 的归档内容(这些归档可追溯到 2013 年 1 月)作为其个人项目,来析过去 6 年中的大数据的趋势和变化。
为此,作者抓取并清理了 290 多期内容(使用了 Python 爬虫),保留了与技术、新闻和发布公告相关的文章片段。接下来,他对文章片段进行了一些基本的自然语言处理并应用了一些基本的过滤,最后生成关键字和下下列表。
作者绘制了特定关键词被提及次数的月滚动平均值,并将它们绘制在同一个图表上。下面的图表说明了这些技术大约在什么时间点变得越来越流行。
从 2013 年 Spark 开始接管 Hadoop 的那一刻起,Hadoop 就开始稳步下滑。
Kafka 成为所有大数据技术栈的主要构建块。
Kubernestes 的崛起,尽管 Data Eng Weekly 并不十分关注 DevOps,但却也见证了从 2017 年开始围绕 Kubernetes 在各个领域的全面炒作。
我只是简单地画出在给定年份中被提及次数最多的 10 个关键词。
所有原始的 Hadoop 项目都在这里:HDFS、YARN、MR、PIG……以及两大主流发行版 CDH 和 HDP,除此之外别无其他!
Hadoop 总体上延续了它的统治地位,但 Spark 在这一年推出的第一个版本成为 2014 年最热门的话题!
Spark 取代 Hadoop 的一名位的置,Kafka 进入前三。大多数旧项目(HDFS、YARN、MR、PIG……)都没有进入前十。
2016 年是流式处理年,Kafka 取代了 Hadoop 第二名的位置,Spark(流式处理)继续占据主导地位。
与 2016 年的阵容相同,只是加入了 Flink。
Kubernetes 首次亮相,我们回到了基础,试图找出如何管理(K8S)、调度(airflow)和运行(Spark、Kafka、存储……)我们的流。
现在对 2019 年给出任何结论还为时过早,但看起来 K8s 将在 2019 年成为主流!
然而,两周前在EyeForTravel于纽约市举办的Smart Analytics大会上,一些行业人士在旅游营销的主题环节中发表了不少有关大数据的真知灼见。
我们常常会看到不少旅游营销人员在大型旅游会议上展示一些大幅照片和让人憧憬的情景,但这次我们在Smart Analytics大会听到了旅游企业中负责数据和分析的经理、总监和副总裁们谈及他们实际正进行的工作。
他们所发表的言论一方面证实了人们的一些消极的预言和看法,但另一方面又为人们带来了意外惊喜。一些企业已经着手实施以数据为主导的营销策略,但另一些企业还没开始这样做。前者在持续快速地以创新的方式来实施这些策略,而后者则是持续遭遇到挑战因而停滞不前。
毫无疑问,已经开始行动的企业和停滞不前的企业之间的差距不断在拉大,而不是在缩小。而在旅游企业当中,以数据为主导的品牌酒店在营销策略方面正处于领先。
大数据领域的赢家(和输家)
对那些在大数据领域取得进展的企业而言,以数据为主导的营销策略与快速地优化整体广告预算、顾客关系管理和忠诚度营销有关。
全球酒店业和度假品牌Diamond Resorts International和精品国际酒店等品牌在会上提到了它们所具备的丰富资源以及它们主动采取的措施,此外,它们还公布了一些切实的成果。
一些旅游企业现在配置了由5-15人组成的团队将其全部时间和精力投入到为这些企业旗下的所有公司提供数据和分析支持。
长期以来,数据的零散化使得企业无法实现上述功能,但这些企业却打破了零散化的模式,并取得了成效。与会嘉宾谈到了在线旅游企业Orbitz在2012年为Mac用户和其它类型的PC用户提供不同的酒店搜索结果而遭到诟病的话题,但他们似乎并不认为该企业非常值得同情。
显然很多人都认为利用数据对人类以及技术而言都是一个挑战,企业不足够重视数据给人类和技术方面所带来的挑战是新手才会犯的错误。但事实证明,社交媒体数据在这方面是例外。
数据本来就是非系统化的,且不具有一致性和可靠性,因此企业很难有效地对数据进行操作。尽管人们大多都认为数据具有很大的潜力,但现在很少企业可以充分利用它们。2013年,数据领域预计将成为很多旅游企业所瞄准的下一个投资目标。
大数据领域中的赢家和输家之间的差距将进一步拉大
对那些在大数据的应用方面停滞不前的企业而言,行业中所传递的信息颇为明显和迫切。那些反对创新和缺乏可用资金等问题都将导致这些企业停滞在上个世纪。
正如Travelocity的子公司Lastminute.com的创新总监William Beckler所说的那样:
“数据将成为最终的赢家。”
但这种可能会发生的情况对一些竞争者而言也许意味着失败,最令人感到意外的是,航空业的人士并未对大数据的话题作出过多的表态。
会议上美联航的前任电子商务和营销副总裁Chris Amenechi提及了一个愿景,希望航空公司进一步利用数据来向顾客提供个性化的内容,航空公司现在依然在向其最有价值的顾客发送千篇一律的电子邮件。
零散的数据库和缺乏投资将为这些企业带来致命的打击,而其它主动采取数据策略的企业则将持续实现进展。
对任何一个从事旅游营销的人士而言,结果非常明显。已经开始行动的企业和停滞不前的企业之间的差距将不断拉大,这一论断正确与否将由结果来证明,而不是由某位专业人士在旅游会议上的主题演讲来证实。
如果旅游品牌能制定长期发展计划,以通过有针对性的营销策略和收益管理来把所有的数据整合到一个强大的工具当中,那它们就能获得成功。一些企业已经开始执行这些策略,但其它企业则明显在苦苦挣扎。
2013年,大数据领域中的赢家和输家之间的差距将进一步拉大。直到大数据在旅游企业的CEO办公室中成为更重要的话题之前,上述情况将一直持续。
via:traveldaily
数据服务:Metamarkets
在过去的一年里,Metamarkets得到很大的发展。这家公司对tweet、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。今年春季,这家总部位于旧金山的创业公司得到了投资者的青睐,最近一笔融资金额高达2300万美元。
CEO Michael Driscoll决心要做大这家创业公司,他同时希望大数据能够帮助人们更好的完成工作,通过数据分析为客户(比如说英国《金融时报》和美国在线)挖掘更大的广告价值。
数据可视化:Tableau
数据化创业公司Tableau一直被媒体和行业视为大数据领域中的重点关注对象,他们的精力主要集中于将海量数据以可视化的方式展现出来。最近的一笔融资金额为1000万美元。
Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。
CEO Christian Chabot指出,Tableau的使命是帮助客户查看数据,并理解数据背后的意义。
企业版Hadoop:Cloudera
面对这庞大数据的存储和处理,NoSQL可以做得很好,而Hadoop可以利用一些价格低廉的硬件完成大量的数据分析。创业公司Cloudera就采用这两种技术,目前获得了7600万美元的融资。
该公司的创始人Jeff Hammerbacher曾经在Facebook工作过,当时他利用了Hadoop来分析用户行为。现在他已经把相应的技术转移到了Cloudera之中。
这家公司采用大数据来改善大众的健康,而整个卫生保健行业也会因为受到大数据的驱动而催生更好的创新和服务。Hammerbacher指出,公司一个重要的客户就是Explorys Medical。他们通过采集病人数据,从而揭示疾病治疗、护理和药物测试等方面的见解。“我们要处理各种各样的医疗数据,比如说医生处方、图像、医生笔记等。消费者可以通过分享这些数据而推动医疗行业的变革。”
大数据分析:ParAccel
在整个数据行业里面,ParAccel是久负名气的。自从他们向美国执法机构提供了数据分析之后,公司得到了更好的发展。他们通过了一些渠道获得不少犯罪数据,并对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。
可以说,他们是犯罪的预言者。去年ParAccel协同SecureAlert对形式犯罪数据进行了校准。通过使用ParAccel所提供的分析工具,SecureAlert能够识别犯罪行为,并向相应的机构发出警告。
ParAccel颠覆了Hadoop的神话。ParAccel的CEO Chuck Berger指出,太多创业公司陷入了“大数据=非结构化数据的大数据=Hadoop”的逻辑。除了非结构化数据和半结构化数据以外,结构化数据也在快速增长。
商业智能领域:QlikTech
QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。这家公司是在90年代后期建立的,并从互联网危机中存活下来。这家公司在2010年的时候顺利上市,目前用户数量为2600万,公司估值超过20亿美元。
目前这家公司正在和Google合作,以便于开发者更好的利用大数据。最近Google发布了Google BigQuery,方便开发者获取大量数据。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。
QlikTech的副总裁Jeff Boehm指出,处理大数据需要专业技能和技术水平,一般的人并不具备这种能力。公司的使命就是让普通用户也可以有效利用大数据,并将之融入到生活里面。
数据科学:Kaggle
Kaggle希望通过“数据科学运动”来挑战世界上最好的科研人员和统计学家。他们希望以聚集天才的方式,在大数据的辅助下进行协同工作甚至直接竞争,以研究出最复杂的算法和解决方案,从而进一步理解人类。
比如说Kaggle会为全球顶尖的科学家举办竞赛活动,让他们通过网络的方式提交数据和问题,从而获得其他科学家所提供的解决方案。最近Merck公司向他们提供了一种分子结构,而Kaggle顺利地预测出这种化学物质的毒性。
商业类型:GoodData
在很早以前,GoodData就希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。他们在最近的C轮融资中获得了2500万美元,其领投者是Andreessen Horowitz。
这家公司目前拥有6000个企业用户,其中包括了Groupon、Zendesk和Mint.com等。在今年第二季度的时候,他们的预订量同期增长了280%。
电子商务数据:TellApart
TellApart是由Google前员工Josh McFarland和Mark Ayzenshtat所建立的,他们正在和电商公司进行合作。他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。目前这家公司已经获得了1775万美元的融资。
TellApart正在建立核心系统去解决大数据多带来的挑战,从而为客户带来更大的收入。CEO Josh McFarland表示:“公司要打造一个可以自我学习的算法系统,藉此更充分利用数据,并挖掘他们的价值。”
社交媒体数据:DataSift
随着像Twittter、Fcacebook等社交网络媒体的爆发,越来越多的品牌也会受到他们的影响。DataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。目前这家公司已经获得1500万美元的融资。
这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。举个简单的例子,DataSift可以根据Twitter的数据对两届奥运会进行横向对比,从中了解并分析公众对当时新闻和事件的反应。DataSift的前景逐渐明朗,现在客户数已经超过了10000个。
创业公司新秀:Datahero
Datahero已经获得了100万美元的融资,其任务是将复杂的数据变得更加简单明了,方便普通人去理解和想象。创始人Chris Neumann曾经是Aster Data的员工。
在一次寻求融资的电话中,Foundry Group的Brad Feld递给了Neumann一份数据文件,目的是要测试他们公司对数据的处理速度。除此之外,他们还要求并要求Neumann创建与之相关的可视化的数据图表。最后Neumann出色地完成了任务,并给Feld的工作带来很大帮助。这家公司的另一个目标是微软的Excel。很多初级分析师在使用Excel处理数据的时候需要花费一天甚至更多的时间,而他们希望能够打造一个比Excel更加便利快速的数据处理工具。
Via:venturebeat