工具 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Sat, 24 Jun 2017 15:12:55 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 你应该知道的18个大数据工具 //www.otias-ub.com/archives/605466.html Sat, 24 Jun 2017 15:12:12 +0000 //www.otias-ub.com/?p=605466

在当今的数字革命浪潮中,大数据成为公司企业分析客户行为和提供个性化定制服务的有力工具,大数据切切实实地帮助这些公司进行交叉销售,提高客户体验,并带来更多的利润。

随着大数据市场的稳步发展,越来越多的公司开始部署大数据驱动战略。

Apache Hadoop是目前最成熟的大数据分析工具,但是市场上也不乏其他优秀的大数据工具。目前市场上有数千种工具能够帮你节约时间和成本,带你从全新的角度洞察你所在的行业。

以下介绍18种功能实用的大数据工具:

Avro:由Doug Cutting公司研发,可用于编码Hadoop文件模式的数据序列化。

Cassandra:一种分布式的开源数据库。可用于处理商品服务器在提供高可用性服务时产生的大量分布式数据。这是一种非关系型数据库(NoSQL)解决方案,最初由Facebook主导研发。

目前很多公司组织都在使用这一数据库,如Netflix,Cisco,Twitter。

Drill:一种开源分布式系统,用于大规模数据集的交互分析。Drill与谷歌的Dremel系统类似,由Apache公司管理运行。

Elasticsearch:Apache Lucene开发的开源搜索引擎。Elasticsearch是基于Java的系统,可以实现高速搜索,支持你的数据搜索工作。

Flume:使用网络服务器、应用服务器和移动服务器的数据来填充Hadoop的大数据应用框架,是数据源和Hadoop之间的一种连接纽带。

HCatalog:是针对Apache Hadoop的集中元数据管理和分享服务。可以通过它集中查看Hadoop集群中的所有数据,并可以在不知道数据在集群中存储位置的情况下,通过Pig和 Hive等多种工具处理所有数据元素。

Impala: 使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(HueBeeswax),直接帮助您对存储在HDFS或HBase中的Apache Hadoop数据进行快速的交互式SQL查询。

它为批量导向或实时查询提供了一个方便操作的统一平台。

JSON:今天的许多非关系型数据库(NoSQL)都以JSON(JavaScript对象符号)格式存储数据,这些格式在Web开发人员中很受欢迎。

Kafka:这是种分布式“发布——订阅”的消息传送系统,它能够提供一种解决方案,帮助处理所有数据流活动,并在消费者网站上处理这些数据。

这种类型的数据(包括页面查看数据,搜索数据和其他用户操作数据)是当前社交网络的关键组成部分。

MongoDB:是一个在开源概念指导下开发出来的面向文档的非关系型数据库(NoSQL)。它具有完整的索引支持,同时可以灵活地对任何属性进行索引,并在不影响功能的情况下进行横向扩容。

Neo4j:是一个图形数据库,与关系数据库相比,性能提升高达1000多倍或更高。

Oozie:一种工作流程处理系统,可以让用户自定义不同语言编写的一系列工作,如Map Reduce,Pig 和 Hive。它还可以实现不同工作项目之间的智能连接,Oozie还支持用户指定依赖关系。

Pig:是由雅虎开发的基于Hadoop的一种语言,对于用户来说,学习起来相对简单,且Pig擅长处理非常深入且非常长的数据管道(data pipeline)。

Storm:是一种免费的进行实时分布式计算的开源系统。通过Storm,用户可以非常轻松的在能够进行实时处理操作的范围内,对非结构化数据流进行可靠处理。

系统具有容错特性,支持几乎所有编程语言,当然最常用的语言还是Java。Storm最初是Apache家族的一个分支,现在已被Twitter收购。

Tableau:是一种主要关注商业智能的数据可视化工具。用户无需编程,就可以利用Tableau创建地图,条形图,散点图等可视化图像。

他们最近发布了一个Web连接器,允许用户直接连接数据库或应用程序界面(API),从而使用户能够在进行可视化项目时获取实时数据。

ZooKeeper:为大型分布式系统提供集中配置和开放代码名称注册的服务。

每天大数据技术领域都会涌现出大量新的大数据相关工具,要想学会使用每个工具是非常困难且没有意义的。挑选几个你能够熟练使用的工具,并不断学习技术知识,才是最好的方式。

作者:Deeplearner H     译者:灯塔大数据

]]>
谷歌推出人工智能工具筛查恶意言论 //www.otias-ub.com/archives/567871.html Mon, 27 Feb 2017 09:59:23 +0000 //www.otias-ub.com/?p=567871

谷歌推出了一款人工智能工具,可以识别网上的辱骂评论,帮助出版商回应要求它们遏止仇恨言论的日益增大的压力。

名为Perspective的这款免费谷歌软件,正得到一系列新闻机构的测试,包括《纽约时报》(New York Times)、《卫报》(Guardian)、《经济学人》(The Economist),作为帮助简化人工审核其文章下面的评论的一种方式。

“新闻机构希望鼓励与其内容相关的参与和讨论,但发现要筛查数以百万计的评论,甄别其中的恶意挑衅或辱骂言论需要耗费大量财力、人力以及时间,”研发这款工具的谷歌科技孵化器Jigsaw总裁贾里德•科恩(Jared Cohen)表示。

“其结果是,很多网站彻底关闭了评论功能。但他们告诉我们这不是他们想要的解决办法。”

目前,该软件供谷歌“数字新闻行动”(Digital News Initiative)涵盖的一系列出版商使用,包括英国广播公司(BBC)、英国《金融时报》(Financial Times)、《回声报》(Les Echos)和《新闻报》(La Stampa),同时在理论上可供YouTube、TwitterFacebook等第三方社交媒体平台使用。

“从小开发者到互联网上的最大平台,我们对与各方合作持开放态度。我们都有共享利益,并受益于健康的网上讨论,”Jigsaw的产品经理CJ•亚当斯(CJ Adams)表示。

“黑天鹅时代”让传统媒体重拾斗志在纸媒广告持续低迷的今天,英国退欧和特朗普上台等震撼性新闻事件,却为大西洋两岸的传统媒体再次注入活力。

Perspective帮助更快地甄别辱骂评论,以便人工审核。该算法经过了数十万条在维基百科(Wikipedia)和《纽约时报》等网站上被人工审核者贴上“有毒”标签的用户评论的训练。

它的工作原理是基于在线评论与被贴上“有毒”标签的评论的相似度,或这些评论使别人离开对话的可能性,对其进行打分。

“我们都很熟悉网上评论与日俱增的毒性,”科恩表示,“人们因为这一点而离开对话,我们希望赋予出版商力量,能够重新赢回这些人。”

 

]]>
大数据工具,在数据科学家眼中是怎样的存在? //www.otias-ub.com/archives/506683.html Thu, 11 Aug 2016 03:10:26 +0000 //www.otias-ub.com/?p=506683 随着大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道。

数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化。但这些工具还应该包括后端数据管道技术,因为这有助于加快分析的速度。

1470884968-8095-3417eb9bbd901916223219
更强的计算能力

数据科学家们通常喜欢把后端技术扔给工程师来处理。当你的主要关注点是提高模型的预测精度或发现一个数据集中的未知相关性时,文件系统和资源管理工具通常情况下并不十分友好。

但随着大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道。

“有了更强的计算能力,我们可以进行多次回归操作,这很让人兴奋,”Brendan Herger,银行和金融服务公司Capital One的数据科学家表示。“这的确有助于快速发展,因为你有了更多的可用资源,让一切变得容易。”

位于McLean, Va.的Capital One公司支持各种各样的工具,但Herger表示,大部分的分析工作是通过Hadoop分布式文件系统和与其对应的YARN资源管理器完成的。在Hadoop平台之上,他使用H2O.ai提供的机器学习软件做了很多建模。其他数据科学家和数据分析师使用不同的前端数据科学工具,例如GraphLab,Apache Zeppelin和Tableau。据Herger所述,一个强大、灵活的后端系统可以支持大数据集的快速访问,无视前端工具的差异性。

不需要进行数据采样

Herger说,这种后台计算能力让他能够对完整的数据集进行分析,不再需要进行数据采样。他认为是否取样这个问题“几乎类似于一个宗教问题,”分析完整的数据集有几个很大的好处。首先它保留了完整的数据,包括所有可能存在的信号。当数据被划分成多个样本时,信号可能会丢失或变得并不那么明显。

“不进行采样,这样对数据科学家来说是非常有意义的”Herger 说。“计算能力的提升,让人们得以在整个数据集上运行分析,这样的分析将越来越普遍”。

对于San Francisco Macys.com 公司的高级分析主任Daqing Zhao来说,拥有强大的数据架构,为他的团队带来的主要好处就是速度。“我们希望进行快速原型开发,”本月在Boston举行的TDWI Accelerate会议上,Daqing Zhao说道。

赵的团队负责优化Macys.com网站,该网站是Macy ‘ s Inc的零售门户。优化工作范围很广,例如设计变更,进行A / B测试,构建产品推荐引擎,为每个客户提供个性化的推荐等。他的团队使用的主要大数据工具是以Hadoop和Spark系统为基础构建的,它支持一系列分析工具,既包括SAS Institute和IBM提供的商业化分析工具,也包括一些开源工具,像H2O,R和Mahout等。

数据沙盒有助于数据分析

Zhao 要求Macys.com的数据工程团队在公司数据仓库中为他的团队构建数据沙盒。这允许他团队中的数据科学家以一种实际相关性来转换或连接数据,而不需要在数据记录级别进行任何数据变更。

对于所有这些工具,Zhao表示,H2O在进行预测建模尤其有用。他第一次意识这一点是在最近的一次演示某个软件的会议上。他说,在11秒内,工具在一个有着一亿行数据的数据集上执行一次逻辑回归。重要的是,这些工具能够与公司的后端数据基础设施完美集成,这使得它更具有吸引力。

Zhao说,他现在沉迷于那些数据科学家可用的开源数据工具。除了其对于大数据强大处理能力,这些工具的背后还有着广受欢迎的大型社区支持,这使得它更容易找到相关问题的答案。集成开源工具和数据基础设施通常会存在一定的问题,因为在出现问题时,并没有专业的技术支持来帮你解决。但此类工具的日益普及逐渐削弱了这个问题产生的影响。

“因为开源软件的逐渐流行,你可以使用谷歌或在论坛里找到答案,”Zhao说。“以前你遇到开源软件的问题,可能会感到孤立无援,现在不会这样了。”

从数据管理中解放出来

当数据科学家在后端系统上运行一些任务时,他将会花费更少的时间在数据管理上。

Colin Borys遇到的情况大致如此,Colin是Riot Games Inc.公司的数据科学家,该公司就是大名鼎鼎的对战游戏LOL的开发商。在6月旧金山举行2016 Spark Summit峰会的一次演讲中,Borys表示,他的团队会监控网络流量,以试图发现是否有玩家正在遭遇网络拥堵,是否可以通过网络疏导来提高网络连通性。数据科学团队还开发了一个推荐引擎,建议玩家选择不同的服务器来均衡网络负载。

在之前,大部分工作是基于Hive上运行的临时查询,但Borysr认为这种方法并不高效,不具有较好的可伸缩性。Riot Games随后引入了Spark技术,部分原因是它想让数据科学家在Hadoop数据上执行SQL查询,对于SQL,他们已经非常熟悉。这家位于Los Angeles的公司开始使用Databricks提供的云Spark平台,这样不需要有专门的人来花时间管理集群。

在引进的Spark之前,Borys说,数据科学家会花费大量的时间在准备数据上。现在他们可以利用这些时间来完成实际的数据分析。

“我们想要解放分析师,”他说道。“使用Spark,进行数据分析容易的多,它也让分析变得更为有效。”

作者丨小骨头

]]>
可为小业主服务的33个免费社交媒体工具 //www.otias-ub.com/archives/447987.html Mon, 14 Mar 2016 15:34:50 +0000 //www.otias-ub.com/?p=447987 1507281401312483-600x400

现在网络世界讯息千变万化,对小型企业主而言,要在缤纷复杂的网络世界找到最有效率的传播及编辑媒体工具,而所选择的工具又必须控制在有限的预算之内,这样的组合选择似乎是可遇而不可求。若能鱼与熊掌兼得,往往也意谓著跨出事半功倍的一大步。

本文摘录《赫芬顿邮报》所刊登的33个免费社交媒体工具。

标题分析工具

1. Headline Analyzer

这款免费工具可帮助业主从各种情感方式分析自家广告接触客户的有效性。比如分析广告在知性方式、潜移默化方式或精神层面方式当中,哪种方式最有效。

2. Optimizely

此公司针对在任何设备上网看标题提供A/B两种不同情境测试。使用者甚至可以测试怎样搭配不同图像及标题以产生最好的结果。此公司还提供免费专业规划。

3. Coschedule

此工具分析博客刊出的标题、给出一个质量得分比然后判定此标题可引起的社交分享能力。此工具也会根据业主标题在“可增加流量”及“为搜索引擎优化能力提供附加价值”的能力给出一个质量得分比排名。

内容编辑工具

4. Portent

用此工具输入主题与大致内容,就会产生一些社交内容的想法。可用这些想法去博客发表文章、制造网络爆红或者开发视频。

5. Hubspot Blog Topic Generator

透过此工具填入带有主题的三个段落,则此工具会在几秒内提供一周内有价值的博客标题。

6. National Day Calendar

绝不要错过国庆庆典。使用此工具查最近的国庆日或注册网站以接收网站邮件通知提醒国庆日的到来。

7. PostCreator

透过此工具上传图片、输入讯息,然后添加商标,PostCreator就会产生一个可用在社交网络的品牌图象。此工具同时提供免费的基本方案。

日历编辑工具

8. Optimize Book

此日历编辑工具可协助记载“何时发布”、“主题”、“目标大众”、“关键字”、“标签”、“社交主题”、“使用的社交网络”等等。

9. Brett Snyder

此日历编辑工具可协助记载“主题”、“暂定名”、“重点关键词”、“关键要素”、“资源”、“互补性资产”与“促销策略”。

10. EditFlow WordPress plugin

WordPress是提供博客和内容管理的当红免费软件。EditFlow WordPress plugin可协助团队在WordPress操作及整合更容易。有别于其它工具,此工具让使用者可以自行定义编辑状态、行事历、社评。

图像编辑工具

11. Canva

此工具可利用预设大小的模板来创建具有专业外观的社交媒体形象。此工具有简单的拖放功能,并且提供数百个图片及超炫字体供免费使用。

12. PicMonkey

此工具相当容易使用,同时提供许多免费的功能,可以针对图片和设计做编辑动作、在图片上加上说明、调整过大的图像等等。

13. Recite

此工具简单易用,可以在几分钟内建立报价图档。键入一个报价,然后从不同的报价图像中挑选套用,整个报价图档即完成。

14. imgflip Meme Generator

透过此工具从数千个预设的图像中挑选所要的、键入标题、调整本文大小、然后按“产生”,这样就大功告成,非常简单。

影像编辑工具

15. Avidemux

这个免费的视频编辑器是专为简单任务如剪辑、过滤和编码所设计的。Avidemux还提供自动化功能。

16. Windows Movie Maker

此工具是包含在Windows基本包的一个免费视频编辑器,Windows每个版本都有具备不少很棒的功能,更重要的是易学易用。

17. Lightworks

此强大的视频编辑工具曾被用来协助制作好莱坞电影。Lightworks免费提供全面超强编辑功能、并以1080p分辨率输出到他们首选的合作上传伙伴Vimeo上。免费版本允许七天内更新授权,所有用户可以在安装后立即激活使用。

18. WeVideo

此视频编辑器提供5G云端存储,用户可以直接发布他们的视频到YouTube。WeVideo连结到不同的社交网络供使用户抓取视频剪辑并且提供移动视频编辑。

广告产生工具

19. Ad Parlor

此工具在你将广告正式刊登在Facebook或Twitter前,可产生广告版面编排让你先预览。用户使用此工具前不必先登录,Ad Parlor允许用户针对所有在Facebook和Twitter提供的广告空间先做广告规格确认动作。

20. Banner Ads Creator

这个简单的工具可针对YouTube、Facebook及Twitter简单快速的制作广告。跟随工具步骤按键、选择想要的内容,最后广告就在几分钟内完成了。

效果追踪及分析工具

21. Hubspot Marketing Grader

若想知道行销效果如何,只要将网址贴在网站表格内就会在几秒钟内收到报告。此工具会针对社交媒体博客、搜索引擎优化、准客户开发行销、手机行销效果给予评分。

22. Quick Sprout

此社交媒体工具可协助分析您谷歌分析(Google Analytics)上的数据。此工具所提供的分析数据报告可协助您据此改善行销内容。

23. AdEspresso’s Campaign Rater

此工具可帮助优化您的Facebook广告,更清楚您行销上的关键指标,并将您的广告与业界做比较。

24. Uprank

此先进工具除了分析您网站架构、搜索引擎优化、用户体验及移动装置回响外,还分析您的社交媒体。Uprank还会提供您包含全面性任务清单的数位化行销策略。

社交媒体管理工具

25. Latergram

此工具可以用来管理Instagram行销、计划和管理您Instagram上的帖子,包括可从您的台式电脑及iPad或安卓系统平板上传帖子。

26. SocialRank

这个方便的工具透过排序和过滤功能,让用户可以识别、组织和管理Twitter和Instagram的追随者,并找出哪个追随者最投入。

27. Spruce

此工具可在几秒内准备好Twitter影像:输入讯息、从数百万免费图片中挑选喜欢的,并客制化成Twitter专用图片。

28. Riffle

此工具帮助您快速找到并连系上有影响力的Twitter社交人。透过此工具及时取得这些人的相关Twitter投入资讯、兴趣及活动分析,方便您在这些人活跃于Twitter 时与其攀上关系。

29. Hootsuite

这是目前顶尖的社交媒体管理工具之一。HootSuite让你可以从一个平台管理所有的社交网络。透过HootSuite去做计划更新、吸引观众,并发展自己的品牌。此外,HooSuite还具备数据分析功能。

储存图片及视频工具

30. Mazwai

此网站提供免费有创意的知识共享高清视频片段和花絮。选定您想要的视频后,按下“下载”键并储存视频。使用此网站的唯一要求是你必须将此完成品的成就归功视频制作者。

31.Unsplash

此网站提供数千张免费的高分辨率照片,每天还会新增10张新照片,并且不限制照片的用途。

32. Picography

此网站提供大量免费、高品质、高分辨率的精彩照片,并且不限制照片的用途。

33. New Old Stock

此网站汇集了来自不同公共档案库的复古照片,照片免费提供、不涉及任何版权问题。

 

199IT大数据导航,汇集超1000多款与数据相关的工具(http://hao.199it.com/ ),欢迎分享收藏!

]]>
数据分析基础内容介绍 — 模型、工具、统计、挖掘与展现 //www.otias-ub.com/archives/417399.html Tue, 15 Dec 2015 14:59:54 +0000 //www.otias-ub.com/?p=417399 1010

1. 数据分析多层模型介绍

这个金字塔图像是数据分析的多层模型,从下往上一共有六层:148

底下第一层称为Data Sources 元数据层。

比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,通过这个过程,我们可以把需要的数据放到数据仓库里面,那这个数据仓库就是多层模型中的第二层。

数据仓库主要是给我们需要存放的数据提供一个物理基础,我们对数据进行分析,原材料都放在这个数据仓库里面,这几年以来,除了数据仓库这个概念,还兴起了数据集市这个概念,数据集市其实就是部门级的数据仓库,规模比较小一点的数据仓库。

再上面一层是Data Exploration,这层主要做统计分析的事情,比如我们算均值、标准差、方差、排序、求最小\大值、中位数、众数等等,这些统计学比较常用的指标,另外还有些SQL查询语句,总的来说主要是做一些目标比较明确,计算方法比较清楚的事情。

第四层是Data Mining数据挖掘层,数据挖掘与数据分析(统计分析)有什么区别呢,数据分析往往是统计量和算法比较清楚,数据挖掘往往是目标不是很清楚,在实现目标的过程中采用什么方法不能确定,所以数据挖掘比数据分析难度要高很多。

第五层是数据展现层,把数据分析和数据挖掘得出来的结果通过数据展现层的图表、报表把他展现出来,也可以称为数据可视化。

最后把这些图表、报表交给决策者,以这个为基础做一些决策。

2. 数据分析工具简介

常用的数据分析工具,包括一些厂商的数据库产品,包括IBM的DB2、甲骨文的Oracle数据库。这些厂商的数据库本身带有一些统计分析的包,里面有些标准的功能可以做数据分析工作,但用这些自带的数据分析工具功能相对不够专业。主要反映在缺乏标准的统计函数,比如做一个线性回归模型,需要写一大堆SQL语句,甚至要写一个plsql程序才能完成。但是在专业的统计软件只需要写一个简单的函数就可以完成。

227

目前最主流的统计软件有R、SAS、SPSS,R是一个免费的开源软件。

SAS大概是历史最悠久的统计软件,是一个商业软件,在60年代就诞生,在70年代以后逐渐商业化,发展到现在SAS已经成为国际标准。

SPSS也是一个历史悠久的统计软件,SPSS一开始是一个仿真软件,后来演变成一个统计软件,目前已经发展成为一个数据挖掘软件,目前被IBM收购,变成IBM旗下的一个产品,在社会学研究院领域有很多的应用。

其他的还有一些软件,比如说水晶报表(Crystal Reports),在做BI和报表非常擅长,另外如UCINET也是在社会学比较常用的软件,它可以画群体的网络图,社交关系图非常擅长。

3. 常用统计方法

使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果:

417

常用算法

515

4. 数据挖掘

数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联。

数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习

常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等

例:啤酒与尿布的故事

5. 展现层:报表与图形

展现层在数据分析中是一个很重要的组成部分,在大家的心目中数据分析软件只是读数据和算数据,结果算出来就OK了。但其实结果算出来以后对于数据分析还远没有结束,还需要把结果展现出来,有些时候可能结果的展现比计算花的时间还要多。

下图是一个比较老土的报表。

616

如果那这种报表给老板看,那体验效果肯定很差,其实人的特点对数字的感觉不敏感,如果你那一大堆数字组成的报表给老板看,老板肯定不是很高兴。

人对图形会比较敏感,所以在统计学里面通常有比较标准的图,如饼图、柱形图(垂直和水平)、虚线图、水泡图、鱼骨图、箱线图等等。

715

下面是一张在地图上展现数据的展现形式

813

下图是关于使用安卓手机的数据展现

912

根据信息图显示,Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是北美人,30%的可能脸上长雀斑。71%的时 间会穿T恤,下身穿牛仔裤的时间占了62%。工作只占了38%,玩游戏却占了62%,平均每个月会用掉582MB的数据流量。这种图称为信息图,在数据分析这个行业里面,是数据展现工作的主要组成部分。

 

]]>
2015 Bossie评选:最佳开源大数据工具 //www.otias-ub.com/archives/396563.html Thu, 22 Oct 2015 08:56:20 +0000 //www.otias-ub.com/?p=396563 nfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。

1. Spark

20151022103711_1436

在Apache的大数据[注]项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快。

与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的发现,使数据访问比原始RDD接口更简单。

Spark的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。

在Spark1.5的默认情况下,TungSten内存管理器通过微调在内存中的数据结构布局提供了更快速的处理能力。最后,新的spark-packages.org网站上有超过100个第三方贡献的链接库扩展,增加了许多有用的功能。

2. Storm

20151022103711_6919

Storm是Apache项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。他基于低延时交互模式理念,以应对复杂的事件处理需求。和Spark不同,Storm可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。

Spark掩盖了很多Storm的光芒,但其实Spark在很多流失数据处理的应用场景中并不适合。Storm经常和Apache Kafka一起配合使用。

3. H2O

20151022103711_7366

H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。

使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。

几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

4. Apex

20151022103711_6375

Apex是一个企业级的大数据动态处理平台,即能够支持即时的流式数据处理,也可以支持批量数据处理。它可以是一个YARN的原生程序,能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性(精确一次处理、最少一次、最多一次)

以前DataTorrent公司开发的基于Apex的商业处理软件,其代码、文档及架构设计显示,Apex在支持DevOps方面能够把应用开发清楚的分离,用户代码通常不需要知道他在一个流媒体处理集群中运行。

Malhar是一个相关项目,提供超过300种常用的实现共同的业务逻辑的应用程序模板。Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。所有的malhar组件都是Apache许可下使用。

5. Druid

20151022103711_7843

Druid在今年二月转为了商业友好的Apache许可证,是一个基于“事件流的混合引擎,能够满足OLAP解决方案。最初他主要应用于广告市场的在线数据处理领域,德鲁伊可以让用户基于时间序列数据做任意和互动的分析。一些关键的功能包括低延迟事件处理,快速聚合,近似和精确的计算。

Druid的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。代理节点直接查询实时和历史节点,给用户一个完整的事件信息。测试表明50万事件数据能够在一秒内处理完成,并且每秒处理能力可以达到100万的峰值,Druid作为在线广告处理、网络流量和其他的活动流的理想实时处理平台。

6. Flink

20151022103711_2871

Flink的核心是一个事件流数据流引擎。虽然表面上类似Spark,实际上Flink是采用不同的内存中处理方法的。首先,Flink从设计开始就作为一个流处理器。批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API(批处理)和数据流API。MapReduce的世界的开发者们在面对DataSet处理API时应该有宾至如归的感觉,并且将应用程序移植到Flink非常容易。在许多方面,Flink和Spark一样,其的简洁性和一致性使他广受欢迎。像Spark一样,Flink是用Scala写的。

7. Elasticsearch

20151022103711_96938

Elasticsearch是基于Apache Lucene搜索分布式文件服务器。它的核心,Elasticsearch基于JSON格式的近乎实时的构建了数据索引,能够实现快速全文检索功能。结合开源Kibana BI显示工具,您可以创建令人印象深刻的数据可视化界面。

Elasticsearch易于设置和扩展,他能够自动根据需要使用新的硬件来进行分片。他的查询语法和SQL不太一样,但它也是大家很熟悉的JSON。大多数用户不会在那个级别进行数据交互。开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互,包括Ruby,Python,PHP,Perl,Java,JavaScript等。

8. SlamData

20151022103711_6869

如果你正在寻找一个用户友好的工具,能理解最新流行的NoSQL数据的可视化工具,那么你应该看一看SlamData。SlamData允许您用熟悉的SQL语法来进行JSON数据的嵌套查询,不需要转换或语法改造。

该技术的主要特点之一是它的连接器。从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界标准的外部数据源可以方便的进行整合,并进行数据转换和分析数据。你可能会问:“我不会有更好的数据池或数据仓库工具吗?请认清这是在NoSQL领域。

9. Drill

20151022103711_1393

Drill是一种用于大型数据集的交互分析的分布式系统,由谷歌的Dremel催生。Drill专为嵌套数据的低延迟分析设计,它有一个明确的设计目标,灵活的扩展到10000台服务器来处理查询记录数据,并支持兆级别的数据记录。

嵌套的数据可以从各种数据源获得的(如HDFS,HBase,Amazon S3,和Blobs)和多种格式(包括JSON,Avro,和buffers),你不需要在读取时指定一个模式(“读时模式”)。

Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。最后,Drill提供了基于ODBC和JDBC接口以和你所喜欢的BI工具对接。

10. HBASE

20151022103711_6129

HBase在今年的里程碑达到1.X版本并持续改善。像其他的非关系型的分布式数据存储一样,HBase的查询结果反馈非常迅速,因此擅长的是经常用于后台搜索引擎,如易趣网,博科和雅虎等网站。作为一个稳定的、成熟的软件产品,HBase新鲜的功能并不是经常出现,但这种稳定性往往是企业最关心的。

最近的改进包括增加区域服务器改进高可用性,滚动升级支持,和YARN的兼容性提升。在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。

11. Hive

20151022103711_4665

随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。目前基金会主要集中在提升性能、可扩展性和SQL兼容性。最新的1.2版本显著的提升了ACID语意兼容性、跨数据中心复制,以及以成本为基础的优化器。

Hive1.2也带来了改进的SQL的兼容性,使组织利用它更容易的把从现有的数据仓库通过ETL工具进行转移。在规划中讲主要改进:以内存缓存为核心的速度改进 LLAP,Spark的机器学习库的集成,提高SQL的前嵌套子查询、中间类型支持等。

12. Kylin

20151022103711_1242

Kylin是eBay开发的用于处理非常大量数据的OLAP分析系统,他使用标准的SQL语法,和很多数据分析产品很像。Kylin使用Hive和MR来构建立方体,Hive用作预链接,MR用作预聚合,HDFS用来储存构建立方体时的中间文件,HBase用来存储立方体,HBase的coprocessor(协处理器)用来响应查询。

像大多数其他的分析应用一样,Kylin支持多种访问方法,包括JDBC,ODBC API进行编程访问以及REST API接口。

13. CDAP

20151022103711_1079

CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。CDAP数据集是数据的逻辑展现,无论底层存储层是什么样的;CDAP提供实时数据流处理能力。

应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。CDAP自带的数据摄取框架和一些预置的应用和一些通用的“包”,例如ETL和网站分析,支持测试,调试和安全等。和大多数原商业(闭源)项目开源一样,CDAP具有良好的文档,教程,和例子。

14. Ranger

20151022103711_5570

安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。事实是(+本站微信networkworldweixin),Hadoop有很多的安全功能,虽然这些安全功能都不太强大。我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。

2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,通过一个漂亮的页面来做管理、审计、加密。

15. Mesos

20151022103711_2966

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、 MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配(内存和CPU)。提供Java、Python和C++ APIs来开发新的并行应用程序,提供基于Web的用户界面来提查看集群状态。

Mesos应用程序(框架)为群集资源协调两级调度机制,所以写一个Mesos应用程序对程序员来说感觉不像是熟悉的体验。虽然Mesos是新的项目,成长却很快。

16. NiFi

20151022103711_6532

Apache NiFi 0.2.0 发布了,该项目目前还处于 Apache 基金会的孵化阶段。Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。

Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用,强大,可靠及高可配置。两个最重要的特性是其强大的用户界面及良好的数据回溯工具。

NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代。

其数据回溯特性允许用户查看一个对象如何在系统间流转,回放以及可视化关键步骤之前之后发生的情况,包括大量复杂的图式转换,fork,join及其他操作等。

另外,NiFi使用基于组件的扩展模型以为复杂的数据流快速增加功能,开箱即用的组件中处理文件系统的包括FTP,SFTP及HTTP等,同样也支持HDFS。

NiFi获得来来自业界的一致好评,包括Hortonworks CEO,Leverage CTO及Prescient Edge首席系统架构师等。

17. Kafka

20151022103711_4620

在大数据领域,Kafka已经成为分布式发布订阅消息的事实标准。它的设计允许代理支持成千上万的客户在信息吞吐量告诉处理时,同时通过分布式提交日志保持耐久性。Kafka是通过在HDFS系统上保存单个日志文件,由于HDFS是一个分布式的存储系统,使数据的冗余拷贝,因此Kafka自身也是受到良好保护的。

当消费者想读消息时,Kafka在中央日志中查找其偏移量并发送它们。因为消息没有被立即删除,增加消费者或重发历史信息不产生额外消耗。Kafka已经为能够每秒发送2百万个消息。尽管Kafka的版本号是sub-1.0,但是其实Kafka是一个成熟、稳定的产品,使用在一些世界上最大的集群中。

18.OpenTSDB

20151022103711_2826

opentsdb是建立在时间序列基础上的HBase数据库。它是专为分析从应用程序,移动设备,网络设备,和其他硬件设备收集的数据。它自定义HBase架构用于存储时间序列数据,被设计为支持快速聚合和最小的存储空间需求。

通过使用HBase作为底层存储层,opentsdb很好的支持分布与系统可靠性的特点。用户不与HBase的直接互动;而数据写入系统是通过时间序列的守护进程(TSD)来管理,它可以方便的扩展用于需要高速处理数据量的应用场景。有一些预制连接器将数据发布到opentsdb,并且支持从Ruby,Python以及其他语言的客户端读取数据。opentsdb并不擅长交互式图形处理,但可以和第三方工具集成。如果你已经在使用HBase和想要一个简单的方法来存储事件数据,opentsdb也许正好适合你。

19. Jupyter

20151022103711_6536

大家最喜欢的笔记应用程序都走了。jupyter是“IPython”剥离出来成为一个独立的软件包的语言无关的部分。虽然jupyter本身是用Python写的,该系统是模块化的。现在你可以有一个和iPython一样的界面,在笔记本电脑中方便共享代码,使得文档和数据可视化。

至少已经支持50个语言的内核,包括Lisp,R,F #,Perl,Ruby,Scala等。事实上即使IPython本身也只是一个jupyter Python模块。通过REPL(读,评价,打印循环)语言内核通信是通过协议,类似于nrepl或Slime。很高兴看到这样一个有用的软件,得到了显著的非营利组织资助,以进一步发展,如并行执行和多用户笔记本应用。

20. Zeppelin

]]>
Google推工具News Lab 抢占媒体市场 //www.otias-ub.com/archives/357880.html Tue, 23 Jun 2015 13:03:43 +0000 //www.otias-ub.com/?p=357880 Snap3

全球搜寻巨擎Google亦加入争夺数字新闻未来市场的竞争。今日(23日)Google宣布推出网上新闻实验室(News Lab)的新工具,该工具可以让新闻工作者更好地利用Google的数据与工具,并学着用这些数据进行更高质量的报导。

News Lab 由史蒂夫.格罗夫(Steve Grove)主导,他在Google官方网志上撰文表示,News Lab成立的宗旨,在于和记者及创业家合作,将科技创新应用于新闻报导。

他说:“谷歌的目标是保证用户们随时随地都能获得优质信息,我们希望通过新闻行业的创新发展实现一个信息更加丰富、民主化程度更高的世界。”

格罗夫指,News Lab将会提供包含Google Maps、Google Earth、YouTube、Google Search等11项Google产品的内容,未来还会继续增加。而News Lab网站newslab.withgoogle.com,则会提供研究、报导、发布和使用分析工具的课程。

News Lab 将帮助新闻编辑室利用Google的多款应用,从而更好地实时追踪新闻,利用数据进行报导,并通过Google的渠道进行新闻发布。News Lab 还链接了Google Trend,强调即时数据,鼓励记者在报导中使用来自 28 个国家的实时数据。

此外,Google还与主要新闻机构展开合作,在News Lab 目前已列出的合作名单上,可以看到Matter、Hackers/Hackers等各新闻机构。

Google的News Lab是一个全球性的计划,但其将会在美国、英国、德国、法国等地率先推出。

之前Facebook也推出了Newswire工具,并于上月发布了“即时报导”功能,以加强在新闻分发领域的领先地位。而Twitter上周亦启动了Project Lightning,吸引媒体专家在Twitter网络上制作最优秀的新闻。

目前这些科技公司都希望发展成为媒体平台。Google推出的“新闻实验室”无疑也在加入向媒体和新闻业的竞争,与竞争对手比拚,高质量的新闻内容有利于吸引更多用户和广告主。

格罗夫表示,随着媒体和科技版图持续演化,科技界与新闻工作者可以并肩合作,探索媒体的未来。

工具官方链接:https://newslab.withgoogle.com

]]>
Google为移动站点推出新的优化指南和PageSpeed Insights工具 //www.otias-ub.com/archives/139769.html Sun, 11 Aug 2013 14:07:15 +0000 //www.otias-ub.com/?p=139769 Google今天宣布了新的指南和一个升级版的PageSpeed Insights工具,以帮助网站管理员们优化其移动页面的渲染性能。简而言之,其目标就是”考虑内容如何加载”,以使移动版网页变得更快。由谷歌的分析数据可知,今日的移动页面,其平均再加时间竟然超过了7秒钟。移动性能是在不断改善,但在变得更快的目标上,它还有很长的路要走。

Google希望把平均加载时间降到1秒以下,而且这并不是一个简洁的图景。该公司指出,Nielsan Norman Group的研究显示:如果页面的加载时间超过1秒,用户的流程就会被打断。

目前,将页面加载时间控制在几百毫秒内绝非易事,坦白说,当前对用户可用的常规技术都不可能做到这一点。然而Google却坚称:对移动网络上所有的”一屏显示”(above-the-fold)内容来说,次秒级的渲染(sub-second rendering)还是有可能的,其它的内容可以随后再加载。

下面就是Google希望大家都能去追求的”最佳实践”目标:

• 服务器的响应必须小于200毫秒;

• 重定向的次数必须尽可能地少;

• 初级渲染(first render)的循环次数应尽量小;

• 避免一屏显示内容的JavaScript和CSS的外部闭塞;

• 浏览器排版和渲染的预留时间应在200毫秒左右;

• 优化JavaScript的执行和渲染时间。

如果你想帮助Google一起加速移动网页,可以查看该公司推出的mobile-specific帮助页面。在你变动前后,也请使用PageSpeed Insights工具对比查看下改进。

[编译自:TNW]

 

]]>
GReader Archive – Google Reader 阅读历史存档下载工具 //www.otias-ub.com/archives/124562.html //www.otias-ub.com/archives/124562.html#comments Thu, 13 Jun 2013 13:38:05 +0000 //www.otias-ub.com/?p=124562 Google Reader 将在 7月1日关闭。虽然谷歌官方提供了Take out用于导出用户数据,但导出的范围仅限订阅列表、关注列表、加星或分享过的条目之类,而阅读过的大部分内容则很难找回来了。GReader Archive 这个工具可以让大家从 Google Reader 下载到订阅数据源的所有历史数据

GReader Archive 基于网上流传的 Google Reader 非官方 API,使用 Python 开发、跨平台,按 GPL 协议开源。值的注意的是,经 Aulddays 实验,谷歌的服务器对数据下载的 antispider 做的相当严格,所以程序中相应的对抓取速度做了限制,每下载一个数据文件(默认2000个条目一个数据文件)会等待 30 秒,因而总的抓取过程会比较长。例如像 Aulddays 这样重度(100+ subcription,已读 30w+ 条目)使用者,差不多花了 48 小时的时间。另外,随着 Google Reader 关闭的邻近,响应的下载接口可能随时也会关闭,所以需要下载数据的还要抓紧时间~~

GReader 重度使用者

下载和使用

点击这个链接进入 GReader Archive github 页面;也可以点击这里直接下载最新版的压缩包。

把下载的代码放在某个目录下,运行 run.py,提示输入 Google Reader 的账户信息,验证通过后即可开始下载。Linux 下一般已内建了对 Python 的支持。Windows 下可能需要另外安装 Python 组件后运行。Aulddays 在 Windows + Python 2.7 和 Linux + Python 2.6 下测试运行正常。Python 3.x 在语言上和 2.x 不太兼容,无法运行。

文件组织和硬盘空间

GReader Archive 下载的所有数据都会保存在 data 文件夹下。每个 RSS 订阅源会创建一个单独的文件夹,该订阅源的数据会按 2000 条一个文件的方式切分放在文件夹下。如果您的 Google Reader 账户中对订阅做了文件夹的组织,那么 data 文件夹中也会建立相应的子文件夹

由于每个订阅都会下载 Google Reader 中的全部历史数据(这个后面还会详说),最终占用的硬盘空间可能比较大。 Aulddays 的 100+ 个订阅源共产生了 2GB+ 的数据。所以下载前最好留出一些硬盘空间

断点续传

由于总下载时间会比较长,GReader Archive 支持断点续传。在下载过程中可以随时关闭程序。当下次启动时,如果输入的账户信息与之前相同的话,程序会给出下面的选项:

Unfinished download found. Continue (press c) or Start over again (press s)?:

此时选择 ‘c’ 就可以继续上次未完成的下载了。

Antispider

谷歌的 Antispider 做的比较严,尽管程序里设置了抓取一个等待 30 秒,运行一段时间之后还是有可能被谷歌 Antispider 了,此时程序 log 里会打印如下信息:

2013-05-22 18:04:45,667 [INFO] Client IP antispidered. wait 1 hour and continue...

遇到这种情况,可以有以下选择:

  1. 如果你的外网 IP 可以换(例如 ADSL,断线重连下有很大概率 IP 就换了),那么换新 IP 之后基本可以原地满血复活。如果不想等 1 个小时,那么可以配合上面的断点续传进行~~
  2. 如果 IP 是固定的,那么据经验看 4-5 个小时之后会解除 antispider,此后程序会自动继续
  3. 如果很久也没解除,建议关闭程序,等 24 小时后再断点续传
  4. 如果频繁被 antispider,可以考虑把等待时间改成一些,在 run.py 开始有一行:waittime = 30

下载速度

某些朋友的网络访问谷歌可能不太顺畅,进而造成下载缓慢。GReader Archive 支持自定义谷歌服务器 IP,大家可以针对自己的情况将自定义 IP 写在 conf/customip.list 文件中,每行一个地址。有一个示例放在了 conf/customip.list.sample,里面的 IP 可能(仅是可能)改进某些地区的下载速度,将它重命名为 customip.list 即可生效。

作者建议慎用自定义 IP 的功能,因为使用了非官方的地址可能会造成下载失败甚至账户信息泄露。建议使用时配合下面的高级话题。

高级话题

值得注意的是,对于一个 RSS 数据源,通过 GReader Archive 下载到的并不只是本账户阅读过的数据而是该 RSS 数据源的所有历史数据(更准确的说,是有任何一个用户在 Google Reader 上订阅了该数据源以来的所有数据)。也就是说,用任何一个账户登录都可以下载到 RSS 源的完整历史。基于这个特性,可以做一些有意思的事情,举例如下:

  1. 由于 Google Reader 使用了非官方的 API,为了保证我们的正常账户不受影响,可以找个马甲账户来运行。马甲账户中也无需一个一个手动添加订阅,用 Takeout 导出再导入即可。
  2. 假设某个订阅源需要单独下载(例如之前下载失败或有更新想重新下载),也可以使用马甲用户来搞定。
  3. 有些以前的网站现在已经关闭了,但其 RSS 内容很可能在 Google Reader 上还有存档,只要知道以前的 RSS 链接就可以下载到了。
]]>
//www.otias-ub.com/archives/124562.html/feed 1
104市調中心:App熱潮不退 消費者最愛哪些App? //www.otias-ub.com/archives/57232.html Tue, 17 Jul 2012 07:08:59 +0000 //www.otias-ub.com/?p=57232 (Brain.com 2012-07-11)從網路到行動行銷,新介面出現的太快太急,令不少行銷人疲於奔命,甚至傳統的行銷4P、4C毫無用武之地。

尤其是新媒體,讓廣告主特別在意數位製作的部分,包含網站的建設和製作、手機APP開發、以其他各種數位媒體技術的供應商產業鏈,正在快速的發展。

104市調中心近期拋開行動調查,而專注在了解使用者為何下載行動APP,一起來看有哪些發現?(註)

只是for fun或真有其用?
根據調查,「遊戲」是下載比例最高的App,下載過的付費App及未來會下載的App仍以「遊戲」的比例最高。

圖一:消費者最常下載的App或付費型App?

但問到下載App的理由則以「實用/用得到」比例最高,是生活、工具、導航類型App下載的主要理由。而下載遊戲、娛樂、音樂型App的理由以「打發時間、好玩/有趣、好奇/新鮮」為主。

圖二:消費者下載以下App項目的理由

由以上數據可得知,行動App除了須具有實用性之外,仍須兼顧娛樂、有趣等元素方能吸引人下載。

免費APP不值錢?付費的尚好?
而有關APP收費的可能性,以及民眾願意下載付費型APP的比例,從下圖可以看到,只有4成消費者有下載過付費型App,其中仍以遊戲的比例最高,其次是工具、生活、金融、音樂、導航。

圖三:消費者下載過哪些付費型App

在遊戲、金融類型App方面,消費者願意付費的理由以「試用過免費版,想取得更多功能或關卡」比例最高。而常因「價格低或合理」而下載音樂類型App。另外,下載導航類型App理由則是認為「App不斷更新版本,一次付費可終身享用很方便」。

圖四:消費者下載付費型App的理由是什麼

從上圖可知,低價甚或免費商業模式在APP世界中十分常見,也是APP廠商刺激下載量慣用的手法。但除了關注付費可能性之外,更要留意用戶的黏著度以及使用次數,方能在APP世界中持續稱王.

註:根據104市調中心在2012年3月19日至20日進行的APP調查。總計收集有效樣本:450份,在95%的信心水準之下,估計誤差約為±4.6%

原文網址:brain

]]>