系统 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Thu, 04 Jul 2019 03:19:19 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 构建机器学习系统的20个经验教训 //www.otias-ub.com/archives/420956.html Wed, 23 Dec 2015 12:08:16 +0000 //www.otias-ub.com/?p=420956 数据科学家对优化算法和模型以进一步发掘数据价值的追求永无止境。在这个过程中他们不仅需要总结前人的经验教训,还需要有自己的理解与见地,虽然后者取决于人的灵动性,但是前者却是可以用语言来传授的。最近Devendra Desale就在KDnuggets上发表了一篇文章,总结了Quora的工程副总裁Xavier Amatriain在Netflix和Quora从事推荐系统和机器学习工作时所总结的20条经验教训

  1. 更多的数据 & 更好的模型
    并不是数据越多结果就越好,高质量的数据才能产生高质量的结果。多并不意味着好,事实上,有些情况下较少的数据反而效果更好,因此数据要适量,质量要高
  2. 可能并不需要所有的大数据
    组织可能积累了不同种类的大数据,但是并不是每一个场景都会用到所有的数据。大部分情况下,通过一些样本数据就能获得比较好甚至是比使用全量数据更好的效果。
  3. 有时候更复杂的模型并没有带来任何提升,但这并不意味着就不需要它了
    如果将一个线性模型的特征数据作为另一个更复杂模型(例如非线性模型)的输入,而复杂模型产生的结果并没有任何提升,那并不意味着这个复杂模型就毫无意义。因为通常情况下只有更复杂的特征数据才需要更复杂的模型,对于简单的特征数据复杂模型往往难以发挥出自身优势。
  4. 学会处理展现偏见
    系统通常会将那些预测的比较正确的结果展示给用户,用户会选择性的查看,但是用户不看的那部分并不一定就毫无吸引力。更好的选择是通过关注模型或者MAB分析用户的点击概率,合理地呈现内容。
  5. 认真思考训练数据
    构建训练和测试数据的时候需要充分考虑结果和各种不同的场景。例如,如果要训练一个预测用户是否喜欢某部电影的分类器,那么产生数据的可能场景包括:用户看完电影并给出了一星的评价,用户看了5分钟、15分钟或者一小时之后离开,用户再次查看电影等,如何选择这些数据是需要经过深思熟虑的。
  6. UI是用户与算法通信的唯一方式
    系统通过UI展现算法结果,用户通过UI提供算法反馈,它们应该是相互对应的关系,任何一个发生变化另一个也需要进行改变。
  7. 数据和模型是否已经足够好了?要有正确的评估方法
    产品决策始终应该是数据驱动的。对于不同的问题,要选择正确的评估方法,例如,通过A/B测试来衡量不同特征数据,不同算法的优劣;通过脱机测试使用 (IR) 度量测试模型的性能。
  8. 分布式算法重要,但是理解它的分布式程度更重要
    分布式/并行算法分三级:第一级针对总体的每一个子集,第二级针对超参数的每一种组合,第三级针对训练数据的每一个子集,每一级都有不同的要求。
  9. 慎重地选择超参数
    要选择正确的度量标准自动化超参数的优化。
  10. 有些事情能线下做,有些不能,有些介于两者之间,为此需要支持多层次的机器学习。

    netflix-machine-learning-architecture

  11. 隐式信号几乎总是打败显式信号
    许多数据科学家认为隐式反馈更有用。但真的是这样么?实际上有些情况下结合不同形式的隐式和显式信号能更好地表示长期目标。
  12. 模型会学习你教给他的内容
    机器学习算法并不是一个随意的过程,它的每一步都涉及到科学方法。模型要从训练数据、目标函数和度量中学习。
  13. 有监督的 + 无监督的学习
    开发模型的时候不能简单地选择有监督的或者无监督的学习,它们各有长处,适用场景不同,用户需要根据具体情况同时迭代地使用它们,通过两种方法的融合获得更好的效果。

    deep-learning-supervised-unsupervised-combine-lecun.v1

  14. 所有的事情都是一种集成(Ensemble)
    使用机器学习的大部分应用程序都是一个集合体。你可以添加完全不同的方法(例如CF和基于内容的方式),你也可以在集成层使用许多不同的模型(例如LR、GDBT、RF和ANN)。
  15. 一个模型的输出可能是另一个模型的输入
    确保模型的输出具有良好的数据依赖关系,例如可以容易地改变值的分布而不影响依赖它的其他模型。要尽量避免反馈循环,因为这样会在管道中造成依赖和瓶颈。另外,机器学习的模式设计也需要遵循最佳的软件工程实践,例如封装、抽象、高内聚和松耦合。
  16. 特征工程的失与得
    良好的机器学习特征可重用、可转换、可解释并且可靠。捕获的特征越好,结果越精确。为了量化数据的属性必须将维度翻译成特征。
  17. 机器学习基础设施的两面性
    任何机器学习基础设施都需要考虑两种不同的模式。模式1:机器学习实验需要扩展性、易用性和可重用性。模式2:机器学习产品不仅需要模式1的特性,还需要性能和可伸缩性。理想情况下,应该保持这两种模式尽可能地相近。
  18. 要能回答有关于模型的问题
    必须能够向产品所有者解释模型的行为,知道如何使用模型,它需要哪些特征,导致失败的原因是什么;同时还需要知道产品所有者或投资者的期望,能够向他们介绍模型为产品带来了什么价值。
  19. 不需要分发机器学习算法
    Hadoop/Spark这些“容易的”分布式计算平台也有一些陷阱,例如成本和网络延迟,实际上有些情况不使用它们也能很好的完成工作,通过智能数据样本、离线模式以及高效的并行代码等方法训练模型所花费的时间甚至比这些分布式平台要少的多。
  20. 数据科学 vs. 机器学习工程不为人知的故事
    拥有强大的能够挖掘数据价值的数据科学家是非常值得的。但是既懂数据又有扎实工程技能的数据科学家非常稀少,通常情况下,构建数据科学家团队和机器学习工程团队并让他们通力配合才是比较好的方案。

    data-driven-ML-innovation-funnel

via:InfoQ中文站

]]>
BrandWatch:调查显示92%网友热爱Windows 10系统 //www.otias-ub.com/archives/377971.html Sat, 22 Aug 2015 16:54:32 +0000 //www.otias-ub.com/?p=377971 自微软正式发布Windows 10系统后,差不多已有三周有余,微软希望Windows 10能够重新拉回对Windows 8系统失望的用户信心,看来微软做的不错,除了快速飙升的安装率数据外。据社交媒体监测公司BrandWatch进行的在线用户(社交网络,在线论坛)对 Windows 10喜爱与否的调查,采样数量约为7000名网友/回帖意见。显示92%的网友“喜爱”微软全新的操作系统,占据绝大多数。不过BrandWatch仍然 观测到有网友对Windows 10呈厌恶情绪的趋势有小幅增长。

3798bce5ce9e601

在分析网友具体对Windows 10哪个新功能或特性喜爱或厌恶的调查中,呈现如下趋势。无疑语音助手小娜Cortana最深受网友的青睐,超过八成参与调查者喜爱这一有趣的语音助手功能。Edge浏览器和Xbox功能的集成也获得网友们的肯定,有7成以上用户喜欢。而全新的开始菜单也得到了6成以上网友的肯定。

f335c30b54a2095

当然,这项在线调查的“科学客观性”有待商榷,毕竟是监测自社交网络和在线社区的网友民意而已,似乎并没有涵盖到全数真正使用Windows 10用户的看法。

]]>
IHS:预计2020年全球4000万辆汽车采用谷歌Android Auto系统 //www.otias-ub.com/archives/347314.html Wed, 13 May 2015 15:53:39 +0000 //www.otias-ub.com/?p=347314 市场研究公司IHS发布最新研究数据显示,到2020年,预期将会有4000万辆汽车采用谷歌Android Auto系统,将会有3710万辆汽车使用苹果CarPlay。而两项数字表明,5年后,谷歌和苹果将在车载系统市场占绝对统治地位。

Cg-4WVVRn66IQcg8AAGp1vzRmmoAADbfwOP8xcAAanu216
谷歌苹果将统治车载系统市场

对于IHS机构发布的数据,另一家机构BI Intelligence表示,这两项数字几乎覆盖了提供联网服务的所有汽车。同时,BI Intelligence还比较了Android Auto和CarPlay系统各自的优势和潜在的市场机会。

以下为报告摘要:

联网汽车是目前最重要的数字平台之一,该市场将成为谷歌和苹果两家公司新的竞争“战场”。BI Intelligence报告中预期,到2020年,全球上路的联网汽车总量将达到2.2亿辆,其中将会有8800万辆汽车将被车主激活联网服务。

苹果CarPlay和谷歌Android Auto将能够使司机在汽车车载信息中心上运行部分智能手机应用软件。目前,苹果CarPlay在市场上处于领先地位,不过随着时间的推移,Android Auto将迎头赶上,并超越它。

尽管CarPlay和Android Auto 拥有不同的用户界面,但却提供了相似的功能,它们能够让用户通过语音控制系统来控制应用软件,并能够在车载显示屏上提供其他功能。

两大系统能够与智能手机原生应用软件连接,提供额外的其他第三方应用软件支持。CarPlay 和 Android Auto在扩展其音乐流媒体和地图导航功能方面将非常有用。

苹果和谷歌在打造车载操作系统方面拥有他们的优势:两家公司拥有很强的品牌忠诚度,都能够从数字产品和广告中获得额外收入,能够获得有关消费者汽车内行为的更多信息。

虽然,分析机构对于苹果和谷歌的车载系统的未来发展看好,但是传统汽车厂商并不会拱手让出汽车中控仪表的控制权。

如福特汽车CEO Mark Fields在近日的一次采访中透露,未来福特不会在车载系统只装载Caplay,而是同时提供Carplay、Android Auto和自家的SYNC系统。

]]>
腾讯移动安全实验室:2014上半年Android系统手机安全现状 //www.otias-ub.com/archives/258917.html Thu, 24 Jul 2014 17:13:23 +0000 //www.otias-ub.com/?p=258917 Android病毒包: 2014年上半年是2012年的2.06倍

从曲线看出,2014年与2013年的Android病毒包数均在2月份均呈现急速下降的趋势,随后迅速反弹持续平稳增长。而这方面,与春节期间的各种因素干扰到制毒者与制毒机构的制毒行为以及与手机用户的群体跨省迁移行为等均有微妙关联。

从另一个角度来说,手机病毒包数量在达到巅峰后会呈现暂时平缓与下降的趋势,但总体而言,Android的病毒包的整体量级依然在巨幅增长。2014年上半年,Android病毒包总数是2012年全年的2.06倍,Android手机的安全风险依然严峻。

2014年上半年Android感染用户数达到0.89亿

2014年上半年,手机染毒用户数最低月是2014年1月,手机染毒用户数为1370.3万。手机染毒用户数最高月是6月,手机染毒用户数为:1627.3万。在整个2014年上半年,手机染毒用户数呈现逐月递增的趋势,平均每月手机染毒用户数为1487.3万。

从2012年、2013年、2014年上半年Android染毒手机对比可以知道,2014年上半年Android染毒手机是2012年全年的3.69倍。达到2013年全年Android手机染毒用户的89%。

上半年腾讯手机管家查杀Android病毒次数为1.4亿次

2014年上半年腾讯手机管家为用户查杀Android病毒次数是2013年上半年的2.12倍,同比增长112%。

2014年上半年Android手机染毒用户主要分布省份

从地域看,其中的六省份处于东部沿海,四个省份处于中西部内陆。内陆四省分别为:河南、四川、广西、湖南。染毒手机用户占比分别位居全国第二、第七、第八、第十。从手机病毒的区域转移方向来看,国内的十大手机染毒省份渐趋稳定,总体呈现出以中东部发达省份为主,西部为辅的格局。目前制毒者或制毒机构依然重点瞄准东部沿海手机用户“掘金”。

从比例看,广东省以14.08%的比例远超排名第二的河南省,染毒手机比例接近河南省(6.53%)的两倍。

]]>
iSuppli:预计2012年运行iOS系统和安卓系统智能机销量达到5.19亿台 //www.otias-ub.com/archives/68158.html Tue, 11 Sep 2012 00:00:44 +0000 //www.otias-ub.com/?p=68158 将创新软件业务有针对性地嵌入客户体验”已改变了传统智能手机市场,这也使谷歌和苹果两家企业占据了3/4以上的智能手机市场份额,直接导致了手机行业中保守势力的衰败。谷歌苹果两大创新先锋颠覆传统智能机产业,纷纷着眼于高端用户体验和手机生态系统建设。

根据信息分析提供商IHS发布的《iSuppli无线通信行业特别报告》显示,“将创新软件业务有针对性地嵌入客户体验”已改变了传统智能手机市场,这也使谷歌和苹果两家企业占据了3/4以上的智能手机市场份额,直接导致了手机行业中保守势力的衰败。

今年,运行苹果iOS系统和谷歌安卓系统的智能机销量预期达到5.19亿台,该数字相比2011年上涨了3.386亿台。谷歌和苹果两家公司市占相加达76%,其余24%的市场份额被诺基亚塞班、黑莓、微软和其他系统(如Bada、Linux等)瓜分。如下图所示。

 


去年,谷歌和苹果的市占加和约为68%,而今年的市场增长率更让使用其他手机平台系统的企业付出了更为惨重的代价。这也意味着,除了正在兴起的微软 WindowsPhone之外,其他手机操作系统都已被排挤到市场边缘。专家预测截止到2016年,苹果和谷歌将占据整个市场的80%份额,仅剩下微软的 Window Phone系统可能作为竞争者存在。

在苹果iOS和谷歌安卓系统平台出现之前,手机生产厂商一直依赖于微软和诺基亚这些第三方手机操作系统提供商来制造高端手机设备。随着支持更多应用的iOS及安卓系统新机型的面市,手机产业的经济价值链已被彻底颠覆。

苹果和谷歌所主导的新兴手机系统在市场上取得空前的成功,传统手机系统的正逐步走上下坡路,昔日的市场巨头诺基亚的塞班系统,也即随着诺基亚和微软在智 能手机系统市场中的融合,而逐渐衰败。加拿大的一家Motion公司研究机构表示,由于对新型手机系统创新的延迟,正依靠黑莓系统打下的客户群基础过活, 但终究难逃被新兴智能手机系统日渐瓦解的宿命。

  谷歌和苹果成功的秘诀:

发展新兴智能手机业务的关键在于易于操作的客户界面设计,这也是谷歌和苹果两大企业的核心竞争力所在。

iPhone的成功,在于它不仅可作为一款传统手机存在,而在于其最终发展成为了一款移动PC终端。IHS iSuppli机构认为,iPhone产品在纵向上将软件和硬件设计相集成,同时利用新型电容触屏技术提供了一种全新的易操控的友好界面,将用户的想象力 变为可能。

苹果公司对于软硬件灵巧的集成设计,使其摆脱了软件供应商的传统角色,相继在智能机供应链产业中脱颖而出。苹果公司的产品理念十分新颖,它不仅着眼对于高端硬件技术的使用,而且关注各个部件在整体手机中的功能整合。

谷歌公司主要靠移动广告产业获得收益,这是其在智能手机市场上发展所使用的策略。谷歌公司所开发的Android平台系统是开源软件,这吸引了很多中立 的第三方开发者可以为手机厂商提供技术改进支持。这种开源设计,使得智能手机厂商节省将Android系统部署在手机上的版权使用费。同时,谷歌公司还提 供很多增值软件和服务,如导航和邮箱功能。

此外,谷歌和苹果两大公司还都分别创建了自己的手机市场:Android Marketplace和App Store。

创建自己的品牌手机市场,完善手机运行生态环境建设,这种新模式重新定义了智能手机产业的发展模式,也加速了平台提供商之间以及手机厂商之间的竞争,使 得智能机产业发展不仅仅是依靠硬件的发展。“手机生态系统”这个概念的产生,源于智能机的面世,且已成为一个独立发展方向,它甚至将手机变成一个中心热 点,并提供多样性的产品和服务:如定制化客户体验,数字媒体,以及各种附加功能等。

回顾这些年智能机发展历程,我们得出的最重要结论就是:手机厂商必须保持不断的创新,从而向市场投放有特色的智能产品。在当今智能手机生态系统市场中,最有效的成功途径就是创造出有特色的用户体验模式,同时以创新的硬件和软件功能环境去持续不断得获得市场份额。

]]>
谷歌官方:数据显示Android 4.0市场份额稳步上升 //www.otias-ub.com/archives/48045.html Sun, 03 Jun 2012 13:58:23 +0000 //www.otias-ub.com/?p=48045 Andriod系统全球市场份额分布

Andriod系统全球市场份额分布

  2012年6月3日谷歌公布的最新数据显示,Android 4.0“冰激凌三明治”系统在所有Android设备中的份额已经上升至7.1%。

谷歌的数据来自对登录Google Play应用商店的Android设备的统计。此次公布的数据中,Android 4.0的份额较此前有大幅上升。不过,Android 2.3的份额也获得了小幅提升。Android 2.2的份额出现小幅下降,但仍达到19.1%。

这一数据可能并未准确反映Android生态系统的情况,因为并非每一台Android设备都登陆过Google Play应用商店。实际上,Android 4.0的市场份额可能更低,因为亚马逊Kindle Fire基于此前版本的Android系统,但Kindle Fire的用户并不会登录Google Play。

本月晚些时候,谷歌将举行今年的Google I/O开发者大会。而谷歌如何及时推动Android设备的系统升级预计将是一个热点问题。(

]]>