机器学习 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Wed, 13 Nov 2024 12:57:33 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 世界经济论坛:加强AI生态系统 促进社会创新 //www.otias-ub.com/archives/1720168.html Tue, 17 Dec 2024 01:00:50 +0000 //www.otias-ub.com/?p=1720168 199IT原创编译

在私营部门、政府和中介机构的正确支持下,社会创新者可以扩大人工智能的影响力,造福社会。

人工智能的变革潜力受到广泛赞誉。研究表明,部署机器学习的员工可以实现高达30%的效率提升,并且发现该技术有可能将占用员工时间的活动自动化高达70%,因此这项技术被行业所接受也就不足为奇了。

在IBM全球人工智能采用指数调查的8000多家公司中约有42%已经部署了人工智能来提高客户服务、信息技术和营销销售职能的效率。此外,另有40%的受访者表示,他们已经开始探索在企业内部使用庄闲网络娱乐平台进入 技术。同样,66%的受访者认为人工智能将在未来三到五年内显著影响他们的生活。

虽然人工智能对经济增长有着巨大的希望,但认识到围绕这项技术对环境和社会影响的日益增长的担忧是至关重要的。一些研究表明,超过1/3的员工担心因人工智能而失去工作,这因职业和地域而异。

这些担忧促使我们迫切需要强有力的公共治理和政策。

分析显示,在基础样本集中审查的近100项人工智能举措,有31%的人关注积极影响。在这些以影响为重点的倡议中,提供直接财政资源的不到一半。相比之下,近60%的人工智能项目都是直接获得财政资源的,而不是专注于影响。

总体而言,近年来为以影响为重点的倡议提供的全球资金在业务预算和资金方面达到22亿美元。


199IT.com原创编译自:世界经济论坛 非授权请勿转载

]]>
PitchBook:2024年第二季度人工智能与机器学习报告 //www.otias-ub.com/archives/1726136.html Wed, 13 Nov 2024 21:00:15 +0000 //www.otias-ub.com/?p=1726136 6月11日,Mistral AI获得6.4亿美元B轮融资,融资后估值达65亿美元。

6月14日,医疗软件公司Tempus AI在纳斯达克上市,以10.9倍的企业价值(EV)/历史营收计算,融资后估值为61亿美元。

6月15日,基础模型挑战者xAI获得60亿美元B轮融资,估值240亿美元。

风险投资活动

风险投资活动在2024年第二季度激增,推动了30笔10亿美元的融资。PitchBook追踪了第二季度人工智能和机器学习公司308亿美元的风投资金,其中包括xAI的60亿美元。英伟达参与了本季度前五笔交易中的四笔:CoreWeave的11亿美元融资,Mistral AI的B轮融资,Scale AI与亚马逊和Meta的F轮融资,以及Wayve与微软的10亿美元融资。尽管有企业风险投资,但交易数量仍明显低于经济衰退前的水平,与过去7个季度保持一致。对于能够融资的初创公司来说,估值持续上升,早期和后期投资交易的投前估值中值分别达到了2820万美元和5000万美元的新高。

第二季度,投资退出活动在经历了前几个季度的下滑后出现反弹,退出金额和国别均有所上升。在Tempus AI以10.9倍的EV/revenue倍数上市的支撑下,退出价值达到115亿美元,是自2022年第二季度以来的最高水平。这是两项重大收购中的第一项,该公司还收购了Deci,这是一个优化人工智能模型以提高硬件效率的平台。这些交易总额估计为13亿美元,突显了硬件供应商愿意为加强其软件生态系统而进行的投资。竞争对手AMD紧随其后,以总计7.17亿美元的价格收购了Fireworks AI和silo AI,这表明并购集中在表现最好的股票的收购方身上。其他异常收购包括现代以9.23亿美元收购motion;JFrog以2.3亿美元收购Qwak。

​文档链接将分享到199IT知识星球,扫描下面二维码即可查阅!

]]>
欧盟统计局:2023年8%的欧盟企业员工使用AI开展业务 //www.otias-ub.com/archives/1701732.html Tue, 18 Jun 2024 18:00:00 +0000 //www.otias-ub.com/?p=1701732 2023年,欧盟拥有10名或以上员工的企业中有8%使用人工智能技术开展业务。

这一数据来自于最近更新的关于人工智能在企业中的应用统计。

人工智能是指使用文本挖掘、计算机视觉、语音识别、自然语言生成、机器学习和深度学习等技术来收集和/或使用数据来预测、推荐或决定(具有不同程度的自主性)实现特定目标的最佳行动的系统。

拥有10名或以上员工的企业使用人工智能技术的比例最高的是丹麦(15.2%)、芬兰(15.1%)和卢森堡(14.4%)。相反,罗马尼亚(1.5%)、保加利亚(3.6%)、波兰(3.7%)、匈牙利(3.7%)等国家的比例最低。

当谈到这些企业使用的人工智能技术类型时,自动化不同的工作流程或协助决策(基于人工智能的软件机器人过程自动化)是使用最多的,有3%的企业使用它。其次是进行书面语言分析(文本挖掘;2.9%)和机器学习(如深度学习;2.6%)。

使用的其他AI技术类型包括将口语转换为机器可读格式(语音识别;2.5%的企业),基于图像识别物体或人(图像识别,图像处理;2.2%),生成书面或口头语言(自然语言生成;2.1%),通过观察周围环境的自主决策实现机器的物理运动(自主机器人、自动驾驶汽车和自主无人机;0.9%)。

]]>
Zscaler:2024年AI安全报告 //www.otias-ub.com/archives/1694463.html Sun, 05 May 2024 22:00:56 +0000 //www.otias-ub.com/?p=1694463 人工智能不仅仅是一种开创性的创新,它现在已经成为一种常态。随着像ChatGPT这样的生成式人工智能工具在大大小小的方面改变着商业,人工智能正在深入到企业生活的结构中。但是,关于如何安全地采用这些人工智能工具,同时防御人工智能驱动的威胁的问题尚未解决。

企业正在工程、IT营销、财务、客户成功等部门迅速采用人工智能和机器学习工具。但是,他们必须平衡人工智能工具带来的众多风险,以获得最大的回报。

重要发现

人工智能/机器学习工具的使用量增长了594.82%,从2023年4月的5.21亿笔人工智能/机器学习驱动的交易增加到2024年1月的31亿笔。

企业阻止了18.5%的人工智能/机器学习交易,在几个月内被阻止的交易增加了577%。反映了对AI数据安全的担忧正在增长。

制造业产生的AI流量最多,占Zscaler云中所有人工智能/机器学习交易的20.9%,其次是金融和保险(19.9%)和服务业(16.8%)。

ChatGPT的使用率继续飙升,增长了634.1%。

产生人工智能和机器学习交易最多的前5个国家是美国、印度、英国、澳大利亚和日本。

企业正在向AI工具发送大量数据,2023年9月-2024年1月期间,人工智能/机器学习应用程序之间总共交换了569 TB的数据。

人工智能正在以前所未有的方式赋予威胁参与者力量,包括人工智能驱动的网络钓鱼活动、深度伪造和社会工程攻击、多态勒索软件、企业攻击面发现、自动化漏洞生成等等。

]]>
ClearML:59% 的高管缺乏必要的资源来满足企业领导层对生成式人工智能创新的期望 //www.otias-ub.com/archives/1627563.html Fri, 21 Jul 2023 12:23:11 +0000 //www.otias-ub.com/?p=1627563 一项最近的研究揭示了 Fortune1000(F-1000)企业在采用生成式人工智能(generative AI)方面的情况。这项由开源 AI 解决方案公司 ClearML 与 AI 基础设施联盟(AIIA)合作进行的研究揭示了高管面临的挑战和资源不足问题。

据全球调查显示,根据这项全球研究,59% 的高管缺乏必要的资源来满足企业领导层对生成式人工智能创新的期望。预算限制和有限的资源成为企业成功采用人工智能的关键障碍,阻碍了有形价值的创造。

研究还发现,66% 的受访者无法完全衡量其AI/ML项目对利润的影响和投资回报 (ROI) 。这凸显了大型企业中资金不足、人员不足和管理不足的人工智能、机器学习和工程团队根本无法有效量化结果。

调查还发现,企业对人工智能和机器学习投资的收入期望越来越高。超过半数的受访者(57%)表示,他们的董事会预计在未来财年从这些投资中获得两位数的增长,而37% 预计增长率为个位数。

生成式人工智能的采用情况

根据该研究,大多数受访者认为释放人工智能和机器学习用例来创造商业价值至关重要。81%的受访者将其视为最优先事项或三大优先事项之一。

此外,78% 的企业计划在2023财年采用 xGPT/LLM/生成式人工智能作为其人工智能转型计划的一部分,另有9% 的企业计划在2024年开始采用,使总数达到87%。

受访者也几乎一致 (88%) 同意其组织计划实施针对跨企业业务部门采用和使用生成式人工智能的政策。

尽管生成式人工智能和机器学习在企业中是一个关键的收入和创新引擎,59% 的高管缺乏充足的资源来满足商业领导层对生成式 AI 创新的期望。

他们面临预算和资源限制,阻碍了采用和价值创造。具体来说,在构建、执行和管理人工智能和机器学习流程时,人员、流程和技术都是 F-1000和大型企业高管确定的关键痛点:

42% 的受访者表示迫切需要人才,尤其是人工智能和机器学习专家,以推动成功。

另外28% 的受访者将技术视为主要障碍,表明缺乏统一的软件平台来管理其组织 AI/ML 流程的各个方面。

22% 的受访者将时间视为主要挑战,表示在数据收集、准备和手动管道构建上花费了过多的时间。

阻碍生成式人工智能采用的主要挑战

调查揭示了生成式人工智能采用中的一些主要挑战,包括定制和灵活性、数据保护、治理、安全与合规性以及性能和成本。AI 和生成式 AI 治理的关注不断上升,导致了严重的财务和经济后果。

研究发现,54% 的首席数据官、首席执行官、首席信息官、人工智能主管和首席技术官表示,他们未能治理人工智能/机器学习应用程序给企业带来了损失,而63% 的受访者表示,由于人工智能/机器学习应用程序治理不力,损失达5000万美元或更多。

当被问及在企业和业务部门中采用生成式 AI/LLMs/xGPT 解决方案时的主要挑战和障碍时,受访者确定了五个主要挑战,包括定制和灵活性、数据保留、治理、安全与合规性以及性能和成本。因此,企业需要增加对生成式 AI 的投资,并寻求集中的端到端平台,以提高可见性、无缝集成和低代码,从而推动生成式 AI 的采用。

自 站长之家

]]>
CSET:中国先进的人工智能研究报告 //www.otias-ub.com/archives/1531759.html Sat, 13 May 2023 22:00:06 +0000 //www.otias-ub.com/?p=1531759 报告根据公开信息分析中国正在采取什么措施实现通用人工智能,如公开表达和其他常见措施。虽然通常被认为是“通用人工智能”或 AGI,但本文拒绝了这个模棱两可的术语,以及它与机器智能的联系。这是一种支持识别在新环境中自主运行的具有广泛能力的人工智能。

本文探讨了原则上通向通用人工智能的路径,描述中国为实现该能力而正在进行的工作。中国研究的三个广泛领域被认为与通用AI具有潜在的密切关系:机器学习、类脑人工智能研究和脑机接口(BCI)。构成该生态系统的人员、机构和研究的数据是下游研究的基础。

用于构建数据库和原型观察板的方法使分析师能够捕获并预测中国 AI 相关事件。支持该试点的数据有条件地接受后续研究的发展,这些研究是在本地或与外部参与者一起完成的,涉及中国人工智能、人工智能的政治用途和其他新兴的中国技术。

2017 年,中国国务院发布了全面的“新一代人工智能发展规划”,旨在到 2030 年使中国成为世界领先的人工智能强国。这表明中国坚定不移地致力于推动人工智能的发展。

该计划有一个互补的目标,即实现“先发优势”。就人工智能而言,中国与能力较弱的国家之间的差距正在不断扩大,因为人工智能通过机器学习不断进化。


]]>
亚马逊云科技推动AI/ML创新三大驱动力 加速人工智能与机器学习的规模化落地 //www.otias-ub.com/archives/1487294.html Fri, 02 Sep 2022 07:03:35 +0000 //www.otias-ub.com/?p=1487294 北京——2022年9月2日,今天,在2022世界人工智能大会上,亚马逊云科技举办了“人工智能前沿技术趋势与最佳实践” 线上分论坛,分享了亚马逊云科技在人工智能与机器学习(AI/ML)领域的趋势洞察和前沿技术应用的最佳实践,并探讨了AI/ML如何赋能行业数字化转型。亚马逊云科技通过三大AI/ML创新驱动力——处理海量多样化数据、加速推动产业规模化落地以及赋能更多AI开发者,加速推动各行业创新。同时,在本次世界人工智能大会上,亚马逊云科技基于图神经网络技术构建的Amazon Neptune ML入围了2022年度 SAIL(Superior AI Leader,卓越人工智能引领者)TOP30榜单。

亚马逊云科技人工智能与机器学习产品副总裁Bratin Saha在本次分论坛上发表了主题演讲,他表示,AI/ML技术是当今最具变革性的技术之一,正在解决人类面临的一些最具挑战性的问题,也为我们提供了前所未有的新机遇。目前,全球数以万计的客户正借助我们全栈式的AI/ML服务,从海量数据中获得洞察、做出更准确的预测、减少运营开销、改善客户体验并创建全新的业务线,助力企业成为数据驱动的组织。

推出专门构建的数据准备工具,帮助客户处理海量多样化数据

如今,每时每刻都会有海量结构化以及如音频、视频、图像、医疗数据等非结构化数据的产生,企业要借助AI/ML技术创新,需要处理海量多样化的数据。亚马逊云科技为机器学习构建了专用的数据准备工具,帮助企业从海量多样化数据中获取洞察。其中,Amazon SageMaker Data Wrangler 为表格数据的数据准备提供了无代码/低代码接口,将聚合和准备机器学习数据所需的时间从几周缩短到几分钟;Amazon SageMaker Ground Truth能够轻松地从非结构化数据创建高质量的训练数据集,有效降低数据标注成本;Amazon SageMaker Feature Store专门用于存储、共享和管理ML模型特征。

提供从底层到应用的全套服务,加速推动AI/ML产业规模化落地

企业要获得实际的业务价值,需要规模化部署AI/ML,将其融入到业务的方方面面。亚马逊云科技如今为客户构建训练模型的参数已达到数十亿的规模,每个月提供数千亿预测结果,这样的规模效应推动了亚马逊云科技AI/ML的产业化落地实践。其中,在底层的基础设施,亚马逊云科技自研的面向机器学习推理和训练的加速芯片Amazon Inferentia和Amazon Trainium,可以帮助客户实现从扩展训练工作负载到部署加速推理的端到端 ML 计算流程。Amazon Elastic Compute Cloud (Amazon EC2) P4d实例与G5实例为客户提供了数倍于前代产品的ML性能。亚马逊云科技还在Amazon SageMaker Studio中提供了集成的机器学习工具,并通过Amazon SageMaker Pipelines自动化机器学习工作流程,极大提升了开发人员的工作效率。

降低机器学习门槛,赋能更多开发者共同构建AI/ML解决方案

亚马逊云科技通过降低机器学习开发门槛,让更多开发者参与其中。其中,Amazon SageMaker Studio Lab让任何人都可以轻松、快速地构建学习和实验机器学习的开发环境;Amazon SageMaker Canvas提供无代码扩展功能,非专业技术人员也能够快速从机器学习模型中获得准确的预测结果;基于Amazon AutoML框架的Amazon AutoGluon开源库使得开发人员只需编写几行代码,即可利用深度学习来构建应用程序。亚马逊云科技还通过与高校建立合作、举办Amazon DeepRacer比赛等项目,激发更多人参与机器学习创新。

此外,亚马逊云科技在本次分论坛上还分享了图神经网络、自动化机器学习(AutoML)等AI/ML前沿技术的应用实践。其中,亚马逊云科技基于图神经网络技术构建的Amazon Neptune ML在本次世界人工智能大会上,入围了2022年度 SAIL(Superior AI Leader,卓越人工智能引领者)TOP30榜单。作为Amazon Neptune图数据库的一项新功能,它可以实现整个图神经网络模型创建、配置、训练、测试和验证过程的自动化,并依托Amazon SageMaker平台,自动化部署模型和完成模型推断的调用。在实际应用中,Amazon Neptune ML解决了工业环境海量多样化数据、开发测试部署周期长和技术门槛高的难题。使用Amazon Neptune ML可以让图神经网络的部署时间从几周变成几天,并可以轻松地应对诸如欺诈检测和推荐等场景下数亿级别的数据规模。

]]>
亚马逊云科技:实现大数据与机器学习双剑合璧 //www.otias-ub.com/archives/1439773.html Mon, 23 May 2022 03:55:02 +0000 //www.otias-ub.com/?p=1439773 近年来,数字化转型已经被更多的企业接受,而初级的数字化也已经深入到“数“”智“融合阶段。红杉资本此前做的一项研究显示,企业数字化能力评估模型的重要一环是数据驱动的洞察与决策,即基于数据和复杂的算法推荐、预测等结果,帮助管理层做出更科学和高效的决策。

咨询机构能够从宏观上帮助企业进行数智融合的方法论指导,而作为企业的数字底座云计算厂商亚马逊云科技,有着更深层次的认识,能够帮助企业完成技术实现。

在不久前召开的《云领数智融合,重塑数据洞察》沟通会上,亚马逊云科技大中华区产品部总经理陈晓建建议,企业要重塑数据洞察,一定是将数据(大数据技术)和智能(机器学习技术)进行融合和统一。

大数据与机器学习的需求变化也越来越多。主要表现为四个方面:

组织架构层面:将原来分散在各个部门的机器学习实践进行整合,并与大数据项目进行统一协调和资源配置;

人员能力层面:要求和安排原有传统的大数据实践者掌握机器学习技术,应用到大数据具体项目或承接新的机器学习相关的项目需求,要求机器学习从业者也要掌握大数据处理能力,更好、更便捷地完成模型所需的数据准备和加工;

项目实施层面:仅依靠传统的大数据技术是无法全方位提供充足的数据见解,仍需要机器学习的模型能力补充,越来越多的数据项目会融合大数据和机器学习两者的能力;

工具支撑层面:需要面向大数据技术和机器学习构建统一的开发平台和技术基础,可能是对已有大数据平台进行改造增加机器学习相关场景和能力,或是完全推倒重新构建一个面向两者的通用的平台。

在现实中,数据分析与机器学习之间,存在着很多不协同的问题。如何将二者进行有效融合,陈晓建认为需要解决三个方面的问题:

第一:数据和机器学习分而治之,数据及技术孤岛制约敏捷迭代。

第二:数据处理能力不足。在生产制造企业,机器学习帮助客户对产品售后维修需求进行预测,由被动响应变为主动规划。但由于不具备足够的大数据处理能力,模型开发成功后 ,不能够有效收集处理海量的运营数据,致使预测不准确,无法达到预期业务目标。

第三:据分析人员参与度低。现实情况经常是,模型在实验环节效果良好,但实际使用中却不尽人意,实验环境只是对真实环境的简单模拟,生产环境要复杂得多。

与一般的咨询公司给出的方法论不同,亚马逊云科技能在技术细节上帮助企业更有效实现升级变革。这蕴含了亚马逊云科技三大技术能力:

构建云中统一的数据治理底座,打破数据及技能孤岛。亚马逊云科技能帮助客户构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排。云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。其中, Amazon Lake Formation推出诸多新功能,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制。Amazon SageMaker Studio可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker等,为大数据和机器学习提供统一的开发平台。

助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力。机器学习项目成功的关键是对复杂的数据进行加工和准备。亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。其中,Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。 以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。

让数据分析智能化,赋能业务人员探索创新。亚马逊云科技还不断提供更加智能的数据分析服务,赋能业务人员进行智能分析、模型效果验证以及自主式创新。例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。亚马逊云科技还提供如Amazon Redshift ML、可视数据准备工具Amazon Glue DataBrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务,让业务人员探索机器学习建模。

亚马逊云科技 “云、数、智三位一体”服务组合优势能够打破数据及技能孤岛、机器学习由实验转为实践、赋能业务人员探索创新。而企业则可以云中打造统一的数据基础底座,实现大数据和机器学习的双剑合璧,为企业发展提供新动力。

 

]]>
亚马逊云科技打造“云、数、智三位一体”服务组合,加速融合大数据和机器学习 //www.otias-ub.com/archives/1426141.html Wed, 27 Apr 2022 08:35:13 +0000 //www.otias-ub.com/?p=1426141 2022年4月27日,亚马逊云科技宣布推出“云、数、智三位一体”的大数据与机器学习融合服务组合,帮助企业推进大数据和机器学习的融合,将机器学习由实验转为规模化落地实践。亚马逊云科技“云、数、智三位一体”服务组合具体涵盖三个方面,分别是:构建云中统一的数据治理底座,为机器学习提供生产级别的数据处理能力,以及赋能给业务人员更加智能的数据分析工具。该服务组合是亚马逊云科技自去年推出 “智能湖仓”架构以来,持续推进该框架的深度智能并加速其落地实践。

亚马逊云科技大中华区产品部总经理陈晓建表示:“随着企业数据越来越多,机器学习模型越来越先进,很多企业期望通过大数据与机器学习技术的融合,进一步带动业务创新,提升产出。但企业往往面临一个困境,有大量的数据和分析技术储备,也尝试了很多先进的机器学习模型,但就是很难有实际的业务产出。企业不能只靠机器学习,而应在云中打造统一的数据基础底座,实现大数据与机器学习的‘双剑合璧’。 在大数据与机器学习领域,亚马逊云科技提供广泛而深入的服务,既有能打通两个领域的数据治理底层服务,还能实现大数据与机器学习之间的相互赋能。我们希望能凭借在这两个领域的领先技术以及服务全球数百万客户的实践经验,帮助客户加速实现大数据和机器学习融合的落地,为企业节本增效,提供业务发展的新动力。”

 

“云、数、智三位一体”的亚马逊云科技大数据与机器学习融合服务组合

亚马逊云科技 “云、数、智三位一体”的大数据和机器学习融合服务组合,是亚马逊云科技“智能湖仓”架构的重要组成。亚马逊云科技通过在云中构建统一的数据治理底座,提供数据分析服务保障机器学习的生产实践,实现机器学习反向赋能智能化数据分析,促进云、数、智三者的统一与融合,帮助客户推进机器学习项目的落地。

 

  • 构建云中统一的数据治理底座,打破数据及技能孤岛亚马逊云科技能帮助客户构建统一的数据治理底座,实现大数据和机器学习的数据共享,数据权限的统一管控,以及两者统一的开发和流程编排。云中统一的数据治理底座不仅能提升大数据和机器学习的高效融合,还能减少大数据和机器学习重复构建的工作,并且显著降低成本。其中, Amazon Lake Formation推出诸多新功能,实现了数据网格跨部门的数据资产共享,以及基于单元格的最细粒度的权限控制机制。Amazon SageMaker Studio可一站式地完成数据开发、模型开发及相关的生产任务,该服务基于多种专门构建的服务,如交互式查询服务Amazon Athena、云上大数据平台Amazon Elastic MapReduce (Amazon EMR)、云数据仓库服务Amazon Redshift、Amazon SageMaker等,为大数据和机器学习提供统一的开发平台。
  • 助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力。机器学习项目成功的关键是对复杂的数据进行加工和准备。亚马逊云科技提供多种灵活可扩展、专门构建的大数据服务,帮助客户进行复杂的数据加工及处理,应对数据规模的动态变化,优化数据质量。其中,Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。 以Amazon Redshift、Amazon Managed Streaming for Apache Kafka (Amazon MSK)和 Amazon EMR 为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。
  • 让数据分析智能化,赋能业务人员探索创新。亚马逊云科技还不断提供更加智能的数据分析服务,赋能业务人员进行智能分析、模型效果验证以及自主式创新。例如,在日常分析工具中集成机器学习模型预测能力,其中深度集成机器学习Amazon SageMaker模型预测能力的Amazon QuickSight 、在分析结果中添加基于模型预测的Amazon Athena ML,可帮助用户使用熟悉的技术,甚至通过自然语言来使用机器学习。亚马逊云科技还提供如Amazon Redshift ML、可视数据准备工具Amazon Glue Databrew、零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务,让业务人员探索机器学习建模。

全球数十万计的客户选择亚马逊云科技开展云上数智融合之旅

目前,全球数十万客户正借助亚马逊云科技大数据及机器学习服务开展业务创新,将机器学习投入实践,解决现实世界中真实和复杂的数据应用场景。乐我无限(Joyme)运营的全球化直播平台LiveMe,荟萃了来自200多个国家和地区的近100万名主播,每月活跃用户数(MAU)超过3700万。LiveMe基于亚马逊云科技的解决方案搭建了数据研发中心平台的核心技术服务。Joyme数据研发中心总监杨飞表示:“LiveMe核心业务均部署在亚马逊云科技上,通过亚马逊云科技的技术赋能,实现了降本增效,加速了业务创新。通过直播内容实时识别技术服务,LiveMe不仅提升了用户体验,还大量降低了内容管理的业务成本。通过欺诈交易识别技术服务辅助识别欺诈交易,减少欺诈、拒付类交易,LiveMe每年减少经济损失可达数百万美元。未来LiveMe将在系统稳定性、数据驱动以及新技术开发等方面加深与亚马逊云科技的合作。”

丰富的合作伙伴解决方案助推客户数字化转型

亚马逊云科技构建了强大的合作伙伴网络,通过合作伙伴网络成员帮助客户构建解决方案。亚马逊云科技合作伙伴上海欣兆阳(Convertlab)以云计算、大数据和人工智能为代表的数字化技术,为企业营销提供数字化、自动化、智能化基础设施以及相关的专业服务。Convertlab 联合创始人兼CTO李征表示:“基于亚马逊云科技统一的数据基础底座, Convertlab构建了相辅相成的一体化数据智能湖仓架构Data Hub和一体化高效机器学习平台AI Hub,使数据流转时效性提升32%,可进行快速的特征设计与机器学习模型迭代,模型上线效率提升30%。当前已上线5大营销特征类别,300多营销特征,20多营销AI模型,更好地赋能客户智慧营销,实现业务增长,助推行业数字化转型。”

此外,亚马逊云科技还通过数据科学实验室、机器学习实验室和机器学习专业服务等一系列定制化措施,从基础能力构建到行业前沿知识分享,帮助客户将“数据驱动转型”从设想到全面落地,重塑创新引擎。

]]>
PERKINS COIE LLP:2022年新兴科技趋势报告 //www.otias-ub.com/archives/1411076.html Mon, 11 Apr 2022 22:30:16 +0000 //www.otias-ub.com/?p=1411076 PERKINS COIE LLP发布了“2022年新兴科技趋势报告“,关注了人工智能、机器学习等新兴科技的最新发展趋势。

人工智能、机器学习和量子计算

赋能科技

深度学习

深度学习是使用深度神经网络架构的机器学习的一个子集。神经网络是互连的处理器,它们协同工作以解决问题。他们的灵感来自人脑中神经元的结构和功能。

部门和行业信号

美国航空航天局(NASA)“引爆点”计划使用人工智能驱动的分析

除其他目标外,NASA的“引爆点”计划旨在开发无需人工干预即可在月球表面导航的机器人。博世将通过“AIoT”支持该计划。AIoT是指人工智能和物联网(IoT)的结合。

云计算和分布式基础设施

云计算可以降低客户的成本,特别是当它们被应用于云服务提供商的物流流程以降低成本时,例如通过更好地利用电力和冷却系统。

云计算在各行各业都有广泛的应用。医疗保健专业人员使用该技术提供远程医疗解决方案、管理客户数据和使用诊断系统。金融机构已将其用于各种银行和金融服务产品,包括存储和访问客户账户数据等传统管理任务。

数字媒体和娱乐

赋能科技

数字媒体和娱乐的融合

不同形式的数字娱乐之间的壁垒正在瓦解。音乐会以多种形式举行,美术馆提供沉浸式体验,社交媒体平台界面变得越来越相似,而已经引入互动内容的流媒体服务也将很快扩展到沉浸式现实和游戏平台。

PDF版本将分享到199IT知识星球,扫描下面二维码即可!

]]>
美国商业专利数据库:2021年美国专利授权量下降7.5% //www.otias-ub.com/archives/1393572.html Tue, 01 Mar 2022 18:00:35 +0000 //www.otias-ub.com/?p=1393572 美国申请活动

2021年美国专利授权总量比2020年下降7.5%,是自2018年以来的最大跌幅。授权从2020年的352,000项下降到去年的327,329项。在此期间,专利申请也略有下降(-1%),从413,173项降至410,093项。

哪些国家获得的专利最多?

在获得授权最多的前10个国家中,美国公司在创新方面遥遥领先于国际同行,占美国专利商标局2021年所有专利授权的一半以上。其150,801项新授权比日本(47,105)、韩国(21,264)、中国(20,679) 和德国(14,663)的总和高出69%。

中国崛起,而其他国家则在衰落

在美国专利授权在全球企业下降8%-12%的一年,中国企业脱颖而出,增长10%,从2020年的18,792项增加到2021年的20,679项。目前共有四家中国公司进入美国专利50强,其中华为排名第5,京东方排名第11,Advanced New Technologies排名第43,OPPO排名第49。

区域趋势

与2020- 2021年美国专利活动的整体下降相一致,今年所有地区均出现负增长。

美国专利商标局授予的机器学习专利

对专利进行分类很复杂,这就是为什么使用合作专利分类(CPC) 来对以前不存在的方法、设备和过程进行分类的原因。

寻求专利保护的顶尖技术

与2020年的情况一样,2021年专利申请增长最快的是基于计算模型的计算机系统 G06N,与2020-21年相比增长了24%。

]]>
亚马逊云科技智能湖仓架构:从上云到实时决策的数据服务整体解决方案 //www.otias-ub.com/archives/1297955.html Wed, 18 Aug 2021 08:53:44 +0000 //www.otias-ub.com/?p=1297955 数据存储处理分析比以往更复杂,而效率和成本催生了智能湖仓架构的兴盛。

本文来源:199IT Ralf

2019年,全球汽车巨头丰田着手自身车联网服务的打造。通过给汽车配备车载数据通信模块DCM,用户授权将数据传到丰田互联构建的超大数据湖里面,对数据湖里的数据分析驾驶员可以更安全地使用汽车。包括精准感知车况、驾驶习惯的科学建议、甚至根据驾驶习惯来判断保险折扣。

这一超大车联网系统背后的重要一环是亚马逊云科技数据湖的强力支持。

而今,数据存储处理分析比以往来得更为复杂。效率和成本催生了智能湖仓架构的兴盛。虽然智能湖仓架构并非新近提出,但亚马逊云科技在2020 re:Invent上,迭代自身的智能湖仓架构,其要点在于智能湖仓架构对整体数据的更好支撑。

为何会需要智能湖仓架构,如果从应用的结果层面来看,亚马逊云科技大中华区云服务产品部总经理顾凡给出的三个挑战或许说明了一些问题。

顾凡认为,首先,当前数据呈指数级增长,从GB、TB、PB到EB,从结构化到半结构化到非结构化数据。数据量及非结构化数据越来越大。

其次,数据面临更为复杂的使用场景。不同分析场景下的数据会需要技术更加的个性化和定制化。数据驱动决策对象范围越来越大。

再次,基于实时数据的快速决策,让以前几天的决策变成了分钟级别决策,甚至在一些实时流分析中实时就应该给到决策。

从应用深入到底层,一个被反复提及的重点是数据的无缝移动。无缝移动在哪几个之间移动,数据湖、数据仓库以及围绕着数据湖周边构建的所有的这些专用的数据存储,SQL的数据库,Non-SQL的数据库,甚至更多不同的分析引擎。数据如何在湖、仓和不同的数据专用分析服务之间移动非常关键。

如何构建智能湖仓架构,亚马逊云科技所定义的智能湖仓架构不仅仅是湖和仓的打通,而是湖、仓专门构建数据服务连接成一个整体。

顾凡表示,“要构建一个数据湖要有专门构建的数据分析服务,要能做到数据、湖、仓和专门构建的数据服务的无缝数据移动,统一管理、低成本,这是我们所定义的亚马逊云科技智能湖仓架构。“

亚马逊云科技“智能湖仓”架构具有以下五个特点。

灵活扩展,安全可靠。亚马逊云科技“智能湖仓”架构用Amazon S3作为数据湖的存储基础,客户可根据不断变化的需求,灵活扩展或缩减存储资源。Amazon S3可达到 99.999999999%(11 个 9)的数据持久性,且具有强大的安全性、合规性和审计功能。

专门构建,极致性能。为了满足客户不同的数据分析需求,亚马逊云科技提供全面而深入的、专门构建的数据分析服务,包括交互式查询服务Amazon Athena、云上大数据平台Amazon EMR、日志分析服务Amazon Elasticsearch Service、Amazon Kinesis、云数据仓库Amazon Redshift等。这些专门构建的数据分析服务为客户提供了极致性能,客户在使用过程中不必在性能、规模或成本之间做出任何妥协。其中Amazon Redshift的性价比是其他企业云数据仓库的三倍,AQUA(分布式硬件加速缓存)使 Redshift 查询的运行速度比其他其他云数据仓库最高快 10 倍;Amazon EMR运行大数据处理及分析服务的成本不到传统本地解决方案的一半,但其速度比标准 Apache Spark 快 3 倍以上。

数据融合,统一治理。亚马逊云科技“智能湖仓”架构不止是打通了数据湖、数据仓库,还进一步将数据湖、数据仓库以及所有其它数据服务组成统一且连续的整体。在实际应用场景中,数据需要在这些服务与数据存储方案之间,以及服务与服务之间按需来回移动,跨服务访问。亚马逊云科技“智能湖仓”架构降低了数据融合与数据共享时统一安全管控和数据治理的难度。其中,Amazon Glue提供数据无缝流动能力,Amazon Lake Formation提供了快速构建湖仓、简化安全与管控的全面数据管理能力。

敏捷分析,深度智能。亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成,为客户提供更智能的服务。例如Amazon Aurora ML、Amazon Redshift ML、Neptune ML等,数据库开发者只需使用熟悉的 SQL 语句,就能进行机器学习操作;Amazon Glue、Amazon Athena ML、Amazon QuickSight Q等,可以帮助用户使用熟悉的技术,甚至自然语言来使用机器学习,帮助企业利用数据做出更好的决策。用户还可以通过机器学习服务Amazon SageMaker、个性化推荐服务Amazon Personalize等挖掘数据智能。

拥抱开源,开放共赢。亚马逊云科技“智能湖仓”架构中的关键组件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基于开源代码,接口与开源完全兼容,无需改变任何代码就可以实现迁移,也兼容主流的管理工具。OpenSearch 基于开放的Apache2.0 授权,其代码完全开放,用户可以免费下载使用并获得企业级的功能。这些服务允许用户在转型过程中,以非常低的改造成本向云端迁移。

在顾凡眼中,数据的价值实现有三个步骤:第一是如何把数据基础设施现代化,采用云上的云原生数据库。第二如何从数据中真正产生价值,包括诸多的分析的工具。第三,如何用机器学习更好地辅助决策,甚至是驱动决策。

目前,亚马逊云科技已经打通旗下机器学习Amazon SageMaker和湖仓的融合,同时实现机器学习的再扩圈,数仓和数据库的开发人员或者分析师是SQL专家,但不懂Python,可以让他们能很快上手使用机器学习,而不用让数据科学家帮自己构建算法模型。

]]>
陕西科技大学利用亚马逊云科技加速探索大脑奥秘 致力于为全球数亿听障人士带来新声 //www.otias-ub.com/archives/1263459.html Thu, 17 Jun 2021 00:06:54 +0000 //www.otias-ub.com/?p=1263459 2021年6月16日,陕西科技大学创造性地利用亚马逊云科技的算力、机器学习平台,以及云上开源数据集进行人类脑部活动的研究,将项目研发实践时间从使用本地算力、自建机器学习环境所需的一年减少至105天,缩短三分之二,加快科研进度,通过皮肤听声致力于为全球数亿听障人士带来福音。

人类脑部活动研究是陕西科技大学著名的皮肤听声研究项目的一个延伸课题。皮肤听声是通过声电转化,将声音信号转化为电流,刺激人体皮肤,信息反馈到相关的大脑功能区,实现听声效果。通过反复训练,能够让听障人士获得语言能力。此技术不依赖于人体的任何残余听力,让全聋人士也可以感受到声音信号,比助听器及电子耳蜗有更大的优越性。

当今,全球有4.6亿人受到听障问题的困扰,其中,在中国有2600万听障残疾人士,零听力人士超过500万。对尚具微弱听力的听障人士,目前可以利用人工耳蜗进行补救,但是数十万的设备费用、手术费用、专业教师训练费,阻碍了大多数患者的求医之路。与此同时,人工耳蜗仍不能治愈零听力。该研究团队的项目如果能让皮肤听声技术得到推广,将是全球数亿听障人士的福音。

要更好地实现皮肤听声,就要更准确地知道声音和皮肤刺激是如何作用于脑部拓扑功能区的具体区域,以保证刺激信号的一致性。《功能磁共振图像 (fMRI) 解码的无参数注意力》研究,是利用开源的功能磁共振图像数据集,对大量的脑部磁共振图像进行可视化分析。分析过程中,需要分批获取原始数据集,对原始数据集进行数据预处理,汇入标准数据集,将标准数据集输入卷积神经网络,输出可视化的结果。

研究团队使用的高质量开源数据集全部存储于Amazon Simple Storage Service (Amazon S3) 上,数据量高达12TB。如果将数据下载到学校实验室的本地计算机进行处理,需要数周时间才能完成下载。同时,如果利用学校实验室的算力来处理这些数据,在开始处理数据之前,需要花费很多时间搭建和配置机器学习环境;在开始处理数据之后,面对高达12TB的数据,实验室的本地工作站犹如小马拉大车,速度往往以周计算。

最终,研究团队决定采用上云方式,使用亚马逊云科技的云上算力进行数据处理,不仅节省了长达数周的数据下载时间,而且通过使用Amazon SageMaker机器学习平台,不需要自己搭建机器学习环境,既省时也省力。研究团队使用Amazon SageMaker处理Amazon S3上的数据,数据存取速度比使用本地实验室算力提高了10倍,并仅用3个多月时间,就处理完成了包括1200份受试者数据的开源数据集,获得了解码精度达88.7%脑功能区可视化数据,让整个研究项目的实验时间缩短了三分之二,研究总周期减少了一半。

研究团队负责人齐勇博士表示,“使用亚马逊云科技最大的好处就是方便快捷。不仅能快速准备好海量数据,而且由于使用Amazon SageMaker开展机器学习,不用自己搭建机器学习环境,数据的处理均可以在云上进行,从而解放了团队大量的精力。在2020年疫情期间,研究团队不用集中到实验室,通过远程即可实现协作,真正做到让团队专注于研究项目上,节省了大量的宝贵时间。”

研究团队在此项目中形成的脑功能解码可视化分析平台,有望为脑科学研究提供脑部功能拓扑状态探测仪器,借助功能核磁共振图像(fMRI)探究皮肤触觉与大脑认知区域中血红蛋白变化速率的定量分析方法。同时,运用基于注意力模型的深度学习计算机视觉分析技术,与现有的医疗影像分析框架相结合,将大脑图像信息快速解耦,分离得到脑部的拓扑功能分配机制,分析大脑皮层功能区域的变化特点,有助于识别各类脑疾病,判断病灶部位,并对进一步了解脑部功能机制提供非主观可重复实验的数据样本。

亚马逊云科技大中华区商业事业部总经理李晓芒表示,“亚马逊云科技在云计算以及人工智能领域的愿景,简单总结就是普惠。我们非常高兴看到亚马逊云科技的产品和服务能够帮助陕西科技大学科研团队在人类脑部活动这样领先的科研项目中,做出有望让众多患者受益的研究成果,造福大众,让普惠的内涵得到进一步延伸。”

]]>
亚马逊云科技机器学习扎根中国产业带:二三线城市独具创新潜力 //www.otias-ub.com/archives/1254339.html Mon, 31 May 2021 02:01:19 +0000 //www.otias-ub.com/?p=1254339 本文来源:199IT  作者: Ralf

作为人工智能的重要部分,机器学习已经走过几十年时间。伴随着大数据时代,数据量级的几何倍增加,让机器学习能有更多的用武之地并焕发新的生命力。

传统的认知上,机器学习为代表的人工智能技术,更多地存在于一线城市科技领域,特别是互联网巨头所盘踞的各个方向。资源丰富、业务量大、科研技术人员多、应用方向广等奠定了一线城市的独特优势。而二三线城市,基础资源薄弱和人才缺乏,限制了机器学习等顶尖技术的发展。

然而,在亚马逊云科技机器学习Amazon SageMaker落地中国区一周年之际,亚马逊云科技大中华区云服务产品管理总经理顾凡却给我们带来了一些不同的视角,颠覆了此前对二三线城市尖端技术发展的趋势预判。

首先从行业的角度,顾凡认为一线城市的确有其得天独厚的优势,一线城市有大量的互联网公司和软件公司。这些公司的业务特征决定了它们比其他行业不得不走得更快更早一点。“无论是看新闻、听音乐、看视频还是购物,它们哪种客户体验没有机器学习?“北上广深一线城市涵盖了整个移动互联网。就行业而言,一线城市机器学习的应用程度的确高于其他线城市。

但如果从产业的角度,结论就非常有意思。放眼全中国很多省份和地域都会有产业的特点,特别是传统工业制造业基本分布在二三线城市。怎么使用机器学习的方式去做智能的、基于人工智能的质量监测,提升良品率和效率,降低人的参与度,甚至在未来工业制造现代化的过程当中怎么做设备的预前故障检测等等。大量的需求在这些产业带中产生。当产业带中有企业通过机器学习解决了某个行业问题,行业都会复制,带动整个行业的技术创新,而这种创新会更多落在这些产业带所属的二三线城市。

顾凡认为,越是传统行业,杠杆效应越高,因为这些传统行业的基础面大影响面广,可能与每个居民都息息相关。

一个比较典型的例子是山东淄博市热力集团有限责任公司。在使用机器学习技术之前,热力行业普遍遇到了从传统供热到产业智能化方向的瓶颈。淄博热力集团选择与亚马逊云科技一道,解决行业难题,并形成了行业创新标准同时将这一创新能力向同行做技术输出。

淄博热力集团利用亚马逊云科技丰富的AL/ML技术和服务,快速构建、训练和部署机器学习模型,实现了精准供热,可以根据气象、工控数据、建筑物维护结构等信息计算出最佳的供热模式,并给出具体的操作指令,既让用户室温始终保持人体最佳舒适温度,又做到尽可能节约成本。

淄博市热力集团通过机器学习技术,将自身多年的行业专家级经验转化为全国领先的技术创新,成为众多同行的“产业智能化“师傅。这凸显了顶尖技术与产业带结合迸发出的创新潜力。而这些业务与民众的生活更为相关,解决了很多的实际问题。

淄博市能源集团公司、淄博市热力集团有限责任公司党委书记、董事长汪德刚表示,“多年来,淄博热力利用信息化手段改造传统供热,致力于成为行业标准的制定者和行业发展的引领者。通过与亚马逊云科技合作,借助机器学习能力创新,建成了基于机器学习和大数据分析的智能供热平台,帮助我们从传统供热向产业智能化方向转型,在满足用户需求的同时实现节能减排,建立绿色能源生态系统。未来,希望我们能借助先进的云技术持续创新,推动国内热力行业的数字化、智能化转型。“

据亚马逊云科技提供的数据,目前,全球数以十万计的客户选择亚马逊云科技运行机器学习工作负载。在中国,亚马逊云科技机器学习服务得到医疗健康、教育、出行、工业智能、游戏、新媒体等各个行业客户的青睐,益体康、晶泰科技、新世纪医疗、LEMONBOX、有道乐读、叽里呱啦、全美在线、首汽约车、德比软件、Momenta、图森未来、行者AI、天和荣、中科创达、华来科技、大宇无限、陕西科技大学、易点天下、淄博热力等一批企业和机构的广泛采用,在各行各业实现了丰富多样的人工智能应用创新。

顾凡认为,全中国很多省份蕴含着不同的产业带特性,包括很多自动驾驶的汽车研发基地、跨境电商基地等,这些散布在二三线城市区域存在很多创新场景。“谁先用机器学习解决了一个场景,别人就会关注这个场景,所以从行业维度来看其实是很明显的,可以看到有扩大的效应在形成。“

在Amazon SageMaker落地中国区一周年之际,亚马逊云科技宣布进一步落地多项人工智能与机器学习的新服务和功能。

其中技术部分包括顶层-人工智能服务、中间层-机器学习服务以及底层-框架和基础架构。

在人工智能(AI)服务层面,亚马逊云科技在北京区域推出了Amazon Personalize,客户无需具备机器学习专业知识,即可方便、快速地构建个性化推荐系统。

在中间层,将Amazon SageMaker在re:Invent 2020上亮相的包括Data Wranger、Feature Store、Pipelines等七项新功能在北京区域和宁夏区域上线,让客户可以更轻松地构建端到端的机器学习管道。

在算力层面,亚马逊云科技在北京区域和宁夏区域推出了Amazon EC2 Inf1实例,该实例基于亚马逊云科技自研机器学习推理芯片Amazon Inferentia,与当前成本最低的基于GPU的实例相比,可以提高多达30%的吞吐量,并使每次推断的成本最高降低45%。

2021年1月,工信部印发《工业互联网创新发展行动计划(2021-2023年)》,制定了一系列推动工业互联网新型基础设施建设量质并进的发展目标。3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(以下简称“纲要”)全文正式发布。在共19篇65章的纲要全文中,“智能”“智慧”相关表述达57处。

作为拥有全球领先机器学习技术能力的云计算厂商,亚马逊云科技正在扎根中国产业带,让这些传统的产业带与顶尖技术结合,碰撞出更多的创新机遇。

]]>
亚马逊云科技机器学习扎根中国产业带:二三线城市独具创新潜力 //www.otias-ub.com/archives/1253193.html Fri, 28 May 2021 09:53:49 +0000 //www.otias-ub.com/?p=1253193 本文来源:199IT  作者: Ralf

作为人工智能的重要部分,机器学习已经走过几十年时间。伴随着大数据时代,数据量级的几何倍增加,让机器学习能有更多的用武之地并焕发新的生命力。

传统的认知上,机器学习为代表的人工智能技术,更多地存在于一线城市科技领域,特别是互联网巨头所盘踞的各个方向。资源丰富、业务量大、科研技术人员多、应用方向广等奠定了一线城市的独特优势。而二三线城市,基础资源薄弱和人才缺乏,限制了机器学习等顶尖技术的发展。

然而,在亚马逊云科技机器学习Amazon SageMaker落地中国区一周年之际,亚马逊云科技大中华区云服务产品管理总经理顾凡却给我们带来了一些不同的视角,颠覆了此前对二三线城市尖端技术发展的趋势预判。

首先从行业的角度,顾凡认为一线城市的确有其得天独厚的优势,一线城市有大量的互联网公司和软件公司。这些公司的业务特征决定了它们比其他行业不得不走得更快更早一点。“无论是看新闻、听音乐、看视频还是购物,它们哪种客户体验没有机器学习?“北上广深一线城市涵盖了整个移动互联网。就行业而言,一线城市机器学习的应用程度的确高于其他线城市。

但如果从产业的角度,结论就非常有意思。放眼全中国很多省份和地域都会有产业的特点,特别是传统工业制造业基本分布在二三线城市。怎么使用机器学习的方式去做智能的、基于人工智能的质量监测,提升良品率和效率,降低人的参与度,甚至在未来工业制造现代化的过程当中怎么做设备的预前故障检测等等。大量的需求在这些产业带中产生。当产业带中有企业通过机器学习解决了某个行业问题,行业都会复制,带动整个行业的技术创新,而这种创新会更多落在这些产业带所属的二三线城市。

顾凡认为,越是传统行业,杠杆效应越高,因为这些传统行业的基础面大影响面广,可能与每个居民都息息相关。

一个比较典型的例子是山东淄博市热力集团有限责任公司。在使用机器学习技术之前,热力行业普遍遇到了从传统供热到产业智能化方向的瓶颈。淄博热力集团选择与亚马逊云科技一道,解决行业难题,并形成了行业创新标准同时将这一创新能力向同行做技术输出。

淄博热力集团利用亚马逊云科技丰富的AL/ML技术和服务,快速构建、训练和部署机器学习模型,实现了精准供热,可以根据气象、工控数据、建筑物维护结构等信息计算出最佳的供热模式,并给出具体的操作指令,既让用户室温始终保持人体最佳舒适温度,又做到尽可能节约成本。

淄博市热力集团通过机器学习技术,将自身多年的行业专家级经验转化为全国领先的技术创新,成为众多同行的“产业智能化“师傅。这凸显了顶尖技术与产业带结合迸发出的创新潜力。而这些业务与民众的生活更为相关,解决了很多的实际问题。

淄博市能源集团公司、淄博市热力集团有限责任公司党委书记、董事长汪德刚表示,“多年来,淄博热力利用信息化手段改造传统供热,致力于成为行业标准的制定者和行业发展的引领者。通过与亚马逊云科技合作,借助机器学习能力创新,建成了基于机器学习和大数据分析的智能供热平台,帮助我们从传统供热向产业智能化方向转型,在满足用户需求的同时实现节能减排,建立绿色能源生态系统。未来,希望我们能借助先进的云技术持续创新,推动国内热力行业的数字化、智能化转型。“

据亚马逊云科技提供的数据,目前,全球数以十万计的客户选择亚马逊云科技运行机器学习工作负载。在中国,亚马逊云科技机器学习服务得到医疗健康、教育、出行、工业智能、游戏、新媒体等各个行业客户的青睐,益体康、晶泰科技、新世纪医疗、LEMONBOX、有道乐读、叽里呱啦、全美在线、首汽约车、德比软件、Momenta、图森未来、行者AI、天和荣、中科创达、华来科技、大宇无限、陕西科技大学、易点天下、淄博热力等一批企业和机构的广泛采用,在各行各业实现了丰富多样的人工智能应用创新。

顾凡认为,全中国很多省份蕴含着不同的产业带特性,包括很多自动驾驶的汽车研发基地、跨境电商基地等,这些散布在二三线城市区域存在很多创新场景。“谁先用机器学习解决了一个场景,别人就会关注这个场景,所以从行业维度来看其实是很明显的,可以看到有扩大的效应在形成。“

在Amazon SageMaker落地中国区一周年之际,亚马逊云科技宣布进一步落地多项人工智能与机器学习的新服务和功能。

其中技术部分包括顶层-人工智能服务、中间层-机器学习服务以及底层-框架和基础架构。

在人工智能(AI)服务层面,亚马逊云科技在北京区域推出了Amazon Personalize,客户无需具备机器学习专业知识,即可方便、快速地构建个性化推荐系统。

在中间层,将Amazon SageMaker在re:Invent 2020上亮相的包括Data Wranger、Feature Store、Pipelines等七项新功能在北京区域和宁夏区域上线,让客户可以更轻松地构建端到端的机器学习管道。

在算力层面,亚马逊云科技在北京区域和宁夏区域推出了Amazon EC2 Inf1实例,该实例基于亚马逊云科技自研机器学习推理芯片Amazon Inferentia,与当前成本最低的基于GPU的实例相比,可以提高多达30%的吞吐量,并使每次推断的成本最高降低45%。

2021年1月,工信部印发《工业互联网创新发展行动计划(2021-2023年)》,制定了一系列推动工业互联网新型基础设施建设量质并进的发展目标。3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(以下简称“纲要”)全文正式发布。在共19篇65章的纲要全文中,“智能”“智慧”相关表述达57处。

作为拥有全球领先机器学习技术能力的云计算厂商,亚马逊云科技正在扎根中国产业带,让这些传统的产业带与顶尖技术结合,碰撞出更多的创新机遇。

]]>
亚马逊云科技顾凡:对企业成功应用机器学习的四点建议 //www.otias-ub.com/archives/1252544.html Thu, 27 May 2021 03:43:57 +0000 //www.otias-ub.com/?p=1252544 作者:亚马逊云科技大中华区云服务产品管理总经理 顾凡

随着机器学习不断向纵深发展,越来越多的传统企业也开始应用机器学习进行业务创新,实现业务重塑。麦肯锡此前刊发的针对人工智能对世界经济的影响专题报告显示,预计到2030年,人工智能将为全球经济贡献13万亿美元。零售、运输、物流、制造业和农业等传统领域在人工智能和机器学习赋能之后,带动的经济贡献或将远超软件和信息服务业。而且,对比软件与信息服务业,这些行业也更需要被赋能,以帮他们更好地部署和使用人工智能和机器学习。

结合亚马逊全球20年机器学习的创新实践,以及亚马逊云科技帮助逾10万客户在云上使用机器学习的经验,我们对传统企业成功应用机器学习总结了四点建议。

一、制定明确的数据策略

机器学习三要素包括数据、算法和算力,三者缺一不可。

对于多数行业来说,收集和处理数据是一个难题。因此,企业开始应用机器学习之前,首先需要充分了解自己的数据现状并制定数据策略。什么数据现在可用?什么数据通过一定的工作可以变得简单易用?如果已经确定几个想尝试利用机器学习的场景,就可以采用逆向工作法,根据目标进行倒推,推算出需要的数据、目前已经具备的数据和依然缺失的数据,以及从现在开始需要搜集的数据。解决了这些问题,制定了明确的数据策略,才会有真实、准备充分的数据去应对基于机器学习的业务创新需求。

部分客户虽然搜集了很多数据,但数据的就绪程度较低,数据质量不高。例如,如果传感器送过来的数据有异常值或缺失值,那么以此为基础应用机器学习,训练出来的模型大概率是不够精准的。

二、从合适的场景切入

企业在应用机器学习的时候往往千头万绪,那么开展机器学习应该从什么项目切入呢?这里给大家一个决策参考框架,可以从数据就绪状态、业务影响和机器学习适用性三个维度进行评估。企业可以选择数据就绪度高、有业务价值但是业务影响低、机器学习适用性高的应用场景作为机器学习试点和示范项目。

具体从三个方面入手。第一,在开展机器学习的早期阶段,公司内部可能对其带来的作用还有些疑惑,因此需要从一个投入相对小的创新项目开始实验,它不会影响公司的核心业务,一旦成功可以帮助企业积累经验,同时赢得内部的信任。

第二,这个项目既需要有业务价值,还要适用于机器学习,取二者的交集。第三,找到一个场景机器学习只是作为辅助去自动化加速工作的某一个环节,而不是替代人。例如,医生对病人的诊断由非常多的环节组成,其中看心电图、X光片的过程可以利用机器学习实现自动化,加速医生的诊断过程,但机器学习不会取代医生的工作,对治疗过程本身带来的影响比较小,更容易得到医生的支持和配合。

在成功交付了几个3到6 个月可以完成的小型项目后,企业就会有足够的信心和动力去获得领导团队的支持,加大机器学习项目投入,逐步应用机器学习来改造核心业务。

以嘉实财富管理有限公司为例,它是嘉实基金旗下的独立财富管理机构,在全国主要城市均设有财富管理服务中心,2020年为客户创造回报超过31亿元。作为金融企业,嘉实财富以媒体平台作为切入点,借助亚马逊云科技提供的标准AI 能力,包括开箱即用工具以及机器学习服务平台上定制的 AI模型,形成了集媒资入库、语音转录、短视频生成、个性化推荐为一体的媒体处理平台,让金融企业有机会将客户需要的金融视频,精准的推荐给客户,从更多的渠道触达客户。

三、数据科学家业务化

针对企业成功应用机器学习的第三个建议是要让数据科学家业务化。以亚马逊构建机器学习团队为例,在亚马逊,我们没有将数据科学家单独放到一个中央团队,而是将数据科学家与产品、业务团队放在一起,让数据科学家业务化。亚马逊致力于以客户为中心,我们的机器学习科学家首先要以提高客户体验为出发点,而不是从研究机器学习算法开始。

数据科学家业务化是亚马逊的重要经验。我们把这一经验复制到亚马逊云科技的客户项目中。当客户缺乏数据科学家时,亚马逊云科技的数据科学家和工程师会加入项目团队,与客户的业务开发团队一起工作,凝聚数据科学家和领域专家的力量,为提高客户体验而进行创新发明。

传统企业通常没有既精通业务又精通机器学习技术的专家和数据科学家,因此也可以把数据科学家/机器学习技术专家与业务领域专家放在一起实现技术创新。山东淄博市热力集团就成功地通过亚马逊云科技的赋能,将其业务领域专家和机器学习技术专家拧成一股绳。淄博热力利用亚马逊云科技丰富的人工智能和机器学习技术和服务,双方联合研发一套基于机器学习的智慧供热专家系统,根据气象、SCADA工控数据、建筑物维护结构等信息计算出最佳的供热模式,并给出具体的操作指令,实现精准供热,既让用户室温始终保持人体最佳热舒适温度,又做到节能增效。

四、应对技能差距

当前,多数企业部署和应用机器学习最大的瓶颈之一是机器学习人才的缺口。新兴公司争抢机器学习人才,同时各类传统企业也需要机器学习人才。在这种情况下,企业寻找能够对其提供帮助、为企业赋能的服务商是解决这一问题的最佳途径。

我们在与行业客户交流中发现,很多行业问题需要对算法进行大量的迭代和优化,不断提高精准度。一些行业难题,甚至需要研究新的算法进行破解。面对这些复杂的行业问题,不能停留在只教会客户使用工具上。亚马逊云科技的做法是“扶上马、送一程”。我们集合了解决方案架构师、人工智能实验室、数据实验室、快速开发团队和专业服务团队,根据客户的项目需要,参与到项目的生命周期当中,与客户共同寻找适用于机器学习的业务场景,跟业务人员、技术人员在一起开发出产品原型,然后快速迭代进行实施。让客户以尽可能小的试错成本完成产品原型开发,弥补客户的技能差距。

通过这样的方式,我们授人以渔,赋能客户创新,并且一直坚持平台思维,让更多的人使用亚马逊云科技进行创造和发明,让人工智能和机器学习普惠。亚马逊创始人杰夫•贝佐斯说过,创新有多种形式和各种规模,最激进和最具变革的创新是帮助他人释放创造力,实现其梦想。

亚马逊云科技的一大核心目标,就是将机器学习能力交付至每一位开发人员手中。借助Amazon SageMaker能够帮助客户快速构建、训练以及部署机器学习模型的能力,我们得以更进一步,将机器学习能力交付至更多希望基于机器学习创新的用户手中。

总之,企业客户应用机器学习大有可为,建议企业制定好明确的数据策略,寻找适合机器学习的应用场景作为切入点,先突破创新业务,再改造核心业务。同时让数据科学家深入业务,避免闭门造车。希望越来越多的企业通过机器学习实现不断创新和发展,在激烈的竞争之中立于不败之地。

]]>
亚马逊云科技在中国区域上线机器学习新服务 打造广泛而深入的人工智能与机器学习工具集 //www.otias-ub.com/archives/1244317.html Tue, 11 May 2021 09:13:51 +0000 //www.otias-ub.com/?p=1244317 Amazon SageMaker机器学习服务落地中国一周年

2021年5月11日,在完全托管的机器学习服务Amazon SageMaker落地中国区域一周年之际,亚马逊云科技宣布通过与光环新网和西云数据的紧密合作在中国区域进一步落地多项人工智能与机器学习的新服务和功能,丰富了其针对不同企业需求而打造的人工智能与机器学习 (AI/ML)工具集。亚马逊云科技针对不同需求的客户在机器学习技术堆栈三个层面提供广泛而深入的机器学习服务,包括顶层-人工智能服务、中间层-机器学习服务以及底层-框架和基础架构。在人工智能(AI)服务层面,亚马逊云科技在北京区域推出了Amazon Personalize,客户无需具备机器学习专业知识,即可方便、快速地构建个性化推荐系统;在中间层,将Amazon SageMaker在re:Invent 2020上亮相的包括Data Wranger、Feature Store、Pipelines等七项新功能在北京区域和宁夏区域上线,让客户可以更轻松地构建端到端的机器学习管道;在算力层面,亚马逊云科技在北京区域和宁夏区域推出了Amazon EC2 Inf1实例,该实例基于亚马逊云科技自研机器学习推理芯片Amazon Inferentia,与当前成本最低的基于GPU的实例相比,可以提高多达30%的吞吐量,并使每次推断的成本最高降低45%。

亚马逊云科技大中华区云服务产品管理总经理顾凡表示,“Amazon SageMaker落地中国区域一年以来,我们见证了中国各个行业各种类型客户积极应用亚马逊云科技服务进行机器学习创新,我们希望通过将更多服务落地到中国区域,并坚持‘授人以鱼不如授人以渔’,甚至更进一步‘扶上马,送一程’的方式,帮助客户更快应用机器学习技术,把机器学习的能力交到每一位构建者手中,加速人工智能和机器学习的普惠。”

目前,全球数以十万计的客户选择亚马逊云科技运行机器学习工作负载。在中国,亚马逊云科技机器学习服务得到医疗健康、教育、出行、工业智能、游戏、新媒体等各个行业客户的青睐,益体康、晶泰科技、新世纪医疗、LEMONBOX、有道乐读、叽里呱啦、全美在线、首汽约车、德比软件、Momenta、图森未来、行者AI、天和荣、中科创达、华来科技、大宇无限、陕西科技大学、易点天下、淄博热力等一批企业和机构的广泛采用,在各行各业实现了丰富多样的人工智能应用创新。

山东淄博市热力集团有限责任公司利用亚马逊云科技丰富的AL/ML技术和服务,快速构建、训练和部署机器学习模型,实现了精准供热,可以根据气象、工控数据、建筑物维护结构等信息计算出最佳的供热模式,并给出具体的操作指令,既让用户室温始终保持人体最佳舒适温度,又做到尽可能节约成本。淄博市热力集团有限责任公司董事长、党委书记汪德刚表示,“多年来,淄博热力利用信息化手段改造传统供热,致力于成为行业标准的制定者和行业发展的引领者。通过与亚马逊云科技合作,借助机器学习能力创新,建成了基于机器学习和大数据分析的智能供热平台,帮助我们从传统供热向产业智能化方向转型,在满足用户需求的同时实现节能减排,建立绿色能源生态系统。未来,希望我们能借助先进的云技术持续创新,推动国内热力行业的数字化、智能化转型。“

为进一步加速人工智能/机器学习的普惠,亚马逊云科技构建了强大的合作伙伴网络,通过合作伙伴网络成员构建行业机器学习模型,帮忙更多客户解决行业算法模型构建难题并落地行业解决方案。上海音智达信息技术有限公司是亚马逊云科技合作伙伴网络成员之一,提供围绕人工智能和大数据技术的预测性分析及商务智能解决方案的技术专家服务,帮助客户实现数字化转型。上海音智达信息技术有限公司CEO孙晓臻表示,“我们为亚洲地区数以百计的跨国企业及本土客户提供数据服务,拥有丰富的数据分析与业务实施经验,在生命科学、快消品、汽车、零售、电子消费产品、金融、保险、以及运输行业拥有众多实践和成功案例。但是,我们在机器学习方面的算法和人才储备远远不能够满足客户需求。亚马逊云科技丰富的机器学习服务大幅提升了音智达的技术开发和服务能力,助力我们打造了覆盖不同行业和场景的解决方案,实现了业务发展和持续创新。”

如今,各种规模、各种类型的企业和机构,都在积极探索人工智能和机器学习技术的应用并希望能尽快发挥实际效应。为满足不同客户的创新需求,亚马逊凭借在人工智能/机器学习领域20多年深厚的技术积累,提供了广泛而深入的、并且不断迭代创新的机器学习服务组合。

无需具备机器学习专业知识,即可通过Amazon Personalize构建个性化推荐系统

在人工智能服务层面,针对没有机器学习专业知识和能力的客户,亚马逊云科技提供开箱即用的人工智能服务。Amazon Personalize,一项用于构建个性化推荐系统的完全托管型机器学习服务,已在北京区域上线。开发人员无需具备机器学习专业知识,即可通过该服务训练、调整和部署自己定制的机器学习模型,构建个性化推荐系统,可用于产品推荐、个性化营销、个性化搜索和定制化直销等广泛的个性化推荐场景。

打造包罗万象的AI/ML工具集,七项新功能让Amazon SageMaker更强大

作为亚马逊云科技机器学习服务层面的核心产品,Amazon SageMaker是业界首个面向机器学习开发者的集成开发环境,它消除机器学习过程中的繁重工作,使客户能专注于自身的业务和应用创新,在提高客户工作效率的同时还大幅降低机器学习的总体拥有成本。去年12月在亚马逊云科技全球大会re:Invent 2020上刚刚亮相的七项 Amazon SageMaker新功能,近期已经在北京区域和宁夏区域落地。

1.Amazon SageMaker Data Wranger,简化机器学习的数据准备工作。通过该功能,客户可以将各种数据存储中的数据一键导入。Amazon SageMaker Data Wrangler内置了300多个数据转换器,让客户无需编写任何代码,就可以对机器学习用到的特征进行规范化、转换和组合。

2Amazon SageMaker Feature Store,一个完全托管且专门构建的特征存储库,用于存储、更新、检索和共享机器学习特征。客户可以在其中存储和访问特征,以便更轻松地在各个团队中对其进行命名、共享和重复使用。

3Amazon SageMaker Pipelines是业界首个针对机器学习专门构建、易于使用的持续集成和持续交付服务,通过编排和自动化提高机器学习工作的效率。借助该服务,用户可以大规模地创建、自动化和管理端到端机器学习工作流。

4Amazon SageMaker Clarify让机器学习开发人员可以更好地掌控其训练数据和模型,从而识别和限制偏差并解释做出相关预测的原因。

5Amazon SageMaker Distributed training libraries为训练大型深度学习模型和数据集提供了易用的方法,与现有分布式训练实现相比,以最高快 40% 的速度完成分布式训练,并且帮助用户减少手动实施数据并行和模型并行策略所需时间。

  1. Amazon SageMaker Model Monitor帮助客户时刻保持机器学习模型的准确性,它能够自动检测生产环境中部署的模型,并在检测到不准确的预测时发出警报,从而帮助客户维护高质量的机器学习模型。

7.Amazon SageMaker Debugger,可以通过实时捕获训练指标,自动识别机器学习训练任务中正在出现的复杂问题,例如梯度值变得过大或过小等它可以实时监控系资源(例如GPU、CPU、网络和内存等)的利用率,帮助用户提高资源利用率,对训练过程中的资源瓶颈进行告警,让开发者及时调度资源,快速采取纠正措施,减少时间和成本浪费。

基于高性能机器学习推理芯片Amazon InferentiaAmazon EC2 Inf1实例落地中国区域

在机器学习底层的框架和基础架构层面,亚马逊云科技全面提供基于各家芯片供应商的最新技术选项,提供从小到大多种配置,支持市面上流行的各种机器学习框架和算法。同时,为了不断给客户提供更好性价比的算力,亚马逊云科技自主设计芯片,推出了高性能机器学习推理芯片Amazon Inferentia。基于Amazon Inferentia的Amazon EC2 Inf1实例落地北京区域和宁夏区域,让中国区域客户又多一种云端高性能和更低成本机器学习推理的算力选择。了解更多有关Amazon EC2 Inf1实例的信息请访问:https://aws.amazon.com/cn/ec2/instance-types/inf1/

亚马逊云科技的人工智能与机器学习服务,还受益于亚马逊云科技在计算、存储、数据库和数据分析等方面广博深厚的能力,以及它们优异的安全性、可靠性、可扩展性和成本效率,这些服务无缝集成、有效支撑,赋能更多组织和个人进行数字化转型和创新。

]]>
亚马逊云科技推出基于机器学习的工业设备预测性维护服务 //www.otias-ub.com/archives/1233573.html Tue, 20 Apr 2021 07:31:23 +0000 //www.otias-ub.com/?p=1233573 Amazon Lookout for Equipment使工业客户充分利用现有设备传感器,通过机器学习在其所有工业站点中成规模地开展设备预测性维护

目前使用Lookout for Equipment的客户和合作伙伴包括西门子能源、西班牙石油、RoviSys、TensorIoT等

日前,亚马逊云科技宣布Amazon Lookout for Equipment正式可用,该服务使用亚马逊云科技开发的机器学习模型帮助客户对其设施中的设备进行预测性维护。Amazon Lookout for Equipment从客户工业设备中获取传感器数据(如压力、流量、转速、温度和功率),训练一个专有的机器学习模型,进而基于客户设备的实时数据流来准确预测机器故障或性能欠佳的早期预警信号。有了Amazon Lookout for Equipment,客户可以快速、精准地检测设备异常,快速诊断问题,减少错误警报,并在机器发生故障之前采取行动而避免昂贵的停机损失。Amazon Lookout for Equipment没有预付费用或最低承诺费用,用户只需根据所摄入的数据量、训练定制模型所需的计算时间和推理时间付费。要开始使用Amazon Lookout for Equipment,请访问:https://aws.amazon.com/cn/lookout-for-equipment/。欲深入了解亚马逊云科技在AI/ML方面的创新举措以及众多客户利用AI/ML在业务创新和企业转型方面的最佳实践,敬请关注将于4月22日举办的“2021亚马逊云科技 AI在线大会”。

工业企业一直在努力提高运营效率,避免因设备故障而导致的意外停机。这些企业在物理传感器、数据连接、数据存储和仪表板上持续投入,以监控设备的运行状况和性能。为了分析设备上的数据,大多数企业通常会使用简单的规则或建模方法,根据过去的表现来识别问题。然而,这些方法往往导致客户在发现问题时已来不及采取措施,或者收到错误警报而进行不必要的检查。其实,客户想要检测常规的操作条件或故障类型(如由于摩擦导致的高温)以及复杂的设备故障(如通过高振动和转速但低流量显示出的泵故障),这些只能通过建模传感器之间的独特关系得出。得益于机器学习技术的进步,现在人们能够快速识别异常情况,并了解每个设备历史数据之间的独特关系。然而,大多数企业缺乏在不同工业设备上构建和扩展定制机器学习模型的专业知识,导致他们往往不能充分利用他们在传感器和数据基础设施上的投资,在很多时候错失了能更好地管理关键设备的正常运行和性能的洞察。

通过Amazon Lookout for Equipment,工业和制造业客户现在可以快速、轻松地为整个或不同地点的设施构建预测性维护解决方案。首先,客户将他们的传感器数据(如压力、流量、转速、温度和功率)上传到Amazon Simple Storage Service (Amazon S3),并向Amazon Lookout for Equipment提供相关的Amazon S3桶位置。该服务将自动分析数据,评估正常或健康的模式,并根据客户的数据量身打造一个机器学习模型。然后,Amazon Lookout for Equipment将使用这个定制的机器学习模型来分析传入的传感器数据,识别机器故障或故障的早期预警信号。对于每个警报,该服务可指出是哪些传感器显示警报问题,并测量其对检测到的事件的影响程度。例如,如果Amazon Lookout for Equipment检测到有50个传感器的泵存在问题,该服务可以显示哪5个传感器表示特定电机存在问题,并将该问题与电机的强电流和温度联系起来。这意味着客户可以识别问题、诊断问题、确定所需操作的优先级,并在问题发生之前进行精确维护,这避免了停机,节省了客户费用损失并提高了生产效率。Amazon Lookout for Equipment可以让客户从现有的传感器中获得更多的价值,并帮助他们及时做出决策,从而大大提高运营效率。客户可以直接通过亚马逊云科技控制台或亚马逊云科技合作伙伴网络中的支持合作伙伴获得Amazon Lookout for Equipment。该服务现已在美国西部(俄勒冈)、欧洲(爱尔兰)和亚太地区(首尔)区域正式推出,其他区域也将很快推出。

除了Amazon Lookout for Equipment,亚马逊云科技还为工业和制造业客户提供最广泛的云到边缘(cloud-to-edge)工业机器学习服务,包括Amazon Monitron(用于预测性维护,由传感器、网关和机器学习服务组成的端到端解决方案)、Amazon Lookout for Vision(使用云中的计算机视觉模型进行视觉异常检测),以及Amazon Panorama(用于视觉检查,通过硬件设备和软件开发工具包将计算机视觉模型能力赋予本地摄像头)。

“许多工业和制造企业都在物理传感器和其它技术上投入了大量资金,目的是提高设备的维护水平。但即使有了这些设备,由于缺乏资源和数据科学家,企业也无法在大量数据之上部署机器学习模型。结果,他们错过了能够帮助他们更好地管理运营的关键洞察和可操作发现。”亚马逊云科技全球机器学习副总裁Swami Sivasubramanian表示,“我们很高兴推出Amazon Lookout for Equipment,这项新服务根据客户特定环境构建的定制化机器学习模型将让客户收益,帮助客户快速而轻松地识别机器异常行为,提前采取行动,避免了设备停机造成的影响和损失。”

西门子能源在整个能源价值链上提供产品、解决方案和服务,以支持其客户走向可持续的未来。“西门子能源与我们的客户合作,通过数字化服务解决方案赋能现有业务线,提高性能、可靠性和安全性。数字化是可持续能源未来的关键驱动力。”西门子能源数字解决方案高级副总裁Amogh Bhonde表示,“通过Amazon Lookout for Equipment,将亚马逊云科技机器学习与西门子能源行业知识相结合,帮助客户在整个运营过程中提高对系统和设备的可视性。Amazon Lookout for Equipment的自动化机器学习工作流程,让客户即使在没有数据科学知识的情况下,也能轻松构建和部署各种资产类型的模型。亚马逊云科技是我们值得信赖的合作伙伴,加速了我们对Omnivise数字解决方案套件的持续开发。”

西班牙石油(Cepsa)是一家全球能源和化工公司,在石油天然气价值链的各个环节开展端到端的运营。Cepsa还以植物为原料生产产品,并推动新的战略,成为能源转型的示范。“在Cepsa,数字化转型的重点是人。在这方面,我们的专业人士是我们背后的引擎。 通过Amazon Lookout for Equipment,我们将机器学习的见解带给那些最了解设备的专家——可靠性和维护工程师,使他们能够做出更明智的决定,提高正常运行时间,降低运营成本。” Cepsa高级分析主管Alberto Gascón表示,“设备的预测性维护等解决方案传统上涉及人工和复杂的数据科学,比如选择正确的算法和参数,但Amazon Lookout for Equipment将这些过程自动化,这样工程师就可以专注于解决影响他们业务的关键挑战。”

RoviSys是一家全球运营技术系统集成商,也是全面流程自动化解决方案和服务领域的领先独立供应商。“机器学习是对工业客户最有前途的技术之一,有潜力通过降低维护和运营成本提供更高的价值。”RoviSys的工业人工智能总监Bryan DeBois表示,“RoviSys正与亚马逊云科技合作,利用亚马逊云科技物联网服务将Amazon Lookout for Equipment与现场设备和基础设施的数据整合在一起,以实现大规模的先进机器学习维护解决方案。这项技术可以让我们的客户充分利用现有的基础设施,同时又能快速轻松地从这些数据中解锁更多价值。”

TensorIoT是亚马逊云科技的高级咨询合作伙伴,在物联网、数据工程、机器学习和人工智能领域提供完整的端到端产品和解决方案。“TensorIoT利用亚马逊云科技服务构建解决方案,以加速机器学习在工业运营产品和流程中的集成。”TensorIoT咨询副总裁Charles Burden表示,“ Amazon Lookout for Equipment可以减轻机器学习的繁重工作量,支持自动化机器学习开发、管理和异常检测模型的持续改进。这大大减少了所需的人力工作,使得工程师可专注于将洞见转化为操作改进。简而言之,Lookout for Equipment可以让企业更快地创新。”

]]>
2020年机器学习10大研究进展 //www.otias-ub.com/archives/1194608.html Thu, 21 Jan 2021 04:43:22 +0000 //www.otias-ub.com/?p=1194608
去年有哪些机器学习重要进展是你必须关注的?听听 DeepMind 研究科学家怎么说。

2020 年因为新冠疫情,很多人不得不在家工作和学习,大量人工智能学术会议也转为线上。不过在去年我们仍然看到了很多 AI 技术领域的进展。DeepMind 研究科学家 Sebastian Ruder 近日帮我们对去年的机器学习社区进行了一番总结。

首先你必须了解的是:这些重点的选择基于作者个人熟悉的领域,所选主题偏向于表示学习、迁移学习,面向自然语言处理(NLP)。如果读者有不同的见解,可以留下自己的评论。

Sebastian Ruder 列出的 2020 年十大机器学习研究进展是:

01、大模型和高效模型

语言模型从 2018 年到 2020 年的发展
(图片来自 State of AI Report 2020)

Q· 2020 年发生了什么?

在过去的一年,我们看到了很多前所未有的巨型语言和语音模型,如 Meena(Adiwardana et al., 2020)、Turing-NLG、BST(Roller et al., 2020)和 GPT-3(Brown et al., 2020)。与此同时,研究人员们也早已意识到训练这样的模型要耗费过量的能源(Strubell et al., 2019),并转而探索体量更小、效果仍然不错的模型:最近的一些进展方向来自于裁剪((Sajjad et al., 2020、Sanh et al., 2020、)、量化(Fan et al., 2020b)、蒸馏(Sanh et al., 2019、Sun et al., 2020)和压缩(Xu et al., 2020)。

另有一些研究关注如何让 Transformer 架构本身变得更高效。其中的模型包括 Performer(Choromanski et al., 2020)和 Big Bird(Zaheer et al., 2020),如本文第一张图所示。该图显示了在 Long Range Arena 基准测试中不同模型的性能(y 轴)、速度(x 轴)和内存占用量(圆圈大小)(Tay et al., 2020)。

像 experiment-impact-tracker 这样的工具(Henderson et al., 2020)已让我们对于模型的能耗效率更为了解。其研究者还推动了评估效率的竞赛和基准测试,如 EMNLP 2020 上的 SustaiNLP 研讨会,NeurIPS 2020 上的 Efficient QA 竞赛和 HULK(Zhou et al., 2020。

模型体量的扩大可以让我们不断突破深度学习能力的极限。而为了在现实世界部署它们,模型必须高效。这两个方向也是相辅相成的:压缩大号模型可以兼顾效率和性能(Li et al., 2020),而效率更高的方法也可以推动更强、更大的模型(Clark et al., 2020)。

鉴于对效率和可用性的考虑,我认为未来研究的重点不仅仅是模型的表现和参数数量,也会有能耗效率。这会有助于人们对于新方法进行更全面的评估,从而缩小机器学习研究与实际应用之间的差距。

02、检索增强

使用 REALM 进行无监督预训练,
检索器和编码器经过了联合预训练。

大规模模型可以利用预训练数据学习出令人惊讶的全局知识,这使得它们可以重建事实(Jiang et al., 2020)并在不接触外界上下文的情况下回答问题(Roberts et al., 2020)。然而,把这些知识隐式地存储在模型参数中效率很低,需要极大的模型来存储足量的信息。与之不同的是,最近的一些方法选择同时训练检索模型和大规模语言模型,在知识密集型 NLP 任务上获得了强大的结果,如开放域问答(Guu et al., 2020、Lewis et al., 2020)和语言建模(Khandelwal et al., 2020)。

这些方法的主要优点是将检索直接集成到语言模型的预训练中,从而让语言模型效率更高,专注于学习自然语言理解中更具挑战性的概念。因此在 NeurIPS 2020 EfficientQA 竞赛中的最佳系统依赖于检索(Min et al., 2020)。

检索是很多生成任务的标准方法,例如文本摘要和对话此前已大量被摘要生成所替代 (Allahyari et al., 2017)。检索增强生成可以将两个方面的优点结合在一起:检索段的事实正确性、真实性以及所生成文本的相关性和构成。

检索增强生成对于处理过去困扰生成神经模型的失败案例尤其有用,尤其是在处理幻觉(hallucination)上(Nie et al., 2019)。它也可以通过直接提供预测依据来帮助使系统更易于解释。

03、少样本学习

Prompt-based 微调使用模板化的提示和演示
(Gao et al., 2020)

在过去几年中,由于预训练的进步,给定任务的训练样本数量持续减少(Peters et al., 2018、Howard et al., 2018)。我们现在正处在可以使用数十个示例来完成给定任务的阶段(Bansal et al., 2020)。自然地,人们想到了少样本学习变革语言建模的范式,其中最为突出的例子就是 GPT-3 中上下文学习的方法。它可以根据一些输入 – 输出对和一个提示进行预测。无需进行梯度更新。

不过这种方式仍然有其限制:它需要一个巨大的模型——模型需要依赖现有的知识——这个模型能够使用的知识量受到其上下文窗口的限制,同时提示需要手工完成。

最近的一些工作试图通过使用小模型,集成微调和自动生成自然语言提示(Schick and Schütze, 2020、Gao et al., 2020、Shin et al., 2020)让少样本学习变得更加有效。这些研究与可控神经文本生成的更广泛领域紧密相关,后者试图广泛地利用预训练模型的生成能力。

有关这一方面,可以参阅 Lilian Weng 的一篇博客:

https://lilianweng.github.io/lil-log/2021/01/02/controllable-neural-text-generation.html

少样本学习可以使一个模型快速承接各种任务。但是为每个任务更新整个模型的权重是很浪费的。我们最好进行局部更新,让更改集中在一小部分参数里。有一些方法让这些微调变得更加有效和实用,包括使用 adapter(Houlsby et al., 2019、Pfeiffer et al., 2020a、Üstün et al., 2020),加入稀疏参数向量(Guo et al., 2020),以及仅修改偏差值(Ben-Zaken et al., 2020)。

能够仅基于几个范例就可以让模型学会完成任务的方法,大幅度降低了机器学习、NLP 模型应用的门槛。这让模型可以适应新领域,在数据昂贵的情况下为应用的可能性开辟了道路。

对于现实世界的情况,我们可以收集上千个训练样本。模型同样也应该可以在少样本学习和大训练集学习之间无缝切换,不应受到例如文本长度这样的限制。在整个训练集上微调过的模型已经在 SuperGLUE 等很多流行任务中实现了超越人类的性能,但如何增强其少样本学习能力是改进的关键所在。

04、对比学习

实例判别从同一个图像的不同转换之间比较特征
(Caron et al., 2020)

对比学习是一种为 ML 模型描述相似和不同事物的任务的方法。利用这种方法,可以训练机器学习模型来区分相似和不同的图像。

最近,对比学习在计算机视觉和语音的自监督表征学习(van den Oord, 2018; Hénaff et al., 2019)中越来越受欢迎。用于视觉表征学习的新一代自监督强大方法依赖于使用实例判别任务的对比学习:将不同图像视为 negative pairs,相同图像的多个视图视为 positive pairs。最近的方法进一步改善了这种通用框架:SimCLR(Chen et al., 2020)定义了增强型实例的对比损失;Momentum Contrast(He et al., 2020)试图确保大量且一致的样本对集合;SwAV(Caron et al., 2020)利用在线聚类;而 BYOL 仅使用 positive pairs(Grill et al., 2020)。Chen 和 He (2020) 进一步提出了一种与先前方法有关的更简单的表述。

最近,Zhao et al. (2020)发现数据增强对于对比学习至关重要。这可能表明为什么在数据增强不那么普遍的 NLP 中使用大型预训练模型进行无监督对比学习并不成功。他们还假设,实例判别比计算机视觉中的有监督预训练更好的原因是:它不会试图让一个类中所有实例的特征相似,而是保留每个实例的信息。在 NLP 中,Gunel et al. (2020)无监督的预训练涉及对成千上万个单词类型进行分类的问题不大。在 NLP 中,Gunel et al. (2020)最近采用对比学习进行有监督的微调。

语言建模中常用的 one-hot 标签与模型输出的 logit 之间的交叉熵目标存在一些局限性,例如在不平衡的类中泛化效果较差(Cao et al., 2019)。对比学习是一种可选择的补充范式,可以帮助缓解其中的一些问题。

对比学习与 masked 语言建模相结合能够让我们学习更丰富、更鲁棒的表征。它可以帮助解决模型异常值以及罕见的句法和语义现象带来的问题,这对当前的 NLP 模型是一个挑战。

05、要评估的不只是准确率

用于探索情感分析中否定性的理解的 CheckList 模板和测试
(Ribeiro et al., 2020)

NLP 中的 SOTA 模型已在许多任务上实现了超越人类的表现,但我们能否相信这样的模型可以实现真正的自然语言理解(Yogatama et al., 2019; Bender and Koller, 2020)?其实,当前的模型离这个目标还很远。但矛盾的是,现有的简单性能指标无法体现这些模型的局限性。该领域有两个关键主题:a)精选当前模型难以处理的样例;b)不只是选择准确率等简单指标,而是进行更细粒度的评估。

关于前者,常用的方法是在数据集创建过程中使用对抗过滤(Zellers et al., 2018),过滤出由当前模型正确预测的样例。最近的研究提出了更有效的对抗过滤方法(Sakaguchi et al., 2020; Le Bras et al., 2020)和一种迭代数据集创建处理方法(Nie et al., 2020; Bartolo et al., 2020),其中样例经过过滤,模型经过了多轮的重新训练。Dynabench 提供了此类不断变化的基准的子集。

针对第二点的方法在本质上也是相似的。该领域通常会创建 minimal pairs(也称为反事实样例或对比集)(Kaushik et al., 2020; Gardner et al., 2020; Warstadt et al., 2020),这些 minimal pairs 以最小的方式干扰了样例,并且经常更改 gold label。Ribeiro et al. (2020) 在 CheckList 框架中形式化了一些基本的直觉,从而可以半自动地创建此类测试用例。此外,基于不同的属性来描述样例可以对模型的优缺点进行更细粒度的分析(Fu et al., 2020)

为了构建功能更强大的机器学习模型,我们不仅需要了解模型是否优于先前的系统,还需要了解它会导致哪种错误以及还有哪些问题没被反映出来。通过提供对模型行为的细粒度诊断,我们可以更轻松地识别模型的缺陷并提出解决方案。同样,利用细粒度的评估可以更细致地比较不同方法的优缺点。

06、语言模型的现实应用问题

模型会根据看似无害的提示,生成有害的结果
(Gehman et al., 2020)

与 2019 年语言模型 (LMs) 分析侧重于此类模型所捕获的语法、语义和世界认知的氛围相比,最近一年的分析揭示了许多实际问题。

比如经过预训练的 LM 容易生成「有毒」的语言 (Gehman et al., 2020)」、泄露信息 (Song & Raghunathan, 2020)。还存在微调后易受到攻击的问题,以致攻击者可以操纵模型预测结果 (Kurita et al., 2020; Wallace et al., 2020),以及容易受到模型的影响(Krishna et al., 2020; Carlini et al., 2020)。

众所周知,预训练模型可以捕获关于受保护属性(例如性别)的偏见(Bolukbasi et al., 2016; Webster et al., 2020),Sun et al., 2019 的研究给出了一份减轻性别偏见的调查。

大公司推出的大型预训练模型往往在实际场景中会有积极的部署,所以我们更应该意识到这些模型存在什么偏见,又会产生什么有害的后果。

随着更大模型的开发和推出,从一开始就将这些偏见和公平问题纳入开发过程是很重要的。

07、Multilinguality

全球标记 / 未标记语言数据的不均衡分布情况
(Joshi et al., 2020)

2020 年,多语言 NLP 有诸多亮点。旨在加强非洲语种 NLP 研究的 Masakhane 机构在第五届机器翻译会议 (WMT20) 上发表的主题演讲,是去年最令人鼓舞的演讲之一。此外,这一年还出现了其他语言的新通用基准,包括 XTREME (Hu et al., 2020)、XGLUE (Liang et al., 2020)、IndoNLU (Wilie et al., 2020)、IndicGLUE (Kakwani et al., 2020)。现有的数据集也拓展到了其他语言中,比如:

  • SQuAD: XQuAD (Artetxe et al., 2020), MLQA (Lewis et al., 2020), FQuAD (d’Hoffschmidt et al., 2020);
  • Natural Questions: TyDiQA (Clark et al., 2020), MKQA (Longpre et al., 2020);
  • MNLI: OCNLI (Hu et al., 2020), FarsTail (Amirkhani et al., 2020);
  • the CoNLL-09 dataset: X-SRL (Daza and Frank, 2020);
  • the CNN/Daily Mail dataset: MLSUM (Scialom et al., 2020)。
通过 Hugging Face 数据集可以访问其中的大部分数据集,以及许多其他语言的数据。涵盖 100 种语言的强大模型也就应运而生了,包括 XML-R (Conneau et al., 2020)、RemBERT (Chung et al., 2020)、InfoXLM (Chi et al., 2020)等,具体可参见 XTREME 排行榜。大量特定语言的 BERT 模型已经针对英语以外的语言进行了训练,例如 AraBERT (Antoun et al., 2020)和 IndoBERT (Wilie et al., 2020),查看 Nozza et al., 2020; Rust et al., 2020 的研究可以了解更多信息。借助高效的多语言框架,比如 AdapterHub (Pfeiffer et al., 2020)、Stanza (Qi et al., 2020)和 Trankit (Nguyen et al., 2020) ,世界上许多语种的建模和应用工作都变得轻松了许多。

此外,还有两篇很有启发的研究,《The State and Fate of Linguistic Diversity(Joshi et al., 2020)》和《Decolonising Speech and Language Technology (Bird, 2020)》。第一篇文章强调了使用英语之外语言的紧迫性,第二篇文章指出了不要将语言社区及数据视为商品。

拓展到英语之外的 NLP 研究有很多好处,对人类社会能产生实实在在的影响。考虑到不同语言中数据和模型的可用性,英语之外的 NLP 模型将大有作为。同时,开发能够应对最具挑战性设置的模型并确定哪些情况会造成当前模型的基础假设失败,仍然是一项激动人心的工作。

08、图像Transformers

Vision Transformer 的论文中,研究者将 Transformer 编码器应用于平坦图像块。

Transformer 在 NLP 领域取得了巨大的成功,但它在卷积神经网络 CNN 占据主导地位的计算机视觉领域却没那么成功。2020 年初的 DETR (Carion et al., 2020) 将 CNN 用于计算图像特征,但后来的模型完全是无卷积的。Image GPT (Chen et al., 2020)采用了 GPT-2 的方法,直接从像素进行预训练,其性能优于有监督的 Wide ResNet,后来的模型是将图像重塑为被视为「token」的补丁。Vision Transformer (ViT,Dosovitskiy et al., 2020)在数百万个标记好的图像上进行了训练,每一个图像都包含此类补丁,模型效果优于现有最新的 CNN。Image Processing Transformer(IPT,Chen et al., 2020)在被破坏的 ImageNet 示例上进行对比损失预训练,在 low-level 图像任务上实现了新的 SOTA。Data-efficient image Transformer (DeiT,Touvron et al., 2020) 以蒸馏方法在 ImageNet 上进行了预训练。

有趣的是,研究者们发现了 CNN 是更好的教师,这一发现类似于蒸馏归纳偏置(inductive bias)应用于 BERT (Kuncoro et al., 2020)。相比之下在语音领域,Transformer 并未直接应用于音频信号,而通常是将 CNN 等编码器的输出作为输入(Moritz et al., 2020; Gulati et al., 2020; Conneau et al., 2020)。

与 CNN 和 RNN 相比,Transformer 的归纳偏置更少。尽管在理论上,它不如 RNN (Weiss et al., 2018; Hahn et al., 2020)强大,但如果基于充足的数据和规模,Transformer 会超越其他竞争对手的表现。

未来,我们可能会看到 Transformer 在 CV 领域越来越流行,它们特别适用于有足够计算和数据用于无监督预训练的情况。在小规模配置的情况下,CNN 应该仍是首选方法和基线。

09、自然科学与机器学习

基于自注意力的 AlphaFold 架构

去年,DeepMind 的 AlphaFold 在 CASP 蛋白质折叠挑战赛中实现了突破性的表现,除此之外,将机器学习应用于自然科学还有一些显著的进展。MetNet (Sønderby et al., 2020)证明机器学习在降水预测方面优于数值天气预报;Lample 和 Charton(2020)采用神经网络求解微分方程,比商用计算机系统效果更好;Bellemare et al. (2020)使用强化学习为平流层的热气球导航。

此外,ML 现已被广泛应用于 COVID-19,例如 Kapoor 等人利用 ML 预测 COVID-19 的传播,并预测与 COVID-19 相关的结构,Anastasopoulos 等人将相关数据翻译成 35 种不同的语言,Lee 等人的研究可以实时回答有关 COVID-19 的问题。

有关 COVID-19 相关的 NLP 应用程序的概述,请参阅第一期 COVID-19 NLP 研讨会的会议记录:《Proceedings of the 1st Workshop on NLP for COVID-19 (Part 2) at EMNLP 2020》。

自然科学可以说是 ML 最具影响力的应用领域。它的改进涉及到生活的许多方面,可以对世界产生深远的影响。随着蛋白质折叠等核心领域的进展,ML 在自然科学中的应用速度只会加快。期待更多促进世界进步的研究出现。

10、强化学习

与最先进的智能体相比,Agent57 和 MuZero 整个训练过程中在雅达利游戏中的表现优于人类基准(Badia et al., 2020)。

单个深度强化学习智能体 Agent57(Badia et al., 2020)首次在 57 款 Atari 游戏上超过人类,这也是深度强化学习领域中的一个长期基准。智能体的多功能性来自于神经网络,该网络允许在探索性策略和利用性策略之间切换。

强化学习在游戏方面的另一个里程碑是 Schrittwieser 等人开发的 MuZero,它能预测环境各个方面,而环境对精确的规划非常重要。在没有任何游戏动态知识的情况下,MuZero 在雅达利上达到了 SOTA 性能,在围棋、国际象棋和日本象棋上表现也很出色。

最后是 Munchausen RL 智能体(Vieillard et al., 2020),其通过一个简单的、理论上成立的修改,提高了 SOTA 水平。

强化学习算法有许多实际意义 (Bellemare et al., 2020)。研究人员对这一领域的基本算法进行改进,通过更好的规划、环境建模和行动预测产生很大的实际影响。

随着经典基准(如 Atari)的基本解决,研究人员可能会寻找更具挑战性的设置来测试他们的算法,如推广到外分布任务、提高样本效率、多任务学习等。

作者:Sebastian Ruder

编译:机器之心

转自:机器之心

原文链接:https://ruder.io/research-highlights-2020/

图片来源于Pexels

]]>
智能财务运营:CFO最强大的资产 //www.otias-ub.com/archives/1176058.html Sat, 16 Jan 2021 21:41:15 +0000 //www.otias-ub.com/?p=1176058 首席财务官(CFO)继续应对COVID-19带来的持续业务中断,埃森哲的一份新报告发现,财务主管需要更多实时数据,以从衡量转向创造价值。

埃森哲的新报告对年收入至少10亿美元的公司的450位首席财务官和其他财务负责人进行了调查。一个关键发现是,尽管几乎所有的受访者(99%)都认为使用实时数据对于应对诸如COVID-19或经济衰退的威胁等至关重要,但只有16%的受访者实现了所需的数据规模。

当被问及2021年其业务最关注的领域时,首席财务官最常提到利率上升(49%)、大流行中断(47%)、经济衰退(47%)和招聘并保留合适的人才(42%)。鉴于这些挑战的复杂性,大多数人(68%)认为,实时财务模型-利用AI、机器学习算法和实时、多样化的数据集-对于实现更好的业务决策至关重要。

即使在大流行期间,受访者也表示他们今年平均将33%的预算用于建立实时运营和流程。美国大型公司(即年收入至少100亿美元的公司)似乎更加致力于这种能力,将其至少50%的预算投资于此领域。大约2/5的受访者(44%)计划在未来三年内实时实现几乎所有财务流程和运营。

尽管优势众所周知,但财务主管在实施这些流程时也面临各种挑战。例如,实时情景规划在2021年CFO优先事项中排名最高(34%),但58%的受访者担心要确定或雇用合适的人才来实施此功能。虽然大约1/4的受访者(24%)将实时洞察力视为公司财务职能的最高优先事项,但大约2/5的人(43%)认为技术是实施的最主要障碍。


199IT.com原创编译自:埃森哲 非授权请勿转载

]]>
德勤咨询:2021年科技趋势报告 //www.otias-ub.com/archives/1179474.html Fri, 08 Jan 2021 22:00:37 +0000 //www.otias-ub.com/?p=1179474 德勤发布了新报告“2021年科技趋势”。

战略,精心设计。当今的技术为某些组织带来了新的竞争优势,并为其他组织带来了生存威胁。结果,公司战略和技术战略之间的区别变得模糊了。精明的企业战略家们正在超越其组织当前的技术能力和竞争格局,考虑技术的更广泛的可能性。但是,复杂的不确定性和可能性范围是人脑无法自行处理的。这就是为什么战略家转向拥有先进分析、自动化和AI的战略技术平台的原因。

核心复兴。对旧企业系统进行现代化改造并将其迁移到云可以帮助释放企业的数字潜力。一些开拓性公司开始使用巧妙的外包安排来重新设计传统业务案例以实现核心现代化。在充满不确定性的商业环境中,从传统核心资产中获取更多价值的创新方法可能很快会成为每位CIO数字化转型手册的标准组成部分。

供应链。长期以来,供应链一直被认为是做生意的成本,它正从后台转移到客户细分和产品差异化的增值前线。面向未来的制造商、零售商、分销商等正在探索将供应链成本中心转变为以客户为中心的价值驱动力的方法。

MLOps:工业化AI。先进的机器学习模型可帮助公司有效地发现模式,揭示异常,做出预测和决策并生成见解,并且正日益成为企业绩效的关键驱动力。

机器数据革命。机器学习有望全面改革企业运营和决策,越来越多的AI先驱者意识到遗留数据模型和基础架构可能成为机器学习成功的障碍。因此,他们正在部署新技术和方法。

零信任:永远不要信任,永远需要验证。复杂的网络攻击和不断变化的企业环境破坏了传统的网络安全方法。零信任源自以下概念:现代企业环境必须采用不同的安全方法,不再存在定义的范围,每个用户、工作负载、设备和网络都需要验证。

重启数字工作场所。通过更加有意地拥抱数字化工作场所的积极方面,公司能够克服数字工作场所的缺陷和歧义。这可以帮助企业优化个人和团队绩效,并通过个性化建议来定制员工体验,从而使远程工作更适应未来的企业运营。

量身定制。当我们回头看时,2020年将是大多数人适应数字交互以进行日常生活的转折点,无论是在家工作、在线学习,还是订购食品杂货。然而,数字互动的盛行使我们更渴望亲身互动。在展望未来时,线上和线下互动不再是单独的体验。

DEI技术:公平工具。许多企业都将多样性、公平性和包容性作为当务之急。越来越多的企业采用整体的、全组织范围的员工战略来解决偏见和不公平现象,以提高企业和员工的绩效。

PDF版本将分享到199IT知识星球,扫描下面二维码即可!

]]>
亚马逊云服务(AWS) 为机器学习扩圈 触及每一位AI工作者 //www.otias-ub.com/archives/1169668.html Thu, 10 Dec 2020 15:15:38 +0000 //www.otias-ub.com/?p=1169668 12月9日, AWS全球机器学习副总裁Swami Sivasubramanian (简称Swami) 在亚马逊re:Invent大会上发表机器学习和人工智能主题演讲,展示了AWS关于人工智能与机器学习的最新全景蓝图,并宣布了一系列新服务和新功能,让机器学习更易用和拓展到更加广阔的使用者、应用场景和行业。这是亚马逊re:Invent大会上的首次机器学习主题演讲。Swami主题演讲中表示,“机器学习是我们这一代人能遇到最具颠覆性的技术之一,目前已经有超过10万客户在使用AWS的机器学习服务,很多客户已经将机器学习用于其核心业务。

AWS大中华区云服务产品管理总经理顾凡介绍说,“亚马逊利用机器学习技术已经有20多年时间,这是AWS机器学习服务的深厚源泉。AWS在2016年开始发力,在云上提供机器学习服务。当年只发布了三个服务,2017年开始加速,最近三年,每年新增的服务和功能超过200个,为全球人工智能工作者丰富了他们急需的工具集。

据德勤发布的《全球人工智能发展白皮书》预测,到2025年,世界人工智能市场规模将超过6万亿美元。

面对数字经济的发展机遇,多个国家和地区已将人工智能列为优先发展的国家战略。

2020年11月21日,国家工业信息安全发展研究中心在《2020人工智能与制造业融合发展白皮书》中指出了目前融合存在的诸多难点,其中人才匮乏问题尤为严重。而人社部官网的报道中测算,目前我国人工智能人才的缺口超过500万,国内的供求比例为1:10,供需比例严重失衡。

德勤发布的《全球人工智能发展白皮书》指出,在人工智能众多的分支领域中,机器学习是人工智能的核心研究领域之一。包括89%的人工智能专利申请和40%人工智能范围内的相关专利均为机器学习范畴。

AWS是云计算的引领者,也是机器学习的翘楚。面对机器学习这样一个充满前途的事业,以及当前严重缺乏人才的处境,AWS通过多种方式,采取一系列措施,着重通过技术创新,为机器学习扩圈。

首次推出开箱即用的工业领域机器学习解决方案

扩圈举措之一,是推出开箱即用的解决方案。在re:Invent大会上,AWS发布了五项用于工业领域的机器学习服务,分别是Amazon Monitron、Amazon Lookout for Equipment、AWS Panorama一体机、AWS Panorama SDK和Amazon Lookout for Vision。这是AWS首次推出开箱即用的工业领域机器学习解决方案。

Amazon Monitron和Amazon Lookout for Equipment通过机器学习支持预测性维护。Amazon Monitron面向没有建立传感器网络的客户,提供由传感器、网关和机器学习服务组成的端到端机器监控系统,检测异常并预测何时需要维护工业设备。Amazon Lookout for Equipment面向已经拥有传感器、但不希望自己构建机器学习模型的客户,由AWS为其构建模型并返回预测结果,检测异常设备行为。

AWS Panorama通过计算机视觉改善工业运营和工作场所安全。AWS Panorama一体机是一个硬件设备,将它连接到工业场所的网络中,它就可以自动识别摄像头数据流,与工业摄像头进行交互。AWS Panorama软件开发套件(SDK),方便工业相机制造商在新相机中嵌入计算机视觉功能。

Amazon Lookout for Vision为工业客户提供高精度、低成本的产品质量异常检测解决方案。它通过机器学习技术,每小时可以处理数千张图像,发现产品缺陷和异常。客户可以将摄像头图像批量或实时发送到Amazon Lookout for Vision,找出异常,例如机器部件的裂纹、面板上的凹痕、不规则形状或产品上的颜色错误等。

目前已经使用AWS工业领域机器学习服务的客户和合作伙伴包括Axis、凌华科技、BP、德勤、Fender芬达、GE 医疗和西门子交通等等。

 打造包罗万象的工具箱,赋能每一位AI工作者

扩圈举措之二,是打造全面丰富的工具集,用顾凡的话说, right tool for the right job(为每一项工作都提供一个趁手的工具)AWS提供的机器学习工具集包括三个层面。

工具集的底层,面向那些技术能力超强的客户,希望将人工智能和机器学习作为自己的核心竞争力。AWS为他们提供强大的算力、全面的算力选择、丰富的机器学习框架选择。AWS支持主流的机器学习框架,客户还可以通过容器部署的方式,自带机器学习框架;AWS可以提供基于英伟达、英特尔、AMD、赛灵思等芯片厂商的最新处理器的强大算力,同时还通过自主设计的处理器,极大地降低机器学习的算力成本。

工具集的中间层,面向那些技术能力较强的客户,他们有大量的数据可以进行机器学习模型训练,有一定的算法人才,不要花精力管理基础设施,专注于自己的应用和业务创新。AWS的Amazon SageMaker为他们提供了首个全托管的机器学习集成开发环境,并为这个开发环境不断增加新功能,从数据准备、到模型训练、参数调优与模型迭代、到模型部署、模型质量监控,在整个过程中最大限度地提高他们开展机器学习的效率,降低他们开展机器学习的门槛。

工具集的顶层,面向技术能力相对薄弱的客户,他们有一定的数据,但没有算法人才,他们希望在业务场景中直接引入人工智能。AWS为他们提供开箱即用的人工智能服务,目前已经涵盖机器视觉、语音文字转换、机器对话、文本处理、电商业务、客服、企业内信息搜索、开发与运维、工业AI等方面。

通过这样一个全面的工具集,AWS可以覆盖和赋能所有的人工智能工作者。

拓展到数据库开发者和数据分析师

扩圈举措之三,是将机器学习拓展到数据开发者和数据分析师。数据库开发者、数据分析师这个群体,人数比机器学习开发人员群体大得多,他们没有机器学习的知识和技能,但是不缺少机器学习的想法。于是,AWS将机器学习能力跟数据库进行嫁接,让数据库开发者、数据分析师沿用数据库查询的方式,让他们的机器学习想法落地到业务应用中。Amazon Aurora是AWS著名的关系型数据库服务,AWS针对Aurora推出了新功能Amazon Aurora ML。数据库开发者发起数据库查询(SQL)时,只要选择一个机器学习模型,就会唤醒机器学习服务,Aurora ML自动将查询结果交给机器学习模型进行推理,返回结果。例如,要查询一个客户评价是正面还是负面,数据库开发者只管做数据库查询、选择这个模型,返回来的查询结果就会自动附加正面或负面判断。类似地,出海电商想把数据库中的商品信息变成多语种,数据库开发者只管查询商品信息、选择多语种翻译,返回的结果就会自动包含商品信息的多语种翻译。

Amazon Athena是数据分析师经常用到的服务。通过这项服务,可以直接从Amazon S3上的对象文件中,利用SQL语句进行数据查询(SQL是结构化查询语言,原本用于关系型数据查询,而S3的对象文件不是关系型数据)。AWS也推出了新功能Amazon Athena ML,查询返回的结果也可以自动附带机器学习推理的结果。

Amazon Redshift是云原生的数据仓库。AWS推出的新功能Amazon Redshift ML,甚至把选择模型这一步省了。举一个例子,电商领域经常会哪些客户有可能流失,这时你可能并没有一个模型来判断什么样特征的客户有可能会流失。通过Redshift ML,数据分析师只管SQL查询,Redshift ML可以把数据导入S3,然后SageMaker的Autopilot功能结合。Autopilot是一个自动建模的功能。这样的Redshift ML可以自动进行数据清洗、模型训练,选择最优的模型进行预测。

Amazon Neptune是AWS的一个图数据库,主要用于知识图谱、身份图谱、欺诈检测、推荐引擎、社交关系、生命科学等场景,用图的方式表示各个数据实体之间的关系,例如,好友关系图。对图数据库,只是表示出数据的相关性显然不够,用户更需要的是,根据这些相关性进行机器学习推理。新功能Neptune ML,就是将图数据库和机器学习打通,通过机器学习模型去访图数据库,进行更精准的预测。

Amazon QuickSight是AWS的一个商业智能(BI)服务,可以轻松地调用各种数据进行分析和展现。AWS于2020年5月推出了QuickSight ML新功能,它也跟SageMaker的Autopilot功能进行了结合,数据分析人员可以用它开展欺诈检测、销售预测等工作。

在今年的re:Invent大会上,AWS推出了更酷的机器学习新功能QuickSight Q。通过它,可以用自然语言对数据进行提问,获得想要的数据洞察。例如,直接在查询框中输入“我们的同比增长率是多少?”几秒钟之内就可以得到高度准确的答案。如果按以往的方式,需要在模型中预先定义增长率、更新模型、处理数据,可能需要几天甚至几周时间。

AWS还推出了Amazon Lookout For Metrics,它利用机器学习技术,通过企业多种数据的比对,检测出数据异常。顾凡举例说,一件商品的售价200元,在某个数据源变成了20元。通过Amazon Lookout For Metrics找出这种异常数据,意义重大。如果是在线销售中出现这样的价格错误,有可能给企业带来巨大的损失。

此外,AWS还发布了利用机器学习的运维服务Amazon DevOps Guru,它可以帮助应用开发人员自动检测运维操作的问题,给出建议补救措施,提高应用程序可用性。此前,AWS已经推出了Amazon CodeGuru,可以让开发人员使用机器学习自动进行代码审核,并且提供指导和建议。

Amazon SageMaker再添九项新功能,快上加快,简单再简单

扩圈举措之四,大力发展机器学习的中间力量。如前所述,Amazon SageMaker是面向机器学习开发者的一个集成开发环境,是一项全托管的服务。它消除了机器学习过程中每个阶段的挑战,化繁为简,使开发人员和数据科学家能够从根本上更轻松、更快速地构建、训练和部署机器学习模型。Amazon SageMaker的功能也在快速迭代中,过去一年就交付了50多项新功能。在今年的re:Invent大会上,AWS再次发布9项新功能。

(1) Data Wranger,数据特征提取器。Amazon SageMaker Data Wrangler可以简化机器学习的数据准备工作。机器学习训练中有一个重要的工作,称为特征工程,就是从不同来源、格式多样的数据提取数据,形成规范化的数据字段(也称为特征),作为机器学习模型的输入,这项工作非常耗时。通过Data Wrangler,客户可以将各种数据存储中的数据一键导入。Data Wrangler内置了300多个数据转换器,让客户无需编写任何代码,就可以机器学习用到的特征进行规范化、转换和组合。客户可以通过在SageMaker Studio(首个用于机器学习的端到端集成开发环境)中查看这些转换,快速预览和检查这些转换是否符合预期。

(2) Feature Store,数据特征存储库。鉴于有大量的特征需要管理,AWS为Amazon SageMaker推出了一项新功能,名为Feature Store。它一个用于更新、检索和共享机器学习特征的专用库。通过Data Wrangler把特征设计出来以后,可以保存在Feature Store 中,以供重复使用。一组特征会用于不同的模型,被多个开发人员和数据科学家使用,需要有效地跟踪、管理这些特征,及时更新,保持一致性。模型训练和利用模型进行推理(也就是实际运用模型),对特征的使用场景也不同。在训练过程中,模型可以离线、批量地访问特征,使用时间长。而对于推理,通常只用到特征库的一部分,不过需要实时访问,几毫秒内返回预测结果。因此,如何特征库的管理是一件复杂的事儿,Feature Store就用于解决这些问题。

(3) Pipelines,自动化工作流。跟传统编程一样,编排和自动化可以提高机器学习的效率。Amazon SageMaker Pipelines是第一个专为机器学习构建的、方便易用的CI/CD(持续集成和持续交付)服务。

(4) Clarify,模型偏差检测。通过Amazon SageMaker Clarify,开发人员可以方便地检测整个机器学习工作流中的统计偏差,为机器学习模型所做的预测做出解释,识别偏差,清晰描述可能的偏差来源及其严重程度,指导开发人员采取措施减小偏差。

(5) Deep Profiling for Amazon SageMaker Debugger,对模型训练进行剖析。通过Deep Profiling,能够自动监控系统资源利用率,例如 GPU、CPU、网络吞吐量和内存 I/O,对训练过程中的资源瓶颈进行告警,让开发者及时调度资源,更快地训练模型。

(6-7) Distributed Training,大型复杂深度学习模型的分布式训练。AWS提供了两种方法,模型训练拆分到几百、几千个CPU上进行。一个是数据并行引擎,对数据集进行拆分。一个是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 GPU上高效分割具有几十亿参数的大型复杂模型。通过对训练进行拆分,Amazon SageMaker可以将训练大型复杂深度学习模型的速度比当前的方法快两倍。

(8) Edge Manager,边缘端模型质量监控和管理。Amazon SageMaker Edge Manager 可以帮助开发人员优化、保护、监控和维护部署在边缘设备集群上的机器学习模型。模型部署到边缘设备以后,仍然需要管理和监控模型,确保它们持续以高精度运行。当模型的准确性随着时间的推移而下降时,开发人员可以重新训练模型,不断提高模型的质量。

(9) JumpStart,快捷起步工具。通过Amazon SageMaker JumpStart,客户可以快速找到跟自己类似的机器学习场景相关信息。新手开发人员可以从多个完整的解决方案进行选择,例如欺诈检测、客户流失预测或时序预测,直接部署到自己的Amazon SageMaker Studio环境中。有一些经验的用户则可以从100多个机器学习模型中选择,快速开始模型构建和训练。

不断丰富的新功能,让Amazon SageMaker备受客户欢迎。它推出短短三年时间,已经有几万家客户在使用,包括3M、ADP、阿斯利康、Avis、拜耳、Bundesliga、Capital One、Cerner、Chick-fil-A、Convoy、达美乐比萨、富达投资、GE医疗、Georgia-Pacific、赫斯特、iFood、iHeartMedia、摩根大通、Intuit、联想、Lyft、国家橄榄球联盟、Nerdwallet、T-Mobile、汤森路透、Vanguard等等。

AWS的系列扩圈之举,背后是AWS对机器学习的雄心。Swami说,15年前他研究生毕业,有幸进入AWS开始云计算事业。如今可以毫无不夸张地说,云计算释放出巨大的力量,帮助各种创业公司和成熟企业取得了巨大的成功。机器学习目前就处于那样的早期阶段。我们从Swami的字里行间可以读出,机器学习就是AWS的下一个金矿。

关于亚马逊re:Invent

始于2012年,亚马逊 re:Invent是全球云计算引领者——亚马逊云服务(AWS)举办的年度盛会,也是全球云计算领域全面而盛大的行业峰会。每年的 亚马逊 re:Invent都会发布一系列引领未来的创新技术和服务,邀请全球各个行业、各种规模的客户及AWS合作伙伴分享最新商业创新实践,因而成为了云计算行业的风向标,吸引着全世界开发者与用户的广泛关注和参与。

“巅峰科技,重塑未来。”亚马逊 re:Invent 2020整装待发。长达3周(2020年12月1日—12月18日)的在线峰会,首次对公众免费开放。欢迎访问:https://reinvent.awsevents.cn/ 观看各项议程。

 

]]>
AWS发布五大用于工业领域的机器学习服务 //www.otias-ub.com/archives/1168796.html Wed, 09 Dec 2020 06:30:36 +0000 //www.otias-ub.com/?p=1168796
  • Amazon Monitron提供包含传感器、网关和机器学习服务的端到端机器监控解决方案,以检测可能需要维护的异常设备状况
  • Amazon Lookout for Equipment为拥有设备传感器的客户提供了使用AWS机器学习模型来检测异常设备行为并进行预测性维护的能力
  • AWS Panorama Appliance帮助已在工业设施中装配摄像机的客户使用计算机视觉来改善质量控制和工作场所安全
  • AWS Panorama软件开发套件(SDK)允许工业相机制造商在新相机中嵌入计算机视觉功能
  • Amazon Lookout for Vision在图像和视频流上使用AWS训练的计算机视觉模型,以发现产品或流程中的异常和缺陷
  • 使用全新的AWS工业机器学习服务的客户和合作伙伴包括Axis、凌华科技、BP、德勤、Fender芬达、GE 医疗和西门子交通

北京-2020年12月9日,今天,在亚马逊云服务(AWS)举办的年度盛会——AWS re:Invent上,AWS宣布了Amazon MonitronAmazon Lookout for EquipmentAWS Panorama ApplianceAWS Panorama SDKAmazon Lookout for Vision。这五项全新的机器学习服务共同帮助工业和制造业客户在其生产过程中嵌入智能能力,以提高运营效率,改善质量控制、信息安全和工作场所安全。这些服务代表了现有最全面的从云端到边缘的工业机器学习服务套件,通过结合先进的机器学习、传感器分析和计算机视觉功能,解决工业客户面临的常见技术挑战。实际上,数十万客户正在使用AWS云服务进行机器学习工作,各个规模、各行各业的客户都在使用AWS服务将机器学习作为其业务战略的核心。要了解有关全新AWS用于工业领域的机器学习服务的更多信息,请访问https://aws.amazon.com/industrial/

企业越来越多地希望将机器学习功能添加到工业环境中,例如制造设施、配送中心、食品加工厂等。对于这些客户来说,数据已成为将复杂工业系统结合在一起的重要媒介。工业系统中通常具有许多相互依存的流程,这些流程容错能力低,甚至很小的问题也会带来重大后果。许多客户通过分析其设施中运行设备的数据来应对这一挑战,例如,许多客户利用AWS IoT SiteWise等服务从工业设备收集数据并生成实时性能指标。随着客户开始使用云收集和分析工业数据,他们还希望采用机器学习技术来解读数据,进一步提高运营效率。在某些情况下,客户希望使用机器学习来帮助他们实现预测性维护,从而降低成本并提高运营效率。同时,在非联网或对延迟敏感的环境中运行的客户则希望通过在边缘使用计算机视觉来发现产品缺陷并提高工作场所安全性。伴随这些不断变化的需求和机遇,工业企业要求AWS帮助他们利用云、工业边缘和机器学习,以从其设备生成的大量数据中获得更多价值。

Amazon MonitronAmazon Lookout for Equipment通过机器学习支持预测性维护

 今天,工业和制造企业面临的主要挑战是设备的持续维护。过去大多数设备维护都是被动的(在机器发生故障之后)或预防性的(定期进行以确保机器不会发生故障)。被动维护可能会损失大量成本并带来长时间停机,而预防性维护若维护过度则成本过高,若维护不够频繁则无法防止故障。实际上,预测性维护(能够预测设备何时可能需要维护的能力)是一种更有前景的解决方案。但是,为了实现预测性维护,企业在过去需要雇佣熟练的技术人员和数据科学家从头构建复杂的解决方案,同时需要针对用例识别和购买正确类型的传感器,并将它们与IoT网关(一种聚合和传输数据的设备)连接在一起。然后,公司必须测试监测系统,并将数据传输到本地或云上进行处理。只有这样,数据科学家才能构建机器学习模型来分析数据模式和异常情况,或者在检测到异常时创建警报系统。一些企业已经为在设备和必要的基础设施上安装传感器用于数据连接、存储、分析和警报方面进行了大量投资,然而,即使这些企业也通常仅停留在使用初级数据分析和建模方法的阶段,与高级机器学习模型相比,这些方法昂贵且通常无法有效地检测异常情况。大部分企业依然缺乏专业知识和人员来构建和完善机器学习模型,无法进行高度准确的预测性维护。这些都导致了很少有企业能够成功实施预测性维护,即使少数做到这一点的企业也希望让这些投资进一步发挥作用,同时减轻维护解决方案的负担。在这些问题上,全新的AWS机器学习服务可以提供众多帮助:

  • 对于未建立传感器网络的客户,Amazon Monitron提供由传感器、网关和机器学习服务组成的端到端机器监控系统,以检测异常并预测何时需要维护工业设备。Amazon Monitron帮助客户免去了从头开始构建先进的、由机器学习驱动的预测性维护系统的高成本需求和复杂性,使他们能够专注于其核心制造、供应链和运营功能。Amazon Monitron根据振动或温度的异常波动来检测机器是否正常运行,并在可能出现故障时通知客户检查机器以确定是否需要预测性维护。这一端到端的系统提供了用于捕获振动和温度数据的IoT传感器、用于将数据聚合和传输到AWS的网关、以及用于检测异常设备模式并在数分钟内提供结果的机器学习云服务,而无需客户具备任何机器学习或云经验。借助Amazon Monitron,机器维护人员无需任何开发工作或专业培训就可以在数小时内开始跟踪机器的运行状况。Amazon Monitron可在轴承、电机、泵、传送带各种工业和制造领域的旋转设备上使用,其典型应用场景包括数据中心冷却风扇或水泵等关键机器的监测,或者大量安装在具有生产和运输系统的制造工厂中。Amazon Monitron还提供一个移动应用程序,供客户的现场维护技术人员实时监控设备行为。技术人员可以通过这个移动应用程序收到不同机器上任何异常设备状况的警报,检查机器的运行状况,并决定是否需要安排维护。为了提高系统的准确性,技术人员还可以在移动应用程序中输入有关警报准确性的反馈,帮助进一步改善Amazon Monitron。Amazon Monitron已经正式推出。要了解有关Amazon Monitron的更多信息,请访问https://aws.amazon.com/monitron
  • 对于已经拥有传感器但不希望自己构建机器学习模型的客户,Amazon Lookout for Equipment让客户可以将传感器数据发送到AWS,由AWS为其构建模型并返回预测结果,从而检测异常设备行为。首先,客户将其传感器数据上传到Amazon Simple Storage Service (S3),并将S3位置提供给Amazon Lookout for Equipment。Amazon Lookout for Equipment也可以从AWS IoT SiteWise提取数据,并与OSIsoft等其他流行的机器操作系统无缝协作。 Amazon Lookout for Equipment分析数据,评估正常或健康的模式,再利用从所有训练数据中得到的洞察来构建为客户环境定制的模型。然后,Amazon Lookout for Equipment可以使用机器学习模型来分析传入的传感器数据并识别机器故障的预警信号。这也就使得客户可以进行预测性维护,从而通过防止工业系统生产线崩溃来节省成本并提高生产率。 Amazon Lookout for Equipment帮助客户从其现有传感器中获得更多价值,使得客户能够及时做出从根本上改善整个工业流程的决策。要了解有关Amazon Lookout for Equipment的更多信息,请访问https://aws.amazon.com/lookout-for-equipment

AWS Panorama通过计算机视觉改善工业运营和工作场所安全

许多工业和制造业客户希望在其设施和设备的实时视频中使用计算机视觉技术自动执行监测或视觉检查任务,并实时做出决策。例如,客户通常需要检查一些高速运转的流程(例如精细铣削或激光工具)以确定是否需要进行调整,或者监视工地上和工厂的活动以确保操作合规(例如,确保行人和叉车留在指定的工作区域内),或评估其设施内的工人安全(例如,保持适当的人员距离或使用PPE)。但是,当下普遍使用的监测手段是手动的,容易出错的,并且难以扩展。客户可以在云中构建计算机视觉模型来监视和分析他们的实时视频,但是工业设施和流程通常位于偏远和孤立的位置,网路连接很慢、昂贵或完全不存在。尤其对于那些涉及零件或安全监控视频审查等人工审核的工业流程,在云中构建计算机视觉模型更为困难。例如,如果某个高吞吐量的生产线上出现质量问题,客户希望立即得到预警,因为问题存在时间越长,解决问题的成本越高。这种类型的监控视频可以通过计算机视觉技术实现在云中自动处理,但是这些视频一般带宽高并且上载速度慢。因此,客户只能实时进行视频监控,但这一方式操作难度高、易出错并且成本高。有些客户希望使用具有足够处理能力的智能相机来运行实时监控模型,却很难达到高准确性、低延迟的性能。大多数客户最终会运行一些简单的模型,却无法编程为可以集成到工业机器中的自定义代码。针对这些问题,AWS现在可以提供以下帮助:

  • AWS Panorama Appliance提供了一种新的硬件设备,使组织可以将计算机视觉添加到客户可能已经部署在本地的摄像机中。客户首先将AWS Panorama Appliance连接到他们的网络,然后这一设备会自动识别摄像头数据流并开始与现有的工业摄像头进行交互。AWS Panorama Appliance可集成于那些用于构建自定义机器学习模型或获取视频以进行更精细分析的AWS机器学习服务和IoT服务中。AWS Panorama Appliance将AWS机器学习能力扩展到边缘,以帮助客户在没有网络连接的情况下在本地进行预测。每个AWS Panorama Appliance都可在多个摄像头数据流上并行运行计算机视觉模型,从而使诸如质量控制、零件识别和工作场所安全的用例成为可能。AWS Panorama Appliance还可与适用于零售、制造、建筑和其他行业的AWS和第三方经过预先培训的计算机视觉模型一起使用。此外,客户使用Amazon SageMaker自主开发的计算机视觉模型也可以部署在AWS Panorama Appliance上。
  • AWS Panorama软件开发套件(SDK帮助硬件供应商开发可在边缘有效运行计算机视觉模型的新型摄像头。使用AWS Panorama SDK构建的摄像头可在多种用例中运行计算机视觉模型,例如检测快速移动的传送带上的损坏部件或定位那些脱离指定工作区域的器械等。这些相机可以使用英伟达和安霸旗下用于计算机视觉的芯片。通过使用AWS Panorama SDK,制造商可以开发自带计算机视觉模型的相机,从而可以处理更高分辨率的高质量视频以发现问题。他们还可以在低成本设备上构建更复杂的模型,这些设备可以通过以太网供电并可以放置在站点周围。客户可在Amazon SageMaker中训练模型,并一键将其部署到使用AWS Panorama SDK构建的摄像机上。客户还可以将Lambda功能添加到使用AWS Panorama SDK构建的摄像头中,以通过文本或电子邮件提醒潜在问题。AWS还提供用于PPE检测和保持人员距离等任务的预构建模型,并且可以在几分钟内部署这些模型,而无需进行任何机器学习工作或特殊优化。

要了解更多关于AWS Panorama或其支持供应商和合作伙伴的信息,可访问https:// aws.amazon.com/panorama。

Amazon Lookout for Vision可以低成本自动、快速、准确地对图像和视频进行视觉异常检测

 AWS客户非常希望将计算机视觉部署到摄像头中以用于质量控制。工业企业必须保持不断的努力进行质量控制。仅在制造业中,由于忽略某些细微错误而导致的生产线停产每年导致数百万美元的成本超支和收入损失。工业流程中的外观检查通常需要人工操作,这可能非常乏味且标准不一。计算机视觉技术可以保证持续识别外观缺陷所需的速度和准确性,但实施过程却可能非常复杂,并需要数据科学家团队来构建、部署和管理机器学习模型。由于这些局限,由机器学习支持的视觉异常系统对绝大多数企业而言仍然遥不可及。现在, AWS可在以下领域帮助到这些企业:

  • Amazon Lookout for Vision为客户提供了一种高精度、低成本的异常检测解决方案,可以通过机器学习技术每小时处理数千张图像以发现缺陷和异常。客户将摄像头图像批量或实时发送到Amazon Lookout for Vision以识别异常,例如机器部件的裂纹、面板上的凹痕、不规则形状或产品上的颜色错误等。然后,Amazon Lookout for Vision报告与基线不同的图像,以便客户采取适当的措施。Amazon Lookout for Vision有强大的技术能力可以处理因工作环境变化而引起的相机角度、方位和照明方面的差异。客户可以通过至少提供30张“良好”状态的图像建立基线,准确、一致地评估机械零件或制成品。Amazon Lookout for Vision也可以在Amazon Panorama设备上运行。即日起客户可在AWS中运行Amazon Lookout for Vision。从明年开始,客户还将可以在AWS Panorama Appliances和其他AWS Panorama设备上运行Amazon Lookout for Vision,从而可以在网络连接受限或无网络连接的环境中使用Amazon Lookout for Vision。要了解有关Amazon Lookout for Vision的更多信息,请访问https://aws.amazon.com/lookout-for-vision

“工业和制造业客户需要持续应对来自股东、客户、政府和竞争对手的压力,要求他们降低成本,提高质量并保持合规性。这些组织希望利用云和机器学习来实现流程自动化并增强整个运营流程中的人员能力,但是构建这些系统可能出错率高、复杂、耗时且昂贵,”负责亚马逊机器学习的AWS副总裁Swami Sivasubramanian说,“我们很高兴为客户带来五项针对工业用途的全新机器学习服务。这些服务易于安装、部署、快速启动和运行,并将云和边缘相连,将助力工业客户打造未来智慧工厂。”

芬达乐器公司(Fender Musical Instruments Corporation)是吉他、贝斯、放大器和相关设备的全球领先制造商和标志性品牌。芬达基础设施全球总监Bill Holmes表示,“在过去的一年中,我们与AWS共同针对设备状态检查进行了很多努力,这是对成功的制造业务而言非常关键却容易被忽略的部分。对于全球制造商而言,维持设备正常运行时间是在全球市场上保持竞争力的唯一途径。由于设备故障的紧急性,计划外的停机会给生产和劳动力造成巨大的损失。Amazon Monitron让大型工业制造商以及小型家族企业都能具备设备故障预测的能力,有机会抢先安排设备维修。”

斗山工程机械是全球领先的重型设备和发动机制造商。斗山工程机械战略副总裁Jaeyeon Cho表示,“AI在推进斗山下一代设备开发方面至关重要,因此我们正与AWS合作开发可利用自动化和可扩展机器学习的用例。很高兴继续与AWS合作,在我们的下一代IoT平台中利用Amazon Lookout for Equipment。”

Amazon.com Middle Mile Production Technology副总裁Steve Armato表示,“每个月有数百万辆卡车进入亚马逊工厂,因此使用自动化拖车装卸和停车的技术非常重要。Amazon’s Middle Mile Products & Technology (MMPT) 已开始使用AWS Panorama来识别车牌,自动加快驾驶员的出入手续,从而使这些车辆可以安全、快速地进入亚马逊站点,确保为客户提供更快的配送速度。”

BP是一家全球性能源企业,为客户提供运输用燃料,热能和光能,润滑油以及用于制造油漆、服装、包装物等日常用品的石化产品。BP在全球拥有18,000个服务站和74,000多名员工。BP美国首席技术官Grant Matthews说:“我们位于bpx的工程团队正与AWS紧密合作,以构建一个物联网和云平台,助力BP持续提高运营效率。作为这项工作的一部分,我们也在探索通过计算机视觉辅助提高安全性和工作人员安全。我们希望利用计算机视觉实现卡车自动化进出工厂,确认它们已完成正确的订单。此外,我们还在监控人员距离、设置动态禁区和检测石油泄漏等方面看到了通过计算机视觉辅助保护工人安全的可能性。AWS Panorama创新地实现了在单一硬件平台上以直观的用户体验提供所有这些解决方案。我们的团队非常高兴与AWS一起使用这项新技术,并期望解决许多新的用例。”

西门子交通为市内、城市间运输和货运提供智能高效的移动解决方案。“在过去的160年中,西门子交通在无缝、可持续和安全的运输解决方案领域持续处于领导地位。西门子ITS数字实验室负责将最新的数字技术带入交通行业,并处于向公共机构提供数据分析和AI解决方案的独特位置。”西门子交通ITS数字实验室创新经理Laura Sanchez表示,“随着城市面临新的挑战,市政部门希望西门子交通帮助他们进行创新。城市想了解如何有效地管理资产并改善拥堵和直接交通。我们希望使用AWS Panorama将计算机视觉带入现有的安全摄像头中,以监控交通并智能分配路边空间,帮助城市优化停车和交通,改善居民的生活质量。”

GE 医疗是全球领先的医疗技术和数字解决方案的创新者,致力于开发、制造和分销诊断成像剂、放射性药物、CT和MRI机器等医疗诊断设备、以及由其Edison数字医疗智能平台支持的智能设备。 “今天,我们通过人工检验医疗设备的质量。为了提升我们的品牌并为医疗保健专业人员提供值得信任的一流产品,我们很高兴能够通过Amazon Lookout for Vision探索以编程方式提高GE医疗日本工厂产品缺陷检测的速度、一致性和准确性的可能性,短期内还可能应用于全球其他区域的工厂中。”GE医疗日本工厂经理、产线运营官和总经理Kozaburo Fujimoto说。

]]>
AWS发布 Amazon DevOps Guru 机器学习驱动的全新运营服务 //www.otias-ub.com/archives/1166052.html Mon, 07 Dec 2020 03:50:14 +0000 //www.otias-ub.com/?p=1166052 机器学习驱动的全新运营服务为提高应用程序可用性提供定制化

北京-202012月7日,今天,在亚马逊云服务(AWS)举办的年度盛会——AWS re:Invent上,AWS宣布了完全托管的运营服务Amazon DevOps Guru。利用机器学习技术,这一服务可以帮助开发人员通过自动检测操作问题和建议补救措施来提高应用程序可用性。Amazon DevOps Guru应用了支持Amazon.com和AWS卓越运营多年的机器学习技术,通过自动收集和分析应用程序指标、日志、事件和痕迹等数据,识别偏离正常操作模式的行为(例如,计算能力配置不足、数据库 I/O过度使用、内存泄漏等)。当Amazon DevOps Guru识别出可能导致服务中断的异常应用程序行为(例如,延迟、错误率和资源限制等增加)时,它将向开发人员发出问题详细信息(例如,涉及的资源、问题时间表和相关事件等),并通过Amazon Simple Notification Service(SNS)以及Atlassian Opsgenie和PagerDuty等合作伙伴集成服务来帮助开发人员快速了解问题的潜在影响和可能原因,并提出具体的修复建议。开发人员可以使用Amazon DevOps Guru的修复建议来减少问题修复时间,无需手动设置或机器学习专业知识即可提高应用程序的可用性和可靠性。 Amazon DevOps Guru没有前期成本或承诺,客户只需为Amazon DevOps Guru分析的数据付费。访问https://aws.amazon.com/DevOps Guru即可开始使用Amazon DevOps Guru。

为了摆脱本地部署的限制并向全球扩展业务运营,越来越多的组织开始转向基于云的应用程序部署和微服务架构,这也导致应用程序为满足客户需求而变得越来越分散。开发人员需要更多的自动化方式来维护应用程序的可用性,减少花费在检测、调试和解决运营问题上的时间和精力。错误的代码或配置更改、不平衡的容器集群或CPU、内存、磁盘等资源耗尽带来的应用程序宕机事件将不可避免地导致不良客户体验和收入损失。企业需要花费大量资金和开发人员时间来部署多个监测工具,而这些监测工具通常是分开管理的,并且必须针对负载平衡器错误或应用程序请求率下降等常见问题开发和维护自定义警报。对于希望通过设置阈值以识别和警告应用程序资源异常状况的企业来说,不仅很难设置准确的阈值,涉及诸多手动操作,并且要求阈值必须随着应用程序使用情况的变化而不断更新(例如,在假日购物季时突增大量请求)。如果阈值设置得太高,开发人员在运营性能已经严重受损前无法收到警报。当阈值设置得太低时,开发人员则可能得到过多误报并最终忽略警报。即使开发人员对潜在的操作问题已经有所警觉,仍然很难寻找和确认问题根源。使用现有工具,开发人员通常很难从图形和警报中确定问题根源,而即使找到根本原因,也往往无法解决问题。每次故障排除都是冷启动,团队必须花费数小时或数天来识别问题,这种工作既耗时又繁琐,从而减缓了解决操作故障的时间,并可能延长应用程序的中断时间。

Amazon DevOps Guru的机器学习模型采用了亚马逊过去20多年为Amazon.com构建、扩展和维护高可用应用程序的运营专业知识。这使Amazon DevOps Guru能够自动检测运营故障(例如,警报遗漏或配置错误,资源耗尽的早期警告,可能导致停机的配置更改等),提供有关资源和相关事件的背景,并建议补救措施,而无需开发人员具备任何机器学习经验。开发人员只需在Amazon DevOps Guru控制台中单击几下,即可自动提取和分析所有资源的历史应用程序和延迟、错误率、请求率等基础架构指标,以建立操作基线,然后Amazon DevOps Guru就可以开始通过预先训练的机器学习模型识别与既定基线的偏差。当Amazon DevOps Guru分析系统和应用程序数据以自动检测异常时,它还将这些数据分组为运营洞察,包括异常指标、随着时间的推移对应用程序行为可视化、以及有关补救措施的建议。 Amazon DevOps Guru还将相关的应用程序和基础架构指标(例如Web应用程序延迟峰值、磁盘空间用尽、错误的代码部署、内存泄漏等)相关联并进行分组,以减少冗余警报并帮助用户关注高严重性问题。客户可以通过查看配置更改历史记录、部署事件以及系统和用户活动,以在Amazon DevOps Guru控制台中生成需要优先关注的潜在操作问题事件列表。为了帮助客户快速解决问题,Amazon DevOps Guru提供了具有补救步骤的智能建议,并与AWS Systems Manager集成运行手册和协作工具,使客户能够更有效地维护应用程序并管理其部署的基础架构。 Amazon DevOps Guru与Amazon CodeGuru(机器学习支持的开发人员工具,可提供智能建议以提高代码质量并识别应用程序中最昂贵的代码行)一起,使客户可以针对其操作数据使用自动化机器学习技术,帮助开发人员轻松提高应用程序的可用性和可靠性。

负责亚马逊机器学习的AWS副总裁Swami Sivasubramanian表示:“客户希望AWS继续在我们可以运用自己的专业知识来提高应用程序可用性的领域中增加服务,并从Amazon.com的多年运营经验中学习。借助Amazon DevOps Guru,我们利用亚马逊过往的经验建立了专门的机器学习模型,帮助客户检测、排除故障并防止操作问题,并在出现问题时提供智能化建议。这使得客户可以立即从亚马逊在运营Amazon.com中学到的最佳操作实践中受益,节省配置和管理多个监测系统上所花费的时间和精力。”

只需在AWS管理控制台中单击几下,客户就可以在数分钟内开始使用Amazon DevOps Guru分析账户和应用程序活动,提供运营见解。 Amazon DevOps Guru通过汇总AWS CloudTrail、Amazon CloudWatch、AWS Config、AWS CloudFormation、AWS X-Ray等多个来源中的相关数据,让客户可以通过一个控制台可视化其运营数据,减少了在多种工具之间切换的需要。客户还可以在Amazon DevOps Guru控制台中查看相关的运营事件和数据以获得运营见解,并通过Amazon SNS接收警报。此外,Amazon DevOps Guru通过AWS软件开发工具包(AWS SDK)支持API终端节点,使合作伙伴和客户可以轻松地将Amazon DevOps Guru集成到其现有解决方案中,以针对高严重性问题提交故障单、分级并自动通知工程师。 PagerDuty和Atlassian已将Amazon DevOps Guru集成到其运营监控和事件管理平台中,使用其解决方案的客户现在可以从Amazon DevOps Guru提供的运营见解中受益。 Amazon DevOps Guru现已在美国东部(北弗吉尼亚)区域、美国东部(俄亥俄)区域、美国西部(俄勒冈)区域、亚太(新加坡)区域和欧洲(爱尔兰)区域进行预览,并将在未来几个月中在其它地区推出。

超过170,000个企业依靠Atlassian产品来简化团队合作,组织、讨论和完成工作。 Opsgenie产品负责人Emel Dogrusoz表示:“Atlassian很荣幸能与AWS就Amazon DevOps Guru推出达成合作,帮助更多开发团队部署代码和运营服务。通过与Opsgenie和Jira Service Management集成,Amazon DevOps Guru可以在预测到潜在问题或确定事件发生时立即通知相关团队。Amazon DevOps Guru提供了新的洞察力,而Atlassian确保了最快的响应速度。”

PagerDuty,Inc. (NYSE: PD) 是数字运营管理的领导者。PagerDuty产品副总裁Jonathan Rende表示:“PagerDuty致力于通过全生命周期事件自动化响应来推动向DevOps文化的转变。我们很高兴能够通过与Amazon DevOps Guru的集成来继续深化对DevOps的承诺。 借助亚马逊数十年来的卓越运营经验和Amazon DevOps Guru的机器学习功能,PagerDuty为我们的共同客户提供了更多的实时信号到响应功能。通过PagerDuty提取的Amazon DevOps Guru的Amazon SNS,AWS客户可以在运营事件影响用户服务中断之前对其采取实时行动。”

汤森路透是全球最受信赖的信息和资讯提供商,帮助专业人士做出自信的决定并更好的经营业务。汤姆森路透基础设施托管业务主管史蒂夫·索恩斯说:“客户体验对我们至关重要。在试图防止和减轻影响客户的事件时,处理可用性、性能和变更请求的多种警报可能是一个挑战。我们很高兴能够使用Amazon DevOps Guru并利用其机器学习见解为快速解决问题并避免影响客户的事件提供清晰路径。这一服务与PagerDuty的集成则可以帮助我们将Amazon DevOps Guru提供的问题解决建议及时有效地交付给正确的团队。”

SmugMug是一个提供付费的图片共享和托管服务及在线视频的平台,用户可以在该平台上传照片和视频。 该公司为业余和专业摄影师促进数字化和印刷作品的销售。 SmugMug运营总监Andrew Shieh说:“我的团队一直在寻找让手动工作自动化的方法。我们希望能够通过Amazon DevOps Guru实现这一目标,让AIOps接管我们的许多日常任务,简化日常运营,从而专注于IT创新。现在,我们不仅满足了业务需求,而且能够超出业务预期,因为我们有更多时间专注于最重要的事情——为我们的组织和客户创造价值。”

 

]]>
从专业领域到大众领域 AWS牵手中国本土出行巨头首汽约车 //www.otias-ub.com/archives/1151641.html Thu, 12 Nov 2020 08:23:06 +0000 //www.otias-ub.com/?p=1151641 作为云计算全球一哥,亚马逊云服务(AWS)服务全球数百万客户,帮助其实现数字化的转型和创新。在众多高科技企业背后, 都浮现AWS技术的身影。对于中国C端用户而言,一般难以直接感知AWS服务。而日前AWS与中国本土出行巨头首汽约车的战略合作,将自身技术服务延展至大众领域。越来越多的中国用户能享受到AWS高性能技术带来的便利。

此次AWS与首汽约车的战略合作主要聚焦在智能语音方向。该解决方案是基于AWS机器学习服务Amazon SageMaker和Amazon Transcribe开发的,也是出行行业首个定制智能语音解决方案。

首汽约车CEO魏东

在首汽约车CEO魏东看来,中国网约车市场已经开始从粗放的1.0时代迈向精细化2.0时代,智能化是网约车2.0时代最核心的部分。如何通过智能化实现服务的标准化是摆在首汽约车、滴滴等网约车平台面前亟待解决的问题。“网约车过去几年虽然很热闹,但事实上我们都始终是在网约车1.0时代,不管我们从滴滴、uber,到神州、曹操、首汽约车等等,我们过去都做的只是连接而已,我们只是通过各种手段提升了司机和乘客的匹配效率。我们不断去挖掘我们的交易引擎、地图引擎、定价引擎,目的是不断让车更快的找到人,目的是让整体的交易效率更高一点,从而不断增加供给、不断增加匹配。这是我们过去一直在做的是1.0的模式,就是连接的效率问题。网约车的交易是基于一天这几个大平台每天都是上千万单的人的每次交易,不是上千万件物理货品的运输,而是一个活体的人去运送活体的人,所以这里面最难的在于这样两侧的融合要高效完成,尤其是驾驶员这侧,对于每一个个体,每一单都能够标准化,我们现在在朝这方面去做。”

如何实现网约车2.0智能智慧交通,魏东认为需要大量拥抱技术,进行大量运算,大量进行数据的处理。一方面是自有的数据、平台的数据、交易数据,一方面是基于对用户理解的用户标签化的数据。但这远远不够,还需要公共数据,包括道路数据、社会数据等任何影响出行最终结果的变量。“如何把这些因素都纳入到一个真正的计算里面,全社会联网不是难事,全社会的联脑怎么实现,这里面涉及到技巧的问题和管理能力的问题。这是真正摆在全行业面前的挑战,但我们非常高兴能够拥抱亚马逊AWS,在这方面已经做了非常多的事情。”

作为中国出行领域的代表性企业,首汽约车对高精尖技术有着开放心态。魏东认为需要更多的技术来解决2.0时代的问题,一方面首汽约车会积极探索,另一方面也会提出各种需求给到AWS,希望一起找到解决方案。“这样的话我们也不用自己增加团队,这不现实,这不是我们擅长的事情,我们需要有所为有所不为,我们可以聚焦在乘客体验上、聚焦在司机体验上,怎么样打造非常好的双边体验,把这样的技术运用起来,实现企业的增值,以及我们共同创造一种社会价值。”

AWS大中华区产品部总经理顾凡

AWS大中华区产品部总经理顾凡认为AWS与首汽约车双方的战略合作是水到渠成,首汽约车有场景,有愿景,也有数据,AWS有技术。AWS能够用更少的人、更少的成本去快速地试错,能够去验证人工智能真的能够帮助提升客服的效率,提升客户的体验。AWS和首汽约车两边的碰撞,其实就是一个技术去赋能行业中一个新的场景,带来客户体验的提升。

用人工智能技术提升出行行业客户体验,赋予企业差异化竞争能力,在顾凡看来中国的人工智能发展速度非常快,而且已经快速落地场景中。AWS已经与首汽约车一起发掘这些场景,真正把别人没有干的事情做出来,未来演变成一个服务,更多人会用到和看到首汽在利用语音方面怎么提升解决客诉和提升客户体验的实践。

此次AWS机器学习服务Amazon SageMaker再一次出现在客户服务中,这一全球领先的技术也是AWS今年4月落地中国地区的重磅级技术。在中国Amazon SageMaker在医疗健康、教育、出行、工业智能、游戏、新媒体等各个行业应用不同场景的实践中。从智能远程心电平台的AI训练和推理场景,提升了模型训练的速度 到快速地构建具有逼真语音体验的在线学习平台以及更高精尖的自动驾驶领域等。

在之前回答199IT的提问时,顾凡表示,AWS对Amazon SageMaker在中国的发展预期非常大。在中国,人工智能和机器学习最大的挑战在于人才,成本非常高,一个数据科学家基本在100万年薪起步,而且很多被超大型科技公司所垄断。Amazon SageMaker能够帮助企业实现不用雇佣数据科学家,只需要雇有一些数据经验的开发工程师,然后通过培训,用SageMaker几周就实现产出。这是SageMaker最厉害之处。

顾凡认为,SageMaker想象空间不在于AWS,而在于整个行业。AWS帮助行业降低门槛,让非大公司的其他客户有能力把ML做成一个工具,让他们去想象应用场景。“我们坐在屋里是想象不出来SageMaker是怎么用的,只有客户自己能想象出来。我们只不过帮他用逆向思维多测一测而已”。

与场景结合,SageMaker将迸发出强大的性能和生命力,这一趋势也在与首汽约车战略合作中体现出来。目前出行行业普遍采用行程录音辅助安全监控,以及用户问题投诉处理。然而,现有的语音解决方案常常因为录音质量问题难以达到实际目的。

AWS数据实验室和解决方案研发中心在深入了解行程录音的特点及技术需求后,开发了语音降噪和导航音分离算法,并利用Amazon SageMaker机器学习服务进行模型训练、部署和调优,实现模型的快速迭代。Amazon SageMaker机器学习服务极大地降低了首汽约车采用机器学习的门槛。通过这一全托管的服务,首汽约车的数据科学家和算法工程师只需要专注数据和业务逻辑,无需运营和管理复杂的机器学习系统。此外,首汽约车还通过Amazon Transcribe人工智能语音服务将行程录音自动转化为文字,从而实现通过场景化的关键词识别分析触发安全预警,结合后台安全监控人员的人工判断,让实时的行程安全监控从可能变成现实。在应用这一智能语音解决方案时,其对用户数据保留全部所有权,可以随时决定数据的存储及访问权,并确保所有访问行为的合规。

在用户问题投诉处理方面,客服人员可以综合利用文字和语音信息,及时准确地进行判别,提高工作效率,改善司乘满意度。通过使用智能语音解决方案,首汽约车实现客服人工审核工作量降低35%,客服人工听音审核时长缩短20%,并保证智能客诉处理准确率达90%以上,有效改善了司乘体验及满意度、提高企业运营效率,同时,通过智能判责替代人工,还可以有效的降低成本。首汽约车和AWS未来也将进一步紧密合作,丰富智能判责场景,如针对网约车服务中可能出现的司乘矛盾、行驶路线问题等,通过语音智能识别后用作判定的依据。

在AWS中国团队的不断努力下,2020年AWS在中国的落地速度大大加快,今年以来,AWS中国区域已经发布了290项新服务或新功能,远远超过了2019年的数量总和。新服务和新功能不仅涉及大数据分析、人工智能与机器学习、物联网等热门领域。

对于此次与首汽约车的战略合作,AWS大中华区产品部总经理顾凡表示,“当下,全球大部分云上机器学习工作负载都在AWS上进行,我们也将利用AWS全球领先的云技术持续赋能客户。此次,依托AWS广泛而深入的机器学习服务,我们在短短4个月内就完成了智能语音解决方案的开发和上线,也期待能够与首汽约车继续携手推动出行行业的智能化转型。”

]]>
兰德公司:保持人工智能和机器学习的竞争优势 //www.otias-ub.com/archives/1098615.html Sat, 08 Aug 2020 21:28:50 +0000 //www.otias-ub.com/?p=1098615 对美国和中国的人工智能战略、文化和结构因素及军事能力发展进行比较分析,表示人工智能技术有可能成为未来武装冲突中至关重要的力量倍增器。

报告认为,由于很难明确判断哪个国家在人工智能领域处于领先地位,因此讨论人工智能生态系统的各个部分更有用。截至2020年初,美国在人工智能技术发展方面处于领先地位,原因是美国在先进半导体领域有巨大优势,但中国正试图通过大规模政府投资提升领域实力以削弱美国的优势,此外,中国在对机器学习应用发展至关重要的大数据集领域拥有优势,但该优势不足以战胜美国在半导体领域的优势。

报告建议,美国国防部应制定人工智能领域人才引进的短期、中期、长期规划;建立美国防部可直接控制的工程渠道;开发可用于人工智能的验证与评估技术;以及为人工智能技术成果转化创建完整的开发、测试和评估流程。

PDF版本将分享到199IT知识星球,扫描下面二维码即可!

]]>
亚马逊云服务(AWS)加快云产品和服务落地中国的速度 //www.otias-ub.com/archives/1096162.html Tue, 04 Aug 2020 14:08:52 +0000 //www.otias-ub.com/?p=1096162 日前,AWS大中华区云服务产品管理总经理顾凡接受记者采访表示,伴随着中国云计算市场的高速发展,AWS正在加速新服务和功能落地中国区域。仅今年上半年,亚马逊就在中国区域落地了150多项AWS云服务和功能。

(图:AWS大中华区云服务产品管理总经理顾凡 来源:199IT)

中国信息通信研究院7月29日发布的《云计算发展白皮书》显示,从2017到2019年,中国公有云的市场规模从264.8亿元增长689.3亿元,2018年、2019年的增速分别达到65.2%、57.6%。预计到2023年,市场规模将达到2307.4亿元,是2019年的3倍多。

2020年7月31日,亚马逊发布2020年第二季度财报,其中AWS季度收入为108亿美元。在中国,面对未来的良好增长前景,AWS也充满了期待和信心。

顾凡说,AWS要为中国企业和机构的创新赋能,非常重要的一点是要加快AWS云服务产品和功能在中国落地。

AWS云服务落地中国有两种情况:大部分服务和功能只需要做一些简单的本地化开发就可以在中国区域部署落地,有一些服务需要做更多的工作。但无论哪一种,AWS都会根据中国客户的需求,尽快、尽早地将全球的服务和功能落地到中国区域。

中国企业数据量的爆炸式增长,对大数据处理和分析有着非常迫切的需求。针对这些企业客户的需求,今年上半年AWS在中国区域就推出和部署了交互式查询服务Amazon Athena,数据提取、转换和加载 (ETL) 服务AWS Glue,以及流式数据处理服务Amazon MSK。

在容器领域,AWS在中国区域落地部署了Amazon EKS,让管理、运维K8S容器变得简单方便。

7月刚刚发布的AWS Cost Management,是一组帮助客户省钱、精细化管理云资源的服务。让客户少花钱,这种事情在IT界可以说是前所未有的。AWS还经常主动降价,截至2020年6月23日,AWS已经公布了自2006年上线以来的第85次降价。

在今年新落地中国区域的云服务和产品中,特别值得一提的是机器学习服务Amazon SageMaker。

人工智能现在是非常热门的话题。亚马逊认为,人工智能的本质和核心是机器学习。人工智能、机器学习的概念早在50年前就出现了。之所以现在才热起来,是因为过去机器学习的门槛比较高,只有少数科技巨头和硬核的研究机构才有条件进行研究。一方面是机器学习需要的庞大算力不容易获得;另一方面,机器学习模型的训练过程特别复杂,要搭建训练环境、准备数据、寻找合适的算法、进行大量的运算、优化算法。

现在有了云计算,算力不再是问题。SageMaker则可以降低机器学习模型训练过程的复杂性。SageMaker是一项完全托管的服务,它可以化繁为简,帮助开发者和数据科学家快速地规模化构建、训练和部署机器学习模型,大大降低了模型构建和训练的难度。

SageMaker是一个非常开放的产品,无论对于各类机器学习框架和算法的支持,模块化的设计方式,还是对于生态合作伙伴解决方案的支持,能够真正让各种类型、各种需求的客户都很方便地应用这个服务。此外,SageMaker Studio还是业界第一个面向机器学习的集成开发环境。

目前,Amazon SageMaker成为了全球上万家客户的选择。Gartner在2020年2月发布的《云上AI开发者服务魔力象限》,在技术执行力和对技术未来发展愿景的完整规划方面将AWS排名在领导者象限最高位置。

SageMaker一经推出就受到了中国客户和合作伙伴的欢迎。大宇无限、虎牙直播、嘉谊互娱、华来科技等公司已经在使用SageMaker解决机器学习技术的需求。中科创达、东软、伊克罗德分别将SageMaker运用到产品质检、企业安全网关、标签标注、文本分析、语意理解、预测分类、推荐系统与诈欺侦测等多种解决方案和应用场景之中。

AWS在加快产品落地、为中国的企业创新赋能的同时,也担当了中国市场全球化桥梁的角色。

一方面,很多知名的中国公司,例如像美的集团、猎豹移动、小米、OPPO、虎牙直播、海信、德比软件、安克创新、TP-Link、一加、币安、晶泰科技、华大基因、传音控股、网易游戏、我爱我家、携程旅行、迈瑞医疗等等,都在利用AWS的全球基础设施和云服务。得益于AWS全球24大区域、77个可用区的广泛布局,这些公司不需要费力地,去异国他乡构建IT设施,在中国就可以做好海外业务。AWS还利用亚马逊的全球资源,例如全球开店、Prime会员、物流配送体系、生态合作伙伴资源等等,为他们提供销售、市场、产品交付、融资等帮助。

另一方面,还有很多跨国公司,例如博西家电、英孚教育、玫琳凯、太古可口可乐、先锋电子、英伟达、赛默飞世尔、西门子、飞利浦等等,他们在海外就使用AWS。进入中国后,他们可以使用AWS中国区域,快速部署应用,在运营上享受一致的体验。

顾凡说,在海外区域使用AWS的客户,也是AWS新服务落地中国区域的向导,他们给AWS提供反馈,希望哪些服务尽快落地中国区域。根据客户反馈制定服务落地中国区域的优先级,让AWS赋能中国客户的工作事半功倍,更加高效。

]]>
亚马逊云服务(AWS)全面推动机器学习创新应用 //www.otias-ub.com/archives/1080551.html Thu, 09 Jul 2020 12:01:57 +0000 //www.otias-ub.com/?p=1080551 AWS上海人工智能研究院联合AWS全球AI 研究团队、明尼苏达大学、俄亥俄州立大学和湖南大学的专家学者共同构建药物重定位知识图谱抗击新冠

在2020年7月9日下午举办的世界人工智能大会2020云端峰会产业发展高峰论坛全体会议上,AWS人工智能副总裁Swami Sivasubramanian发表了题为《突破常规:机器学习无处不在》的主题演讲。他表示,我们正在开启一个机器学习的黄金时代,机器学习已经在汽车自动驾驶、欺诈检测、呼叫中心、生产制造、语音转录、机器人技术、金融、零售、医疗等多个领域发挥重要作用。Swami还就企业如何使用机器学习技术及培养机器学习能力等方面提出建议,希望机器学习为各类企业和机构的发展注入强大动能,助力整个社会加速迈入人工智能时代的美好未来。

在“智联世界,共同家园”这一主题的号召下,今年的世界人工智能大会正在紧密推进使用 AI 对新冠肺炎的诊断、康复和复工复产等方面进行研究的工作。自新冠肺炎疫情爆发以来,AWS一直在大力推动机器学习在全球抗疫中发挥作用。本届世界人工智能大会期间,“AWS面向药物发现的深度图学习”成功入选2020卓越人工智能引领奖(Super AI Leader,简称SAIL)年度榜单,体现了AWS在深度图学习方面的领先技术和在医疗领域的前瞻应用。

这一入选项目包含了AWS所构建的一个生物医药知识图谱,以及研发的一系列面向新药研发的深度图学习工具。其中最为引人注目的是AWS近期公开发布的一个用于大规模药物重定位(老药新用)的知识图谱 DRKG (Drug Repurposing Knowledge Graph),以及一套完整的用于药物重定位研究的机器学习工具,目前已经在 github 上开源给全世界研究机构。DRKG是AWS上海人工智能研究院联合AWS全球AI 研究团队、明尼苏达大学、俄亥俄州立大学和湖南大学的专家学者共同构建的,其目的是帮助研究人员更有效地对新冠病毒及其它疾病(如阿尔茨海默病)进行药物重定位研究。相比较传统的新药开发,药物重定位可以缩短药物研发周期,降低成本,规避风险,因此是一种比较有前景的新冠肺炎治疗策略。DRKG是一个综合型生物医药知识图谱,它从六个公开的大型医药数据库以及近期新冠肺炎的相关医学文献中挖掘数据并进行整理和规范,包含了人类基因、化合物、生物过程、药物副作用、疾病和症状等六个主要方面的数据。

此外,入选项目还包含两个由AWS上海人工智能研究院研发并开源的深度图学习工具,包括专门针对大规模知识图谱嵌入表示的训练和推理工具DGL-KE及支持分子性质预测、药物设计、先导化合物优化、化学反应预测等的DGL-LifeSci。测试表明,DGL-KE相比同类型其他开源工具在标准测试集上有2到5倍加速,DGL-LifeSci使研究人员可以只用一行代码完成分子性质预测建模,较现有的实现最高能提速13倍。

AWS一直以来致力于将其在机器学习和人工智能方面深厚的技术积累,以云服务的方式,赋能给全球几百万客户。除了抗击新冠疫情之外,机器学习在各行各业都有着非常广泛的应用前景。本届世界人工智能大会期间,AWS专门举办了主题为“当AI在云端生长”的在线论坛,从前沿技术、行业应用场景和技术实现的角度,分享如何借助 AWS 机器学习和人工智能服务进行创新,提高效率和节约成本,推动AI实际落地及各行业应用场景的实现。AWS机器学习副总裁和杰出科学家Alex Smola、AWS机器学习副总裁Bratin Saha、AWS首席科学家李沐、AWS上海人工智能研究院院长张峥、AWS中国机器学习业务拓展和产品技术架构总监代闻、AWS首席开发者布道师费良宏、AWS 高级开发者顾问王宇博、天津华来科技有限公司 CTO季宝平、Freewheel 机器学习团队负责人吴磊、中科创达软件股份有限公司首席技术官邹鹏程等出席了这一论坛。

作为2020世界人工智能大会的战略合作伙伴,AWS连续三年鼎力支持大会。今年,AWS也将通过深度参与各类全体会议、主题论坛、行业论坛以及通过云端峰会AI家园展示区等,多方式诠释“当AI在云端生长”的无限可能!

 

]]>
AWS张侠:TensorFlow全球85%负载都在AWS平台上 开发成本可降低54% //www.otias-ub.com/archives/1048701.html Wed, 13 May 2020 09:08:25 +0000 //www.otias-ub.com/?p=1048701 199IT讯 随着5月12日AWS宣布Amazon SageMake 在宁夏区和北京区正式上线,中国机器学习产业链迎来重要一极。

其重要程度如果要用数据来衡量,AWS首席云计算企业战略顾问张侠博士披露的一个数据足以让同行不可小觑。张侠博士表示,全球使用最主流TensorFlow框架做机器学习,大概85%的负载都在AWS平台上。

(图:AWS首席云计算企业战略顾问张侠博士)

作为全球机器学习最主流框架,TensorFlow由谷歌人工智能团队谷歌大脑(Google Brain)开发和维护,自2015年11月9日起,TensorFlow依据阿帕奇授权协议(Apache 2.0 open source license)开放源代码。据2019年9月TensorFlow 产品总监Kemal El Moujahid 披露的数据,TensorFlow在全球的下载量已经超过了 4000 万次。

同样让人惊艳的数据是,在AWS平台上有一个使用SageMaker+TensorFlow的具体案例,可以把效率从65%提高到90%,训练时间从30分钟缩短到14分钟。另一个角度,从全球目前看到的统计数字,整套Amazon SageMaker把总体拥有成本降低54%,开发效率提升10倍。而在中国AWS也在评估一些类似的数据。

为什么选择AWS的机器学习呢?张侠博士认为,AWS提供了非常广泛、深入的机器学习服务,其中它的一个重要产品就是Amazon SageMaker。它使得企业能够加速对机器学习的整个学习、建模、发展、实验的整个过程。AWS云平台其他所有的手段,包括数据存储、数据仓库,物联网和机器学习一起形成所谓的AIoT,智能的物联网。再包括使用一些容器的方法,快速的来部署,把机器学习的应用做成一个容器化的服务,在容器里可以快速部署。所以云计算和机器学习在一体化之后,AWS可以提供最广泛、最深入的解决方案。

而大宇无限机器学习技术总监苏映滨则认为性能、成本、算法、丰富度、便捷性都是企业决定使用Amazon SageMaker的考量范围,除此之外,还有一个重点是服务能力,或者说用户体验,就是可用率以及能够提供支持包括额外提供一些AI的支持。

十分重视中国市场  将改变企业服务、金融、教育、健康、卫生等创新场景

从2019年12月re:Invent上发布的Amazon SageMaker Studio等六大主要的功能开始,不到5个月时间,AWS在中国发布Amazon SageMake,包括SageMakerStudio等最新的功能。北京区、宁夏区作为AWS全球24个大区的第五个区和第六个区对产品的上线,表明了AWS对中国市场的重视程度。张侠博士表示,“我们非常清醒地意识到随着中国的经济发展,这个市场无疑是经济发展的最重要的市场之一,也是我们最重要的市场之一。”

而对于Amazon SageMaker的落地场景,张侠博士认为,中国是一个接受创新非常快的地方,如使用的人脸识别、使用汽车的牌照识别进入停车场等等类似的大量场景,不光开始的快,并把它落实变成一个真正的应用,在全球范围内很多还是处在非常领先的地位的。因为中国的文化现在是非常开放,也非常愿意去接受这些创新的东西的阶段。

“场景其实也是非常多方面的。比如说客户服务,这是一个比较独特的场景,这个场景里面现在很多进展,包括Amazon Connect的Contact Lens,在客服里面通过机器学习的方法、语义的理解,去强化这方面的内容。在金融里面,比如说交易里面越来越自动化,包括最近一些新的客户投资的产品,智能投顾,一直是比较热门的话题,很多券商、投资公司都在这方面去做一些事情。这个方面如果要建一些模型,然后再推荐一些股票、基金什么的,可能可以摆脱一些人为的因素,相对有一些比较独立的效果。从教育、健康、卫生等场景非常多。几乎想象力就是边界,我们在很多地方随着时间都能够往前推进。”

AWS机器学习方案包括SageMaker在内的三层服务堆栈

实际上,Amazon SageMaker只是AWS机器学习解决方案的一个层面。AWS提供的机器学习解决方案是一个包括三层的服务堆栈。如下图所示,Amazon SageMaker是其中间层。在这一层,主要通过Amazon SageMaker这一完全托管的服务,完全消除了机器学习过程中的繁重工作,让开发高质量模型变得更加轻松。

AWS也根据不同类型客户的需求,提供了全面的机器学习解决方案。三层服务堆栈的底层,为想要自己构建算法或开发新框架的客户提供灵活选择,客户可以选择使用TensorFlow、PyTorch、Apache MXNet、Chainer、Gluon、Horovod 和 Keras等机器学习框架和基础架构。在这一层,AWS 专注于性能、灵活性,降低成本,以便任何用户都可以使用最新的基础设施,对多种框架进行试验。借助AWS,客户可以访问针对机器学习的、最强大的 GPU 实例,应对最苛刻的应用场景。

在三层服务堆栈的顶层,AWS提供了训练好的人工智能服务,这些服务主要解决与人类认知相关的典型问题。例如,计算机视觉方面的服务,可以识别图像或视频中的对象、人员、文本、场景、活动和不安全或不适宜的内容。个性化推荐服务可以从库存中向消费者推荐多种产品和服务。客户可以直接在其应用中调用AWS提供的这些人工智能服务,而无需关注服务背后的机器学习模型。

开源产品随时推出 融合全球主流开源内容

AWS对开源比较重视,早在2019年1月25日,亚马逊AWS发布开源服务Amazon SageMaker Neo,它可以帮助使用者在多个操作环境中运行机器学习训练模型。

Amazon SageMaker Neo 让客户只需训练一次模型,即可以高达 2 倍的性能在任意场景运行。在连接的端点设备上运行的应用程序对于机器学习模型的性能尤其敏感。它们需要低延迟决策,通常部署在多种不同的硬件平台上。Amazon SageMaker Neo 针对特定硬件平台编译模型,自动优化模型性能,使它们能够以高达两倍的性能运行,而又确保精确性丝毫不打折扣。因此,开发者不再需要花费时间,根据每一个硬件平台手动调整他们已经训练过的模型(节约时间和成本)。SageMaker Neo 支持英伟达、英特尔、Xilinx、Cadence 和 Arm 硬件平台以及一些主流框架,如 Tensorflow、Apache MXNet 和 PyTorch。

对于未来AWS在开源方面的考量,张侠博士回答199IT提问时表示“实际上我们在整个Amazon SageMaker人工智能平台里面,多个方位、多个角度,从框架到算法,都经常会融进一些开源的内容。两周之前,在PyTorch方面,我们刚宣布了一个Torch Serve的开源模型,是PyTorch框架下的,所以开源产品是随时都会推出的。”

中国各行业如何Amazon SageMaker应用机器学习

据张侠博士了解,中国有各种各样的企业都有在使用Amazon SageMaker,一些大的传统企业,比如做家用电器的企业,智能冰箱是可以用语音对话的。

创新类的,比如在线教育、做自动驾驶的公司,还有一些新创的公司,集中在一些新的领域,像叽里呱啦、流利说,还有其他很多的教育相关的应用,比如判卷子、判分等等,所以在线教育有很多案例。

在医疗卫生行业,从基因到一些智能的新的应用技术,比如说用机器学习的方法来读一些脑部供血的状况、癌症发展的状况,有很多公司在做类似的内容,也是一个比较典型的应用场景。

张侠博士强调,“企业可以说从大到小,几乎各种各样行业都会有一些突破。他们真正的共同点是这些企业都处在一个创新的很好的状态,是一个在走上坡、积极努力进取状态,去找一些新的市场、新的服务和突破点,更好的提供更新的价值,我觉得这是他们真正的共同点。”

对数据分析行业和数字化的影响

Amazon SageMaker对未来数据分析行业有何影响,张侠博士认为,SageMaker对数据分析行业影响较大,云时代更多的海量的实时的数据,需要的不是像以前传统批量的分析,而更多是前瞻性的、预测性的、实时的分析。使用人工智能机器学习的这些方法做数据分析,无疑是一个大数据发展的非常重要的趋势。在这里如果能够使用SageMaker来加速数据分析模型、建模的过程,是能够很有效的推进这个工作的。“在实际工作中,我们也看到确实是这么个情况,比如今天我在准备一些材料,跟我们客户要分享,这个材料里面其中就有关于零售类客户的一些数据分析,数据怎么样通过SageMaker做一些机器学习类的分析,能更好的进行预测的内容。所以这个事情是真实发生的。”

随着疫情的过去,很多企业准备在数字化转型过程当中重新大显身手,通过这次疫情,整个企业的发展加速了。因为在疫情当中好的数字化的原生企业,在疫情过程中表现都非常优秀。张侠博士坦言道:“数字化转型实际上包括很多方面,从客户体验、整个运营、决策、创新、竞争多个方面都是下一步经济发展、企业发展的关键,而这里面大数据分析和机器学习可以说是其中的两个重要的支撑点。一个企业如果抓好这些,可以更好的准备好,在下一阶段的发展中处在一个非常有利的地位。”(Ralf)

 

]]>
亚马逊云服务(AWS)中国宁夏及北京区域正式上线Amazon SageMaker //www.otias-ub.com/archives/1047088.html Tue, 12 May 2020 02:57:35 +0000 //www.otias-ub.com/?p=1047088 Amazon SageMaker 是一项完全托管的服务,使开发者和数据科学家能够更广泛、更成功地使用机器学习

[2020年5月12日,北京] 亚马逊云服务Amazon Web Services, Inc. (AWS) 今天宣布,Amazon SageMaker在由西云数据运营的AWS中国 (宁夏) 区域和光环新网运营的AWS中国(北京)区域正式上线。Amazon SageMaker 是一项完全托管的服务,可以帮助开发者和数据科学家快速地规模化构建、训练和部署机器学习 (ML) 模型。Amazon SageMaker在中国的上线还使中国客户获得一系列新发布的工具,例如弹性Notebook、实验管理、模型自动创建、模型调试分析,以及模型概念漂移检测等强大功能,所有这些工具都封装在首个面向机器学习的集成开发环境(IDE) Amazon SageMaker Studio中。进一步了解Amazon SageMaker,请访问: https://www.amazonaws.cn/sagemaker/

机器学习的实施是一项非常复杂的工作,涉及大量试错,并且需要专业技能。开发者和数据科学家首先必须对数据进行可视化、转换和预处理,这些数据才能变成算法可以使用的格式,用以训练模型。即使是简单的模型,企业也需要花费庞大的算力和大量的训练时间,并可能需要招聘专门的团队来管理包含多台GPU服务器的训练环境。从选择和优化算法,到调节影响模型准确性的数百万个参数,训练模型的所有阶段都需要大量的人力和猜测。然后,在应用程序中部署训练好的模型时,客户又需要另一套应用设计和分布式系统方面的专业技能。并且,随着数据集和变量数的增加,模型会过时,客户又必须一次又一次地重新训练模型,让模型从新的信息中学习和进化。所有这些工作都需要大量的专业知识,并耗费庞大的算力、数据存储和时间成本。而且,由于没有集成化的工具用于整个机器学习的工作流,机器学习模型的传统开发方式是复杂、繁复和昂贵的。

Amazon SageMaker消除了机器学习过程中各个步骤的繁重工作。通过预置的Notebook、针对PB级数据集优化的常用算法,以及自动模型调优,Amazon SageMaker大大降低了模型构建和训练的难度。并且,Amazon SageMaker显著简化和加快了模型训练过程,可以通过自动提供和管理基础设施来训练模型和运行推理。同时,AWS 最近宣布了多项重要功能和高级特性,让客户能够更轻松地构建、训练、调优和部署机器学习模型。这些功能包括:

  • 面向机器学习的集成开发环境(IDE):Amazon SageMaker Studio将所有用于机器学习的组件集中在一个地方。跟使用集成开发环境(IDE)做软件开发一样,开发者现在可以在Amazon SageMaker Studio中查看和组织源代码、依赖项、文档和其它应用程序资产,例如用于移动应用程序的图像。当前,机器学习工作流有大量组件,其中许多组件都带有它们自己的一组各自独立的工具。Amazon SageMaker Studio IDE为所有Amazon SageMaker功能和整个机器学习工作流提供了一个统一界面。Amazon SageMaker Studio为开发者提供了创建项目文件夹、组织Notebook和数据集,以及协作讨论Notebook和结果的功能。Amazon SageMaker Studio使构建、训练、解释、检查、监视、调试和运行机器学习模型变得更简单、更快。

 

  • 弹性笔记本:Amazon SageMaker Notebooks提供了一键启用的Jupyter Notebook,具有秒级的弹性计算提升能力。Notebooks包含了运行或重新创建机器学习工作流所需的一切要素。在此之前,要查看或运行Notebook,开发者需要在Amazon SageMaker中启动计算实例。如果他们发现需要更多的算力,必须启动一个新实例,转移Notebook,关闭旧实例。而且,由于Notebook与计算实例是耦合的,通常存在于开发者的工作站上,其共享和迭代协作很不容易。Amazon SageMaker Notebooks提供了弹性的JupyterNotebook,让开发者可以轻松地调高或降低Notebook需要的算力(包括GPU加速)。这些调整在后台自动发生,不会打断开发者的工作。开发者不再需要浪费时间来关闭旧实例、在新实例中重新创建所有工作,从而可以更快地开始构建模型。Amazon SageMaker Notebook还可以自动复制特定环境和库依赖项,实现Notebook一键共享。这将使构建模型的协作变得更容易,比如,一个工程师可以很容易地将手头工作共享给其他工程师,让他们在现有工作的基础上构建模型。

 

  • 实验管理:Amazon SageMaker Experiments可以帮助开发者组织和跟踪机器学习模型的迭代。机器学习通常需要多次迭代,目的是隔离和衡量更改特定输入时的增量影响。这些迭代过程可能会生成数百个实验构件,如模型、训练数据和参数设置。但是,开发者目前缺乏一个便利的实验管理机制,甚至不得不依赖电子表格来跟踪实验,手动对这些构件进行排序,以了解对应的影响。Amazon SageMaker Experiments自动捕获输入参数、配置和结果,并将它们存储为“实验”,帮助开发者管理这些迭代。开发者可以浏览活跃的实验,根据特征搜索以前的实验,回顾以前的实验结果,还能用可视化的方式比较实验结果。Amazon SageMaker Experiments也保留了实验的完整谱系,如果一个模型开始偏离其预期结果,开发者可以及时回溯和检查。因此,Amazon SageMaker Experiments使开发者更容易快速迭代和开发高质量的模型。

 

  • 调试与分析:Amazon SageMaker Debugger用于调试和分析模型训练,提高准确性,减少训练时间,让开发者更好地理解模型。当前,机器学习训练过程基本上是不透明的,训练时间可能很长、很难优化;而且,往往就像一个“黑箱”,解读和解释模型都很困难。使用Amazon SageMaker Debugger,在Amazon SageMaker中训练的模型将自动发出收集到的关键指标,这些指标可以在Amazon SageMaker Studio中查看,也可以通过Amazon SageMaker Debugger的API查看,为训练的准确性和性能提供实时反馈。当检测到训练问题时,Amazon SageMaker Debugger会提供警告和补救建议。Amazon SageMaker Debugger也可帮助开发者解读模型是如何工作的,向神经网络的可解释性迈出了第一步。

 

  • 自动构建模型:Amazon SageMaker Autopilot是业内首个可以让开发者对其模型保持控制和可见性的自动化机器学习功能。当前的机器学习自动化方法,在创建初始模型方面做得不错,但是对于如何创建模型、模型中包含什么内容,并没有数据提供给开发者。因此,如果模型达不到期望,开发者想要改进它,就没有什么办法了。此外,当前的机器学习自动化服务只给客户一个简单的模型。有时客户希望做出一些取舍,例如以某个版本的模型牺牲一点准确性,以换取更低延迟的预测。但是如果客户只有一个模型可用,就没有这样的可选项。Amazon SageMaker Autopilot会自动检查原始数据,应用特征处理器,挑选最佳算法集,训练多个模型,对它们进行调优,跟踪其性能,然后根据性能对模型进行排名。点击几下鼠标,用户可以得到用于部署的、性能最佳的模型推荐,而这只需很少一点时间和精力用于训练。并且,用户可以清楚地看到模型是如何创建的,以及模型中包含什么内容。缺乏机器学习经验的人可以使用Amazon SageMaker Autopilot轻松地生成仅基于数据的模型,经验丰富的开发者可以使用它快速开发基础模型,团队可以在此基础上进行进一步迭代。Amazon SageMaker Autopilot为开发者提供了多达50种不同的模型,可以在Amazon SageMaker Studio中查看。因此,开发者能够针对应用场景选择最佳模型,并且可以结合不同的优化因子考虑多个候选模型。

 

  • 概念漂移检测:Amazon SageMaker Model Monitor允许开发者检测和纠正概念漂移(conceptdrift)。影响部署到生产环境后的模型的准确性的一大因素就是生产环境中的输入数据开始不同于模型训练所使用的数据集,从而影响预测结果,例如经济状况改变导致的新利率会影响国内采购预测,季节变化带来不同的温度、湿度和空气压力会影响设备维护时间表的预测,等等。如果输入数据开始出现这样的差异,就会导致所谓的“概念漂移”,即模型用于预测的模式不再适用。Amazon SageMaker Model Monitor自动检测模型部署中的概念漂移。Amazon SageMaker Model Monitor在训练期间创建一组关于模型的基线统计数据,将用于预测的数据与训练基线进行比较。当检测到漂移时,Amazon SageMaker Model Monitor会向开发者发出告警,并帮助他们直观地确定原因。开发者可以使用Amazon SageMaker Model Monitor的开箱即用功能立即检测漂移,也可以为Amazon SageMaker Model Monitor编写自己的规则用于监测。Amazon SageMaker Model Monitor让开发者更容易调整训练数据或算法以解决概念漂移问题。

“国内越来越多的企业正在探讨机器学习和人工智能技术带来的巨大潜力,探索如何把这些技术融入到日常应用当中。但实际上,除了少数具有专家人才和数据科学家的企业外,大部分公司还是很难应用机器学习这项技术,因此客户希望我们可以让这项技术变得更方便、更易用。”AWS全球副总裁及大中华区执行董事张文翊表示,“AWS提供了广泛、深入的机器学习和人工智能服务。Amazon SageMaker在AWS中国(宁夏)区域和AWS中国(北京)区域上线,将帮助更多中国客户去除机器学习涉及的混乱和复杂性,让他们能够胜任构建、训练和部署模型的工作,以应对新的挑战。”

全球已有数以万计的客户利用Amazon SageMaker加快机器学习部署, Autodesk、Change Healthcare、拜耳、英国航空、盖洛普、洛杉矶快船队、松下航空电子(Panasonic Avionics)、环球邮报和T-Mobile等等。中国客户如虎牙、大宇无限、嘉谊互娱、华来科技等也已选择Amazon SageMaker大规模地构建、训练和部署机器学习模型。

大宇无限是一家专门从事移动应用程序开发的公司,主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。大宇无限技术副总裁刘克东表示:“在大宇无限的产品中实现视频内容的在线推荐,对我们的开发团队来说是一个巨大的挑战。构建机器学习系统的整个流程极为复杂,需要大量的开发者耗费很长的时间才有可能完成。Amazon SageMaker极大地简化了机器学习系统的构建、训练和部署流程,使我们无需构建基础设施,我们的算法工程师只需为Amazon SageMaker准备数据,仅用了三个月的时间就从零完成了整个系统的建设并承受了实际用户访问的压力。”

借助AWS提供的Amazon EC2 GPU实例和Amazon SageMaker,华来科技以优化的成本将机器学习创新融合到其智能家居、智慧安防设备和服务中。天津华来科技有限公司云业务部总监季宝平说:“在AWS上,我们可以完成算法的构建和模型训练,并且该过程完全不需要我们在本地投资昂贵的计算硬件,一切都是在云端以按需使用的方式完成。与行业通用的公开算法不同,更重要的是我们自己训练的模型在应用场景中具有更多个性化空间,并且我们对自己训练出的模型具有知识产权,这将是我们未来的核心竞争力。”

AWS合作伙伴网络 (APN) 成员对Amazon SageMaker在中国区域的上线也表示欢迎。

德勤D.Data是一个基于AWS的 PaaS (平台即服务) 平台,为企业客户提供数据分析和业务洞察。它为不同的行业和业务场景提供了各种数据建模和预测服务。德勤创新、数字化研发中心主管合伙人賴有猷评价道:“通过Amazon SageMaker,我们大大提高了算法和机器学习建模能力,提高了分析效率。Amazon SageMaker的IDE平台也帮助我们加快了开发进程。”

伊克罗德是AWS的核心级咨询合作伙伴 (APN Premier Consulting Partner),其基于AWS的解决方案极大地减少了用户的开发时间与运营费用。伊克罗德中国区副总裁桂梓捷表示:“我们运用Amazon SageMaker平台加速企业导入行业AI解决方案,如标签标注、文本分析、语意理解、预测分类、推荐系统与诈欺侦测等,针对客户实际遇到的商业问题,量身打造真正解决问题的端到端AI应用。随着Amazon SageMaker在中国区域落地,我们将会以SageMaker平台作为企业MLOps(机器学习运营)核心,协助企业构建MLOps流程,尤其在金融行业领域,帮助企业内部数据科学家与AI工程师建立、训练与部署机器学习模型。”

###

]]>
房地产科技2020:房地产的未来 //www.otias-ub.com/archives/1025484.html Tue, 31 Mar 2020 22:50:00 +0000 //www.otias-ub.com/?p=1025484 牛津大学发布了新报告“房地产科技2020——房地产的未来”。Proptech(房地产科技)描述了目前房地产行业正在发生的数字化转型。Proptech 1.0浪潮起源于20世纪80年代的PC和90年代的互联网兴起,以2001年的互联网泡沫破裂告终。Proptech 2.0是由GFC和技术发展刺激的,最终在App Store中达到顶峰,有迹象表明它现在正在成熟。Proptech 3.0将由全球气候变化和快速城市化的压力推动,并通过物联网、机器学习和人工智能以及庄闲网络娱乐平台进入 等外生技术的成熟来实现。

牛津大学分析了房地产科技的五个驱动因素和主要活动领域:

五个驱动因素:

  • 建筑技术
  • 法律技术
  • 庄闲游戏app官网 运动
  • 金融科技
  • 外生技术

四个关键领域:

  • 智能房地产
  • 房地产金融科技
  • 房地产庄闲游戏app官网
  • 数据数字化/分析

报告认为还应该增加大规模外生技术(通常与交通相关)作为智能房地产行业的延伸。

在过去的4-5年里,至少有200亿美元投资于房地产科技行业,为7000家采用各种技术的房地产科技初创公司提供了资金,包括:

  • 网站和智能手机应用
  • API
  • 数据分析和可视化
  • 物联网(IoT)
  • 人工智能和机器学习
  • 庄闲网络娱乐平台进入 和分布式分类帐技术
  • 传感器
  • 虚拟现实和增强现实
  • 地理空间和5G技术
  • 云计算
  • 交通技术:无人机、自动驾驶车辆和超环路。
  • 其他技术,包括3D打印、可穿戴设备和环保建筑材料。

到2050年,世界人口预计将翻一番,预计其中90%的增长将在非洲和亚洲。在我们的历史上,首次有超过50%的世界人口居住在城市地区,预计到2050年,这一数字将增长到68%。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
Sojern:2020年北美旅游广告报告 //www.otias-ub.com/archives/1022754.html Wed, 25 Mar 2020 22:24:05 +0000 //www.otias-ub.com/?p=1022754 Sojern发布了“2020年北美旅游广告报告”。旅游营销人员可以利用从整个行业其他品牌那里学到的东西,更有效地分配预算,并保持不断发展的领先地位。

以下是一些重要发现:

营销人员对“永远在线的游客”的回应

营销人员表示,始终在线的方法的最显著好处是,当旅客开始计划和研究他们的下一次旅行时不会错过任何时刻(44%);可以持续测试、学习并更准确地优化数字营销策略(41%);可以看到逐月逐年的持续绩效视图(41%)。

旅游品牌热衷于将持续不断的活动与季节性活动和促销活动相结合,以提升他们的营销策略。这种方法将给他们更好的消费者洞察,可以利用这些洞察来微调他们的营销活动。

新兴技术将在2020年实现巨大增长

展望未来,旅游营销人员计划在未来五年内使用互动视频(50%)、机器学习(44%)和即时通讯应用或短信(41%)。互动视频可能会出现最大的同比增长,因为它为社交媒体和有线电视(CTV)的营销策略添加了动态元素,从而改善了客户互动和品牌保留率。

旅游营销人员正在将预算转移到CTV

2020年11%的视频广告预算分配给了CTV。旅游营销人员发现,它是接触和吸引观众的一个非常有效的渠道。主要动机包括:通过多个流媒体设备、应用或渠道定向观众(65%)、精确定位(36%),以及轻松制作低成本的专业视频内容(34%)。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
Cognizant:聊天机器人在保险业的未来 //www.otias-ub.com/archives/1020953.html Tue, 17 Mar 2020 20:46:46 +0000 //www.otias-ub.com/?p=1020953 随着消息平台的日益流行,以及人工智能(AI)和机器学习(ML)的发展,2018年针对一系列商业需求的聊天机器人开发激增。现在,聊天机器人是许多专注于业务现代化和网络客户体验的企业计划不可或缺的一部分。

据估计,到2022年聊天机器人预计将在全球范围内节省超过80亿美元的成本,同时还提供全天候客户服务、更短的处理时间、更快的分辨率和直通处理,从而提高客户满意度。但是,当聊天机器人的交互是机械的、非对话的或不如基于人类的对话时,该主动性可能会导致业务损失。因此,企业需要仔细规划和执行这些系统,以克服战略和战术挑战。

在保险流程中有许多可服务的领域,聊天机器人将在保险价值链上发挥重要作用,包括预购、购买、客户服务和后端运营。这样做可以减轻保险交易的复杂性。传统保险交易的特点是手工填写表格、复杂的问卷、耗时的背景调查、人员短缺和繁琐的客户服务。通过拥抱人工智能为创新提供可能性,保险公司可以赢得客户的心、头脑和钱包。

调查发现三个因素可以将有效的聊天机器人与不合格的区分开:

  1. 与客户有效交流的能力
  2. 理解人类交流方式
  3. 与其他机器、设备和数据源协作

Cognizant将聊天机器人分为三个等级:基础、中间,和先进的聊天机器人。要想成为最高等级的聊天机器人,它必须不断地从经验中学习。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
Priceonomics:全球人工智能投资分析 //www.otias-ub.com/archives/1020971.html Tue, 17 Mar 2020 18:55:07 +0000 //www.otias-ub.com/?p=1020971 目前很多人工智能投资都是由谷歌、亚马逊、百度和微软等大型科技公司主导的。但是,根据行业的不同,10%到30%的非科技公司也在采用人工智能技术。

2016年,麦肯锡预计人工智能开发支出约为340亿美元。其中绝大多数是企业内部支出。

企业内部支出230亿美元投资人工智能,几乎是该领域风险投资和私人投资水平的三倍。但是,这笔巨额投资并不是在公司之间均匀分配的。麦肯锡估计,谷歌和百度等科技巨头每年在人工智能上的支出为200-300亿美元。

根据Tractica Research的预测,2018年人工智能软件市场的支出总额将接近100亿美元。

预计到2025年,AI软件市场将迅速增长至近900亿美元。

2016年,62%的人工智能支出用于机器学习,是第二大类别——视觉计算的两倍。

采用人工智能的行业

 

根据Tractica的数据,金融交易是人工智能支出的头号用例,华尔街人工智能工程师的巨大需求就是明证。人工智能第二和第三大用例是图像识别和患者数据处理。

根据“纽约时报”的报道,初级人工智能专家的年薪在30万至50万美元之间,而这只是那些只有几年工作经验或刚读完博士学位的人的薪资水平。一些业内有价值的人才在谷歌等公司工作期间,已经拿到了超过1亿美元的收入。该领域的一些非营利组织甚至每年向他们的顶级研究人员支付100多万美元,以与私营部门竞争。

 

如果将旧金山和圣何塞地区结合在一起占19%的人工智能工作岗位,大大超过了纽约。考虑到硅谷地区有700万人口,而纽约有2000万人口,按人均计算,这个北加州地区的人工智能工作岗位是纽约地区的4.5倍。

199IT.com原创编译自:Priceonomics 非授权请勿转载

]]>
Adobe:2020年网络客户体验趋势报告 //www.otias-ub.com/archives/994560.html Fri, 14 Feb 2020 22:24:26 +0000 //www.otias-ub.com/?p=994560 Adobe发布了“2020年网络客户体验趋势报告”。2019年,配备了先进客户管理的专业人员完成企业目标的可能性是那些没有配备先进客户管理的4倍。

当被要求选择三个与网络相关的领域时,最常被引用的首要任务是社交媒体参与和分析(28%)。紧随其后的是内容管理(25%)和目标定向和个性化(25%)。

超过1/3的CX(客户体验)领导者(36%)正在实时提供个性化体验。CX领导者在2020年的另一个共同优先事项是视频内容(23%)。

2020年人才和隐私引发关注

在关注主要问题时,对经济气候的担忧方面CX领导者和其他人存在很大差距。当被要求选择2020年最令人担忧的领域时,选择经济衰退担忧的CX领导者(19%)明显少于主流(29%)。

相反,CX领导者似乎最关心的是吸引和留住人才(23%),其他人(18%)不是那么优先考虑这个问题。考虑到去年约有70%的营销团队预计会扩大,对技能人才的竞争不太可能消失,特别是在营销人员定期将新技术添加到他们的流程中的情况下。为了应对人才问题,约39%的CX领导者提供面对面的专业培训。

CX领袖似乎担心的另一个领域是数据和隐私的担忧(19% vs, 16%)。

人工智能与机器学习

尽管存在对数据的担忧,但就CX领导者正在使用的先进技术而言,数据是显而易见的。简单地说,CX的领导者在人工智能和机器学习方面走在了前面。超过1/3(36%)目前正在使用这种技术,还有28%的受访者计划在2020年投资于这一领域。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
斯坦福大学:2019年人工智能指数报告 //www.otias-ub.com/archives/989259.html Mon, 30 Dec 2019 22:36:40 +0000 //www.otias-ub.com/?p=989259 斯坦福大学发布了“2019年人工智能指数报告”。欧洲一直是最大的AI论文出版源,2018年Scopus追踪的人工智能出版物中,欧洲的论文比例上升到27%以上。中国发表的论文占全球人工智能文章的比例从2000年的10%增长到2018年的28%。

不包括学术界,在中国和欧洲,政府附属机构贡献的人工智能出版物数量最多;而在美国,企业则是人工智能论文发布的主要主体。

2018年,中国政府机构发表的人工智能论文几乎是中国企业的三倍。自1998年以来,中国政府发布的人工智能论文也增长了300倍,而同期企业人工智能论文增长了66倍。

2018年,美国企业发布的人工智能论文的数量是中国企业人的7倍多,几乎是欧洲的两倍。在所有三个地区,学术论文远远超过政府、企业和医学论文,占中国人工智能论文的92%,欧洲为90%,美国为85%。

近年来,专注于人工智能的公司与学术界合作进行研究的情况越来越常见。

机器学习(ML)是人工智能领域最活跃的研究领域之一。其中,深度学习(DL)方法近年来变得越来越流行。在arxiv上发表的深度学习(DL)论文的数量在所有地区都在增加。调查发现,2018年北美发表的DL论文数量最多,其次是欧洲。来自东亚的DL论文数量在2018年达到了与欧洲相同的水平。

新加坡、瑞士、澳大利亚、以色列、荷兰和卢森堡在arxiv上发表的人均DL论文相对较高。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
Dun&Bradstreet:2/3的商业领袖认为数据对他们发展业务有帮助 //www.otias-ub.com/archives/915227.html Thu, 22 Aug 2019 20:00:30 +0000 //www.otias-ub.com/?p=915227 Dun&Bradstreet的一项新研究调查了美国和英国的500多名商业决策者,结果显示这些高管中有一半(50%)认为,如果没有高质量的数据,他们的公司将无法生存。商业领袖仍然对数据充满热情,2/3的受访者(67%)认识到数据在帮助他们发展业务方面的潜力。

那么,商业领袖目前使用哪些技术来收集和分析数据,以及他们计划在未来12个月内添加哪些技术?目前,超过2/5的企业(43%)正在使用数据管理软件,另有1/4(25%)计划明年使用。

只有22%的企业使用机器学习进行数据收集和分析,尽管26%的企业将在未来12个月内转向此类解决方案。

3/10的受访者(31%)计划在明年使用人工智能(AI),21%的受访者已经在使用这项技术。虽然AI的采用速度比它的炒作要慢,但许多使用这种先进技术的B2B营销人员已经看到效果。

庄闲网络娱乐平台进入 和边缘计算技术预计也将在不久的将来得到更多的使用,1/4的受访者(25%)表示他们将使用这两种技术,而目前分别有19%和17%的企业在使用这两种技术。

数据挑战继续存在

近3/10的受访者(28%)认为,有效的数据管理是他们在未来10年将面临的最大数据挑战。这也是他们面临的以数据为主导的最大挑战。

人才仍然很重要

无论数据为企业带来的价值如何,如果没有人来管理它,其价值可能难以实现:受访者中有相当一部分人认为,人才是实现数据价值最大化的关键。

一些高管还承认,现有的技能差距阻碍了他们最大限度地利用数据。但是,拥有正确数据和分析技能的员工越来越难找到。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
Gartner:2019年企业平均部署4个AI/ML项目 //www.otias-ub.com/archives/907788.html Sun, 11 Aug 2019 17:37:13 +0000 //www.otias-ub.com/?p=907788 根据Gartner最近的一项调查,从事人工智能(AI)或机器学习(ML)工作的企业平均有四个AI/ML项目到位。59%的受访者表示他们已经部署了人工智能。

Gartner“AI和ML发展战略”研究于2018年12月通过在线调查进行,共有106名Gartner Research Circle成员参与,这是一个由Gartner管理的小组,由IT和IT/业务专业人士组成。

AI项目的平均数量是4个,但受访者希望在未来12个月内再增加6个项目,在未来3年内再增加15个项目(参见图1)。这意味着在2022年,这些机构预计平均有35个AI或ML项目就位。

客户体验(CX)和任务自动化是关键的激励因素

40%的组织认为CX是他们使用AI技术的最高激励因素。大多数企业(56%)在内部使用AI来支持决策制定并向员工提供建议。

自动化任务是第二个最重要的项目类型,20%的受访者将其列为最重要的激励因素。自动化的例子包括财务中的发票和合同验证,或者人力资源中的自动筛选和机器人面试。

受访者采用AI的最大挑战是缺乏技能(56%),理解AI用例(42%),以及对数据范围或质量的担忧(34%)。

衡量AI项目的成功程度

调查显示,许多机构在衡量项目的价值时使用效率作为成功的标准。Gartner著名副总裁兼分析师Whit Andrews表示:“使用效率作为显示价值的一种方式,在那些声称自己在采用配置文件方面比较保守的机构中更为普遍。那些声称积极进取的公司更有可能说他们正在寻求改善客户参与度。”

199IT.com原创编译自:Gartner 非授权请勿转载

]]>
Stateof.ai:2019年AI报告 //www.otias-ub.com/archives/905821.html Wed, 07 Aug 2019 21:54:50 +0000 //www.otias-ub.com/?p=905821 Stateof.ai发布了“2019年AI报告”。

面部识别用户体验:减少日常消费者用例的摩擦

在中国,人脸识别技术已经开始应用。人们在店内刷脸支付,在机场获得航班详情等。

中国网络巨头扩展到农牧业

阿里巴巴和京东都进入了畜牧业和昆虫养殖业,包括养鸡、养猪和蟑螂养殖。并在养殖过程中利用人工智能收集和分析数据。

中国企业AI研发支出快速增长,但总额仍然落后。中国企业的研发支出同比增长34%,但美国企业仍占全球科研支出的61%。

从数据来看,中国芯片销售和采购在快速增长,但是购买远高于销售。

在过去的3年里,一些中国工业企业40%的劳动力已经实现自动化。这在一定程度上是因为中国的机器人年装机量自2012年以来增长了500%(欧洲为112%)。但是,目前还不清楚这些安装的机器人在多大程度上运行AI软件,或者对AI的普及做出了贡献。

京东的上海配送中心使用自动化仓库机器人,每天组织、拣选和发货20万份订单,该设施仅由4名工人管理。京东的仓库数量和面积同比增长45%。

2018年有33家中国公司在美国交易所进行IPO,(比去年同期增长2倍),接近2010年的历史最高水平。2018年,美国共有190宗IPO。

中国团体拥有最多的AI专利,但2017年只有23%是“发明专利”。

91%的5年设计专利和61%的5年实用新型专利被放弃。相比之下,维护费用按照5年的美国专利的85.6%支付。

中国已经发布了比美国更多的机器学习方面的研究。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
大数据文摘:细数机器学习在金融领域的七大应用 //www.otias-ub.com/archives/902066.html Thu, 04 Jul 2019 02:54:35 +0000 //www.otias-ub.com/?p=902066 本文来源:大数据文摘出品    编译:刘兆娜

机器学习是市场的新趋势,新油田,新黄金!从概念价值的角度来看,把机器学习与任何创新相比都不为过。但是它在金融领域如何发挥呢,应用的现状又到了什么阶段呢?

我们都知道,银行存储了全部的信息,包括客户的交易记录,与客户的沟通信息,内部信息,这些信息占用的存储空间已经达到了Tera级,有些甚至到了PB级。现在,大数据技术可以解决像这样的大规模数据存储和处理的问题:数据量越大,就越能够探查到客户的需求和行为模式。在大数据的基础之上,通过人工智能和机器学习算法,利用相关软件学习客户的行为并做出自主决策。

是不是感觉很厉害?接下来我们就看一下,看看机器学习和大数据能够为金融带来什么样的力量。

机器学习在金融行业的应用案例

确定银行最佳选址

信息是21世纪的黄金,机器学习和大数据技术利用信息来呈现客户的重要信息。在融资方面,收集每个客户的信息是必须要做的事情。最常见的例子是在ATM上进行的常规操作。银行通过采集并处理客户的所有操作信息来预测客户的行为,在下次访问时,客户无需再进行搜索和输入号码,点击一个按钮就能够立即进行常规操作。

使用大数据获得的信息可用于创建和操作引擎,从而用来确定开办实体银行的最佳位置。金融机构收集一个城市中客流量最大的一些区域,访问这些区域的时间,客户所在的商店,最大和最小客户数量的信息。通过对这些信息的处理预测,选择获益最大的位置来开办实体银行(顺便说一句,不只是银行可以采用这种方式选址)。选址对企业或商户的收益如此重要,你肯定也会觉得这是一个非常好的应用场景。

通过机器人投资顾问为客户寻找最佳解决方案

机器人投资顾问就像没有自我意识的虚拟助手。机器人投资顾问本质上是在考虑客户盈利目标和风险承受能力的前提下,为客户选定和调整金融投资组合的一系列算法。

以下是机器人投资顾问如何运作的一个示例:客户输入其目标(例如,在60岁时退休,节省300,000.00美元),年龄,收入和当前金融资产情况。机器人投资顾问为了实现客户的目标,通过机器学习算法在不同的资产类别和金融工具之间进行投资的配比。

目前,提供这类服务的公司有:Betterment、Schwab Intelligent Portfolios。

将算法交易转变为智能交易

算法交易是这样一种交易,它可以利用软件根据预先设定的交易标准(如时间,价格,交易量等),下达交易订单。算法交易允许在没有人为干预的情况下进行交易。

机器学习技术提供了一套新的多样化工具,使算法交易不仅仅能够自动化执行。在机器学习(ML)的情况下,算法可以通过学习其他算法(即规则)的目标,并基于数据实现目标,例如最小化预测误差。机器学习算法的设计能够通过分析历史市场行为,确定最佳市场策略,使交易预测更准确。

目前,提供这类服务的公司有:Renaissance Technologies、Walnut Algorithms。

风险管理和反欺诈

风险管理和反欺诈是目前银行最热门的2个主题,这类项目首先应用机器学习和大数据等创新技术来解决。银行通过机器学习和大数据技术,计算所有可能的风险和欺诈者,并在第一次怀疑时丢弃它们。

机器学习驱动的欺诈检测系统的主要优点是它不只是遵循风险因素清单 – 还能够积极地学习和校准新的潜在(或真实的)安全威胁。

应用机器学习技术,系统可以检测特殊或异常的行为,并为安全团队标记它们。欺诈检测系统面临的挑战是避免误报, 被标记为“风险”的风险不是真正的风险。

目前,提供这类服务的公司有:Kount、APEX Analytics。

延长客户对银行服务的依赖

除了访问用户经济活动数据之外,银行还通过获取外部数据,如来自社交网站的数据或客户在线行为的分析,并将这些信息添加到客户的行为体系中。通过这些大数据信息的分析,银行能够挖掘大量新的机会。例如,如果客户在评论中讨论到可能购买新车,银行就可以提供客户想要的贷款优惠策略,并立即通过电子邮件发送给他。

决定与客户的最佳沟通方式

不同客户偏好使用的沟通方式是不同的,例如社交媒体,电子邮件或即时消息。银行必须选择与不同客户沟通的最佳方式,并通过客户偏好的方式发送提醒,新的产品推送以及联系客户。这样,不光客户能够及时了解到银行的消息, 银行也能减少通过其他方式联系客户的费用。

客户流失预警

通过分析关于客户的内外部数据,可以预测客户是否有流失风险。例如,如果客户长时间没有访问银行的分支机构,不登录网站,也没有订阅社交网站中银行的其他更新,则可以预测客户可能会流失。这种情况下,银行通过推荐客户想要的产品或优惠来留住客户是非常重要的。

]]>
Indeed发布了AI 人才就业报告:机器学习工程师年薪 98 万,但 AI 就业增幅正在下降! //www.otias-ub.com/archives/902061.html Thu, 04 Jul 2019 02:46:14 +0000 //www.otias-ub.com/?p=902061 来源:CSDN  作者 | 唐小引

人工智能这股技术热潮风起两年,国内外众多企业纷纷「AI First」,随处可见百万年薪、人才巨大缺口,无论国内外,AI 人才招聘需求都可以用「疯涨」来形容。据猎聘此前统计,「2017 年 AI 技术类工程师的招聘量是 2014 年的 8.8 倍,数据类工程师的招聘量则是 2014 年的 5.9 倍,人工智能相关岗位在技术人才招聘中的总比例从 10.83% 涨到 27.45%,是技术岗位中增幅最大的领域。」

到了 2019 年,人工智能人才就业情况发生了明显的变化,国际知名招聘平台 Indeed 于日前发布了 AI 人才就业报告,显著地指出了从 2018 年下半年到今年上半年 AI 类就业情况,接下来,我们一起来看。

人工智能就业增长放缓,就业兴趣下降

截止目前,人工智能的工作岗位依然在增加,相比去年,AI 类岗位增长了 29.1%。不过,这一增幅却大大低于了前两年:

2017 年 5 月至 2018 年 5 月期间,人工智能的工作岗位上升了 57.9%;2016 年 5 月至 2017 年 5 月期间,上升高达 136.3%。与此同时,对于 AI 类岗位,求职者的兴趣也有所下降,据 Indeed 统计,在过去的一年里,人工智能相关工作的搜索量减少了 14.5%。

2016 年 5 月至 2017 年 5 月,搜索量增长 49.1%;2017 年 5 月至 2018 年 5 月,搜索量增加了 32%。

AI 工作热榜:机器学习工程师稳居第一!

同时,Indeed 还分析了过去一年里人工智能和机器学习比例最高的相关职位,结果显示,机器学习工程师以 75% 稳居第一,深度学习工程师 60.9% 紧随其后,第三名则被资深数据科学家以 58.1% 拿下。

尽管机器学习工程师毫无疑义地居于第一,但和去年相比却也是大幅下降,在 2018 年,机器学习工程师占比高达 94.2%,也直接对应了前文所说的「人工智能就业增长放缓」现状。

并且值得注意的是,深度学习工程师是第一次出现在第二的位置,Indeed 如此说道:「深度学习工程师开发可以模拟大脑功能的编程系统以及其他任务,这些工程师是自动驾驶、人脸识别和机器人这三项正在快速发展的领域的重要参与者。据 Marketsandmarkets 的研究显示,全球面部识别市场将有望从 2019 年的 32 亿美元增长至 2024 年的 70 亿美元。」

哪类 AI 工作最赚钱?机器学习工程师高居榜首!

薪资可以说是程序员最关注的话题,而人工智能之所以能够实现奇货可居很大程度上也是高薪资使然。

据 Indeed 数据显示,机器学习工程师不仅是所有 AI 类招聘中数量最多的,还是薪资最高的,以 142,858.57 美元(约合人民币 98 万)高居榜首。并且,与去年相比,机器学习的平均年薪还增长了 8409 美元(约合人民币 5.7 万元)。

 

平均年薪同样上涨了的还有算法工程师,以 109,313.51 美元(约合人民币 75 万元)居于第 5,比去年增长了 5201 美元(3.5 万元人民币)。

AI 威胁论:AI 能创造出比它取代的更多的工作机会吗?

从人工智能风起开始,关于它的威胁论便一直不绝于耳。AI 是否能够创造出比它取代的更多的工作?Indeed 对这个问题予以了肯定的回答。

同时,据 Gartner 预测,到 2020 年,人工智能将减少 180 万个岗位,但将创造出 230 个新的工作岗位,而据邓白氏(Dun&Bradstreet)报告,40% 的组织由于采用了人工智能反而增加了更多的工作岗位,只有 8% 的组织因为新技术而裁员。

Indeed 报告:

http://blog.indeed.com/2019/06/28/top-10-ai-jobs-salaries-cities/

]]>
Cognilytica:到2023年AI和机器学习数据准备解决方案市场达12亿美元 //www.otias-ub.com/archives/857867.html Fri, 19 Apr 2019 16:36:23 +0000 //www.otias-ub.com/?p=857867 Cognilytica在最新的调查中评估了数据准备解决方案、数据工程解决方案和的数据标签解决方案需求。数据准备解决方案旨在清理、增强和以其他方式增强用于机器学习的数据。数据工程解决方案旨在为企业提供移动的和处理大量数据的方法。数据标签解决方案旨在使用机器学习培训模型中所需的注释来增强数据。

主要调查结果:

2018年,人工智能和机器学习数据准备解决方案的市场价值超过5亿美元,到2023年底将增长到12亿美元。

数据准备和工程任务占大多数人工智能和机器学习项目时间的80%以上。

2018年第三方数据标签解决方案的市场价值为1.5亿美元,到2023年将增长到10多亿美元。

每1美元用于第三方数据标签,就有5美元用于内部数据标签。2018年支出超过7.5亿美元,到2023年底将增加到20多亿美元。

每1美元用于第三方数据标签解决方案,就有2美元用于内部数据工作,以支持或加强这些标签工作。

与物体/图像识别、自动驾驶以及文本和图像注释有关的人工智能项目是数据标签工作中最常见的。

在未来两年内,所有竞争对手的数据准备工具都将以机器学习增强智能作为核心。

数据标记和AI质量控制在短时间里不会消失。

199IT.com原创编译自:Cognilytica 非授权请勿转载

]]>
德勤咨询:2019年首席营销官调查报告 //www.otias-ub.com/archives/847260.html Tue, 02 Apr 2019 16:59:43 +0000 //www.otias-ub.com/?p=847260 德勤发布了“2019年首席营销官调查报告”。人工智能(AI)或机器学习的应用目前相对较低,但未来三年,顶级营销人员希望更大程度上整合这些技术。

约有56.5%的受访者使用人工智能是为了实现内容个性化。虽然个性化已被证明是有效的营销方式,但它也是耗时且难以大规模进行的。人工智能也许能解决这些问题。

另外56.5%的公司采用人工智能技术进行预测分析,以获得客户洞察。其他一些关键用途包括目标定向(49.6%)、客户细分(40.9%)、广告程序化购买和媒体购买(38.3%),以及通过优化营销内容和时间来提高营销回报率(33.9%)。

B2C在使用人工智能方面占主导地位

调查发现,B2B 首席营销官对人工智能的应用特别低,一半以上(54%)没有尝试或没有使用人工智能技术。但是,B2B公司实施人工智能的水平将在未来三年翻一番。

即使是部署了AI的B2B公司在各种营销活动中应用人工智能的速度也落后于B2C。B2B服务公司是人工智能内容个性化的最大用户(62.2%),而B2B产品公司则可能使用人工智能实现增强和虚拟现实,面部识别和视觉搜索。而在更广泛的营销活动中使用AI方面,B2C公司占据了主导地位。

更具体地说是B2C服务公司在整体上使用人工智能。在调查中列出的十一项营销活动中,B2C服务公司覆盖了其中六项活动,其中包括目标定向(72.7%)、客户洞察和预测分析(68.2%)、广告程序化购买和媒体购买(59.1%),以及通过优化营销内容和时间来提高营销回报率(40.9%)。

PDF版本将分享到199IT交流群,支持我们发展可加入!

]]>
想从事数据行业?你必须掌握这个最核心的技能 //www.otias-ub.com/archives/797744.html Mon, 19 Nov 2018 06:14:05 +0000 //www.otias-ub.com/?p=797744
 大家对数据科学家的预期是应该懂很多——机器学习、计算机科学、统计、数学、数据可视化、沟通,以及深度学习。这些领域牵涉到很多的语言、框架以及技术的学习。数据科学家要想成为雇主想要的那种人才的话,应该把学习的精力放在哪些地方呢?

我到求职网站去寻找对数据科学家最迫切的技能需求是什么。我看了一般的数据科学技能,也分别看了对语言和工具的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜索了求职列表。下面这张图列出了每个网站对数据科学家的需求数量。

我看了很多求职列表和调查以找出最常见的技能。像管理这类的术语就不进行比较了,因为可以用到的场合太多了。

所有的搜索都是针对美国,使用了“data scientist(数据科学家)”、“[keyword]”作为搜索关键字。采用精确匹配以减少搜索结果数。然而,这个方法确保了结果对数据科学家职位是相关的,并且对所有搜索术语都产生类似的作用。

AngelList提供的是列出数据科学家岗位的公司数而不是岗位数。我把AngelList从所有分析里面排除掉了,因为其搜索算法似乎按照OR型的逻辑搜索进行,没有办法改成AND。如果你寻找的是“数据科学家”“TensorFlow”的话,AngelList也没问题,因为这只能在数据科学家岗位里面找到,但如果你的关键字是“数据科学家”“react.js”的话,它返回的结果就太多了,其中会包括一大堆非数据科学家的岗位列表。

Glassdoor也被排除在我的分析之外。该网站声称在美国有26263个“数据科学家”职位,但是显示出来的却不超过900个。此外,它上面的数据科学家岗位数超过任何其他主流平台3倍以上似乎极不可能。

LinkedIn上超过400个岗位列表都提到的通用技能以及超过200个岗位列表都提到的特别技术被纳入到最终分析里面。当然,这两者之间会有一些交叉。结果已经被记录进这张Google Sheet 里面。

我下载了.csv文件并且导入到JupyterLab。然后我计算了出现比例并求出求职网站之间的平均数。

我还将软件结果跟GlassDoor的一项研究(2017年上半年,针对数据科学家岗位列表)进行了对比。再结合KDNuggets使用情况调查的信息,似乎一些技能正在变得越来月重要,而其他一些的相关性则在下降。后面我们会细谈。

互动式图表可以到我的Kaggle Kernel上面去看,额外分析可参见此处。可视化我用的是Plotly。为了本文结合使用Plotly和JupyterLab可费了一点功夫——相关指令可到我的Kaggle Kernel找,另外这里也有Plotly的脚本。

通用技能

下面这张图反映的是雇主寻找最频繁的数据科学家通用技能。

结果表明,分析和机器学习是数据科学家岗位的核心技能。从数据中发现洞察是数据科学的主要职能。机器学习则是要创建系统来预测表现,这是非常亟需的技能。

数据科学需要统计和计算机科学技能——这一点并不出奇。统计分析、计算机科学以及数学也是大学的专业,这大概对其出现频率有帮助。

有趣的是沟通在将近一半的岗位列表中被提到。数据科学家需要将洞察与工作与他人进行沟通。

AI和深度学习的出现频率没有其他一些属于那么频繁。然而,它们都属于机器学习的子集。机器学习过去由其他算法执行的任务正在被越来越多的深度学习算法替代。比方说,大多数自然语言处理问题最好的机器学习算法现在都是深度学习算法。我预计深度学习技能在未来的需求会更加迫切,而机器学习也将日益变成深度学习的同义词。

此外,哪些数据科学家的软件工具是雇主想要寻求的呢?下面我们就来看看这个问题的答案。

技术技能

以下是雇主希望数据科学家掌握的排名靠前的20种语言、库以及技术工具。

我们大概看一下其中最常见的技术技能。

Python

Python是需求最旺盛的语言。这门开源语言的流行度已经被很多人注意到。它对初学者很友好,有许多支持资源。绝大部分新的数据科学工具都兼容它。

Python是数据科学家的主要语言。

R

R语言并不比Python落后多少。它一度是数据科学的主要语言。我反而对它的需求依然如此旺盛感到吃惊。这门开源语言的根在统计,至今在统计学家那里仍非常流行。

Python或者R几乎是每一个数据科学家岗位的必须。

SQL

SQL的需求也很高。SQL即结构化查询语言(Structured Query Language),是与关系式数据库的主要交互方式。SQL有时候会被数据科学界忽视,但这是一门值得掌握的技能,如果你打算切入求职市场的话。

Hadoop、Spark

接下来是Hadoop和Spark,这两个都是出自Apache的大数据开源工具。

Apache Hadoop是一个利用商品化硬件搭建的计算机集群对超大规模数据集进行分布式存储和分布式处理的开源软件平台。

Apache Spark是一个有着优雅的、富有表现力的API,可让数据工作者高效执行需要对数据集进行快速迭代存取的流处理、机器学习或者SQL负载的快速内存数据处理引擎。

相对于其他,这些工具在Medium和教程中被提及的次数少了点。我猜具备这些技能的求职者要比具备Python、R和SQL技能的求职者少得多。如果你掌握了一定Hadoop和Spark经验的话,应该可以在竞争中获得优势。

Java、SAS

然后是Java和SAS。这两门语言地位这么高倒是出乎我的意料。其背后都有大公司的支持,支持至少都提供了一些免费的产品。不过Java和SAS在数据科学社区受到的关注都很少。

Tableau

对Tableau的需求次之。这个分析平台和可视化工具非常强大,易用,而且越来越流行。它有一个免费的公共版本,但是如果你想数据保持私有的话得花钱。

如果你对Tableau不熟悉的话,到Udemy上一门Tableau 10 A-Z快速了解一下绝对是值得的。声明一下啊,我这么建议可不是拿了佣金的——那是因为我上过这门课之后发现它的确有用。

下面这张表反映的是更大范围内的语言、框架等数据科学软件工具的需求情况。

历史对比

GlassDoor对2017年1月到7月间数据科学家10大最常见的软件技能进行了分析。以下是那些术语出现的频度相对2018年10月在LinkedIn、Indeed、SimplyHired及Monster上出现频度平均数的对比。

结果相当类似。我的分析和GlassDoor的分析都发现Python、R及SQL都是需求最旺盛的技能。两份分析发现的需求前9大技术技能都是一样的,尽管顺序方面略有不同。

结果表明,相对于2017年上半年,R、Hadoop、Java、SAS及MatLab现在的需求略微下降,而对Tableau的需求则在上升。加上KDnuggets开发者调查这类的辅助性结果,我想这就是我预期的结论。R、Hadoop、Java和SAS均呈现出多年的下降趋势,而对Tableau则显示出明显的上升势头。

建议

基于这些分析的结果,以下是对当前和想要成为数据科学家的人提供的提升自我价值的建议。

  • 证明你可以进行数据分析并且专注机器学习,要变得非常擅长。
  • 对你的沟通技能进行投资。我建议去读读《Made to Stick(让创意更有粘性)》这本书来让你的想法产生更大影响。此外还可以用Hemmingway Editor这款app改进写作的清晰性。
  • 掌握一种深度学习框架。精通一种深度学习框架在精通机器学习中占据了越来越大的部分。深度学习框架在使用情况、流行度等方面的对比情况可以看我的这篇文章。
  • 如果你要走学习Python和R语言之间做选择的话,选Python。如果你对Python不感冒,那就选择R。如果你也懂R的话在市场上一定会更加抢手。

当雇主寻找懂Python技能的数据科学家时,他们可能也会预期应征者了解常见的python数据库库:numpy、pandas、scikit-learn以及matplotlib等。如果你想学习这里提到的工具的话,我建议你看看以下这些资源:

  • DataCamp 及 DataQuest——均为定价合理的在线SaaS数据科学教育产品,可以一边编码一边学习。这两个都教若干的技术工具。
  • Data School上面有各种资源,其中就包括了一套很好的YouTube视频,里面解释了数据科学的概念。
  • McKinney的《Python for Data Analysis》。这本书是pandas库的主要作者写的,聚焦的是pandas,同时也讨论了python基础、numpy以及scikit-learn的数据科学功能。
  • Müller & Guido的《Introduction to Machine Leaning with Python》。Müller是scikit-learn的主要维护者之一。这本书非常优秀,是学习用scikit-learn做机器学习的好读物。
  • 如果你寻求去学习深度学习的话,我建议先从Keras 或者 FastAI 开始,然后再转到TensorFlow或者PyTorch。Chollet的《Deep Learning with Python》是学习Keras的好资源。

除了这些推荐以外,我还建议你学习自己感兴趣的东西,尽管在决定如何分配学习时间方面显然有很多考虑因素。

LinkedIn

如果你要通过在线门户找数据科学家岗位的话,我建议你从LinkedIn开始——这个地方总是有最多的结果。

如果你在求职网站上寻找工作或者职位的话,关键字很重要。每个网站搜“数据科学”返回的结果数几乎是“数据科学家”的3倍。但如果你要找的就是数据科学家的工作的话,最好还是搜索“数据科学家”。

无论你去哪里找,我建议你要制作一份在线作品集来证明你擅长许多亟需的技能。我也建议你在LinkedIn档案上展示你的技能。

原文来自:towardsdatascience.com  编译自:36Kr

]]>
机器学习的数学焦虑 //www.otias-ub.com/archives/795985.html Wed, 14 Nov 2018 09:25:13 +0000 //www.otias-ub.com/?p=795985
开始机器学习之旅,需要什么层次的数学功底? 尤其是对于那些没有学过数学和统计学的同学们来说,这个问题当前不甚清楚,在这篇文章中,我将要为那些使用机器学习技术来开发产品或做学术研究的人们提供一些数学背景方面的建议。这些建议源于我与机器学习工程师、研究人员和教育工作者的对话,以及我在机器学习研究和产业方面的独到经验。

为了构造(机器学习中)数学的背景,我会先讲一些与传统课堂不同的思维模式和策略。然后,我会概述不同类型机器学习工作所需的具体背景,毕竟机器学习涉及的学科范围太广泛了(它涵盖了高中级别的统计和微积分,也涵盖了概率图形模型(PGM)的最新进展)。

我希望读者们在读到文章的最后时,能够知道自己有效使用机器学习所必需的数学知识。

作为这篇文章的前言,我想说:对于不同学习者的个人需求或目标来说,学习的风格、架构和资源都应该是独一无二的!

数学焦虑症的小贴士

    事实证明,很多人——包括工程师——都害怕数学。首先,我想谈谈“擅长数学”这类传说。

事实是,擅长数学的人都做过大量的数学练习。因此,在研究数学问题被卡住时,他们依然能够“风雨不动安如山”。如最近的研究所示,学生的心态,而非先天才能,才是预测一个人学习数学的能力的主要因素。

要清楚的是,要达到这种境界,需要时间和精力。这显然不是你天生就有的能力。本文的剩余部分将帮助您确定所需的数学功底,并概述构建它的策略。

万事开头难

    作为软性先修数学条件,我们假设你对线性代数/矩阵微积分都有了解,这样你就不会为奇怪的符号苦恼。同时我们还假设你有基础的概率知识。我们鼓励你拥有基本的编程能力,这是领悟机器学习中的数学的有力工具。之后,你可以根据你感兴趣的内容调整你的学习重点。

如何在课外学习数学?

    我相信学习数学的最佳方式是以学生的身份全职学习。脱离了学校的环境,你可能不太容易获得系统的知识结构、正能量的同学压力和其他可用资源。

为了在课外学习数学,我建议大家将学习小组或午餐研讨会作为学习的重要途径。在研究型的实验室中,这可能以阅读小组的形式呈现。在构建知识结构方面,你的小组可以把教科书各章节过一遍,并定期对课程进行讨论,同时通过Slack平台的途径参与远程问答。

这里,企业文化发挥着重要的作用——这种“额外”的研究学习应该受到管理层的鼓励和激励,而不是被视为影响产品交付的消极怠工行为。事实上,虽然短期内会花费一些成本,但是构建同伴驱动的学习环境可以使你在长期的工作中更有效率。

数学与代码

    在机器学习工作流程中,数学和代码紧密结合。代码通常直接由数学直觉构建,有时它甚至会和数学符号使用相同的句法。事实上,现代数据科学框架应用(例如NumPy)使得数学运算(例如矩阵/矢量积)与可读代码之间的转换变得直观和有效。

我鼓励你将编写代码作为巩固学习的一种方式。学习数学和编写代码都依赖于你对问题理解和表述的精准程度。例如,手动编写损失函数或优化算法,就是真正理解这些基础概念的好方法。

让我们来探索一个实际的问题:在你的神经网络中实现ReLU函数激活的反向传播(是的,即使Tensorflow / PyTorch可以替你做这个!)。这里简单介绍一下,反向传播是一种依赖于微积分链式规则来有效计算梯度的技术。为了在这个问题设定下使用链式规则,我们将上游导数与ReLU函数的梯度相乘。

我们先将ReLU激活函数进行可视化(就是下图的样子),然后这样定义这个函数:

为了计算函数的梯度(直观来说就是斜率),你可以想象出这样一下分段函数,如下面的指示函数所示:

    NumPy为我们提供了有用且直观的语法——我们的激活函数(蓝色曲线)可以通过代码表述出来,其中x是我们的输入,relu是我们的输出:

relu = np.maximum(x, 0)

ReLU函数的梯度函数(红色曲线)可以如下所示,grad表示上游梯度:

grad[x < 0] = 0

在没有首先自己推导梯度公式的情况下,这行代码可能没有任何意义。在我们的代码中,对于满足[h <0]条件(即x<0)的所有元素,将其对应上游激活函数的梯度(grad)数值设置为0。在数学上,这实际上相当于ReLU梯度函数的分段表示,所有x轴上小于0的数值,当乘以上游梯度时,它的值会变成0。

正如我们所见,通过我们对微积分的基本理解,我们可以清楚地理解代码的含义。

构建机器学习产品必需的数学知识

    为了介绍这一节,我与机器学习工程师进行了交谈,确定了数学在调试系统时最有力的地方。以下是工程师基于数学见解回答的问题示例。

如果你还没有遇到过它们,请不要担心。希望本节能够为你提供一些特定问题的相关内容,也许你也会遇到类似的问题并尝试解决哟!

Q:我该用哪种聚类方法可视化高维的客户数据呢?

A:PCA或者tSNE。

Q:我该如何校准用来阻隔虚假用户交易的安全阈值(例如在0.9或0.8的置信水平下)?

A:可以使用概率校准(Probability calibration)。

Q:描述我卫星数据在世界特定地区(如硅谷与阿拉斯加州)的偏差的最佳方法是什么?

A:这是一个开放的研究型问题。也许可以基于“人口平价”(demographic parity,该方法是要求预测必须与某特定敏感属性不相关)的原则展开。

通常,统计和线性代数可以通过某种方式应用于这些问题中的任何一个。但是,要获得满意的答案通常需要针对特定领域的方法。如果是这样的话,你如何缩小你所需学习的数学范畴呢?

定义一个系统

    我们并不缺乏资源(例如数据分析使用scikit-learn,深度学习使用keras)去帮助我们进行系统建模。而在建模之前,我们需要围绕将要被建模的系统考虑这些问题:

系统的输入/输出分别是什么?

应该如何准备好合适的数据格式,从而适应系统要求?

如何进行特征建模或数据整理,以便于模型的推广?

如何为需要解决的问题设定合理的目标?

你会惊讶地发现——要定义一个系统,其实非常复杂。而搭建数据工作流(data pipeline)也并不容易。换句话说,构建一个机器学习产品需要进行大量的繁琐复杂的工作;而这些工作并不需要太深的数学背景。

数学需要“按需学习”

    当你一头扎进一个机器学习的任务中时,会发现其中有些步骤对你来说难以进行,这种情况在进行算法调试时尤为常见。当你停滞其中时,是否知道该如何解决这一窘境呢?你设定的权重是否合理?

为什么模型没有按照某个损失定义进行收敛?衡量成功的正确指标是什么?此时,有一些方法可以帮助到你:对数据做出假设、以不同方式约束优化、或尝试不同的算法。

通常,你会发现建模/调试过程中需要数学直觉(例如,选择损失函数或评估指标),这些直觉可能有助于做出明智的工程决策。 这些是你学习的机会!

来自Fast.ai的Rachel Thomas是这种“按需”方法的支持者——在教育学生时,她发现对于深度学习的学生来说,让他们对将要学习的内容感到兴奋更为重要。之后,针对这些学生的数学教育即可“按需”填补之前未涉及的知识漏洞。

    接下来我将介绍对研究性工作中的机器学习方法有用的数学思维方式。批判性的观点认为,机器学习研究方法就像是就像是“拿来主义”,人们只是通过把更多运算扔进模型中,从而获得更好的预测表现。在一些圈子里,研究人员对实证研究方法仍然持怀疑态度,认为这些方法缺乏数学上的严谨性(例如某些深度学习方法),这些方法是不能将人类智慧发挥到极致的。

值得关注的是,研究界是建立在现有系统和假设的基础上,而这些系统和假设可能不会扩展我们对该领域的基本理解。研究人员需要提供新的基本模块,供我们在该领域中获取全新洞察力和方法。

这可能意味着我们需要像“深度学习教父” Geoff Hinton在他最近的Capsule Networks论文中所做的那样 ,重新思考构建某些领域的基础知识(如应用于图形分类的卷积神经网络)。

为了迈出下一步,我们需要提一些基本问题。这需要在数学方面的极度熟练——深度学习一书的作者Michael Nielsen称之为“有趣的探索”。这个过程涉及数千小时停滞、提问、重新思考问题以探索新观点。

“有趣的探索”使科学家们能够提出深刻,富有洞察力的问题,而不仅仅是简单的想法或架构的结合。显而易见,想要学会机器学习研究领域内需要的所有知识,是不可能的任务!要正确地进行“有趣的探索”,你需要遵循自己的兴趣,而不是为最热门的新结果感到焦虑。

机器学习研究是一个非常丰富的研究领域。当然,它在公平性、可解释性和可获得性方面也存在亟待解决的问题。在所有科学学科中都是如此,基本思维的获得并不能一蹴而就。要在解决关键问题所需的高水平数学框架的广度进行思考,需要长期的耐心。

将机器学习研究“大众化”

希望我没有把“研究数学”描绘得太深奥,因为这些通过数学而产生的思考应该以直观的形式呈现!可悲的是,许多机器学习论文仍然充斥着复杂且不一致的术语,使关键的直觉难以被辨别。作为一名学生,你可以尝试将密集的论文翻译成容易被直观理解和消化的小块文章,通过博客和推特等发表,这将对你自己和这个领域大有裨益。你甚至可以从distill.pub中找些例子,当作解释机器模型研究方法结果的读物。换句话说,将技术思想的祛魅化作“有趣的探索”手段——你自己的学习(和机器学习Twitter)会感谢你的!

主要领悟

   总的来说,我希望这篇文章为你提供了一个思考研究机器学习所需数学教育的开端。

不同的问题需要不同程度的直觉,我鼓励你首先弄清楚你的目标是什么。

如果你希望构建产品,请通过问题寻找同行和学习小组,并深入研究最终目标,激发你的学习。

在研究领域,广泛的数学基础可以为你提供工具,通过提供新的基础知识来推动该领域的发展。

来自:机器学习研究会订阅号
]]>
腾讯QQ大数据:视频打标签算法探讨 //www.otias-ub.com/archives/761844.html Thu, 30 Aug 2018 07:07:26 +0000 //www.otias-ub.com/?p=761844 随着内容时代的来临,多媒体信息,特别是视频信息的分析和理解需求,如图像分类、图像打标签、视频处理等等,变得越发迫切。目前图像分类已经发展了多年,在一定条件下已经取得了很好的效果。本文因实际产品需求,主要探讨一下视频打标签的问题。

查阅了部分资料,笔者拙见,打标签问题无论是文本、图像和视频,涉及到较多对内容的“理解”,目前没有解决得很好。主要原因有以下一些方面,标签具有多样性,有背景内容标签,细节内容标签,内容属性标签,风格标签等等;一些标签的样本的实际表现方式多种多样,样本的规律不明显则不利于模型学习;标签问题没有唯一的标准答案,也存在一定的主观性,不好评估的问题则更不利于模型学习。

依然笔者拙见,视频打标签问题目前还没有很好的解决办法,也处于探索阶段。方法上主要有以下一些思路:可以从视频角度出发,可以从图像角度出发;可以利用caption生成的思路,可以转化为多分类问题。

直接从视频角度出发,即从视频整体的角度出发,提取图像帧,甚至字幕或者语音信息,进一步处理得出视频标签的结果。Deep Learning YouTube Video Tags,这篇文章提出一个hybrid CNN-RNN结构,将视频的图像特征,以及利用LSTM模型对标签考虑标签相关性和依赖性的word embeddings,联合起来,网络结构如下图。

Large-scale Video Classification with Convolutional Neural Networks提出了几种应用于视频分类的卷积神经网络结构,在网络中体现时空信息。single frame:就是把一帧帧的图像分别输入到CNN中去,和普通的处理图像的CNN没有区别;late fution:把相聚L的两帧图像分别输入到两个CNN中去,然后在最后一层连接到同一个full connect的softmax层上去;early fution:把连续L帧的图像叠在一起输入到一个CNN中去;

slow fution:通过在时间和空间维度增加卷积层,从而提供更多的时空全局信息。如下图所示:

另一方面,为了提高训练速度,这篇文章还提出Multiresolution CNNs,分别将截取中间部分的图像和缩放的图像作为网络的输入,如下图所示:

这篇文章主要研究了卷积神经网络在大规模视频分类中的应用和表现。通过实验,文章总结网络细节对于卷积神经网络的效果并不非常敏感。但总的来说,slow fusion网络结构的效果更好。

从图像角度出发,即从视频中提取一些帧,通过对帧图像的分析,进一步得出视频标签的结果。对图像的分析,也可以转化为图像打标签或者图像描述问题。Visual-Tex: Video Tagging using Frame Captions,先从视频中提取固定数量的帧,用训练好的image to caption模型对图像生成描述。然后将文本描述组合起来,提取文本特征并用分类方法进行分类,得到tag结果。这篇文章对生成的描述,对比了多种不同的特征和多种不同的分类方法。可见,图像打标签对视频打标签有较大的借鉴意义。另一种思路,CNN-RNN: A Unified Framework for Multi-label Image Classification可以看作将图像打标签问题转化为多分类问题。将卷积神经网络应用到多标签分类问题中的一个常用方法是转化为多个单标签的分类问题,利用ranking loss或者cross-entropy loss进行训练。但这种方法往往忽略了标签之间的联系或者标签之间语义重复的问题。这篇文章设计了CNN-RNN的网络结构里,并利用attention机制,更好地体现标签间的相关性、标签间的冗余信息、图像中的物体细节等。网络结构主要如下图所示,主要包括两个部分:CNN部分提取图像的语义表达,RNN部分主要获取图像和标签之间的关系和标签之间的依赖信息。

针对空间部分短视频数据,笔者设计了一个简单的视频打标签的方案,并进行了实验。由于预处理和算法细节的很多进一步改进和完善工作还没有进行,在此只是提出一种思路和把实验结果简单地做个分享。

方法介绍:

整体思路:图片打标签 => 视频打标签

也就是说,对视频提取帧,得到视频中的图片;然后对图片进行打标签;最后将视频中帧图片的标签进行整合,得到视频标签。

1、从图片描述说起:

图片描述典型框架:利用deep convolutional neural network来encode 输入图像,然后利用Long Short Term Memory(LSTM) RNN decoder来生成输出文本描述。

2、在打标签任务中,我们把标签或类别组合,构造成“描述”:

一级类别+二级类别+标签(重复的词语进行去重)

3、利用预训练和强化学习,对训练样本图片和标签构造模型映射。

《Self-critical Sequence Training for Image Captioning》

网络模型有三种:fc model;topdown model;att2in model;模型细节见论文。

一般地,给定输入图像和输出文本target,,模型训练的过程为最小化cross entropy loss(maximum-likelihood training objective):

利用self-critical policy gradient training algorithm:

其中,是reward funtion

通过根据每一个decoding time step的概率分布进行采样获得,是baseline output,通过最大化每一个decoding time step的概率分布输出获得,也就是a greedy search。论文里提到,利用CIDEr metric作为reward function,效果最好。

4、根据视频帧图片的标签,对视频打标签。具体有两种思路:

记录视频提取的所有帧图片中每一个出现的标签,以及标签出现的次数(有多少帧图片

被打上了这个标签)。按照出现次数排序。

1.将帧图片的最多前n个标签,输出为视频标签。

2.将帧图片中,出现次数大于阈值c的标签,,输出为视频标签。

数据示例:

其中1class表示一级类别,2class表示二级类别。

实验结果示例:

截取一些实验结果展示如下,其中output指模型输出的结果,reference指人工标定的参考结果。

总的来说,游戏类视频的数据量最大,效果较好;但具体不同英雄的视频数据如果不平衡,也会影响算法结果。其他类型视频数据不算太稀疏的效果也不错,长尾视频的效果不行。

总结:

数据预处理、模型结构、损失函数、优化方法等各方面,都还有很多值得根据视频打标签应用的实际情况进行调整的地方。后续再不断优化。方法和实验都还粗糙,希望大家多批评指导。

来源:腾讯QQ大数据

]]>
政策扶持加码人工智能 创业者看好行业细分 //www.otias-ub.com/archives/836172.html Sun, 26 Aug 2018 14:59:08 +0000 //www.otias-ub.com/?p=836172 近年来,从中央到各大部委、到地方,对人工智能和大数据的扶持政策持续加大力度,深圳市这两年公布的相关扶持政策就超过20个,覆盖机器人、可穿戴设备、创客和智能装备、新能源、节能环保等诸多产业和新兴领域。

政策利好,从业者也铆足劲大展拳脚。有创业者就看好人工智能应用的行业细分,锁定一个领域做细做精。

“人工智能与实际应用相结合,应往劳动密集型领域首先推进应用。”蒋志皓是在通讯行业较早接触人工智能领域的从业人员,他在国内电信巨头公司有十多年技术经验,参与开创国内电信运营商对客户提供呼叫中心信息化服务和技术外包业务的先例,亲历了人工客服到智能客服转换的时代。

今年年初,蒋志皓创办了自己的科技公司,凭着在智能化通讯领域技术和业务能力的多年积累,蒋志皓从筹备团队之初就决定深耕人工智能应用于特定细分领域,以智能语音客服为核心技术,以外包服务为主要业务模式,服务于金融行业。

“人工智能是一套基础理论,一套泛泛的理论和算法实际上是无法做出一个广谱型服务的产品的,而将产品定位于

某一个特定的细分行业,在这个行业里做精做专,会更有可能成功,但是过程依然会相当的艰难。”尽管艰难,蒋志皓仍有信心去挑战。从2016年起,他就一直在筹备创建公司,为掌握更多行业信息,他到美国、澳洲等地调研。2017年11月,他特意去了一趟美国,邀请了几个UCLA毕业的工程师加入团队。今年春节刚过,他踏上了澳洲之行,一路考察,一路与国内研发团队电话会议,及时将最新信息同步给团队。几年前,蒋志皓回到他的母校北京邮电大学修读电子与通信工程硕士课程,获得了硕士学位,且在今年跟母校开展了校企的联合智能语音和语义算法合作研究,为他的公司提供基础学术领域的科研能力保障。

人工智能是新一轮科技革命和产业变革的重要驱动力量,未来人工智能将会像互联网一样持续渗透到各个行业和领域,在劳动密集型的某些细分领域行业将会很快得到重大的商业应用和突破,蒋志皓对此深信不疑。他表示,人工智能依赖于深度学习,需要大量的数据来进行训练,专业领域的数据各不相同,因此就算再厉害的算法能力,也不能涵盖各行各业,而在某一个特定的细分领域,通过不断的数据积累和应用场景训练,更有希望可以到达更高的技术高度,在产品和企业运营方面做成行业标杆。

“目前人工智能发展劲头十足,但总体的技术还存在很大的局限性。人工智能的理论研究发展到现在的水平,在商业应用上只相当于5岁孩子的智商,但是市场的需求的产品要具备18岁成人的智商才能服务到位,所以目前人工智能够成功商业化的领域非常狭窄。”虽然人工智能应用面已经越来越广泛,但产品的能力和深度还远远不够,因此蒋志皓认为可以在呼叫中心行业通过人机协同来提高效率,降低人类的工作量,这是商用效果较为直观的应用领域。

“通过机器学习和人机结合,机器人从一点点工作开始逐步替代人工,替代的比例随着数据量和系统能力会逐步提高,从1%到2%,到5%,再到10%,未来甚至提升到50%……,每提高1%的机器能力,其对于劳动密集型企业繁重和重复工作量释压,所产生的巨大社会正向效应都能非常直观,这个训练学习提升的过程就是人工智能与行业融合应用不断加深的过程,是必然趋势,我们的工作就是要推进这个进程。”

在蒋志皓看来,相较于其他领域,人工智能语音在客服领域的商业应用发展得要快一些。根据前瞻产业研究院数据,截至2017年中国智能语音市场规模达到105.7亿元,与2016年相比增长70%。随着智能语音应用产业的拓展,市场需求增大,预计今年中国智能语音市场规模将进一步增长,达到159.7亿元。利用智能语音客服系统等AI技术,通过对数据信息的高效处理,帮助企业减少人力成本、改善经营效率,提高用户使用体验,这是蒋志皓创办深圳市守卫者智能科技有限公司的初衷。在守卫者创立之初,蒋志皓废寝忘食带领团队迎难而上,在短短的几个月时间里,守卫者智能科技联合北京邮电大学研发了自有知识产权的智能语义理解引擎,并在智能语义理解的基础上研发了自主知识产权的智能知识库、语音质量检验分析系统、智能对话系统能产品。产品很快被国内一些大型商业银行和保险公司的采购,在这些大型金融机构的POC测试中,守卫者智能对话准确率超过了93分,语音质检模型准确率最高超过95分,在包括多个国内大型互联网公司一起参与的金融机构POC测试中,守卫者智能的产品多项指标名列第一。

“整个智能语音技术已经较为成熟,但应用到不同的行业和场景,就要定制不同的系统模式,这中间有很多要解决的问题。举个例子,医疗行业、金融行业的智能语音服务就截然不同。”蒋志皓认为,人工智能语音的下一个发展阶段必然是行业细分,在应用细分方面,他对守卫者业务定位十分清晰——在金融行业的智能语音客服这个垂直领域深入去做,做深、做扎实,通过不断的业务拓展和技术更新,持续积累金融行业数据,使算法更完善、更精准,同时通过业务运营,让金融企业比他们的客户更懂得客户自身的需求。

通讯员:小夏

]]>
腾讯QQ大数据:机器学习建模问题中的特征构造方法 //www.otias-ub.com/archives/758115.html Tue, 07 Aug 2018 05:09:39 +0000 //www.otias-ub.com/?p=758115 导语 在机器学习建模问题中,合适特征的构造对于模型的性能至关重要,看到很多同学介绍特征工程,包括特征的预处理和特征筛选等,这些非常重要,但是特征预处理和特征筛选的前提是要有基础特征,而这些特征从哪里来,又如何构造?现在总结一下在推荐系统中比较通用的特征构造方法。

场景分析:

推荐场景一般可以抽象为:内容(Item)和受众(User),其中内容主要是指要推荐的Item,在购物场景中Item就是商品,歌曲推荐中Item就是歌曲,受众是访问当前场景的用户,一般是自然行为人;推荐模型一般是计算不同的User-Item对的得分,这个得分反映的是用户点击当前物品的概率,获取得分最高的Top n的Item推荐给用户,所以整个特征关联模型可以抽象为如下图-1所示:

图-1 推荐系统关系模型

其中,可以分解为如下几部分:User-Item特征、User特征、Item特征、User-Item属性分布特征,下面具体阐述每种特征的构造方法。

User-Item特征:

User-Item特征主要从三个维度来刻画User对Item的“兴趣”,如图-2所示:

图-2  User-Item类型的特征构造

1)时间序列上的统计特征:

统计特征从四个角度(绝对值,相对值,是否感兴趣和深度感兴趣)来刻画User对Item的“兴趣”。比如,时间序列中User累积对某个Item的行为次数就是User对Item的绝对兴趣值:如果时间序列分为:一天、三天、一周(实际中时间还需要继续拉长一点来刻画用户长期的兴趣),行为是“点击”。那么这一个特征构造语句就可以翻译成三个不同的特征:分别是最近一天,三天和七天用户对每个Item的点击次数;时间序列上User对Item是否有重复的行为用来刻画和区分哪些Item是对User有深度吸引力的,如果在一段时间上只发生了一次行为,那么很可能User对这个Item并没有兴趣,只是随便看看;时间序列上User对Item是否有行为,用来刻画User过去某一段时间用户的关注点在哪里,对哪些是可能喜欢的,和上面的一条特征的区别在于可以涵盖用户可能比较感兴趣的Item并且这样用户兴趣特征也会更加丰富。

2)时间特征:

时间特征从三个角度(最近时间,行为频度,行为稳定性)来刻画用户对于Item的兴趣在不同时间上的活跃度。比如,User对Item的最后行为时间,可以翻译成一个时间特征,可以将这个时间进行归一化为一个0—1的标量,越接近于1表示User对这个Item具有越强的新鲜度;User对某个Item的平均行为时间间隔用来刻画User对Item的活跃频率,时间间隔越小说明对用户的吸引力越大。User对Item的行为时间间隔方差可以用来刻画User对Item的喜好的稳定性。

3)趋势特征:

趋势特征主要刻画用户对某个Item的兴趣趋势。比如,User一天对Item的行为次数/User三天对Item的行为次数的均值,表示短期User对Item的热度趋势,大于1表示活跃逐渐在提高;三天User对Item的行为次数的均值/七天User对Item的行为次数的均值表示中期User对Item的活跃度的变化情况;七天User对Item的行为次数的均值/ 两周User对Item的行为次数的均值表示“长期”(相对)User对Item的活跃度的变化情况。

User特征:

User特征主要包括用户的属性特征以及从多个方面刻画用户的“活跃度”,User类型的特征构造方法如图-3所示:

图-3  User类型的特征构造

时间序列的统计特征:

主要从三个维度(User总活跃,用户深度活跃,用户对于Item的覆盖度)来刻画用户的活跃。比如,时间序列上User行为次数总和,在划分成三个时间细粒度的情况下,可以翻译成三个特征,分别是一天,三天和七天User的行为总和,来表示User在当前时间段上的活跃。时间序列上User重复行为次数用来刻画用户真实的活跃深度。时间序列上User有行为的Item的数量,可以用来刻画用户的活跃广度,来表示用户是否有足够的意愿尝试新的Item。

1)时间特征:

主要从三个角度(最近时间,行为频度,行为稳定性)来刻画用户的活跃度。比如,User最后行为时间,时间越接近当前时间说明User的活跃度越强;User的平均行为时间间隔用来刻画User的活跃度,时间间隔越小说明User的活跃度越强。User的行为时间间隔方差可以用来刻画User活跃的稳定性。

2)趋势特征:

趋势特征用来刻画User的活跃趋势。比如,User一天的行为次数/User三天的行为次数的均值,表示短期User活跃趋势,大于1表示活跃逐渐在提高;三天User的行为次数的均值/七天User的行为次数的均值表示中期User的活跃趋势;七天User的行为次数的均值/ 两周User的行为次数的均值表示“长期”(相对)User的活跃趋势。

3)属性特征:

主要用来刻画用户的一些属性特征包括性别、年龄、学历以及使用机型等。

Item特征

Item特征主要包括Item的属性特征以及从多个方面刻画Item的“热度”,Item类型的特征构造方法如图-4所示:

图-4  Item类型特征构造

1)时间序列的统计特征:

从三个维度(Item的行为热度,热度趋势和时间间隔)来刻画Item的热度。比如,时间序列上Item行为次数总和,在划分成三个时间细粒度的情况下,可以翻译成三个特征,分别是一天,三天和七天Item的行为总和,来表示Item在当前时间段上的热度。时间序列上Item被重复点击次数用来刻画Item真实的热度深度,尤其在APP的推荐上,重复的使用或者点击说明当前APP对用户的吸引力越强。时间序列上和当前Item发生行为的User的数量(去重)刻画了Item的热度的广度。时间序列上Item的点击和曝光的比值(User不去重)—CTR,刻画了Item在相同曝光下被点击的概率。时间序列上Item的点击和曝光的比值(User去重)—CTR,刻画了Item在相同曝光下被点击的概率,剔除了某些特殊情况某个User对某个Item的行为过于集中的情况。

2)时间特征:

主要从三个角度(最近时间,行为频度,行为稳定性)来刻画Item的热度。比如,Item最后行为时间,表示Item的最近活跃;Item的平均行为时间间隔用来刻画Item的热度,时间间隔越小说明的热度越高。Item的行为时间间隔方差可以用来刻画Item热度的稳定性。

3)趋势特征:

主要刻画Item的热度和CTR的趋势。比如,Item一天的行为次数/Item三天的行为次数的均值,表示短期Item的热度趋势,大于1表示热度逐渐在提高;三天Item的行为次数的均值/七天Item的行为次数的均值表示中期Item的热度趋势;七天Item的行为次数的均值/ 两周Item的行为次数的均值表示“长期”(相对)Item的热度趋势。另外一种特征表示CTR的趋势:其中一天的Item的CTR / 三天Item的CTR表示“短期”Item的CTR趋势信息。

4)属性特征:

主要用来刻画Item的一些属性特征主要包括所属的类别。

User和Item之间的属性分布特征:

主要通过计算在不同时间段上User和Item之间的行为的统计特征:如果当前的User的属性包括:性别、年龄和Device,Item的属性包括:Item_id和类别,那么特征构造方法如图-5所示:

图-5  User和Item之间属性分布特征构造

1)时间序列上Item在Age的分布特征:

通过计算Item在年龄段上的行为数量(User不去重和不去重)来刻画Item在不同年龄段上的热度;Item在年龄段上的行为数量/Item总的行为数量来表示User在年龄上的热度分布;Item在不同年龄段上的点击和Item在相应的年龄段上的曝光之间的比值来刻画Item在不同的年龄段上的CTR。

2)时间序列上Item在Gender的分布特征:

通过计算Item在性别上的行为数量(User不去重和不去重)来刻画Item在不同性别上的热度;Item在性别上的行为数量/Item总的行为数量来表示User在性别上的热度分布;Item在不同性别上的点击和Item在相应的性别上的曝光之间的比值来刻画Item在不同的性别上的CTR。

3)时间序列上Item在Device的分布特征:

通过计算Item在不同Device上的行为数量(User不去重和不去重)来刻画Item在不同Device上的热度;Item在不同Device上的行为数量/Item总的行为数量来表示User在Device上的热度分布;Item在不同Device上的点击和Item在相应的Device上的曝光之间的比值来刻画Item在不同的Device上的CTR。

4)时间序列上User在ItemType上的分布特征:

通过计算User在不同的ItemType上的行为数量来刻画Use对不同的ItemType的喜好,计算User在不同的ItemType上是否有行为来刻画在时间段上User是否对当前的Item的类型感兴趣,计算User的行为在不同的Item上的分布来刻画对不同的ItemType的喜好程度。User在一段时间内,是否在ItemType上有重复行为,来刻画用户是否对当前ItemType深度感兴趣。

5)时间序列上ItemType在Age上的分布特征:

通过计算ItemType在不同年龄段上的行为数量(User不去重和不去重)来刻画ItemType在不同年龄段上的热度;ItemType在不同年龄段上的行为数量/ItemType在年龄段上的用户数量来刻画当前ItemType对这个年龄段的User的吸引程度;ItemType在不同年龄段上的点击和ItemType在相应的年龄段上的曝光之间的比值来刻画ItemType在不同的年龄段上的CTR。

6)时间序列上ItemType在Gender上的分布特征:

通过计算ItemType在不同性别上的行为数量(User不去重和不去重)来刻画ItemType在不同性别上的热度;ItemType在不同性别上的行为数量/ItemType在当前性别上的行为用户数量来刻画当前ItemType对这个性别的User的吸引程度;ItemType在不同性别上的点击和ItemType在相应的性别上的曝光之间的比值来刻画ItemType在不同的性别上的CTR。

上面列举了一些常见属性之间的分布特征,都是User针对Item或者Item针对User的统计分布,这些只是大部分场景中会出现的场景,在具体的业务中可以根据实际可以获取到的属性结合和样本之间的相关性来进行建模。

特征选择:

在实际的业务中,首先需要思考的是如何正确的构建样本对,在恰当的样本对构造的基础上思考和样本标签具有相关性的因素,这些因素包括用户和物品侧,找到这些因素之后才是特征构建,不同的场景和算法情况下需要不同的特征选择:比如说游戏推荐中活跃时长、付费意愿很重要,而弱化了在性别上的分布,因为游戏属于用户粘性比较大的类型,在商品推荐中性别分布和浏览、加购物车行为则同等重要,因为用户的性别和用户之间的兴趣有很强的相关性;对于不同的算法同样也需要不同的特征体系,对于逻辑回归这种解释性很强的线性模型,通常需要根据建模场景选择特征的细粒度,然后生成和样本具有相关性的特征,获取相关性最直接的方法是对特征进行特征交叉,而对于树模型或者FM模型,理论上则不需要进行特征交叉,因为模型本身就具有了特征的交叉能力。总之,合适模型加上适配的特征特征体系才能获得较好的效果。

小结:

特征工程通常在算法调优中占据了大部分的时间,本文旨在通过梳理推荐系统中常用的特征构造方法,实现快速的特征构造。本文主要是面向初涉推荐系统的同学,可以快速构造一些简单有效的特征,同时,本文提到的一些特征构造方法在某些场景下是冗余的,并不能带来新的信息,所以在实际的应用场景中还需要根据需求进行选择。

附录:

整体特征构造框架如图-6所示:

图6 特征构造框架

 

来源:腾讯QQ大数据

]]>
Verndale:2017年客户体验调查报告 //www.otias-ub.com/archives/703152.html Tue, 27 Mar 2018 16:59:52 +0000 //www.otias-ub.com/?p=703152 199IT原创编译

根据Verndale的新报告“2017年客户体验调查”,客户体验(CX)工作受缺乏策略或企业支持的影响并不大,但是缺乏实时客户洞察力和运营体验方面的能力才是大麻烦。

调查者是来自美国商业和专业服务、金融服务、医疗保健和生命科学、IT/技术和电信、制造和分销,以及旅游等行业的200位高管。

从客户服务挑战方面的调查结果来看,虽然企业内部有利于客户体验的举措,但企业在数据收集、访问和分析方面仍然需要帮助。

事实上,调查发现客户服务个性化最需要改善的领域包括,实时数据和洞察、更多客户数据,和对客户数据更强大的分析。

值得注意的是,相当一部分受访者表示,最重要的挑战是找到客户体验预算,这是由于数据驱动的营销人员报告预算激增,而他们的目标正是改善客户体验。

高管们已经认识到有效的客户体验优化可以带来很多好处,包括提高收入(61%)、改善客户满意度(58%)、提高销量(52%),和竞争优势(46%)。

但是,大部分受访者同意客户体验优化尚未完全实现(84%)。

规模更大的企业往往更有信心。在拥有100-249名员工的企业中,98%的高管认为个性化客户体验的潜力尚未完全实现,而在至少有1000名员工的企业中,这个数字降至78%。

决策者相信机器学习和人工智能等先进科技能帮助企业解决客户体验方面的挑战。企业使用先进科技刚刚起步,但是机器学习在处理大量数据、提供实时分析,并建立更准确的定价模式和策略方面能提供帮助。

 

PDF版本将分享到199IT交流群,199IT感谢您的支持!

]]>
Crunchbase:2017美国人工智能和机器学习行业种子投资首次下降 //www.otias-ub.com/archives/699553.html Tue, 20 Mar 2018 16:30:38 +0000 //www.otias-ub.com/?p=699553 199IT原创编译

根据Crunchbase的数据,风险投资对机器学习和人工智能的热情已经开始趋于平静,至少在美国是这样。但这可能并不是一件坏事。

尽管人工智能和机器学习成为学术研究的热点领域已经有数十年了,但是尚未成为风险投资的主流。由于计算硬件、商品化和其他开源软件框架的发展,以及数据爆炸式增长,近十年投资机器学习和人工智能成为企业的首要事项,而投资者也开始纷纷效仿。

下图显示了该行业投资交易和投资规模的发展速度

投资数据呈明显的S曲线,这与Everett Rogers在20世纪60年代 “创新的扩散”(Diffusion of Innovation)中首次描述的技术采用曲线非常相似。

事实上,AI和ML作为一个行业已经相对成熟,2017年是十年来该行业种子投资份额首次下降。

在美国,进入管道的种子阶段企业越来越少。2014-2016年种子交易达到顶峰后,早期和晚期交易比例再次开始增长。

尽管投资交易数量趋于平稳,但是投资额并没有,这主要是由于早期和晚期投资规模更大。

种子阶段投资额也有所下降,从2016年的5.15亿美元降至4.15亿美元。但是,早期和后期阶段投资额则在快速增长,不仅由于投资交易数量增长,而且平均投资规模也在增长。2010年该行业平均投资规模480万美元,到2017年这个数字已经增长至1170万美元。

]]>