专业知识 – 庄闲棋牌官网官方版 -199IT

全球最大的稀土储量其实在这个国家！

DinK — Tue, 14 Jan 2025 16:16:23 +0000

美国当选总统唐纳德·特朗普再次表示，他希望购买丹麦的自治领土格陵兰岛，并将国家安全考虑作为这种扩张动机的主要原因。在导弹防御和海上贸易方面，格陵兰岛对美国来说都处于战略位置，随着北极海冰继续融化，气候变化加剧，海上贸易将变得越来越重要。

然而，观察人士也强调，众所周知，格陵兰岛拥有丰富的重要稀土元素。这些矿藏，如锂和锆，已成为一种令人垂涎的商品，用于电子产品和生产对绿色技术转型至关重要的电池。美国地质调查局（USGS）的数据显示，格陵兰拥有世界第八大稀土储量，为150万吨。这与美国的已知储量（180万吨）相似。

虽然格陵兰岛拥有大量的稀土储量，但美国地质勘探局的数据也显示，2023年那里没有进行任何稀土开采活动。尽管格陵兰公司最初向中国寻求采矿投资，但在2021年格陵兰选举后，项目陷入停滞。选民们决定，虽然采矿可能是朝着更大的经济发展甚至从丹麦独立迈出的一步，但对环境的成本和对传统习俗的潜在破坏将远远超过任何收益。这里的一个主要症结是，纳萨克镇附近的主要矿山Kvanefjeld也会生产放射性铀，当地人担心这会导致放射性尘埃落在附近的社区和农田上。投票结果导致禁止铀矿开采，并搁置了稀土开采项目。2021年，格陵兰岛还停止了未来石油和天然气勘探的所有计划。

美国地质勘探局的数据显示，中国目前拥有最大的稀土储量，估计有4400万吨，占全球已知稀土储量的近40%。

这张图表显示了2023年已知稀土储量最大的10个国家（以百万吨REO计）。数据来源：Statista.com

在充满变革的世界中生存，企业必须采取的六项韧性战略

DinK — Tue, 03 Dec 2024 04:58:34 +0000

在如今快速发展的世界中，问题不再是颠覆性变化是否会影响企业，而是颠覆性变化会何时发生。

普华永道在2024年1月发布的一项调查显示，全球45%的首席执行官（CEO）担心，如果不进行深刻变革，企业可能无法在未来十年生存，尤其是在面临气候变化和人工智能进步的情况下。这种担忧无论行业还是企业规模都是全球性的，反映了企业在适应快速数字化进步和前所未有的气候威胁中面临的压力。

北巴黎商学院前瞻、创新与转型教授兼主席René Rohrbeck表示：“拥抱变革并借助变革的能力将决定21世纪的赢家和输家。Rohrbeck在他的2023年全球未来适应性研究（Study）和早期研究中发现，“未来适应性”高的公司比竞争对手的利润高出33%，市值增长高出200%，并且有44%的可能性跻身前列其产业集群中的企业行列。

因此，尽管造成首席执行官焦虑的现实很复杂，但传达的信息很简单：如果想到达这样的效果，必须在未来十年生存和发展，企业一定要进行根本性转型。这种环境应当需要积极主动的领导力，将转型视为一个持续的过程，而不是一次性的项目。

两大挑战

公司必须适应许多挑战，特别是气候风险和技术颠覆的双重挑战。

1. 环境压力

气候变化已超越企业社会责任，已然成为运营战略的一部分。消费者、监管机构和利益相关者越来越要求企业将可持续发展被认为是标准期望。贝恩公司2024年9月的一份研究报告指出，60%的消费者在过去两年中提高了对气候变化的担忧。此外，超过三分之一的B2B客户表示，如果他们的可持续发展需求得不到满足，他们宁愿更换供应商，近60%的客户表示他们会在三年后采取这一行动。因此，企业一定要表现出负责任的做法，这不仅是道义上的要求，也是竞争的必要条件。

2. 数字颠覆

与此同时，技术的加速发展也给双方带来挑战。数字化转型，尤其是人工智能等领域，既是企业发展的助推器，也是落后企业的潜在威胁。成功集成数字工具能够进一步提升敏捷性、效率和客户体验；与预想不同的是，忽视这些进步可能会在技术日益成熟的市场中被淘汰。

六项战略：为未来做好准备

为了帮助企业领导者有效应对这一势在必行的转型挑战，以下六项战略可为转型提供基础，并为长期生存提供路线图。

1. 从内部重塑

重塑不仅仅是调整业务模式，还涵盖重新思考推动公司日常运营的基本原则和流程。这应当需要思维方式的转变、提倡适应性的文化以及以增长为导向的变革方法。借助将弹性充分渗透运营核心，领导者能够帮助企业灵活应对新挑战，无论这些挑战是来自技术变革、监管变化还是新兴市场需求。

2. 利用大趋势打造韧性

当今的商业格局是由相互依存的大趋势塑造的。气候变化、技术进步、监管变化和消费者行为的变化是高度相互关联的。例如，围绕可持续发展的法规可能会推动对环保产品的需求，而绿色能源或人工智能的技术创新可能会再次定义行业标准。如果想到达这样的效果，必须解决这些复杂的动态问题。了解并规划这些相互依赖性的领导者将得以更好地做出明智的决策并在变化发生之前对其进行预测。

3. 通过绿色实践促进增长

普华永道推理揣测，全球GDP的55%依赖于自然和生态系统服务。解决环境风险不仅仅意味着做到碳中和。如果想到达这样的效果，必须增强抵御能力，企业应考虑节约用水、保护生物多样性和可持续利用资源。基于自然的解决方案，例如借助自然过程恢复生态系统或设计对环境影响最小的产品，能够在支持可持续增长的同时降低风险。这些做法不仅保护了自然资源，还进一步提升了价值，并与日益重视生态完整性的消费者构建了信任。

4. 以清晰透明的方式拥抱人工智能

将人工智能视为一种手段，而不是最终目标。从某种角度看来，这对于公司而言，人工智能予以了简化运营、进一步提升客户参与度和促进创新的机会。但关键是要确保人工智能举措符合道德规范，并且不会损害员工的信任。有关人工智能的使用方式、其在决策中的作用以及其对员工的潜在因素的透明沟通能够使其已然成为一种赋权工具，而不是破坏性因素。借助制定明确的指导方针并使人工智能与组织的核心价值观保持一致，公司能够建立信任并借助人工智能来增强而不是削弱其业务。

5. 通过合作促进创新

应对当今复杂形势应当需要合作。构建由志同道合的企业、行业组织和创新者组成的网络能够提供新的视角，促进知识共享并推动创新。例如，与可持续供应商合作能够增强公司对环保实践的承诺，而与科技公司合作能够加速数字化转型计划。该网络使企业得以共享见解和资源，帮助彼此更有效地适应变化。在这个颠覆性变革不断的时代，没有一家公司得以独自应对变革的挑战。借助共同努力，企业能够互相学习成功和失败的经验，共同打造企业韧性。

6. 明确目标并确保行动与之相匹配

最后，清晰、真实的目的能够定义企业的主张，并在变革时期充当指南针。得以清楚地表达并忠于自己的目标的企业得以更好地在混乱的环境中生存，吸引忠诚的客户，并吸引积极进取的员工。以目标为导向的公司能够更轻松地将其可持续发展目标、技术采取使用和长期战略与其利益相关者真正关心的问题结合起来。

绘制实现韧性和增长的路线图

企业的生存能力和可持续增长取决于首席执行官对创新和责任的承诺。优先考虑道德和前瞻性转型的企业领导者能够使他们的企业在更加互联、环保和技术驱动的经济中蓬勃发展。问题不仅仅是“我的企业能生存下去吗？”而是“我怎样才能成长以满足未来的需求？”

未来十年取得成功的公司将是那些将颠覆性变革视为转型机遇的公司。借助将可持续性、数字适应性和协作创新充分渗透运营中，企业能够应对当今市场的不确定性，并已然成为有弹性、可持续的全球经济的重要参与者。

展望未来，领导者的当务之急是明确的：适应不仅是为了生存，而且是为了能够发展。借助更科学合理的战略和对负责任的转型的承诺，公司能够为未来做好准备，并为股东、员工及其所服务的社区创造持久的价值。

本文作者

Julia Devos

世界经济论坛新领军者社区总负责人

企业增长和运营总负责人

美国商会：2023年国际知识产权指数报告

DinK — Sun, 11 Aug 2024 22:00:31 +0000

美国商会发布《2023年国际知识产权指数》报告，该报告通过50个指标（9个类别）对55个全球主要经济体的知识产权框架的强度和有效性进行评估。美国商会表示国际知识产权指数提供的数据不仅可以支持论点，还可以用来激发政策变化、推动创新向前发展。

1、28个经济体的得分保持不变，表明全球知识产权保护工作的进展可能停滞不前。

全球市场在加强知识产权保护方面仍取得了适度进展，18个经济体的得分提高，9个经济体得分降低，28个经济体得分保持不变。摩洛哥、泰国和越南的总体得分提高幅度最大（分别为2.5%、2.5%、2.02%）。

2、多边组织和各国的讨论表明各经济体知识产权驱动的创新框架可能正被削弱。

知识产权对于新型疫苗、治疗方法和诊断方法的研发至关重要，这是全球应对COVID-19的基础。知识产权促进了31个国家在COVID-19治疗药物方面的143项许可协议。

但是，世界贸易组织（WTO）和世界卫生组织（WHO）内部进行的豁免知识产权的协商，将破坏创新生态系统并威胁到有效应对下一个重大全球公共卫生危机的能力。

继2021年关于促进美国经济竞争的行政命令和降低通货膨胀法案通过后，美国决策者正在考虑修改专利框架，以解决药品价格问题，这将破坏美国生命科学生态系统、影响由知识产权驱动的创新提供的许多美国就业机会。

同样，欧盟正在考虑限制知识产权保护、缩短监管数据保护期限以及削弱罕见病治疗投资的政策提案，这将危及欧盟在知识产权驱动创新方面的长期领导地位。

3、5G等移动技术帮助消费者在全球大流行期间保持联系，产生了重大积极的经济影响。

目前5G的部署已经为美国GDP贡献了超过1000亿美元，研究估计，到2025年5G标准将为美国GDP带来1.5万亿美元的贡献，并创造或转化1600万个就业岗位。

5G和其他信息通信技术（ICT）的持续部署依赖于经济体通过强大的知识产权标准创造的有利环境，这说明了拥有最有效的知识产权框架的经济体更有可能获得更多的ICT技术、更强大的数字环境、以及更高的5G部署能力。

相反，利用本地化政策、繁重的许可要求和强制技术转让的经济体将阻碍包括5G在内的ICT技术和移动技术的发展。

4、在去年积极执法的基础上，许多经济体在2022年继续采取措施解决网络版权侵权问题。

在拉丁美洲，秘鲁国家知识产权局和巴西的“打击盗版404行动”关闭了数百个包含盗版内容的网站。在加拿大，联邦法院发布了一项动态禁令，要求加拿大互联网服务商禁止非法在线直播国家冰球联盟比赛。在美国，一个地方法院发布了禁令，要求美国互联网服务商禁止对侵犯网络版权的内容进行访问。但是，美国仍然缺乏一个全面、现代的法律框架来打击网络商业盗版。

欧盟委员会：2023年开放数据成熟度（ODM）

Ocean, Ocean — Fri, 12 Jul 2024 22:00:56 +0000

欧盟委员会发布了“2023年开放数据成熟度（ODM）”，评估了各国在开放数据领域的成熟度。特别是，该评估衡量了欧洲国家在根据开放数据指令提供公共部门信息和刺激其再利用方面的进展。共有35个国家参加了连续第九次的年度评估，包括27个欧盟成员国、3个欧洲自由贸易联盟国家和5个候选国。

评估方法使用四个维度定义ODM：

政策调查了参与国的开放数据政策和战略，管理开放数据的国家治理模式以及实施这些政策和战略的措施。

影响分析：衡量各国对开放数据的使用以及通过这种重用产生的影响的意愿、准备和能力。

Portal调查了国家开放数据门户的功能，用户的需求和行为，跨不同领域开放数据的可用性以及确保门户可持续性的方法。

质量评估门户管理人员采取的措施，以确保系统地收集元数据，监测元数据质量和符合DCATAP元数据标准，以及在国家门户上发布数据的部署质量。

2023年开放数据成熟度评分

亮点包括以下几点

共有25个国家的ODM同比增长，3个国家的总体得分持平，7个国家的成熟度得分下降（其中6个国家的下降幅度小于4个百分点）。

成熟度得分集中在列表的顶端，77%的国家（27个国家）成熟度评分高于73%。

欧盟成员国的平均成熟度得分提高了4个百分点，从2022年的79%增加到2023年的83%。

欧盟27国中最成熟的国家是法国（98.3%）、波兰（97.9%）和爱沙尼亚（96.2%）。最成熟的欧洲自由贸易联盟国家是挪威（90.2%），最成熟的候选国是乌克兰（96.3%）。

上升幅度最大的是斯洛伐克（上升32个百分点）、拉脱维亚（上升23个百分点）、黑山（上升13个百分点）和冰岛（上升12个百分点）。

文档链接将分享到199IT知识星球，扫描下面二维码即可查阅！

“十五五”时期软件产业十大趋势研判

DinK — Thu, 27 Jun 2024 06:20:32 +0000

“十五五”是我国面向2035年基本实现现代化承上启下的关键时期。软件作为数字经济发展的基础，是制造强国、网络强国、数字中国建设的关键支撑，在发展新质生产力、推动制造业数字化转型、推进新型工业化等关键任务中发挥着重要的作用。对“十五五”时期软件产业发展进行前瞻趋势研判，对于深入贯彻国家软件发展战略，加快实现软件产业高质量发展意义重大。

中心从软件产业发展总体态势、软件技术创新发展、软件产品迭代升级以及软件生态培育建设等方面提出了“十五五”时期软件产业发展十大趋势研判。

总体上看，在新型工业化需求拉动和技术创新驱动双重作用下，我国软件产业将持续做大做强，人工智能带来重大发展机遇，云边协同等新兴技术应用走深走实，基础软件、工业软件等关键软件供给能力大幅提升，开闭源双轮驱动发展格局逐渐成为主流，软件供应链韧性和安全水平稳步提高，软件新质生产力加速形成，将有力支撑数字经济高质量发展，助力新型工业化伟大进程。

来自：国家工业信息安全发展研究中心

数据量持续飙升，信息与通信技术行业如何实现可持续发展？

DinK — Wed, 26 Jun 2024 07:59:14 +0000

随着数字化转型持续推进、人工智能不断发展、移动数据网络需求增长和加密货币挖矿的诞生，数据量正在激增。
这使得我们所需的算力急剧增长，这将导致电力需求飙升，给电网带来压力，并增加碳排放。
世界经济论坛能源与材料中心和清洁电力、电网和电气化倡议召集三位专家讨论能源创新和跨行业合作这一核心话题，以帮助信息与通信技术行业可持续地应对这些挑战。

2025年，全球创建、捕获、复制和消费的数据量预计将达到181泽字节（ZettaByte），而这几乎是2020年的三倍。

随着经济数字化转型不断推进，生成式人工智能快速发展，移动数据网络需求不断增长，加密货币挖矿的诞生升级，数据量正出现大幅度的增长。

不断增长的数据量，也使得行业需要更高的算力。而这反过来，又会增加数据中心以及电信和数据网络等通信基础设施的电力需求。这一增长也会带来温室气体排放，因此我们需要努力升级电力系统，才能与数据量的增长保持同步。随着信息与通信技术行业的扩张，如何获得足够的清洁电力将成为一个重要问题，且这一问题将在该行业的集中地区尤为严重。

为解决这些互相关联的问题，电力行业和信息与通信技术行业需要协调一致，在不断增长的需求和电力系统的输送能力之间取得平衡。

随着数字化转型持续发展，数据量呈指数级增长。Image: 随着数字化转型持续发展，数据量呈指数级增长。

为何信息与通信技术行业的能源使用量猛增？

为应对日益增长的数据处理需求，数据中心等设施将增强其处理能力，这会导致它们对电力的需求也相应增加。人工智能模型及其应用的快速增长所需要的新增计算能力，将导致电力需求飙升。

国际能源署表示，额外的电力需求不仅用于服务器等附加设备，还用于其他系统的必要冷却，以应对数据处理产生的巨大热量。

他们也预测，到2026年，数据中心、加密货币和人工智能的电力需求可能达到1,000太瓦时。目前，这一数字已经达到了460太瓦时。

促进数据从生成点到处理点的传输的通信网络，也增加了数据中心的能源负荷。

国际能源署最新统计数据显示，数据中心和通信网络占全球电力消耗的2-3%，所产生的温室气体占全球排放总量的1%。但即使按照最低情景预测，这一数字也将大幅上升。

数据中心、人工智能和加密货币是数据量增长的主要驱动力。Image: 数据中心、人工智能和加密货币是数据量增长的主要驱动力。

在过去的几年中，数据处理的业务正逐渐从较小的私有数据中心转移到更节能的超大规模云数据中心。

然而，物联网技术以及其他高速数据应用的广泛增长，都依赖于5G移动网络。虽然5G硬件在性质上来说更加节能，但与当前的4G网络相比，5G网络的扩展仍可能使能耗增加高达140%。据《金融时报》报道，这主要是因为5G网络需要更多的手机信号塔。

另一个因素是边缘数据中心数量的增加。物联网和需要高速或本地数据处理的技术，可以利用边缘计算，在更靠近网络边缘和终端连接设备的地方处理数据。小型现场边缘数据分析能够显著缩短周转时间，但会给当地电网进一步带来压力。

据《金融时报》报道，业内人士担心，清洁能源发电量难以实现与如此多方面电力需求增长的同步，从而导致温室气体排放量增加。埃森哲的研究则表明，自2016年以来，该行业的排放量一直呈上升趋势，而清洁能源供需的不匹配，只会增加该行业目前的排放量。

信息与通信技术行业正在努力应对日益增加的排放量。Image: 信息与通信技术行业正在努力应对日益增加的排放量。

为什么某些地区比其他地区受影响更大？

为全球主要的数据中心集群供充足的电力和管理温室气体排放，将尤其具有挑战性。这包括世界“数据中心之都”北弗吉尼亚州和许多北欧国家

。较小的地区也有一些重要的数据中心，例如新加坡（得益于世界上最快的互联网速度和低成本电力）和爱尔兰（凉爽的天气、良好的全球连通性以及友好的经济和税收制度刺激了数据中心的增长）。

许多拥有大型数据中心集群的国家已经对新的数据中心集群和相关基础设施实施了限制，以应对电网和国家气候目标所面临的压力。

新加坡对新数据中心的建设实行了四年的禁令，该禁令直到2023年才结束，但由于能源和空间限制，新加坡在颁发新许可证方面仍然持谨慎态度。目前，该国监管机构还在制定符合新加坡净零目标的绿色数据中心路线图。

出于对国家电网容量以及对轮流停电的担忧，爱尔兰电网于2022年开始暂停在都柏林连接新的数据中心，这一禁令将持续到2028年。但国际能源署的最新数据显示，该岛的数据中心消耗仍将增加一倍以上，其他地区的数据中心消耗预计也将大幅增加。

美国、欧洲和亚洲等全球最大的数据中心集群的电力需求将大幅增长。Image: 国际能源署等

信息与通信技术行业如何降低电力消耗？

数据中心运营商尤其致力于提高电力使用效率，这不仅是为了降低成本，也是为了遵守环保规定。显著的性能优化，将有助于应对全球数据中心的能源需求增长；但考虑到目前数据量扩大的规模和速度，我们还需要做更多的工作来适应未来的数据增长，并实现排放目标。

新的高效冷却技术以及人工智能的使用在优化数据中心运营方面具有巨大潜力。例如，谷歌在其Deep Mind人工智能技术的帮助下，将冷却成本减少了40%。

目前，人们也正在用光纤替代铜线进行工作，这将提高通信网络的能源效率。同时，将数据处理过程转移到绿色电力资源充足的地区，这有助于降低排放。

其他有前景的方法还包括绿色编码，这种方法旨在减少应用程序的处理量。麻省理工学院林肯实验室超级计算中心也在努力限制处理过程中的电力使用，并优化人工智能模型训练中的能耗。

与此同时，小语言模型正在成为ChatGPT等大语言模型的替代品。与大语言模型相比，小语言模型仅使用一小部分参数，这也体现了大语言模型从复杂数据模式中完成识别和推断所需的巨大规模。这意味着小语言模型的处理需求更低，且资源密集程度要远低于大语言模型——但同时仍能提供高质量的结果。

麻省理工学院还致力于通过为数据处理创建类似于家庭能源报告的方式，从而提高人们的能源意识。他们的目标是让用户了解他们的处理任务消耗了多少能源，他们的碳足迹与其他人相比如何以及他们如何进行改进。麻省理工学院的研究人员表示，这种方法可以成为信息与通信技术行业更广泛的典范，特别是在该行业仍然缺乏全面的行业数据的情况下。

灵活的需求解决方案也有助于应对日益增长的能源需求对电网的影响。例如，需求响应和负荷转移能够使数据中心和通信基础设施减少在高峰时段的用电量，并将其转移到需求和价格较低的时间段。

美国是迄今为止世界上拥有数据中心数量最多的国家。Image: Statista

为什么合作是管理数据使用量增长和电网容量的关键

虽然信息与通信技术公司的行动对于应对能源消耗增长至关重要，但它们只是未来能源需求的一部分。在从使用化石燃料向电气化转变的过程中，交通、重工业以及消费者行为等领域对电力的需求也在不断增长。

随着这一趋势的发展，以及对清洁电力的需求持续增长，电力公司或将遭遇瓶颈，因为新基础设施建设的审批流程往往非常冗长，阻碍了它们的发展。

因此，我们需要更广泛的参与来缩小日益扩大的供需差距。私营部门、电网运营商、规划部门和监管机构必须齐心协力，找到整体性的解决方案。这将要求信息与通信技术行业向推动清洁电力需求的其他行业学习，并与之合作。为了实现这种协作方式，行业参与者需要找到安全的方式，在彼此之间，以及与监管机构之间，共享数据和数据中心增长预测，同时避免泄露商业敏感信息。

并且，这种合作需要在地方、区域和国际三个层面展开。在国际层面的推进对于跨地域创建一致的监管环境尤为重要。综合方法将有助于改善信息与通信技术价值链的能源排放核算和报告、制定新的能源高效倡议和替代能源方案等各个方面。

最后，我们每个人都应尽一份力。信息与通信技术的耗能大，是因为我们的社会需要大量数据。作为个人和组织，我们需要控制我们保存或使用的数据，并考虑减少我们自己的碳足迹。

本文作者：

Bart Valkhof，世界经济论坛信息与通信技术行业总负责人

Eleni Kemene，世界经济论坛工业脱碳负责人

Justin Stark，埃森哲北美可持续发展净零转型经理

本文原载于世界经济论坛Agenda博客

Omdia：预计虚拟制作行业产值将在2028年达到11亿美元

DinK — Wed, 12 Jun 2024 07:18:03 +0000

要点

根据Omdia最新的《ProAV垂直解决方案-虚拟制作2024报告》分析，由于在电影制作中的广泛使用以及企业和教育行业中的新应用，与虚拟制作（包括硬件，软件和云处理）市场相关的业务预计将在2028年达到11亿美元以上，远高于2023年的1.4亿美元。

Omdia电子消费研究首席分析师Matthew Rubin表示：“随着技术的发展，虚拟制作的重要性显著提高，其可利用性也在迅速提高。新冠肺炎大流行等全球事件也加速了这一技术的市场化。”

虚拟制作是一种创新性的电影制作技术，它巧妙地，实时地无缝地融合了物理条件和数字元素，使电影制作人能够在片场创造身临其境的动态环境。通过集成高分辨率LED显示器、运动跟踪和虚拟相机等先进技术，可以在数字背景下拍摄真人场景，使导演和摄影师能够在拍摄过程中通过可视化设备实时调整完成创作。

众所周知，虚拟制作在电影行业，与传统的绿色幕布相比有着明显的优势；在企业和教育行业当中也在不断发展。在企业环境中，SmartStage和Vú等公司率先使用这项技术，为用户提供简化的方案和服务订阅，使用户在培训、营销活动和日常办公当中获得更高效的服务体验。同样的，许多项目方案已经在高等教育机构落地，其为丰富学生的学习体验和提供未来创业机会提供了一个变革性工具。

來源：Omdia

尽管虚拟制作当中LED显示屏产品的产值目前只占整体LED显示屏市场的一小部分，但对于LED显示屏的供应商来说，从长期看其增长机会是巨大的。因为市场需求不仅来自于电影或电视制作工作室，而且来自高等教育机构和企业部门。Omdia预计应用于高教和企业市场的虚拟制作的LED显示屏产品销售收入2023-2028年的复合年增长率将分别为130%和111%。这将有助于用于虚拟制作的LED显示产品的收入从2023年的7350万美元提高到2028年的5.1亿美元。

虚拟制作领域的早期领先者包括ROE Visual和AOTO等LED显示屏供应商（就销量而言，这两家公司在2023年的市场份额合计超过一半），但随着InfiLED、Sony和SiliconCore等公司在这一领域的积极布局，其竞争力正在逐步增强。

在技术要素方面，整个市场的标准化程度正在不断提高，例如在主显示墙的选择上，点间距2.6mm和1.5mm采用率正在增长，显示屏表面处理技术的加强；在地板显示屏，模组支撑性和耐用性要求在提升。随着虚拟制作的市场应用范畴逐渐清晰，LED显示屏逐渐形成标准化趋势，这将有助于市场竞争和产品迭代。然而，在更广泛的硬件和虚拟制作软件市场仍然非常复杂，许多类型的产品和技术供应商都参与到了这一工作流程。随着软件/平台主导的供应商（如Disguise和Pixera）专注于工作流程的有效性——端到端管理，这种复杂性正在慢慢改善，但这仍然是未来5年虚拟制作行业的一个关键发展领域。

尽管仍处于早期阶段，但人工智能可能是未来几年改变复杂的虚拟制作工作流程的一个契机。通过优化渲染、动画和后期制作任务的算法来实现，从而提高效率，缩短制作时间。此外，机器学习也有助于预测分析，以便在生产规划过程中做出更好的决策。

人工智能、最先进的ProAV技术和创意产业的结合将推动虚拟制作从传统电影制作到新的垂直领域的进一步发展，有效地创造新型市场。目前未参与的供应商应寻求在相邻技术方面的合作伙伴关系，为未来的增长做好最佳定位。了解这个复杂而快速发展的市场中的众多技术和流程是虚拟制作领域至关重要的第一步。

如何做好儿童参与的定性研究：5个策略获得家长信任

DinK — Tue, 05 Dec 2023 08:46:03 +0000

在招募儿童进行定性市场研究时，儿童父母会有各种各样的顾虑与担忧，从安全和数据隐私到对儿童可能造成的情绪影响。

作为儿童的监护人，对于儿童是否可以参加调研有着决定性的地位。所以如何消除儿童父母的顾虑至关重要。

儿童的定性研究招募中，与父母建立信任是关键，当然在过程中保持儿童的轻松舒适是极其重要的一步。

这篇文章涵盖了儿童参与研究项目时的五个策略，以确保父母和孩子都有积极的体验。

与父母建立信任是招募儿童进行定性研究的最关键因素之一。

在研究过程中，家长在引导和支持孩子方面发挥着关键作用，因此招募机构必须与家长建立积极和谐的关系，并获得他们的信任。

在这篇文章中，我们强调与父母建立牢固关系的重要性，并提供了在研究的招募过程中创造舒适、尊重和支持性环境的五个策略。

01 对研究过程和预期保持透明

Be transparent about the research process and expectations

在与家长合作时，透明性至关重要。

招募公司必须确保所有关于研究细节的沟通都是准确的，并清楚地概述了研究的目标、方法和潜在益处。

例如，同意书应包括研究设计的概述、任何潜在的风险或可能造成的不适、数据会被如何使用以及如何保护孩子的隐私。

提前分享这些信息可以确保父母了解参与研究的风险和益处，使父母能够对于孩子的参与做出明智的决定。

02 保持开放的沟通渠道

Maintain an open line of communication

与父母建立开放的沟通渠道是建立信任的关键。

在整个研究过程中，应为家长提供可以联系的指定联系人。

所有问题都应以清晰简洁的答案及时回答。

应鼓励家长提出问题以及表达他们在此过程中可能存在的任何顾虑——这将确保他们在孩子的参与中感到被倾听、被重视和参与性。

03 解决所有问题或顾虑

Address any questions or concerns

父母可能对孩子参与定性研究存在着各种各样的顾虑——从安全和数据隐私到潜在的情绪影响。

招募团队可以通过在项目沟通环节以及同意书中提供研究安全措施和协议的详细信息来解决这些顾虑。

招募团队还应该将他们可能持有的所有有关儿童研究或数据隐私的证书提供给儿童父母。

04 创建舒适和儿童友好型的研究环境

Create a welcoming and child-friendly research environment

让儿童在参与调研时感到舒适，对于确保结果的准确性和有效性以及维护研究的完整性至关重要。

为了给孩子们创造一个舒适的环境，从一开始就建立一个积极和舒适的基调是至关重要的。

在采访孩子之前，与父母和孩子进行一次“破冰”对话。

在此期间，你可以介绍自己，解释研究的目的，并回答家长和/或孩子可能提出的任何初期问题。

同样重要的是，要使用适合孩子年龄的语言，避免使用孩子可能不理解的行话或技术术语。

在研究过程中，给儿童发出明确的指令，并在整个研究过程中提供休息时间来帮助儿童感觉更加的轻松舒适。

此外，通过进行游戏、有趣的活动和其他互动方法来让儿童积极的参与研究，有助于他们在过程中感到更加兴奋。

通过采取这些步骤，研究人员可以确保儿童在研究过程中保持舒适与投入，最终可以因此得出更准确更有意义的结果。

05 创建一个明确的同意书

Create a clear consent form

招募团队必须制定一份全面的同意书，其中概述研究的目的、程序、潜在风险和益处。

然后，招募团队必须确保儿童父母了解其子女的权利以及他们参与研究的自愿性质。

还应给予儿童父母充足的时间审阅同意书，并在签字前给予他们提问的机会。

作者简介：Kate Ridoux是Touchstone Research公司定性招募部门的项目经理。

源自 | quirks.com

作者 | KATE RIDOUX

原题 | Qualitative research with children: Five strategies to gain parental trust

编译 | 张杉

题图 | 源自原文

勺海公号原创译文

上海数据交易所：2023年全球数据跨境流动规则全景图

DinK — Mon, 04 Dec 2023 20:00:06 +0000

当前，数据跨境流动正在逐步超过贸易、投资全球化，成为驱动全球经济增长的新动能。本次报告，从国际组织、国际贸易协定、经济体三个层次切入，聚焦十大国际机制安排（五个国际组织与五个国际贸易协定）与十二大经济体，分析其关于数据跨境流动的规则与特点，并研判未来规则发展趋势，为我国参与全球数字经济规则的制定提供借鉴与参考。

研究发现，在国际组织层面，主要国际组织在全球层面推动数据跨境流动“软法”的构建，典型的如联合国（UN）建立数据跨境流动国际合作平台，经合组织（OECD）首创有关数据跨境流动与个人数据和隐私保护的基本原则，世界贸易组织（WTO）在电子商务谈判中推动数据跨境流动议题讨论等。在区域及双边框架层面，主要经济体通过加入或缔结区域或双边自贸协定及数字经济专项协定，如《美墨加协定》（USMCA）、《全面与进步跨太平洋伙伴关系协定》（CPTPP）、《区域全面经济伙伴关系协定》（RCEP）、《数字经济伙伴关系协定》(DEPA)等，将数据跨境流动相关条款纳入相关协定中，旨在破除各国间数据跨境流动壁垒，促进全球数据自由流动。在主要经济体层面，包括中国、美国、欧盟、英国、韩国、印度、巴西、俄罗斯、澳大利亚、新加坡、日本等，出于维护自身数据安全的必要，纷纷进行立法规制，明确数据出境安全前提。

纵观纳入研究的十大国际机制安排与十二大经济体，发现在国际组织“软法”的影响下，国际贸易协议、主要经济体演变出其有关数据跨境流动规则的独有特点。本次报告将上述关于数据跨境流动规则的安排划分为三种类型，分别为开放进取型、严格监管型以及监管例外型。开放流动型主要表现为强调数据跨境的自由流动，典型的经济体如新加坡、东盟、美国等，国际经贸协定如 DEPA、USMCA 等。严格监管型主要强调数据跨境的事前监管，通过安全要求后方可进行数据出境，典型的代表为中国、俄罗斯、巴西等，国际贸易协定主要为 RCEP 等。监管例外型虽然强调数据跨境的监管，但是如若在白名单或者生态机制内则可以享有 “监管例外”的权利。

未来，各国数据跨境流动的规则主张愈发倾向于“数据重商主义”，不过随着数据要素重要性的提升，未来数据跨境流动的规则亦会呈现出行业精细化的趋势等，同时数据主权、数据安全与个人隐私依然是数据跨境流动规则制定时关键考量。基于现有趋势，认为未来我国数字企业出海将面临更多的数据合规风险，我国数字贸易面临较高的政策不确定性，同时我国数字产业发展面临的数据壁垒有可能将继续提升等。因此，建议我国继续加强与 CPTPP、DEPA 等国际经贸规则的对接，并对 CPTPP、DEPA 中有关数据跨境流动的创新机制率先在上海等地进行探索试验，如 DEPA 中的监管沙盒机制、数字身份、数据保护可信任标志等。

36个顶级数据分析方法与模型！

DinK — Wed, 15 Nov 2023 09:05:50 +0000

数据思维练习不仅要熟练地掌握了分析工具，还要掌握大量的数据分析方法和模型。

这样得出的结论不仅具备条理性和逻辑性，而且还更具备结构化和体系化，并保证分析结果的有效性和准确性。今天从以下6个维度36种分析模型和方法逐个简略介绍，赶紧点赞收藏！

战略与组织

质量与生产

营销服务

财务管理

人力资源

互联网运营

一、战略与组织

1、SWOT分析

主要应用于商业和管理领域，通过内部环境：机会与威胁，外部环境：优势与劣势两个维度，将企业的战略与之结合起来的一种分析方法。

最终依照矩阵形式排列，得出SO战略(增长型战略)、WO战略(扭转型战略)、ST战略（多种经营战略）、WT战略（防御型战略）这4种决策战略。

2、PEST分析

该模型通过政治(politics)、经济(economy)、社会(society)、技术(technology)这4个因素，分析一个集团在所处的宏观环境背景下所面临的状况。

3、BSC平衡计分卡

从财务、客户、内部运营、学习与成长四个角度，将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。能够有效地解决指定战略和实施战略脱节的问题，堵住“执行漏斗”。

4、BCG矩阵

BCG矩阵又叫波士顿矩阵，通过“预计市场增长率”和“相对市场占有率”两个维度，去评估一个企业的整体业务情况，该方法可以使公司在资源有限的情况下，合理安排产品组合，收获或放弃萎缩产品，加大对有发展前景的产品上投资。

5、GE矩阵

通过对现有业务组合进行分析，对不同事业单元的增资或减资策略做出决策。

浅蓝区域：采取增长/发展战略，企业优先分配资源；
浅黄区域：采取维持现状/有选择性发展战略，保护现有规模，调整企业发展方向；
浅灰区域：采取退出、停止、撤退、转移战略。

二、质量与生产

1、TPM

TPM中文译名安全生产维护，通过追求生产系统效率极限化，改善企业体制，追求零灾害、零不良、零故障，各部门共同推进，几乎适合所有制造业。

2、TQM

TQM中文译名全面质量管理，以质量为中心，是指一个组织以全员参与为基础，目的在于通过让顾客满意和本组织所有成员及社会受益而达到长期成功的管理途径。

3、六西格玛

六西格玛是运用 DMAIC (定义问题，测量问题，分析问题，改进问题，控制）战术步骤来解决问题的方法论，目前主要应用于制造业。

4、PDCA

PDCA是指由计划（plan）、执行（do）、检查（check）、处理（act）这4个环节构成一个封闭的环，应用此工具，可以将每一项工作形成闭环，实现闭环管理，同时用大环套小环，旧环生成新环，层层递进，层层管理。

5、AUDIT法

保证产品质量的先进质量管理控制方法。站在用户的立场，以用户的期望和要求，用专业的、最挑剔眼光对已取得合格证得可供销售的汽车产品进行质量评价鉴定，得出一个质量等级，从而评价出该产品在某一时期的质量水平。

三、营销服务

1、STP分析

在即将进入一个新的市场或进行某一项研发之前，经常使用的分析手段就是STP分析。STP分析即市场细分(Segmenting)、目标市场(Targeting)和市场定位(Positioning)。

2、4Ps营销组合

4Ps营销策略，即：产品（Product）、价格（Price）、促销（Promotion）、渠道和分销（Place&Distribution），抓住公司的这四个P，就把市场营销内容版块基本点给立起来，企业一个简洁的市场营销体系也初步搭建起来。在经典4Ps营销策略基础上增加三个“服务性的P”，即：人员（People）、流程（Process）、环境（Physical evidence），就形成7Ps营销策略理论。7Ps营销策略多被用于服务行业。

3、SPIN销售法

以客户为中心的一种销售策略和销售技巧，当你按照顺序问这四种问题时，会显著增加销量转化的可能性。

4、按索夫矩阵

安索夫矩阵是以2X2的矩阵代表企业企图使收入或获利成长的四种选择，其主要的逻辑是企业可以选择四种不同的成长性策略来达成增加收入的目标。

5、推销方格理论

根据推销员在推销过程中对买卖成败及与顾客的沟通重视程度之间的差别，将推销员在推销中对待顾客与销售活动的心态划分为不同类型。推销方格中显示了由于推销员对顾客与销售关心的不同程度而形成的不同的心理状态。

6、哈夫模型

提出了购物场所各种条件对消费者的引力和消费者去购物场所感觉到的各种阻力决定了商圈规模大小的规律。哈夫模型区别于其他模型的不同在于模型中考虑到了各种条件产生的概率情况。

四、财务管理

1、Z-SCORE模型

Z－score模型是以多变量的统计方法为基础，以破产企业为样本，通过大量的实验，对企业的运行状况、破产与否进行分析、判别的系统。

2、ABC成本法

ABC成本法是根据事物的经济、技术等方面的主要特征，运用数理统计方法，进行统计、排列和分析，抓住主要矛盾，分清重点与一般，从而有区别地采取管理方式的一种定量管理方法。

3、杜邦分析法

利用各主要财务比率指标之间的内在关系，通过建立一套财务指标的综合模型，来综合、系统地分析和评价企业财务状况及其经济效益的一种方法。

4、比率分析法

财务比率法是一种用于揭示企业的财务结构、经营状况、发展趋势等内在情况的方法，是分析财务报表最基础、最常用、最有价值的分析工具，由盈利能力比率、流动比率、杠杆比率、劳动能力比率四方面构成。

5、零基预算法

“零基预算”是指从零开始编制预算。传统预算侧重于在前期预算的基础上做出变更，而零基预算关注的是预算中每一个项目一直以来的成本合理性。管理者必须对其控制下的各个领域进行深入的检视来对其成本的合理性提供理由。

6、净现值法

净现值法：是评价投资方案的一种方法。该方法是利用净现金效益量的总现值与净现金投资量算出净现值，然后根据净现值的大小来评价投资方案。净现值为正值，投资方案是可以接受的；净现值是负值，投资方案就是不可接受的。

五、人力资源

1、360绩效考核

360度绩效考核又称为全方位考核法，是指通过员工的主管、同事、下属、顾客和员工自己等不同主体的反馈来评价员工绩效。

2、盖普洛Q12测评法

盖洛普Q12测评法是针对前导指标中员工敬业度和工作环境的测量，发现12个关键问题最能反映员工的保留、利润、效率和顾客满意度的四个硬指标。

3、绩效棱柱模型

绩效棱柱模型个三维绩效框架模型，用棱柱的五个方面分别代表组织绩效存在内在因果关系的五个关键要素：利益相关者的满意、利益相关者的贡献、组织战略、业务流程和组织能力。

4、职位分析问卷法

职位分析问卷法是一种通用的、以统计分析为基础的方法来建立某职位的能力模型，同时运用统计推理进行职位间的比较，以确定相对报酬的方法。

5、职业锚

职业锚又称职业系留点。是指当一个人不得不做出选择的时候，他无论如何都不会放弃的职业中的那种至关重要的东西或价值观。实际就是人们选择和发展自己的职业时所围绕的中心。

六、互联网运营

1、热图分析

热图分析：通过记录用户的鼠标行为，并以直观的效果呈现，从而帮助使用者优化网站布局。

2、漏斗分析

漏斗分析是是一种可以直观地呈现用户行为步骤以及各步骤之间的转化率，分析各个步骤之间的转化率的分析方法。

3、AB测试

AB测试强调的是同一时间维度对相似属性分组用户的测试，时间的统一性有效的规避了因为时间、季节等因素带来的影响；而属性的相似性则使得地域、性别、年龄等等其他因素对效果统计的影响降至最低。

4、RFM模型

RFM模型是通过一个客户的近期购买行为、购买的总体频率以及花了多少钱3个维度来描述该客户价值状况的客户分类模型。

5、购物篮分析

购物篮分析是商场常用的一种分析手段，经典案例“啤酒和纸尿裤搭配售卖”就是一种购物篮分析。

6、同期群分析

同期群分析是将用户按初始行为的发生时间，划分为不同的群组，进而分析相似群组的行为如何随时间变化而变化。

来自：机器学习研究组订阅

细分市场样本量不够时，如何得出靠谱的满意度分值？

DinK — Fri, 10 Nov 2023 07:43:01 +0000

市场研究中，总会遇到一些细分市场样本量不足的情况。

微软的客户和合作伙伴体验（CPE）关系研究是世界上最大的满意度追踪项目之一。

调查使用45种语言，覆盖170个国家和地区，在6个月内响应近10万样本。

即使是如此庞大的项目，也存在一些与国家匹配的细分市场的样本量不足的情况。

他们是如何解决这一问题的呢？

微软的两位总监为低响应地区建立了预测模型。经双重检验后，证明该模型得分的误差竟比100+样本量的误差还要低。

这对该项目有巨大贡献的同时，也给予我们启发。

微软的客户与合作伙伴体验（Customer and Partner Experience-CPE）关系研究是世界上最大的满意度追踪项目之一。

它对微软的客户与合作伙伴（从小型企业到跨国公司）进行调查。

该项目以45种语言进行调查，覆盖170个国家，在6个月内响应近10万条。

CPE关系研究衡量了微软与其商业客户和合作伙伴关系的健康状况，并作为一个强大的倾听系统来了解他们的需求、痛点和满意度驱动因素。

微软在全球范围内的团队都使用该研究中的指标和洞察来制定有针对性的计划，来改善客户体验。

01 挑战：最低样本量要求

The challenge: minimum sample requirements

为了确保我们从CPE关系研究中提供具有代表性且稳定的分数，我们要求报告中的任何指标的最小样本量为n=100。

虽然我们很容易达到全球层面的细分市场（如企业客户）的最低样本要求，但我们经常达不到与国家相匹配的细分市场的限定值（如新西兰的企业客户）。

我们甚至都无法报告与国家相匹配的细分市场的约50%的满意度分数，这使得业务领导层对其客户和合作伙伴在这些国家的满意度知之甚少。

样本量的限制为某些国家/地区造成了认知缺口，并给我们带来了挑战——我们如何为某些国家/地区响应率较低的细分市场提供客户满意度洞察？

更重要的是，这些国家的分公司领导层如何改善他们的客户和合作伙伴与微软合作的体验？

目前的战略和计划是否有效？

我们有其中更小群组的定性数据和逐字记录，但这并不够。

我们需要一种新的方式来提供我们有信心的量化数据，以便利益相关者能够做出更明智、更可靠、数据驱动的决策。

02 解决方案

The solution

为了迎接这一挑战，我们与我们的分析供应商Success Drivers公司合作，使用了增强的贝叶斯神经网络机器学习（boosted Bayesian neural network machine learning,），为低样本量国家进行了两个关键满意度指标的建模：

对微软的总体满意度（Overall satisfaction with Microsoft）

客户团队质量满意度（Account team quality satisfaction）

1）创建模型

Creating the model

模型的目标是为任何给定的与国家相匹配的细分市场提供可靠的满意度估计或预测。

该模型使用我们从调查中收集的测量数据，并根据一组预测指标调整分数。

我们使用以下概念框架来确定模型中包含哪些变量：

1. 起始水平预测因子（Starting-level predictors）:

这些变量有助于确定与国家相匹配的某特定细分市场的分数的起始水平。

例如，与国家相匹配的细分市场以往波次的分数有助于确定下一波得分的起始水平。

2. 变化预测因子（Change predictors）：

这些变量会告知，与国家相匹配的细分市场的分数应从前一波的结果向哪个方向（如果有）移动。

例如，如果高度相关的组合（译者注：指国家与细分市场的组合）的满意度分数增加，则模型更可能会预测某与国家相匹配的细分市场的满意度会增加。

3. 代表性预测因子（Representativity predictors）:

这些变量用于了解我们有多大的信心来保证测得的分数能够代表市场。

具体做法是了解当前时间段与所有时间段平均代表性的比较情况。这包括回顾已显示出对分数有影响的高权重或附加代表性变量的占比。

为了将这一切结合起来，我们来看下面的例子：

为了校准法国企业商业客户的满意度得分，模型可以利用以下一个或多个输入：

1.起始水平预测因子：法国企业商业客户过去的满意度得分。

2.变化预测因子：与法国企业商业客户满意度得分相关的其他与国家匹配的细分市场的满意度得分（例如，法国的中型商业客户）。

3.代表性预测因子：在过去三个月中与微软代表有直接接触的受访者占比（这一指标已被证明可提供差异化的满意度分数）与之前波次的平均占比进行比较。

该过程的最后一步是应用一个公式，该公式考虑了样本量、测量得分和模型得分。

随着样本量的增加，我们对测量得分可代表市场的信心也会增加，这需要在最终的模型得分输出中加以考虑。

当样本量较小时，该公式更看重预测得分，而当样本量较大时，则更看重测量得分。

2）验证模型

Validating the model

通过运行数千次模拟，对模型进行了验证，以评估模型分数与实际分数的接近程度。

充分利用拥有非常大型的样本量以及对测量结果具备高度自信的与国家匹配的细分市场，我们测试了该模型在不同样本量下预测的满意度得分。

事实证明，即使在低样本量的地区，我们的模型仍然可以有效预测实际得分。

例如，基于 n=50 个样本量的模型得分预测满意度得分的误差小于我们调查 100 名客户的结果！

通过绘制测量得分和模型得分随时间变化的曲线图，模型得到了进一步验证。

这些长期图表显示，低样本量的模型得分与测量得分的图形相似，但波动性更小。

此外，高样本量的测量得分和模型得分的走向几乎完全一致。

这两项验证使我们确信，对于任何给定的与国家匹配的细分市场，模型分数都是满意度分数的一个强有力的代表性预测因子。

03 了解客户和合作伙伴的满意度

Understanding the satisfaction of customers and partners

鉴于我们确信模型的分数可以可靠地估算细分市场和国家的表现，在我们的半年报中，当样本量在n=50到n=99*之间时，我们使用了这些模型分数。

（*当样本量超过 100 个时，我们将继续使用测量得分。）

通过这一流程，我们测量总体满意度时对细分市场和国家组合的覆盖率提高了约20%，测量客户团队质量满意度时对细分市场和国家组合的覆盖率提高了约25%。

自从将这一创新应用于 CPE 关系计划以来，我们收到了我们利益相关者的热烈反馈。

模型分数已成为各国家和细分市场领导层用来巩固和了解其客户和合作伙伴满意度的一种衡量标准。

我们期待继续看到我们的模型分数对领导层改善客户与微软合作体验的能力的影响。

作者 | KATHERINE COSTAIN, JEFF MERCER

原题 | Providing reliable satisfaction scores for low survey response geographies

编译 | 张杉

勺海公号原创译文

量表设计与分析实战

DinK — Fri, 08 Sep 2023 07:06:15 +0000

“测量就是按照一定的法则，用数据方法对事物的属性进行数量化描述的过程。这是对一切事物差异进行区分的测量定义。”——史蒂文斯（心理物理学家）

01 初识量表

所谓量表，简单来说就是一种测量工具，通常由多个项目组成，形成一个综合的分数，旨在分析较难以直接方法测量的变量。

例如，当研究人员打算描述个体的人格特点，但又无法直接进行测量时，就需要借助量表。

提到量表，容易联想到心理学的各类量表，如测量心理健康、人格特点、临床诊等。

研究人员通过量表了解个体的心理特征，如通过人格测量，预测个体的兴趣爱好、行事风格、在特性情境中的表现、可能存在的性格弱点等。

例如，MBTI职业性格测试就是常见的人格评测量表，通过量表测试可以得出16类不同的性格特征，可以帮助人们认识自己，选择更更符合自己性格特点的职业。

1）“量表编制流程”

面对研究主题时，如果有现成可用的量表当然最理想的。

因为编制一份正规量表的成本较高，一方面需要具备一定的专业知识，如相关理论、信度和效度检验等，另一方面需要花费较多的时间通过数据检验量表是否可用。

因此如果不是必须，更推荐使用已有成熟的量表进行研究。

这里先简要介绍下量表编制的基本步骤和关键要点，后面会结合案例详细介绍。

开始编制量表前，建议根据一定的理论模型，明确测量的目的和对象，澄清想通过量表测量哪些内容。

如果缺少经典的理论支持，也推荐梳理已有的研究资料，明确研究的框架，如需要测量哪些概念，概念之间的关系等。

编制题库时，除了选择恰当的测量语句外，还需要选择合适的测量形式。

李克特量表是最常用的量表形式之一，题干是一个陈述句，选项是对陈述内容的赞同程度，通常由五个等级组成，即非常同意、同意、不一定、不同意、非常不同意。

当然，有的量表为了避免填答者倾向于选择“不一定”等中间选项，也会使用偶数等级量表，如6级量表。

虽然有研究表明，5级、7级、10级量表在可信度方面没有明显差异，但如果量表的题目数量较多，容易增加填答时间，影响完整填单率，因此不推荐使用过多等级。

2）“信度和效度”

信度和效度是评价一个量表可靠性和有效性的基本尺度。

信度分析的目的是检验数据是否真实可靠，即多次重复测量的结果很接近，常用的信度有Cronbach-α系数、折半信度、重测信度等。

效度分析是测量结果是否准确有效，包括内容效度、校标效度、结构效度三种类型。

内容效度是通过专家进行评价有效性，校标效度是参照一定的效度标准评价有效性，结构效度是衡量实际结果和测量概念之间的对应关系，通常用因子分析进行探索。

以上就是量表的一些基本概念、典型量表的介绍。

对量表有一些初步了解后，我们接下来将结合具体的项目案例，详细介绍消费价值观量表的设计和分析过程，手把手教你怎么完成一份量表的编制。

02 消费价值观量表设计

如前文所述，编制一份量表需要花费较多时间，在量表进行正式测试前包括四个环节：文献研究、编制题库、专家评估、题型设计。

下面详细介绍消费价值观量表设计过程。

1）“文献研究与编制题库”

通过梳理价值观的文献资料发现，常见的消费价值观量表有VALS模型（价值观念及生活方式）、LOV量表（价值观量表）、CHINA-VALS模型（中国消费价值观）。

虽然VALS模型和LOV量表在国外有广泛的应用，但因为文化上差异较大，直接应用在国内的研究难免有一定局限性。

CHINA-VALS模型是消费价值观本土化研究，但由于模型距今时间较长，直接应用也可能存在风险。

综上，我们决定自己开发一个消费价值观量表。

但考虑到项目的时间成本，本次研究中消费价值观主要通过文献资料编制题库。

通过文献研究发现，消费价值观包含了四个方面：消费态度、生活方式、个性特点、社会关系。

其中，消费态度和生活方式是消费价值观的核心内容，个性特点和社会关系是作为消费价值观的相关因素纳入题库框架中。

结合已有的人格量表、消费态度量表、生活方式量表等，初步整理了122条语句。

2）“专家评估”

由于初步整理的量表语句过多、涉及范围广，直接测试这些题目肯定是不可能的，需要在正式测试开始前对项目进行筛选评估，增删部分测量语句。

在邀请专家评估题库时，可以从以下四个方面进行评估，提高量表的内容效度。

通过上述四个方面的评估，共筛选出了71条语句，并在一定程度上简化了语句的表达方式，避免可能的歧义。

在量表等级设计上，为了弱化填答者可能出现的“中立”倾向，我们选择了7级量表，即1代表很不符合、4代表中立、7代表非常符合。

3）“题型设计”

虽然通过专家评估，一定程度上精简了题库数量，但在预测试时，我们仍发现填答时间较长，这无疑会影响线上问卷的填答率。

同时，由于所有语句测试均为李克特量表形式，通常在问卷设计以矩阵题出现。

但同一类题型反复出现，容易产生乱填的情况，如所有题目都填写同一个选项。

为了提高数据收集效率和填答体验，我们在问卷设计时采用了不同的题型变化，如1-3题为矩阵题、第4题为单选题，有效地避免了同一类题型带来的填答疲劳感。

以上就是消费价值观量表设计过程及注意事项，当然，这只是量表编制的第一步。

量表的信度和效度检验、量表使用分析，都需要通过一定的数据进行探索和分析。

下面会详细介绍量表由初稿如何一步一步到定稿的全过程。

03 量表的数据分析实战

通过线上问卷回收量表的填答结果后，就可以开始对量表进行数据检验和分析，量表的数据分析包括五个环节：清洗数据、信度检验、效度检验、量表定稿、结果应用。

1）“清洗数据”

数据分析开始前，需要先评估下问卷的样本容量。

因为效度检验会用到因子分析，通常来说，因子分析的样本量理想情况需要100个以上，且样本量是变量数的10倍以上，本次项目通过线上问卷回收了7000多个样本，完全满足样本量的要求。

在信度和效度分析前，需要对填答情况进行清洗，清洗时需要考虑三个方面：逻辑矛盾、胡乱填答、时间过短。

逻辑矛盾和胡乱填答可以在问卷设计时梳理好题目之间的逻辑，时间过短则是在问卷回收后再分析，这里推荐排除下四分位数的填答时间，即填答时间较短的前25%的样本，以保证填答结果的可靠性。

2）“信度检验”

完成数据清洗后就可以开始进行初步的信度检验了。

如前文所述，信度检验的方法有很多，这里选择内在信度（Cronbach-α系数）来衡量问题之间的内在一致性。

α系数的判断标准为：

本次项目使用SPSS对量表信度进行检验，以量表定稿的数据为例，从Cronbach-α系数结果可知，本次量表的信度为0.897，表明量表的内在信度较好。

在实际量表分析时，除了关注Cronbach-α系统外，还需要关注删除某一个题目后Cronbach-α系数的变化情况，如果删除该题目后系数上升，说明该提的区分性不好，可将其删除提高信度。

由于在信度检验时需要多次尝试不同题目的信度检验，这里推荐使用SPSS语法脚本，可以快速地修改变量，实现快读处理。语法脚本可参考：

3）“效度检验”

完成信度分析后，接下来需要进行量表的效度检验和分析。

如前文所述，效度检验包括内容效度、校标效度、结构效度。

在编制题库初期，通过专家评估方式完善内容效度。

在数据上主要检验量表的结构效度，采用的是因子分析方法。

在因子分析前还需要根据KMO检验、Bartlett检验判断是否适合进行因子分析。检验的判断标准为：

以量表定稿的数据为例，使用SPSS进行因子分析，通过KMO和Bartlett检验可知，KMO值为0.929，Bartlett检验为p＜0.05，说明非常适合做因子分析。

本次研究中采用主成分方法提取公因子，以量表定稿的数据为例，发现提取到第4个因子后，特征值均小于1，因此最多考虑前4个因子即可。

同时，为了使因子载荷矩阵的系数更加显著，采用方差最大进行正交旋转，前4个因子的累积方差为60.77%。

在心理测量等学术研究中通常要求累积方差在90%以上才算是理想的，但在实际项目中累积方差在60%以上也是可以接受的。

4）“确定量表”

通过初步的信度和效度检验后，接下来需要根据每个题目变量的因子载荷，判断是否需要删除。删除题目的判断标准为：

通过因子分析的方差最大转换后得到成分矩阵，如果某个变量在一个因子载荷上大于0.5且在其他因子载荷上小于0.5，说明该变量在这个因子的贡献较高，可以保留该变量。

如果某个变量的因子载荷小于0.5，则需要考虑删除。

严格来说在探索因子载荷时，每删除一个变量后，都需要重新检验量表的信度和效度，因此这里推荐使用SPSS语法脚本，可以快速地进行因子分析。语法脚本可参考：

反复删除测试的变量后，消费价值观量表最终确定了20个变量（题目），通过方差最大正交旋转后，每个变量在对应的因子载荷均大于0.5，满足对量表的效度要求。

以下是量表的数据分析结果：

5）“量表应用”

确定量表后，接下来就可以使用量表对不同消费人群进行细分。

在实际应用过程包括两个步骤：因子分析和聚类分析。在效度检验时，其实已经完成了因子分析，现在结合量表的变量，对提取的因子进行命名，本次项目共提取了4个因子：

确定因子命名后，然后基于这4个因子对样本进行聚类分析，由于本次样本量较大，推荐使用K-means聚类方法进行探索。

经过反复比较后，最终选择了3类聚类结果。

聚类结果的数据越正向，说明消费者在这个因子上的倾向性越高。

根据因子特征和得分高低，对三个聚类结果进行命名，分别是精明实用型、从众消费型、时尚冲动型。

值得一提的是，从众消费型样本在每个因子的得分均偏低，在检查量表的原始得分后发现，这类人群消费观念偏中立，没有明显的消费倾向性，因此命名为从众消费型。

04 写在最后

总体来说，量表编制是一个非常耗时耗力的工作，需要具备一定理论和数据分析知识。

最后结合项目实战，总结一下量表设计与分析全过程。

参考文献

[1] RobertF. DeVellis，量表编制：理论与应用，2016年。

[2] 吴垠，关于中国消费者分群范式（China-Vals）的研究，南开管理评论，2005年。

[3] 张文彤，SPSS统计分析高级教程，2013年。

作者 | 王仰龙

转自 | 京东设计中心JDC

题图 | unsplash

预测性分析的价值、方法和趋势

DinK — Thu, 31 Aug 2023 07:02:25 +0000

随着企业在日益拥挤的市场中争夺客户，了解客户的需求和偏好变得比以往任何时候都更加重要。

客户智能（Customer intelligence）已成为一项关键商业战略，而预测性分析（Predictive analytics）在帮助企业获取有关客户行为、偏好和需求方面的洞察中发挥着至关重要的作用。

通过识别潜在客户、分析客户行为、预测客户需求、个性化客户体验和留存客户，企业可以使用预测性分析在市场中获得竞争优势。

本文作者概括介绍了以下问题：

什么是预测性分析？
预测性分析如何为客户智能创造价值？
如何在客户智能中进行预测性分析？
预测性分析的未来角色

什么是预测性分析？

What is predictive analytics

预测性分析，是指使用统计算法以及机器学习技术来分析历史数据并对未来事件做出预测。

预测性分析已经成为金融、医疗和零售在内的各个行业中流行的工具。

预测性分析软件和工具可以通过分析大量数据来识别可能会被忽视的模式与趋势（patterns and trends）。

预测性分析的工作原理是获取一组数据并分析其模式和相关性（patterns and correlations）。

这些数据可以是客户的人口特征、行为、购买习惯或网站活动。

有了这些数据，预测性分析工具就可以识别难以手动检测出的潜在机会和风险。

02 预测性分析如何为客户智能创造价值？

How can predictive analytics benefit customer intelligence

预测性分析可以在以下几个方面助力客户智能，包括：

识别潜在客户

Identifying potential customers

预测性分析可以通过分析来自社交媒体、在线行为和购买历史等各种来源的数据，来帮助企业识别潜在客户。

通过识别模式和偏好，企业可以更加有效地调整营销工作去触达潜在客户。

分析客户行为

Analyzing customer behavior

预测性客户分析可以帮助企业了解客户行为，包括购买模式、偏好和趋势。

这些信息可以帮助企业开发更有效的营销活动和针对特定客户群体的产品。

预测未来需求

Anticipating future needs

预测性分析可以通过分析客户人口特征和在线行为等数据，帮助企业预测客户需求。

通过了解客户需求，企业可以制定更迎合需求的有效营销活动和产品。

个性化客户体验

Personalizing the customer experience

预测行为营销使得企业可以通过提供量身定制的推荐与促销来个性化客户体验。

预测营销软件可以分析客户数据以提供个性化的产品推荐和促销，从而提升客户参与度和忠诚度。

客户留存

Customer retention

通过分析客户行为数据并识别可能导致客户流失的潜在问题，预测性分析可以帮助企业留存客户。

通过及早发现这类问题，企业可以采取积极主动的措施来留存客户。

03 如何在客户智能中进行预测性分析？

How to implement predictive analytics in customer intelligence

在客户智能中进行预测性分析可以帮助你的企业获取有关客户行为的洞察，并据此制定营销策略。

进行预测性分析的步骤包括：

收集相关数据

Gathering relevant data

要在客户智能中进行预测性分析，企业必须首先从各种来源收集相关数据，包括客户数据、交易数据和社交媒体数据。

构建预测模型

Building predictive models

企业收集相关数据后，必须使用预测性分析软件构建预测模型。

这些模型应设计用于分析客户行为并对未来事件进行预测。

验证和测试预测模型

Validating and testing predictive models

预测模型必须经过验证和测试，来确保其准确可靠。

过程包括将模型所做的预测与实际结果进行比较。

将预测模型整合到业务流程中

Integrating predictive models into business processes

一旦预测模型经过了验证和测试，企业就可以将其整合到业务流程中。

这可能涉及将预测营销软件整合到他们的CRM系统中，或使用这些工具来开发更有效的营销活动。

持续监控并更新预测模型

Consistently monitoring and updating predictive models

预测模型必须持续进行监控和更新，以确保其保持准确和有效。

这包括分析可用的新数据，并根据需要更新模型。

预测性分析的未来角色

The future role of predictive analytics

客户智能中预测性分析的未来是明朗的，机器学习和人工智能的进步将带来这个领域的彻底变革。

随着企业不断收集和分析大量数据，对预测性分析软件和工具的需求只会继续有增无减。

由于企业在监管要求下必须以负责且透明的方式使用客户数据，对客户隐私和数据安全的关注也将增多。

预测性分析在客户智能中发挥着至关重要的作用，帮助企业获得对客户行为、偏好和需求的宝贵洞察。

通过识别潜在客户、分析客户行为、预测客户需求、个性化客户体验和留存客户，企业可以使用预测性分析在市场中获得竞争优势。

企业还必须意识到预测性分析的挑战和局限性，包括数据质量和数量、对预测模型的过度依赖以及伦理方面的考量。

通过考虑这些因素并充分利用预测性分析的力量，企业可以制定更有效的客户智能战略，从而推动增长和盈利。

编者按

源自 | www.quirks.com

作者 | Paroma Indilo，Datacy公司创始人兼CEO

原题| Predictive analytics: Its benefits and the role it plays in customer intelligence

编译 | 张杉

题图 | 源自 unsplash

来自：勺海公号

中国信通院：数据资产运营能力成熟度模型

DinK — Wed, 09 Aug 2023 06:58:27 +0000

构建数据资产运营能力是企业实现数据资产化、入局数据要素市场的关键环节。随着各行业数据管理工作的深入，头部企业已陆续完成了基础性的数据治理工作，从数据资源化阶段迈向了数据资产化阶段。数据资产运营以扩大数据资产的应用范围，构建数据使用者和管理者的良性闭环，持续释放数据资产价值为目标。

目前业界仍处于数据资产运营发展初期，缺少数据资产运营方法论指导，在探索数据资产运营的过程中存在工作价值难量化、数据应用门槛高、缺少统一的流程标准和评价规范等问题。

为进一步凝聚行业力量、总结优秀实践经验、推动企业数据资产运营能力提升，大数据技术标准推进委员会启动《数据资产运营能力成熟度模型》标准研制工作，拟联合各行各业建设方、应用方单位共同研究梳理企业数据资产运营能力框架，明确数据资产运营主要环节和关键要求，为能力建设的过程提供指导和参考依据，为能力建设成果提供评估模型和评价方法。

2023年2月15日下午，中国通信标准化协会大数据技术标准推进委员会线上召开《数据资产运营能力成熟度模型》第二次讨论会。本次会议由中国信通院组织，邀请了来自联通集团、移动集团、联通数科、浙江移动、农业银行、交通银行、平安银行、中原银行、南京银行、阿里云、星环科技、人保科技、新大陆、宇信科技、浩鲸科技、滴普科技、网易数帆、上海爱数等企业的专家，共同围绕模型框架进行了深入讨论。

大型语言模型将如何重新定义制造业？

DinK — Fri, 14 Jul 2023 05:26:59 +0000

制造业正在不断努力利用最新的技术突破。大型语言模型（LLMs），如ChatGPT，在制造业正获得越来越多的关注。
其无与伦比的能力能剖析和协调错综复杂的信息，并和人类以自然语言对话互动。
为了充分发挥人工智能（AI）在制造业中的潜力，我们需要进一步的研究、讨论和行业案例研究来寻找尚未开发的应用。

制造业一直在努力利用最新的技术突破，不懈追求提高自动化程度、增强运营透明度并加快产品和技术开发。

生成式人工智能，特别是大型语言模型（LLMs），如ChatGPT，是目前在制造业内崭露头角的范式转变。生成式人工智能可以利用现有数据来编造新的、独特的数据集，而LLM则进一步发展了这一概念，提供了无与伦比的能力来剖析和协调错综复杂的信息，并和人类以自然语言对话互动。

除了优化工作流程外，人工智能和LLM可以如何重新定义制造业？

制造业需要处理大量复杂的非结构化数据，包括传感器读数、图像、视频和遥测数据等。实时数据流和与上下文数据源的集成对于及时有效地响应事件至关重要。

通过新的工具赋能从业人员，LLM能彻底改变这一行业。它们可以重新定义操作人员与系统和文件的交互方式，从而推动生产率、客户满意度和财务业绩的指数级提升。

其中，有两个经常被忽视的领域至关重要：自然语言界面和产品设计与优化。这些领域蕴藏着巨大的潜力，可为制造业带来切实的影响和可观的投资回报。

基于LLM的制造业自然语言界面：复杂系统的简便访问

人工智能，尤其是LLM及其自然语言界面，在彻底改变制造效率、工人参与度、产品质量和采用率方面具有巨大潜力。

制造设施需要无缝的信息传输，而这通常是通过生产审核来实现的。生产审核旨在发现计划与生产现场之间的差异，加强决策，提高运营效率、客户满意度和财务成果。而通过转向有针对性的类人对话，企业可以专注于识别瓶颈、制定恢复计划并减少复杂的数据提取时间。这可以简化流程，从而提高运营绩效和生产力。

LLM在这一转变中发挥着至关重要的作用，它使操作员能够使用自然语言与数字孪生和控制塔等复杂系统进行交互。LLM也提高了语音交互的准确性，使其在嘈杂的环境中也能使用并重复。因此，LLM可以降低工人学习曲线并减少对大量数据分析或编码培训的需求，提高生产效率。非技术人员也可以浏览复杂的系统，从而提高响应速度和采用率。LLM重新定义了人机交互，为制造业带来了实在的变革。

Aptiv公司首席产品官Sophia Velastegui成功地利用人工智能创新推动了多项全球业务的发展，她表示：“LLM可集成到用户界面中，促进人机交互。未来还有可能彻底改变人机交互的方式，使其变得像说话一样简单。此外，LLM还能大大提高安全性，因为工人可以将更多精力放在工作上，而不是解读复杂的指令。企业可以让原有的操作员到其他岗位上进行创新，而不是从事重复性工作，从而从中获益。”

因此，LLM作为一个重要的管道，通过自然语言界面加强操作员与机器之间的协作。通过这种方式，LLM实现了复杂系统的简便化，推动了效率和生产力的显著提升。

基于LLM的制造业产品设计：优化创造力和协作，设计可持续解决方案

传统上，产品设计师专注于产品概念和规格，而操作人员则负责生产任务。然而，LLM可以使设计过程更加知情和民主，将一线操作人员的见解纳入决策过程中。这些操作人员拥有实际生产过程的理解能力，能够提出有价值的见解。LLM则能帮助将他们的想法转化为可操作的设计建议。

通过分析操作人员的见解，LLM能够生成考虑到实际因素和限制的设计，从而形成现实有效的解决方案。这种合作方式能培养操作人员的主人翁意识和参与感。

由于制造设备和机器人系统中蕴含着丰富的信息，因此LLM可以在产品设计和优化方面发挥重要作用，可以将这些知识与市场趋势、科学文献、不断变化的ESG考虑因素和客户偏好相结合。

由此产生的设计概念符合可持续发展和环境准则。LLM还可以提出替代方案，模拟性能情景，并推荐可持续材料和制造工艺。这种数据和专业知识的整合推动了设计创新，同时解决了环境问题并满足了客户需求。

人工智能运营基金（AI Operators Fund）的普通合伙人、人性化技术的积极倡导者Rana el Kaliouby博士表示：“这种集成一体的设计—制造方法可能会改变行业的游戏规则。LLM，尤其是能够接受文本提示并生成图像或设计效果图的多模态LLM，能够加速产品构思，从而在制造业中实现更加有效、实用和以人为本的产品设计。”

释放协作的力量：在人工智能增强制造业的实践中维护多方利益

制造业与LLM相结合固然具有诸多优势。然而，解决知识产权、所有权和商业秘密问题也很关键，这样才能保护所有利益相关者的利益。在采用LLM的过程中，应制定明确的指导方针、政策和框架，以确保与现行法律和企业治理保持一致。

世界经济论坛人工智能负责人李响强调说：“虽然人工智能为产业创造价值提供了巨大机遇，但也要考虑多方面的风险和挑战。清楚地了解LLM的构成，包括安全防护、测试和评估、风险以及数据来源，是确保其符合现行法律和企业治理的关键。此外，对终端用户进行适当培训也是促进负责任地、知情地使用人工智能生成式应用的关键所在。”

美国先进制造中心首席执行官Cynthia Hutchinson则强调了该中心在促进工业界、政府和学术界之间的合作并在人工智能增强制造业的实践当中维护多方利益方面的作用。她说：“重要的是要在先进制造业中建立一个包容的生态系统，确保所有利益相关者都有发言权，并在知识交流、创新、应对挑战和推动经济增长方面建立信任。利用各部门的专业知识和资源，释放人工智能和LLM（如ChatGPT）的全部潜力，为更可持续的未来做出贡献。这其中的潜力无疑是巨大的。”

提高制造业对人工智能的认识并促进其应用，对于制造业的持续增长和成功至关重要。为了充分发挥人工智能在制造业中的潜力，我们需要进一步的研究、讨论和行业案例研究，来寻找尚未开发的应用。

本文作者：

Rashmi Rao，美国先进制造业中心研究员、rcubed|ventures负责人

本文原载于世界经济论坛Agenda博客

当数据挖掘遇上战略决策

DinK — Tue, 11 Jul 2023 05:44:04 +0000

在数据智能的时代，仅仅依靠管理者经验、直觉以及推断所做出战略决策的时代已经一去不复返了。在企业经营管理中产生的大量数据资产，就像绵延不绝的矿脉，蕴藏着巨大的能量，只要肯挖掘，便能释放巨大的战略价值。当数据挖掘遇上战略决策，当数据科学家携手管理咨询顾问，全新的战略决策模式即将开启。

数据挖掘的定义与价值

数据挖掘指从大量数据（包括文本）中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并利用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程。通常，数据挖掘会用到应用数学、统计学、数据库技术、机器学习和人工智能等多种技术。

在企业经营管理过程中，数据挖掘可以帮助企业发现业务趋势、揭示客观规律、预测未知结果、优化战略决策的效率与效果，同时，数据挖掘还可以帮助企业优化业务运营的流程，提升用户与员工的体验。用好数据挖掘工具，构建基于数据驱动的战略决策（Data-Driven Decision-Making (DDDM)）体系，将让企业在面向未来不确定性时做出明智的战略抉择。

机器学习的分类与经典模型介绍

机器学习是数据挖掘的重要技术支撑，根据学习范式的不同，机器学习可划分为有监督学习、无监督学习、强化学习和深度学习。有监督学习指从有标注训练数据中推导出预测函数，一般用于解决预测或者分类问题；无监督学习指对无标签样本进行学习揭示数据内在规律，从给定数据中找到隐藏的模式和见解，一般用于解决聚类或者关联关系探查等问题；强化学习不依赖标注数据，用于描述和解决智能体（agent）在与环境的交互过程中通过环境给予的反馈（奖励）学习策略以达成回报最大化或实现特定目标的问题。深度学习指使用神经网络模型来学习数据的特征,可以在大规模数据上进行训练。

机器学习的分类

其中，有监督、无监督学习是主流常用的机器学习模型，在企业战略决策中有着丰富的使用场景。有监督学习使用的算法模型包括线性回归、逻辑回归、时序模型、决策树模型，无监督学习使用的算法模型包括K-means、PCA、DBSCAN、Apriori等。

经典模型的介绍

建模的步骤与流程

应用数据挖掘辅助战略决策分为5大步骤：问题定义、数据分析、特征工程、算法建模与模型评价。

问题定义：将现实业务经营管理问题映射到数学表示，明确数据挖掘目标。

数据分析：包括取样、探索及预处理三个步骤，核心目的是提高数据集。

特征工程：是把原始数据转变为模型的训练数据的过程，目的是获取更好的训练数据特征，使得机器学习模型逼近训练上限。

算法建模：是数据挖掘工作的核心环节，需要思考建模属于数据挖掘应用中的哪类问题并选用对应算法进行模型构建。

模型评价：需要一组没有参与预测模型建立的独立数据集，即测试集数据，评价预测模型的准确率。

建模步骤与流程

数据挖掘在战略决策中的实战案例

实战案例①：帮助某酒店集团进行常住酒店公寓选址

案例关键词：#酒店行业# #有监督学习# #回归模型# #决策树模型#

客户核心诉求：提高常住酒店公寓项目选址决策效率，在城市中筛选住客入住需求集中的地块，保证项目投运后的收益。

数据挖掘步骤：

● 定义挖掘目标：合理进行门店的规划选址，选择潜在高销量区域。

● 分析地块数据：导入已有门店信息、门店销量、竞品门店销量、宏观指标、市场表现等数据，开展数据分析。

● 构建特征工程：包括门店特征、地块特征、城市特征、竞品特征等。

● 决策树建模：采用决策树模型在训练集进行训练，对备选区域在地块得分、竞品门店数量、投资回报周期等关键选址决策要素下的表现进行分类。

● 效果验证：在测试集对算法模型进行效果验证，并进行合理性分析。

● 选址决策应用：在不同区域应用选址决策模型，输出门店选址与扩张策略。

建模步骤与流程

战略决策输出：在试点城市跑通模型后输出标准化选址决策机制，可在集团内部其余区域业务扩张过程中提供决策支持，同时根据不同城市地块的模型决策结果追踪辅助判断地区业务发展空间及潜力，适当调整区域业务战略侧重，聚焦重点区域及重点地块的资源投入。

实战案例②：帮助某鞋业公司搭建畅销商品补货模型

案例关键词：#鞋服零售# #有监督学习# #时序模型# #补货预测模型#

客户核心诉求：对门店内的畅销款式销售数据进行挖掘，构建销量预测及补货预测模型，以尽可能小的库存，为畅销款高效配置库存、销售资源，最大化畅销款的销售机会。

数据挖掘步骤：

● 挖掘目标定义：通过及时、足量补货等手段，以尽可能小的库存，为畅销款商品高效配置资源，实现销量最大化。

● 数据取样与探索：挖掘门店、仓库数据体系中的销售、进货、库存指标，探索指标相关性。

● 数据预处理：基于数据计算为各类商品贴标签，包括“毛利率水平偏高”、“库存水平偏低”、“新货品”等标签。

● 特征开发：剔除部分标签，如“库存水平偏高”、“连续三周销售下降”，保留与畅销货品高度相关的标签作为模型特征。

● 模型构建：根据时序模型构建“滚动销量预测算法”，输入季节、货品销量、性别、风格细类等相关特征。

● 模型测试：利用测试集数据开展模型测试。

基于数据分析为各类商品贴标签

根据时序模型构建“滚动销量预测算法”

战略决策输出：根据预测销量，测算期末库存以制定大促期间的到货计划，若（上周期末库存-当周预测销量）＜0，则需以订货数量的倍数进货，并基于到货计划，根据供应链前置时间（lead time）进行下单，以此减少期末库存压力，高效调动库存配置和销售资源，实现爆款商品销量最大化。

实战案例③：帮助某零售连锁企业进行门店分群与经营评估

案例关键词：#零售行业# #无监督学习# #聚类分析# #门店经营评估#

客户核心诉求：对已有门店进行分群，挖掘不同类别门店特征，识别优秀或异常门店，焕新门店分类管理策略。

数据挖掘步骤：

● 挖掘目标定义：通过提取门店的各类特征，构建门店经营评估与分群模型

● 数据取样与探索：选取数据库中的商户属性、经营信息、风险信息等相关数据指标。检验租金、销售数据是否符合正态分布规律。

● 特征开发：对数据进行取值SQL、取值维度、指标缺失值、指标异常值、指标一致性等特征处理。

● 模型构建：通过降维，筛选出从数据视角分析得出的关键因子，确定最终的因子并构建算法模型。

● 门店分群：每个群组门店特征会呈现差异，针对不同群组的特征进行分析，识别不同类型门店特征，确定门店划分标准与分群结果。

● 成因分析：基于门店特征挖掘结果，选取有代表性门店开展生命周期分析。

战略决策输出：根据模型聚类的三类门店特质，匹配差异化管理举措。对于表现优秀的门店，挖掘其成功经验并在其他门店进行推广，对于存在潜在风险的门店可及时进行干预。

聚类分析模型：在未设定标签的情况下，根据数据相似度进行分组

结语

经验主义哲学家弗朗西斯·培根曾说过：“我们大部分的人的理解力容易出现偏差，我们的心智容易被假象所困住。”在现代企业的战略决策中，管理者的战略判断也常常会受到固有认知、个人直觉或理解偏差所影响。数据挖掘的意义在于帮助管理者从大量的数据中去提取那些隐藏其中的、预先未知的、但有潜在价值的客观规律，让管理者在进行决策时有更坚实的依据与更充分的论断。

数据从来不是全部，数据也不能替代思考，但他可以让你站在巨人的肩膀上。

来自：罗兰贝格管理咨询

复旦DMG：2023交通运输公共数据开放利用报告

DinK — Tue, 30 May 2023 21:00:54 +0000

作为国家经济命脉，交通运输领域生成和储存的公共数据内容丰富，应用面广，开放交通运输领域的公共数据对助推数字经济和数字社会发展具有重要意义。交通运输部在《“数字交通”十四五发展规划》中提出要“研究制定交通运输公共数据开放和有效流动的制度规范，推动条件成熟的公共数据资源依法依规开放和政企共同开发利用”。

2021年起，“中国开放数林指数”系列报告定期发布交通运输公共数据开放利用报告，对交通运输领域公共数据开放利用的现状和水平进行评测，这是“中国开放数林指数”系列报告下首个持续发布的行业领域类报告。

哪些地方的交通运输数据开放和利用水平最高?

2023交通运输领域开放数林省域指数如下表所示：浙江省与山东省的综合表现最优，进入A+等级；广东省与贵州省也表现优异，进入A等级；

在单项维度上，浙江省在数据层上表现最优，山东省在利用层上表现最优，均进入A+等级。

2023交通运输领域开放数林城市指数如下表所示：

德州市与杭州市的综合表现最优，进入A+等级；

日照市、青岛市、上海市、金华市、烟台市与深圳市也表现优异，进入A等级；

在单项维度上，德州市在数据层上表现最优，青岛市与杭州市在利用层上表现最优，均进入A+等级。

全国已开放交通运输领域数据集10000余个

目前，国家交通运输部官网数据开放栏目与交通运输部综合交通出行大数据开放云平台都已开放了来自交通运输领域的数据集。两个平台共无条件开放数据集754个，数据容量近9000万，数据内容主要涉及国内部分省市的交通线路站点、客运站班次、线路、货运车辆、运输与维修经营业务等方面。同时，还开放了来自航空公司和OpenITS联盟的研究数据。

其中，“出行云”平台上还开放了153个有条件开放的数据集，主要涉及国内部分省市的地面公交、出租车、运输车的定位数据，轨道桥梁隧道数据，公交、出租车的线路、站点站台与票价数据，公路高速路路线与收费数据，百度地图路况数据以及与人口、房价、气象等方面。

截至2022年10月，我国已有208个省级和城市的地方政府上线了数据开放平台，共开放了283413个有效数据集。其中，有11个省级和96个城市平台共开放了9489个交通运输领域数据集。北京市、台州市等7个城市还制定了专门针对交通运输领域数据开放的法规政策。

交通运输领域开放数据的主要提供机构包含交通运输部门、公安部门、地铁/轨道集团、公交公司等。与其他条线部门相比，交通运输行业开放的数据集总数仅次于教育部门。

无条件开放数据容量比2021年增长386%

2022年全国开放的交通运输领域有效数据集总数比2021年增长约6%，无条件开放的总数据容量同比增长386%，呈现爆发式增长态势，单个数据集平均容量也有显著提升，交通运输领域的数据主要由各地政府部门提供，少部分地方能够开放来自国企、事业单位的交通数据。

开放的数据集仍以静态数据为主

各地开放的交通运输领域数据集仍以静态数据为主，只有个别地方在数据开放平台上提供了少数实时动态数据。相比2021年，2022年各地开放的交通数据容量增长比例中位数为10%，存量数据更新比例的中位数仅为18%，各地持续开放与更新数据集的程度仍然不足，多数数据停止更新或更新频率低，甚至存在碎片化与低容量等质量问题。

各地开放的数据在标准规范上也不一致，缺少详细的数据字典描述说明，各地数据接口调用方式各不相同，复杂度较高，接口不能用、不易用的问题普遍存在。同时，各地开放的交通运输领域数据集在总量与容量上仍存在显著的地区间差距。

各地开放了哪些高容量数据？

下表分别展示了省本级与城市开放的数据容量最高的前10个交通运输领域数据集。省本级开放的高容量数据集主要集中于企业经营许可、运输证、车辆船舶道路桥梁基本信息等方面，城市开放的高容量数据集主要集中于公交出租车实时位置、公交线路站点、违章案件等方面。

报告还重点分析了当前国内各地方开放的新能源汽车相关数据集，主要以新能源公交车的车辆与运营数据、充电桩数据、车辆保险出险三种类型为主。这类数据既有利于新能源汽车产业的发展，也有利于保险行业针对新能源汽车发展开发适合的保险产品。然而，目前新能源汽车相关的开放数据集呈现为静态低频、数据容量整体较低的特征，还无法满足相关产业发展的需求。

部分地方开始探索授权运营

目前，北京、上海、广东、浙江、重庆、海南、深圳、成都等省市已经以地方法规形式，初步构建起公共数据授权运营的基本原则与机制。其中，海南省、成都市与青岛市在平台上运营交通运输数据集并提供相应的交通运输领域的服务与产品。

开放数据的利用尚处于起步阶段

在数据利用方面，少数地方在交通运输领域已开展了诸如开放数据创新利用比赛、项目案例试点等利用促进活动，产出了部分有效成果。但各地的利用促进活动类型仍较为单一，且利用主体主要为企业，而个人、社会组织、高校等其他社会主体参与利用的程度不足，交通运输领域的开放数据利用尚处于起步阶段。

最后，报告还进一步展示了准备度、数据层和利用层三个维度的地方交通运输领域数林标杆和交通运输领域数据开放利用的国外案例，最后还对提升交通运输领域公共数据开放利用水平提出了一系列对策建议。

开放数据，蔚然成林，期待交通运输领域的开放“数木”由最初的丛然并生、成荫如盖，直至枝繁叶茂、花开结果，终将成长为一片繁盛多样、枝杈相连、持续循环的交通运输领域“开放数林”。

jrebel：202年Java开发者生产力报告

DinK — Sun, 09 Apr 2023 20:00:15 +0000

与去年的报告一样，大多数受访者表示在其主要应用程序上使用Java 8（31%）作为编程语言。紧随其后的是 Java 11（28%）、 Java 17（19%）、 Java 18 或更新版（6%）和 Java7 或更早版本（3%）。 Kotlin, Groovy 和 Scala 是其中最不受欢迎的选择，占总受访者数量的13 % 。

在根据公司规模查看响应时，拥有不到100名员工的公司中，Java 8的使用略高于其他公司，而它们继续显示出对Java 11及更新版本的较高使用率。同时，拥有超过100名员工的公司显示出Java 11和Java 8的使用几乎相等。

这可能是我们首次看到使用Java 8的用户数量发生相当大变化的一年。超过一半的受访者使用较新版本的Java，这是公司开始将其Java环境转向更新技术的第一个迹象。大多数人预计公司从遗留Java版本过渡到Java生态系统中新节奏需要一段时间。展望未来，我们可能会看到更加定期地更新Java版本。

接下来，我们请受访者分享影响他们决定升级JDK版本的因素。答案大致如预期，绝大多数受访者表示长期支持（LTS）是升级JDK版本的主要因素。在LTS之后，安全性和新功能分别以24%和18%的比例成为最重要的因素。

性能（17%）和合规性（15%）是升级时最不受欢迎的因素。

硅谷银行倒闭，是谁在稳定人心？

DinK — Mon, 27 Mar 2023 04:18:48 +0000

硅谷银行(Silicon Valley Bank)的倒闭和随之而来的更大的危机再次表明，银行业是一场信心游戏。一旦信心受到打击，客户对一家银行或整个银行系统失去信心，就很难避免螺旋式下降，最终可能导致灾难，即银行倒闭。

通常情况下，有关一家银行出现问题的谣言足以引发银行挤兑，因为受影响的银行进入一个(所谓的)问题引发恐慌、引发大规模提款、引发更多恐慌、更多提款、如此循环的负反馈循环。一旦银行陷入这种恶性循环，它们遇到实际的流动性问题只是时间问题，迫使它们出售资产，通常是亏本出售，就像硅谷银行的情况一样。这些损失进一步恶化了银行的状况，造成更多的恐慌，更多的提款。

由于预知恐慌的火花会点燃整个银行系统，所以就可以理解为什么美联储、联邦存款保险公司和联邦政府会如此果断地介入，保护硅谷银行(SVB)和签字银行(Signature Bank)的客户，并承诺向其他难以满足提款要求的银行提供额外流动资金。他们试图恢复人们对银行体系的信心，在火势蔓延之前控制住火势，避免一场全面的银行危机。

这张图表说明了银行挤兑通常是如何发生的，以及为什么一旦银行的声誉受到损害，它就很难避免。数据来源：Statista.com

Postman：2022年API状况报告

DinK — Thu, 16 Mar 2023 20:00:51 +0000

报告显示，最流行的 API 是 Salesforce Platform APIs，其次是 Twitter API，然后是 Notion API。最常用的 APM 工具是 Elastic (34%)，然后是 Grafana (31%)，之后是 Datadog (20%) 和 Splunk (19%)。

部署 API 的受访者使用了多种方法，其中 CI/CD 管道更受欢迎，61% 的受访者称这是最常用的工具。紧随其后的是在云中部署 API (38%)、框架 (35%) 和定制部署方法 (27%)。当被问及哪些 CI/CD 解决方案受到青睐时，一半的受访者提到了 GitHub。Jenkins (36%) 和 GitLab (28%) 也是热门选择，其次是 Azure Pipelines 和 Bitbucket（各占 22%）。

在 API 网关或云 API 管理工具方面，有两种解决方案脱颖而出：一半的受访者提到了 AWS API Gateway，超过四分之一的受访者提到了 Azure API 管理。

报告显示，全栈开发人员是使用 API 最大的群体，占受访者的 25%，其中后端开发人员的代表性更强，约为 19%。另外，超过 40% 的后端开发人员每周花在 API 上的时间超过 20 小时，是调查中比例最高的。

开发人员将大部分时间花在了 API 上。大约 51% 的受访者表示，他们所在企业将一半以上的开发工作花在了 API 上。这一比例高于 2020 年的 40% 和去年的 49%，凸显了 API 作为现代软件构建块的作用。

性能、安全性、可靠性和文档是与 API 集成之前受访者们的主要考虑因素，而决定是否使用和生成 API 的首要因素是它与内部应用程序和系统的集成程度。去年，内部 API 整合甚至没有成为 API 消费的前三名因素。

ChatGPT-4 技术报告

DinK — Tue, 14 Mar 2023 18:45:51 +0000

更多阅读：
OpenAI重磅研究：ChatGPT可能影响80%工作岗位，收入越高影响越大
OpenAI ：最新研究发现AI模型在回答事实问题时表现拉胯 GPT-4o准确率才38.2%
阿里达摩院：GPT-4替代初级数据分析师的成本只有0.71% 换成高级数据分析师则是0.45%
GPT-4 是优秀的数据分析师吗？
ChatGPT和GPT-4的逻辑推理如何？
UC伯克利：LLM准中文排行榜出炉 GPT-4稳居第一 Claude超越GPT-3.5位列第二
The Information：预计未来12年OpenAI产生超过10亿美元的收入
消费者品牌报告：寻找真相
欧盟委员会：2023年开放数据成熟度（ODM）
上海数据交易所：2023年全球数据跨境流动规则全景图
Postman：2022年API状况报告
Hired：2022年软件工程师报告
CarruthersandJackso：2022年数据成熟度指数
计算高效深度学习报告：算法趋势和机遇
国际清算银行：数据共享的API标准专题报告

TikTok推荐算法详解：2023年如何实现病毒式传播

DinK — Mon, 13 Mar 2023 04:48:15 +0000

近年来爆火全球的TikTok，作为最大的全球流量风口之一，成为了各大品牌营销的重要发力点。低成本获得高曝光的案例在TiKTok上屡见不鲜。

要想在TikTok上实现病毒式传播，不了解其算法可不行。虽然TikTok官方并没有透露其具体的推荐算法，但本期文章中，Nox聚星将通过多年的TikTok网红营销经验，带领大家详细盘点TikTok推荐算法究竟是怎么运作的？又是如何实现病毒式传播的？

01.TikTok推荐算法详解

TikTok官方曾表示推荐TikTok算法本质是一个“旨在帮助人们拥有更多个性化体验的推荐系统”。就像大多数推荐算法一样，TikTok算法主要是根据用户喜好来运行的。

但与Instagram、Facebook算法不同，TikTok算法最大的特点就是去中心化。简而言之不管你是有着百万粉丝的大博主，还是什么都没有的新账号。只要发布了视频，都会进入流量池，再进行层层筛选，通过数据筛选定输赢。

因此对于TikTok的主要算法，我们主要需要了解流量池算法机制以及内容分发机制。

流量池算法机制

TikTok推荐算法遵循螺旋上升机制进行流量分发，不断使优质内容最大化曝光。所谓流量池，就是指基于不同播放量所分的不同的层级。

当视频发布后，TikTok会自动将视频推送至一级流量池并观察这些用户对视频的反馈，一级流量池中推送的一般是细分领域的用户，这一部分用户是基于账号权重以及视频内容标签来决定的。TikTok会根据内容标签将视频内容推送给可能对其感兴趣的用户。

一级流量池的表现决定着视频是否能够被推送至下一级流量池或者更大的流量池。而视频是否能被推送至下一流量池主要取决于以下三点：

多样互动：包括点赞、评论、分享等等；

即时互动：用户在观看多长时间后会产生互动；

完播率：即视频完整播放次数/视频打开次数；

此外，账号的权重越高，系统越有可能跳过某些流量池直接将内容推送至更高的流量池。比如有些认证过的账号一般都有比较高的权重，视频内容可能直接跳过一级流量池到达二级或更高流量池。

内容分发机制

创作者上传作品之后，作品在TikTok内部经过一系列流程的筛选、匹配，最终分发给用户。

TikTok的作品分发机制依次由审核机制、消重机制、特征识别机制和人工干预机制构成

审核机制

TikTok的审核机制分为机器审核与人工审核。一般情况下主要由机器对视频内容、画面、关键词进行审核，判断视频是否包含违规内容。人工审核主要辅助做一些机器无法判断的内容。

审核内容一般为视频内容、标题等是否存在敏感信息、是否违反TikTok社区规则等。

消重机制

消重机制主要是为了保护原创内容。对上传视频与平台已有视频进行对比，若发现重复度较高的视频则会进入低流量推荐。

特征识别机制

特征识别机制主要对视频内容与标题进行分类标签并匹配相应的用户人群，也就是决定视频发布时在第一级流量池匹配给哪些用户。

人工干预

由于机器没有办法百分百判定内容是否违规，于是TikTok在机器审核的基础上引用了人工干预机制，以填补一部分机器审核的漏洞。

02.如何获得TikTok推荐算法青睐

了解了TikTok推荐算法运行机制后，又有哪些注意点能够让我们的视频内容快速获得TikTok算法的青睐呢？

前 3 秒内吸引你的观众

视频完播率是TikTok算法判断视频是否受到受众青睐的重要决定因素之一。如果大多数观众没有看完全部视频，而是只看了视频的前几秒就划走了，那么这个视频就会被判定为“不吸引观众”或“与受众无关”。

因此为了得到TikTok算法的推荐，视频内容必须在前3秒足够简单直接、具有视觉冲击力，吸引观众注意力，从而留住观众。如果你的大部分受众能够完整地观看完整个视频，那么TikTok算法就会不断推荐你的内容达成滚雪球的效应，从而使得更多观众看到你的视频，实现病毒式传播。

积极参与互动

由于TikTok倾向让用户在平台上保持活跃，TikTok算法会优先考虑参与度，主要包括点赞和评论等参与形式。因此积极参与到其他人的互动之中是一种提高自己参与度非常有效的方式。

TikTok算法具有个性化特性，这决定了TikTok不仅会向用户展示他们可能喜欢的内容，还会向类似的用户展示他们自己的视频。因此不妨试着找到你的细分内容，点赞或评论与你的内容主题类似的视频，从而覆盖目标受众，为你后续的视频发布打好基础。

紧跟TikTok趋势

无论你的品牌是什么类别，了解现在最流行的趋势并且迅速利用相关趋势是非常重要的一件事。

尽管TikTok的趋势是由用户的兴趣所引导的，但趋势也是TikTok算法表达的一部分。不同的内容社区中的视频以及风格会被TikTok算法采纳并推送，从而实现指数级增长。因此如果想要自己的视频获得更大的影响力，紧跟趋势制作内容无疑是非常好的方式之一。

03.TikTok推荐算法注意事项

想要通过TikTok推荐算法实现病毒式传播，以下这些雷点可不能踩。

持续删除视频

删除视频这一行为在TikTok上非常影响账号权重，即使某些视频不太适合公开，可以选择隐藏视频但最好不要将其删除。

虽然有些视频在发布后24小时内的播放量很低，但TikTok有可能在后续会为你的视频进行第二波推送，也许一周后你的视频会被TikTok推送至下一个流量池。有人也将这种情况称作“延迟曝光”。

而如果持续不断的删除视频，TikTok算法会判断你的账号在不断地发布低质量内容，从而影响帐号权重。这样的账号内容今后将很难被推送至第三级流量池。

违规买粉行为

许多想借TikTok做推广的账号常常会为了更高的收益进行买粉的行为。然而TikTok有其独特的粉丝检测机制和算法，一旦账号中涌入大量的僵尸粉，可能会面临封号的处置。

因此想要获得TikTok算法的青睐，最好依靠优质内容来实现有效高质的传播，而不是通过买粉行为来增加账号所谓的“影响力”。

内容不垂直

所谓的垂直，指的是你所发布的视频内容是否能够在视频风格或者内容领域保持一致。持续发布垂直的内容，能够使TikTok算法生成明确的用户画像，从而将内容更精准地推送至可能对内容感兴趣的用户。

如果突然转变视频内容，由于内容和已有用户画像不匹配，TikTok算法将根据新内容对账号进行评估打分，账号权重可能会被TikTok重置。因此持续发布同一类型的内容，是一种非常好的“养号”行为。

来自： NoxInfluencer

更多阅读：
如何全面解析数据并创造数据故事
2019年十大企业级编程语言榜单
数据科学技能中，哪些是核心技能，哪些是热门/新兴技能？
全球智库报告2019：中国智库发展稳健上升
Stack Overflow：2020 年开发人员调查
2020 年值得关注的十大技术趋势
KPI过时了？为什么科技公司更偏爱OKR？
数据科学家年薪12万美元算高吗？我爬取近6年三千份数据后发现了这些秘密
2019年开源数据库报告：热门数据库、云基础设施分析与混合持久化趋势
2018年Go 语言调查报告
数据可视化最有价值的50个图表
成为一名优秀数据科学家的前提是心中有“数”
在合适的地方，机器学习带来的将是一场革命
让你思维变敏锐的四把「哲学剃刀」
数据量持续飙升，信息与通信技术行业如何实现可持续发展？

计算高效深度学习报告：算法趋势和机遇

DinK — Thu, 02 Mar 2023 20:00:10 +0000

尽管近年来深度学习取得了巨大进展，但训练神经网络所带来的爆炸式经济和环境成本正变得不可持续。为了解决这个问题，已经有大量关于算法高效深度学习的研究，这些研究旨在通过改变训练程序的语义，而不是在硬件或实现级别上降低训练成本。本文对该领域的研究进行了系统、全面的综述。首先，我们将算法加速问题形式化，然后我们使用算法高效训练的基本构建块来开发分类。我们的分类强调了看似不同的方法的共性，并揭示了当前的研究差距。接下来，我们将介绍评估最佳实践，以实现对加速技术的全面、公平和可靠的比较。为进一步帮助研究和应用，讨论了训练管道中的常见瓶颈(通过实验说明)，并为它们提供分类缓解策略。最后，我们强调了一些尚未解决的研究挑战，并提出了有希望的未来方向。

在过去的几年里，深度学习(DL)在广泛的应用领域取得了显著的进展，如蛋白质结构预测(AlphaFold [Jumper et al。2021])、文本到图像合成(DL – e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。实现这些性能提升的关键策略是将DL模型扩展到非常大的规模，并对它们进行大量数据的训练。对于大多数应用程序，可训练参数的数量至少每18至24个月翻一番——语言模型以4至8个月的翻倍时间领先(Sevilla and Villalobos 2021)。

大规模人工智能模型的著名例子包括:用于视觉应用的Swin Transformer-V2 [Liu等人2022a]，用于语言建模的PaLM [Chowdhery等人2022]，用于内容推荐的波斯[Lian等人2021]，具有100万亿参数。

尽管扩大DL模型正在实现前所未有的进步，但训练大型模型已经变得极其昂贵。例如，GPT-3训练成本估计为165万美元，使用谷歌v3 TPU[Lohn和Musser 2022]，且transformer 模型的低效/幼稚开发将产生相当于5辆汽车终生碳足迹的二氧化碳(CO2) [Strubell等人，2019]。值得关注的是，DL仍然没有达到许多应用所要求的性能水平:例如，在现实世界中部署全自动驾驶汽车需要人类水平的性能，但还没有达到。不断增长的模型和数据规模以达到所需的性能将使当前的训练策略在金融、环境和其他方面不可持续。事实上，根据目前的趋势推断，2026年最大的人工智能模型的训练成本将超过美国的GDP总量(Lohn and Musser 2022)。此外，DL对计算的高度依赖引发了人们对财务资源有限的用户(如学者、学生和研究人员(特别是来自新兴经济体的人)的边缘化的担忧[Ahmed and Wahed 2020]。我们将在附录A中更详细地讨论这些关键问题。

考虑到其计算负担的不可持续增长，DL的进步需要更多的计算效率训练方法。一个自然的方向是消除学习过程中的算法效率低下，以减少DL训练的时间、成本、能量和碳足迹。这种算法高效的深度学习方法可以通过多种方式改变训练过程，包括:改变数据或样本呈现给模型的顺序;调整模型的结构;改变优化算法。这些算法改进对于实现有效深度学习训练所需计算负担的估计下界至关重要，目前的做法导致的负担大大超过了该下界[Thompson等人，2020]。此外，这些算法增益与软件和硬件加速技术相结合[Hernandez和Brown 2020]。因此，我们相信算法高效的逻辑学习提供了一个巨大的机会来增加逻辑学习的收益并降低其成本。

虽然最近涌现的算法效率论文支持了这一观点，但这些论文也表明，算法效率方法的研究和应用受到碎片化的阻碍。不同的指标被用来量化效率，这产生了不一致的加速方法的排名。评估是在狭窄或特征不佳的环境中执行的，这将导致不正确或过于宽泛的结论。在讨论算法效率方法时，缺乏反映它们的广度和关系的分类法，这使得人们很难理解如何遍历加速环境，将不同的方法结合起来并开发新的方法。因此，本文的核心贡献是组织算法效率文献(通过受[Von Rueden等人2019]启发的分类法和调研)，以及对影响报告和实现加速的实际问题的技术描述(通过评估和实践指南)。我们的讨论始终强调这两个重点的关键交集:例如，算法效率方法是否会导致实际的加速确实取决于方法(通过我们的分类法可以理解)和计算平台(通过我们的从业者指南可以理解)之间的交互。我们的贡献总结如下:

形式化加速:我们回顾DNN效率指标，然后形式化算法加速问题。

分类和调研:我们通过适用于3个培训管道组成部分的5个加速行动(5Rs)对200多篇论文进行分类(见表1和表3)。分类有助于为从业者选择方法，为读者消化文献，并为研究人员识别机会。

最佳评估实践:我们识别了文献中常见的评估陷阱，并相应地提出最佳评估实践，以实现对各种加速技术的全面、公平和可靠的比较。

从业者指南:我们讨论了影响加速方法有效性的计算平台瓶颈。根据训练管道中瓶颈的位置，提出适当的方法和缓解措施。

本文来自：AI数据派

更多阅读：
消费者品牌报告：寻找真相
Experian：2021年数据体验报告
中国电子&清华大学：2021中国城市数据治理工程白皮书
布鲁金斯：数字化对美国劳动力的影响
上海数据交易所：2023年全球数据跨境流动规则全景图
CarruthersandJackso：2022年数据成熟度指数
Digital Science：2022年开放数据状况报告
战略计算：高性能计算以及量子计算在欧洲寻求技术力量中的作用
世界知识产权组织：2019年度世界知识产权指标（WIPI）报告（228页）
TTCSP：2019全球智库报告（270页）
爱思唯尔：科研的信任
SlashData：第16个年度开发者报告
SlashData：2018年Q2开发者报告
2021低代码现状：回顾过去，展望未来
德勤咨询：2021技术趋势报告

跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了

DinK — Thu, 02 Mar 2023 14:47:22 +0000

1750 亿参数，只需要一块 RTX 3090，ChatGPT 终于不再是大厂专属的游戏？

计算成本是人们打造 ChatGPT 等大模型面临的重大挑战之一。

据统计，从 GPT 进化到 GPT-3 的过程也是模型体量增长的过程 —— 参数量从 1.17 亿增加到了 1750 亿，预训练数据量从 5GB 增加到 45TB，其中 GPT-3 训练一次的费用是 460 万美元，总训练成本达 1200 万美元。

除了训练，推理也很花钱。有人估算，现在 OpenAI 运行 ChatGPT 的算力费用每天就有 10 万美元。

在发展技术，让大模型掌握更多能力的同时，也有人在尝试降低 AI 所需的算力资源。最近，一种名为 FlexGen 的技术因为「一块 RTX 3090 跑 ChatGPT 体量模型」而获得了人们的关注。

虽然 FlexGen 加速后的大模型看起来仍然很慢 —— 跑 1750 亿参数的语言模型时每秒 1 个 token，但令人印象深刻的是，它已经把不可能变成了可能。

传统上，大语言模型（LLM）推理的高计算和内存要求使人们必须使用多个高端 AI 加速器进行训练。本研究探索了如何将 LLM 推理的要求降低到一个消费级 GPU 并实现实用性能。

近日，来自斯坦福大学、UC Berkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了 FlexGen，这是一种用于运行有限 GPU 内存的 LLM 的高吞吐量生成引擎。

通过聚合来自 GPU、CPU 和磁盘的内存和计算，FlexGen 可以在各种硬件资源限制下灵活配置。通过线性规划优化器，它搜索存储和访问张量的最佳模式，包括权重、激活和注意力键 / 值（KV）缓存。FlexGen 将权重和 KV 缓存进一步压缩到 4 位，精度损失低到可以忽略不计。与最先进的 offloading 系统相比，FlexGen 在单个 16GB GPU 上运行 OPT-175B 的速度提高了 100 倍，并首次实现了 1 token/s 的实际生成吞吐量。如果提供了更多的分布式 GPU，FlexGen 还带有流水线并行 runtime，以允许在解码时进行超线性扩展。

目前，该技术已经放出代码，获得了几千 Star 量：https://github.com/FMInference/FlexGen

简介

近年来，大语言模型在广泛的任务中表现出卓越的性能。LLM 在展现出前所未有的通用智能的同时，也让人们在构建时面临着前所未有的挑战。这些模型可能有数十亿甚至数万亿个参数，这导致运行它们需要极高的计算和内存要求。例如，GPT-175B（GPT-3）仅用于存储模型权重就需要 325GB 的内存。要让此模型进行推理，至少需要五块英伟达 A100（80GB）和复杂的并行策略。

降低 LLM 推理资源需求的方法是最近人们经常讨论的内容。这些努力分为三个方向：

（1）模型压缩以减少总内存占用量；

（2）协同推理，通过去中心化分摊成本；

（3）Offloading 以利用 CPU 和磁盘的内存。

这些技术显着降低了使用 LLM 的计算资源需求。然而，人们通常假设模型适合 GPU 内存，而现有的基于 offloading 的系统仍然难以使用单块 GPU 以可接受的吞吐量运行 1750 亿参数规模的模型。

在新研究中，作者专注于高吞吐量生成推理的有效 offloading 策略。当 GPU 显存不够用时，我们需要将其卸载到二级存储，通过部分加载的方式，逐段进行计算。在典型的机器上，内存层次结构分为三级，如下图所示。高级内存速度快但稀缺，低级内存速度慢但充裕。

在 FlexGen 中，作者不追求低延迟，而是瞄准面向吞吐量的场景，这些场景在基准测试、信息提取、数据整理等应用中很受欢迎。实现低延迟对于 offloading 来说本质上是一个挑战，但是对于面向吞吐量的场景，可以大大提高 offloading 的效率。图 1 说明了三个具有 offloading 的推理系统的延迟吞吐量权衡。通过仔细的调度，I/O 成本可以通过大量输入分摊并与计算重叠。在研究中，作者展示了就单位算力成本而言，单块消费级 GPU 吞吐量优化的 T4 GPU 效率要比云上延迟优化的 8 块 A100 GPU 的效率高 4 倍。

图 1. OPT-175B（左）和 OPT-30B（右）上三个基于 offloading 的系统的延迟和吞吐量权衡。FlexGen 实现了新的帕累托最优边界，OPT-175B 的最大吞吐量提高了 100 倍。由于内存不足，其他系统无法进一步提高吞吐量。

尽管已有研究在训练的背景下讨论了 offloading 的延迟 – 吞吐量权衡，但尚未有人将其用于生成 LLM 推理，这是一个截然不同的过程。由于 LLM 的自回归性质，生成推理提出了独特的挑战。除了存储所有参数外，它还需要顺序解码并维护一个大的注意力键 / 值缓存（KV 缓存）。现有的 offload 系统都无法应对这些挑战，因此它们执行过多的 I/O，只能实现远低于硬件能力的吞吐量。

为生成推理设计良好的 offloading 策略具有一定挑战性。首先，这个过程中存在三种张量：权重、激活和 KV 缓存。该策略应指定在三级层次结构上的卸载内容、位置以及卸载时机。其次，逐个 batch、逐个 token 和逐个 layer 计算的结构形成了一个复杂的依赖图，可以通过多种方式进行计算。该策略应该选择一个可以最小化执行时间的时间表。这些选择共同构成了一个复杂的设计空间。

为此，在新方法 FlexGen 上，人们提出了一种用于 LLM 推理的 offloading 框架。FlexGen 聚合来自 GPU、CPU 和磁盘的内存，并能有效地调度 I/O 操作，作者也讨论了可能的压缩方法和分布式管道并行性。

该研究的主要贡献如下：

1、作者正式定义了可能的 offloading 策略的搜索空间，并使用成本模型和线性规划求解器搜索最佳策略。值得关注的是，研究人员证明了搜索空间捕获了一个几乎 I/O 最优的计算顺序，其 I/O 复杂度在最优计算顺序的 2 倍以内。搜索算法可以针对各种硬件规格和延迟 / 吞吐量限制进行配置，从而提供一种平滑导航权衡空间的方法。与现有策略相比，FlexGen 解决方案统一了权重、激活和 KV 缓存的放置，从而实现了更大的 batch size。

2、研究表明，可以将 OPT-175B 等 LLM 的权重和 KV 缓存压缩到 4 位，而无需重新训练 / 校准，精度损失可忽略不计。这是通过细粒度分组量化实现的，可以显著降低 I/O 成本。

3、通过在英伟达 T4 GPU (16GB) 上运行 OPT-175B 来展示 FlexGen 的效率。在单块 GPU 上，给定相同的延迟要求，与 DeepSpeed Zero-Inference (Aminabadi et al., 2022) 和 Hugging Face Accelerate (HuggingFace, 2022) 相比，不压缩的 FlexGen 可以实现高出 65 倍的吞吐量，后者是目前业内最先进的基于 offloading 的推理系统。如果允许更高的延迟和压缩，FlexGen 可以进一步提高吞吐量并达到 100 倍的改进。FlexGen 是第一个可以使用单块 T4 GPU 为 OPT-175B 实现 1 token/s 速度吞吐量的系统。如果给定多块分布式 GPU，具有流水线并行性的 FlexGen 可在解码时实现超线性扩展。

在研究中，作者还将 FlexGen 和 Petals 作为 offloading 和去中心化集合推理方法的代表进行了比较。结果表明，具有单块 T4 GPU 的 FlexGen 在吞吐量方面胜过具有 12 块 T4 GPU 的分散式 Petal 集群，并且在某些情况下甚至可以实现更低的延迟。

运行机制

通过聚合来自 GPU、CPU 和磁盘的内存和计算，FlexGen 可以在各种硬件资源限制下灵活配置。通过线性规划优化器，它搜索存储和访问张量的最佳模式，包括权重、激活和注意力键 / 值 (KV) 缓存。FlexGen 将权重和 KV 缓存进一步压缩到 4 位，精度损失可以忽略不计。

FlexGen 的一个关键思想是进行延迟 – 吞吐量权衡。实现低延迟对于卸载方法来说本来就具有挑战性，但对于面向吞吐量的场景，可以极大地提升卸载效率（见下图）。FlexGen 利用块调度来重用权重并将 I/O 与计算重叠，如下图 (b) 所示，而其他基线系统使用低效的逐行调度，如下图 (a) 所示。

目前，该研究作者的下一步计划包括对苹果 M1、M2 芯片的支持和 Colab 部署的支持。

FlexGen 自发布后在 GitHub 上的 Star 量很快上千，在社交网络上热度也很高。人们纷纷表示这个项目很有前途，似乎运行高性能大型语言模型的障碍正在被逐渐克服，希望在今年之内，单机就能搞定 ChatGPT。

有人用这种方法训练了一个语言模型，结果如下：

虽然没有经过大量数据的投喂，AI 不知道具体知识，但回答问题的逻辑似乎比较清晰，或许未来的游戏中，我们能看见这样的 NPC？

参考内容：https://news.ycombinator.com/item?id=34869960

来自：机器学习研究组订阅

更多阅读：
ChatGPT“大战”谷歌搜索：新王加冕还是旧王延续？
ChatGPT和生成式AI对科学意味着什么？
ChatGPT狂欢的背后：人工智能是品牌安全的双刃剑
单月500万下载量：ChatGPT iOS 首发牛刀小试
OpenAI重磅研究：ChatGPT可能影响80%工作岗位，收入越高影响越大
Similarweb ：截至2023年3月微软必应搜索下载量增长 7 倍谷歌应用下载量下降 2%
工业AI也将迎来「ChatGPT时刻」
比尔盖茨最新全文：ChatGPT 是我一生中见到的两项最具革命性技术之一
OpenAI：ChatGPT 商业版本付费用户达到100万
ChatGPT和GPT-4的逻辑推理如何？
ChatGPT能替代用户研究吗？ | 在多个用研场景下的探索
IBM专家观点：从 +AI 到 AI+，谈企业如何应用 ChatGPT 技术
ChatGPT开源替代来了！参数量200亿，在4300万条指令上微调而成
终于，乔姆斯基出手了：追捧ChatGPT是浪费资源
YouGov：近半数美国人听说过OpenAI

复旦大学：2022中国地方政府数据开放报告

DinK — Wed, 11 Jan 2023 20:00:55 +0000

截至2022年10月，我国已有208个省级和城市的地方政府上线了政府数据开放平台，其中省级平台21个（含省和自治区，不包括直辖市和港澳台），城市平台187个（含直辖市、副省级与地级行政区）。目前，我国74.07%的省级（不含直辖市）和55.49%的城市（包括直辖市、副省级与地级行政区）已上线了政府数据开放平台。

与2021年下半年相比，新增15个地方平台，其中包含1个省级平台和14个城市平台，平台总数增长约8%。全国地级及以上政府数据开放平台数量持续增长，从2017年的20个到2022下半年的208个。

截至2022年10月，全国各省域政府数据开放平台的整体上线情况如下图所示。平台包括省(自治区)本级和省内下辖地市，图中颜色越深，代表该省域政府数据开放平台的整体上线程度越高。目前，广东省、广西壮族自治区、江苏省、江西省、山东省、四川省与浙江省的省（自治区）本级和下辖所有地市都已上线了数据开放平台（图中显示为全境深绿色的省域）。从整体上看，东南沿海和中部地区的政府数据开放平台已经基本相连成片。

更多阅读：
复旦大学&开放数林：2021年度中国地方政府数据开放报告
上海社科院&复旦大学：全球智慧之都报告2020
复旦大学：中国城市数字治理报告
复旦大学：保险App用户隐私与个人信息保护的若干隐患研究报告
复旦大学：2020上半年中国地方政府数据开放报告
复旦大学：中国互联网保险代理人生存状况调查报告
汉富金融&复旦大学：2018“新二代”消费观念白皮书
复旦大学：调查显示低龄儿童玩iPad比看电视更伤眼
复旦大学：研究发现儿童时期兄弟姐妹早逝会使人患心脏病的风险增加17%
复旦大学：2014中国网络社会心态调查
标准排名（中国）研究院：2015年中国高校毕业生薪酬排行榜
清华大学&复旦大学：中国劳动力市场技能缺口研究
复旦大学：调查显示80后婚恋家庭观趋向传统
消费者品牌报告：寻找真相
欧盟委员会：2023年开放数据成熟度（ODM）

Stack Overflow：调查显示使用Linux的开发者数量要明显超过使用Mac

DinK — Sun, 01 Jan 2023 08:54:45 +0000

Stack Overflow 的一项新调查结果显示，虽然 Windows 依然是最受开发者欢迎的平台，但是使用 Linux 的开发者数量要明显超过使用 Mac 的。

Stack Overflow 今年对超过 7 万开发者展开了问卷调查，在调查报告中写道：“每年我们都会探索开发人员目前正在使用的工具和技术，以及他们想要使用的工具和技术。我们有最喜欢的 Loved、Dreaded 和 Wanted 数据，以及 Worked With（当前使用工具和技术）和 Want to Work With（想要使用工具和技术），这向我们准确地显示了开发者在过去一年中使用了什么，以及他们在下一年中想要做什么”。

至于开发者使用的平台，Windows 保持领先，62.33% 的受访者将 Windows 用于个人使用，48.82% 的人将其用于工作。Linux 排名第二，分别为 40% 和 40%，而 Mac 则以 31% 和 33% 的比例排在后面。有趣的是，微软的 Windows Subsystem for Linux 排在第四位，使用率分别为 15% 和 14%，这表明 Linux 在开发者中的受欢迎程度甚至更高。

在实际的开发者技术方面，微软 Visual Studio Code 是迄今为止最受欢迎的集成开发环境（IDE），使用率为 75%，其次是微软 Visual Studio（32%）、IntelliJ（28%）、Notepad++（28%）、Vim（23%）和 Android Studio（20%）。(苹果的 Xcode 以 10.5% 的比例排在非常遥远的第 11 位)。

最受欢迎的开发者框架是微软.NET，使用率为 34.5%，其次是 NumPy（27%），Pandas（25%），Spring（16%），TensorFlow（13%），和 Flutter（12.6%）。

在网络框架方面，Node.js 是最受欢迎的，使用率为 47.12%，其次是 React.js（42.6%），jQuery（28.6%），Express（23%），Angular（20.4%），Vue.js（18.9%），ASP.NET Core（19%）和 ASP.NET（15%）。有趣的是，微软的两个网络框架加起来几乎占了 34% 的使用量。

亚马逊 AWS 仍然是占主导地位的网络平台，使用率为 51%，其次是微软 Azure（29%），谷歌云（27%），以及 Firebase（21%）。而 MySQL 是最受欢迎的数据库（46.9%），其次是 PostgreSQL（44%）、SQLite（32%）、MongoDB（28%）和微软 SQL Server（27%）。

更多阅读：
Stack Overflow：2019全球编程语言高薪排行榜
Stack Overflow：2020 年开发人员调查
Stack Overflow：云技术程序员收入最高
Stack Overflow：2018年第8次程序员界人口普查报告
Stack Overflow：调查显示美国一半码农都没有计算机学位
Stack Overflow ：2015 年程序员调查报告
Stack Overflow ：2015年程序员使用开发语言调查
Statcounter：2024年3月Linux在台式机市场中的份额增至4.05%
Steam：2024年3月Linux在Steam平台的使用率接近2%
Steam：2024年8月Steam的Linux份额回落至2%以下
Steam前100热门游戏中有80%可在Linux平台上运行
Stack Overflow：仅12%程序员担心被AI取代 62%开发者在使用AI工具
CIRP：80%的新购买Mac用户已经是iPhone或iPad用户
Linux内核项目组：2024年度Linux内核代码提交量降至75314次创十年新低新增代码量达369万行
CrowdStrike：2021年针对Linux发行版本的恶意软件数量同比增加35%

CarruthersandJackso：2022年数据成熟度指数

DinK — Tue, 27 Dec 2022 21:39:19 +0000

来自世界各地的数百位行业领袖接受了“关于数据在其组织中的作用”的调查和采访，64%的受访者表示员工对数据缺乏理解。这份名为《数据成熟度指数》(DataMaturityIndex)的报告由咨询机构CarruthersandJackso制作，揭示了企业面临的数据治理和知识普及挑战的规模。在过去两个月，该公司与IBM、DFS和英国心脏基金会等一系列组织的首席数据官就其业务中数据的成熟度进行了探讨。

对于希望从所收集的信息中获取价值的企业来说，数据成熟度是一个重要因素。高成熟度评级意味着企业拥有完善的流程和系统来收集、存储和分析数据，并将其集成到整体运营中。

报告称，投资提高数据成熟度可以让企业获得竞争优势，使它们能够根据数据做出更明智、更有效的决策，然后利用数据带来的增长和创新机会。调查发现，64%的数据领导者认为，他们公司中的大多数或几乎所有员工都不懂数据，这可能是数字化转型的最大障碍。

三分之一的企业难以正式确定数据角色

据了解，数据成熟度指数涵盖了企业内数据使用的四个核心领域：目的、人员、方法和工具。

研究表明，三分之一的企业或者数据角色和职责不明确，或者根本没有正式的数据角色和职责。这是一个大问题，因为确立数据领导角色是提高企业内部数据素养的重要组成部分。

该研究还发现了企业内部治理不成熟的问题，40%的企业目前很少或根本没有数据治理框架。

缺乏数据素养和数据治理

拥有更多懂数据的员工可以让企业领导层明白，数据并不是专业团队的专利，因此更有可能投资于数据转换。问题是，被调查的这些公司中，很少有数据成熟度达到这一水平，“这意味着企业仍需要努力提高数据素养，进而更广泛地构建数据文化。”

虽然人们正在为企业带来更不成熟的数据水平，但技术正在帮助他们迎头赶上。该指数表明，63%的数据领导者认为，企业可用的技术主要有助于他们使用数据。

更多阅读：
消费者品牌报告：寻找真相
Experian：2021年数据体验报告
中国电子&清华大学：2021中国城市数据治理工程白皮书
布鲁金斯：数字化对美国劳动力的影响
上海数据交易所：2023年全球数据跨境流动规则全景图
计算高效深度学习报告：算法趋势和机遇
Digital Science：2022年开放数据状况报告
战略计算：高性能计算以及量子计算在欧洲寻求技术力量中的作用
世界知识产权组织：2019年度世界知识产权指标（WIPI）报告（228页）
TTCSP：2019全球智库报告（270页）
爱思唯尔：科研的信任
SlashData：第16个年度开发者报告
SlashData：2018年Q2开发者报告
2021低代码现状：回顾过去，展望未来
德勤咨询：2021技术趋势报告

国际清算银行：数据共享的API标准专题报告

DinK — Sat, 19 Nov 2022 20:00:15 +0000

这份报告也是国际清算银行创新和数字经济咨询小组（CGIDE）主导的通过API实现开放金融三部曲的第三部分。对CGIDE中央银行成员的调查显示，各方在实施数据共享以提高效率和促进合作方面存在共同利益，而目前主要的挑战在于参与者之间的协调、标准化和技术基础设施。报告提出了集中、去中心化和托管三种数据共享模式，并开发了用户交互及数据流。

此外，报告还介绍了账户聚合功能以及在开放金融生态系统中实施的可能安排。

报告展示了一个基于微服务架构概念的成功实现，该架构促进了高可用性、可伸缩性和复原力。数据共享方案在很大程度上取决于监管框架是僵化还是灵活。选择适当模型的最大挑战在于确定数据将存储在哪里，谁是消费者，以及使用哪些通信接口。

更多阅读：
国际清算银行：突破跨境零售CBDC支付新路径
国际清算银行：2022年年度经济报告
国际清算银行：2013年全球债务触及100万亿
国际清算银行：2017年Q3韩国家庭负债规模在GDP所占比重高达94.4%
国际清算银行：央行数字货币系统报告摘要
国际清算银行：警惕美元流动性收紧冲击中国外汇信贷市场
国际清算银行：2013年人民币成为日均交易额前十名的货币
国际清算银行(BIS)：美联储加息前 “市场不安的宁静”
消费者品牌报告：寻找真相
Postman：2022年API状况报告
中国电子技术标准化研究院：企业数字化转型白皮书（2021版）
良好的数据：共享数据并促进公众信任和意愿报告
计算高效深度学习报告：算法趋势和机遇
CarruthersandJackso：2022年数据成熟度指数
Hired：2022年软件工程师报告

世界银行：新冠危机表明G2P支付应向数字化发展

DinK — Wed, 02 Nov 2022 04:34:22 +0000

政府对个人（G2P）支付的数字化发展是一项跨领域议程。

G2Px倡议汇集了世界银行集团多个全球实践局和不同部门在诸多领域的知识专长——如社会保护、支付系统、金融包容性、数字发展、治理与性别等，以便规模化地改进G2P支付。本文即由世行集团负责数字发展、社会保护与就业以及金融、竞争力与创新的三位局长共同撰写。

新冠疫情危机凸显了数字公共基础设施（DPI）在确保政府快速安全地发放社会援助方面可以发挥的重要作用。DPI不仅使政府得以向数量空前的新受益人伸出援手，还使远程支付成为可能。这使千百万人首次进入了社会保障体系和金融体系。

新冠危机期间经济活动受到很大限制，因此政府需要向大量人口提供支持——包括城市非正规居民在内，而原有社会援助项目大多不覆盖这部分人员。

扩展支持体系面临两个挑战：识别出哪些人需要支持，以及如何在疫情背景下安全、高效地支付救助款项。G2Px项目下的最新研究报告《数字基础设施在新冠社会援助中的作用》显示，那些已经具备良好数字基础设施（数字化数据库、身份识别系统和支付系统）的国家在应对这些挑战方面做得最为成功。

纳入新受益人的挑战

在疫情期间注册新的受益人并确定他们的受助资格具有挑战性。城市非正规工人——以及其他需要社会援助的弱势个体——通常很难被社会援助系统识别，因为他们通常不属于任何现有的社会支持计划。在这种背景下，可推测有17亿低收入和中等收入国家的家庭获得了COVID-19援助，在大多数地区，超过一半的受益人以前从未获得过任何政府支持。

在疫情期间，已经拥有数字化数据库和身份证系统的国家得以更好地注册新的受益人并就他们的受助资格做出判断。这些系统允许政府在不同的数据库中查找和匹配潜在的受益人信息，评估获得援助的资格，并在整个过程中以安全和保护隐私的方式反复进行身份验证。例如，泰国的Covid-19社会救助在线申请只要求申请人提供身份证号码（以及用于身份验证的基本个人信息）。仅凭这个唯一编号，他们就能够对照一系列数据库检查信息并做出快速批准决定。一半以上来自劳动年龄人口的申请很快获得批准。

那些无法选用现有数字数据库或识别系统交叉验证或验证远程注册人身份的国家，平均只有16%的人口获得了疫情援助计划的支持。相比之下，已经拥有数字化数据库和可信数据共享机制的国家，疫情援助的平均覆盖率为51%。

尚未构建数字公共基础设施的国家不得不要依靠地方层面来收集信息，这意味着容易出错且过程冗长。例如，菲律宾在发放第一轮疫情救助资金时，鉴于原有的社会登记系统已经过时，数字身份证系统PhilSys的登记尚未完成，因此不得不借助当地政府工作人员收集1800万户家庭的数据。这个过程会造成付款延迟、重复支付频繁（至少5%）以及难以接触到新的受益人。这一经历促使菲律宾政府加速了PhilSys的推出，该项目现在有超过7200万人注册。社会福利和发展部将借助该系统进行试点，使G2P支付更加便捷。

扩大包容性的机会

在受益人注册并验证其资格后，政府面临第二个挑战：如何快速安全地付款。许多国家都选用数字支付——有几个国家是第一次使用。在某些情况下，政府将资金转移到个人的移动货币账户或传统账户；在其他情况下，个人以移动代金券或代币的形式收到资金，然后将其兑换成现金。

许多国家都采取使用了数字支付，这意味着数百万人首次开设了账户，这对普惠金融来说是一大推动力。在哥伦比亚，Covid-19社会援助计划的近300万受益人通过账户获得了援助，并专门开设了超过130万个移动账户来接收这笔钱。政府已借助新冠响应社会援助计划为巴西约7000万人构建了数字储蓄账户，允许个人远程获取援助资金。据估计，这些受益人中约有40%在疫情爆发前没有自己的账户。

也有一些国家错过了扩大金融包容性的机会——例如，一些国家正在将救助资金转移到功能有限的账户中，或是使用只能用来提取现金的代币，而不是允许受益人进行数字支付、储蓄或转账。例如，巴拉圭创设建立了150万个新的移动电子钱包，但与巴西的做法不同，这些电子钱包功能有限，受益人无法选用它们来存钱或转账。

打破障碍

各国在疫情期间采取使用数字技术和以数字化方式分发社会援助的集体经验代表了推进G2P的独特机会，但如果没有协调一致的行动、总结经验教训并开展必须的投资，就无法保证取得进展。

G2P支付的数字化在Covid-19危机期间取得了重大进展，但要将其转化为长期发展成果还有很长的路要走。例如，虽然许多国家在大流行期间选用了数字支付，但并非所有国家都选用有助于进一步提升金融包容性的账户。虽然在Covid-19响应项目中选用了数字系统，但这并不意味着这些系统能够扩大规模——之所以如此，是由于许多项目都是临时的。

建设适当的数字公共基础设施(DPI)以支持政府支付的数字化将应当需要公共和私营部门的利益相关者采取果断行动。各方还应当需要从应对COVID-19的成功经验中吸取教训，总结未来应当需要避免的错误，并确保项目得以支持长期发展目标——其中包含提高金融服务的接入点并改进金融产品和服务。

各国现在有一个独特的机会来借助这些经验教训发展数字G2P支付生态系统并构建广泛的数字公共基础设施，以帮助政府提高效率并为受益者打开新机遇之门。这一领域的努力最终能够为多种支付流予以一个共同的渠道，从而进一步提升支付的便利性、包容性和受益人的赋权。

更多阅读：
世界银行：《向着机会迁移》报告–（33页）
世界银行：欧洲中亚地区经济展望
世界银行：第三版全球集装箱港口绩效指数报告
世界银行：2023年第二季全球汇款成本报告
世界银行：九张图回顾充满不确定性的一年
世界银行：2023年4月期东亚与太平洋地区经济半年报
世界银行：2019年营商环境报告
世界银行：新冠大流行推动了普惠金融发展
世界银行：公平的进步？世界各国代际经济流动
世界银行：2019年世界发展报告
全球视野下的中国普惠金融：实践、经验与挑战
世界银行：国民财富的变化2018（255页）
世界银行：2018全球经商环境报告
世界银行报告：应对内部气候移民
2019年全球经济展望：前景趋暗

Digital Science：2022年开放数据状况报告

DinK — Mon, 31 Oct 2022 22:00:30 +0000

该报告由Digital Science（数字科研）公司、Figshare 知识库和施普林格·自然年度合作发布，这是相关机构第七年发布该报告。报告基于2022年进行的一项全球调查，涉及超过5400名受访者，是该年度调查在新冠肺炎大流行以来规模最大的一次。来自中国的研究人员占所有受访者的11%，与美国持平。中国和美国是回应本次调查人数最多的两个国家。

今年报告的主要发现表明，研究人员赞成数据公开获取作为一种普遍做法的趋势日益显著（每五位研究人员中就有四人对此表示赞同）。如今有超过70%的受访者被要求遵守数据共享政策，这一定程度上支持了这一趋势。

然而，研究人员还是提及了有助于他们分享数据的关键需求：更多有关数据访问、分享和再利用政策的培训或信息（55%），以及长期存储和数据管理策略（52%）。荣誉和认可也再次成为研究人员共享数据时的一个重要主题。此前曾分享过数据的人中，有66%的人获得了他人对其工作的某种形式的认可——最常见的方式是在另一篇文章中的完整引用（41%），其次是在使用了他们数据的论文中成为共同作者。促使研究人员更倾向于分享其研究数据的因素是对引用量（67%）和研究可见度（61%）所能产生的影响，而不是公共利益或期刊/出版机构的要求（均为56%）。

今年的报告还包括了来自美国国立卫生研究院、白宫科技政策办公室、中国科学院计算机网络信息中心、出版机构和大学的开放数据专家的特邀文章。

Figshare创始人暨首席执行官马克·哈内尔说：“我们报告所得出的结果清楚地表明，尽管大多数研究人员接受开放数据和开放科学的概念，但他们也对开放数据政策和实践如何会影响到他们存有一些合理的疑虑。在一个开放数据的规定不断增多的环境中，资助机构如与研究人员更紧密的合作，并为他们提供额外的支持，以顺利过渡到完全开放数据的未来，那他们也会从中获益。”

施普林格·自然开放数据项目经理格雷姆·史密斯说：“过去七年，这些调查有助于展现研究人员对开放数据的看法。该报告不仅向我们表明所取得的进展，还包括了尚需采取的措施，以支持科研界走向开放数据的未来。无论是为研究人员提供广泛的支持，让研究数据公开获取成为普遍做法，还是针对开放数据规定的态度上的不断变化，我们都必须从中学习并推进具体措施，以解决科研界告诉我们的问题。”

更多阅读：
Sonatype：2020年软件供应链状况报告
美联储：2016年美国家庭经济状况报告（172页）
CNNIC：2012年上海市互联网络发展状况报告
CNNIC：2014年海南省互联网发展状况报告
360安全中心：2012年第一季度中国手机安全状况报告
宽带发展联盟：2017年Q3中国宽带速率状况报告
宽带发展联盟：2015年Q2中国宽带速率状况报告
一张图读懂什么是“开放数据”–信息图
河南省通信管理局：2013年河南互联网发展状况报告
上海市人社局：上海市青年就业状况报告（2019）
360：2014年中国手机安全状况报告
宽带发展联盟：2015年Q3中国宽带速率状况报告
CNNIC：2014年黑龙江省互联网发展状况报告
消费者品牌报告：寻找真相
K-12报告：2017-2018全球数字学习现状

智能AI技术发展，浩瀚体育促进传统体育健身行业升级

DinK — Sat, 22 Oct 2022 10:45:26 +0000

智能AI近年来成为各行各业持续关注与讨论的热门话题,其智能应用范围已从日常使用的智能电子产品、智能家居产品、智能穿戴设备到将人工智能引入人们的日常运动健身中。可以清晰的看出,人工智能已经成为我们生活中不可或缺的科技元素。对于智慧健身来说,人工智能实现了传统的健身科技的转型,也解决了传统意义健身的诸多问题。

健身领域在技术上面临非常巨大的变革,而传统健身也在顺应时代与技术发展的趋势和需求,传统健身模式也面临巨大的挑战,健身行业也伴随市场需求的升级产生了更多的细分领域。同时,智能体育由于被越来越多人关注,而逐渐从蓝海市场向激烈的红海市场转变。其中浩瀚体育,作为国际知名的综合体育平台,多年来秉承着不断进取、永不止步的企业精神,在竞争无比激烈的同行业内取得了高度的专业好评与广泛的用户认可。浩瀚体育近年来,在AI硬件+软件方面投入了大量的人力物力资源,致力于挖掘传统体育与健身行业在智能技术方面的更多可能性,如AI智能健身设备、AI智能教练系统、AI智能体育数据测算设备等,将智能科技的应用深入渗透到传统体育产业当中,激活传统产业活力,让智能带动产业的升级与发展。

目前全国很多城市也引入了智能体育设备,帮助市民打造健康体魄,期待创造新价值,带来新美好生活。将智能设备与智能手机相结合,以科技带动数据,用数据支撑产业升级,体育参与形成智能数据库,能够更有效的对不同类型的人群、不同类型的健身运动模式进行数据分析。随着互联网、大数据、人工智能等科技力量持续赋能健身行业,智能健身等新业态的流行将更加充分地满足消费者多样化、品质化需求,并进一步降低全民健身参与门槛,增加健身活动的互动性、获得感,帮助更多人开启健康新生活。

更多阅读：
谷歌大脑新研究：强化学习如何学会用声音来观察？
从统计机器学习视角理解深度学习：算法、理论与可扩展计算
2021年面向 Go 开发者的调查
分析数据时常见的 7 类统计陷阱
2020年机器学习10大研究进展
2019 年 AI 技术炒作周期：AutoML、智能应用软件、AI云服务受追捧
中国互联网公司开源项目调查报告
2017年度30大最惊艳的开源机器学习项目
如何给非专业人士讲解什么是深度学习？
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了
卡内基梅隆大学：无监督深度学习基础
如何提升推荐系统的可解释性？京东智能推荐卖点技术全解析！
如何探索事物的客观规律？
世界银行：新冠危机表明G2P支付应向数字化发展
世界经济论坛：未来劳动力的5个特征

Gartner：中国低代码应用平台竞争格局报告

DinK — Fri, 16 Sep 2022 20:00:11 +0000

Gartner 预估，在 2021 年至 2026 年间，中国 LCAP 市场收入将以 25.4% 的复合年增长率加速增长，同时越来越多的本土企业和全球参与者的涌现使得中国 LCAP 企业竞争不断加速。

根据中国企业 IT 成熟度、产品丰富性以及业务战略的多样化等，Gartner 将 LCAP 领域厂商分为以下 4 类：

1、低代码平台厂商（LCAP):

面向专业开发人员或者业务人员等多种角色的低代码应用平台，例如 Mendix、OutSystems、得帆信息等，主要是在全球或者本地企业具有特定行业或特定领域吸引力的厂商，旨在采用最佳全球实践的成熟 IT 开发团队。这些低代码平台厂商具有强大的本地化定制支持能力，在平台开发过程中需要与领域专家或者企业 IT 进行联合协作，适用于服务高级别和中等级别 IT 成熟度企业。

2、无代码平台厂商（CADP) :

面向业务人员的无代码应用程序开发平台，来解决更多的功能性用例，比如表单或办公自动化应用程序。无代码平台厂商多用于初创企业，提供轻量级解决方案以满足相应的市场需求，因此更适合服务缺乏 IT 支持的中小型企业。

3、企业应用厂商（Enterprise Application ) :

包括 CRM、ERP 等应用程序，此类厂商通过从核心业务继承来的强大客户基础和关系优势进行相应领域的竞争，通过向 LCAP 提供打包业务功能和连接器来扩展产品，以支持不同范围的特定行业或特定领域的应用程序及解决方案。企业应用厂商还通过与低代码和无代码平台厂商进行合作，为客户进一步补充解决方案。

4、云服务提供商（Cloud Service Provider ）：

例如阿里巴巴、百度、微软等，这些大型云服务提供商寻求加强其云服务，以扩大销售。阿里巴巴、华和腾讯的目标是通过基于各自云平台的解决方案，发展合作伙伴的生态系统。

Gartner 认为，上述四类 LCAP 厂商虽然出于不同的动因进入此市场，但是都以满足客户快速应用实现为目标。Gartner 对四类厂商竞争性分析也为技术和服务提供商在中国规划 LCAP 产品战略提供了见解和建议，企业软件供应商和数据分析供应商也可以使用这些分析来评估企业 LCAP 市场中的各类供应商，以寻求合作伙伴，为企业提供数字化解决方案。

PDF版本将分享到199IT知识星球，扫描下面二维码即可！

更多阅读：
Gartner：2021-2023大型企业新兴技术路线图
Gartner：2013年移动应用开发平台魔力象限
Gartner：2015云计算IaaS魔力象限研究
Gartner ：2022年全球供应链企业TOP25
Gartner：预计2021年全球IT支出将达4.1万亿美元
Gartner：2020年Q4全球手机销量下滑5.4%
Gartner：2018年Q4全球智能手机销量为 4.084 亿部同比增长 0.1%
Gartner：科技行业迎来新一轮并购潮 2022年交易规模将刷新记录
Gartner： 2012年Q2西欧PC市场调查报告同比下降2.4%
Gartner：2023 年第Q1全球 PC 出货量为 5520 万台同比下降 30%
Gartner： 2022年NDR 新兴技术趋势
Gartner：预计2023年全球设备（个人电脑、平板电脑和手机）总出货量降至 17 亿台
Gartner：2015 年全球整体设备出货量增长率修正至 -1.0%
Gartner：2018年印度数据中心基础设施硬件支出达27亿美元
Gartner：2024年Q1个人电脑销量同比增长了5%

Transposit：2022年DevOps自动化状况报告

DinK — Sun, 04 Sep 2022 19:00:09 +0000

第二份年度行业调查涵盖了美国 300 多名员工的 IT 运营、DevOps 和站点可靠性工程 (SRE) 专业人员，他们分别担任副总裁、总监、经理和个人撰稿人。调查的目的是: 更好地了解 ITOps、DevOps 和 SRE 团队如何应对不断演变的现代栈、事件和问题解决的不断增长的需求，确定团队在解决事件和自动化障碍时面临的挑战评估组织实施自动化和 SRE 实践以实现高效运作的机会调查结果强调，随着组织继续采用混合工作环境和执行数字化转型举措，对自动化和 SRE 实践的需求日益增加。

PDF版本将分享到199IT知识星球，扫描下面二维码即可！

更多阅读：
Threat Stack：52%的企业为速度牺牲安全
谷歌：2024年DevOps状态报告 76%的开发者依赖AI工具完成任务
亚马逊云科技中国区域推出DevOps服务Amazon CodePipeline
消费者品牌报告：寻找真相
Hired：2022年软件工程师报告
战略计算：高性能计算以及量子计算在欧洲寻求技术力量中的作用
TTCSP：2019全球智库报告（270页）
欧盟委员会：2023年开放数据成熟度（ODM）
Postman：2022年API状况报告
计算高效深度学习报告：算法趋势和机遇
世界经济论坛报告：为数据市场开发设计良好的治理结构
复旦DMG：2021中国开放数林指数
良好的数据：共享数据并促进公众信任和意愿报告
SlashData：2020年第三季度开发者群体状态报告
德勤咨询：2021技术趋势报告

中国信通院：2022年二季度我国互联网上市企业运行情况

DinK — Sun, 21 Aug 2022 15:31:16 +0000

报告简介

日前，中国信息通信研究院政策与经济研究所互联网运行分析团队发布了《2022年二季度我国互联网上市企业运行情况》报告。

报告建立的互联网行业分类标准，借助Wind数据库构建了互联网上市企业运行监测研究框架，深入挖掘我国和全球互联网市场运行情况，为行业趋势预测、热点问题预判提供重要参考。

监测发现：

市值方面，2022年Q2我国上市互联网企业市值企稳回升。

在美国上市企业市值占比上升，Top10企业市值占总市值80.5%。

我国9家企业上榜全球互联网企业市值Top30。

营收方面，2022年Q1我国上市互联网企业营收增速达7.5%。

细分领域中，工具软件、医疗健康等业务实现高速增长。

全球方面，Top10企业营收增速大幅下滑，中国企业增速高于美国。

1

2

3

4

5

6

7

8

9

10

更多阅读：
中国信通院：2022年一季度我国互联网上市企业运行情况
中国信通院：2023年一季度我国互联网上市企业运行情况
中国信通院：2019年二季度我国互联网上市企业运行情况研究
中国信通院：2021年三季度我国互联网上市企业运行情况
中国信通院：2019年一季度我国互联网上市企业运行情况
中国信通院：数据资产运营能力成熟度模型
中国信通院：2021年第三期国内手机产品交互载体特性监测报告
中国信通院：2023年第一期国内手机产品交互载体特性监测报告
中国信通院：2022年三季度互联网投融资运行情况
中国信通院：2024年10月国内市场手机出货量2967.4万部同比增长1.8%
中国信通院：2024年9月国内市场手机出货量2537.1万部同比下降23.8%
中国信通院：2024年1至7月三家基础电信企业的移动数据流量业务收入为3817亿元
中国信通院：2024年5月国内手机市场运行分析报告
中国信通院：2024年数字乡村发展实践白皮书（附下载）
中国信通院：2024年算力中心冷板式液冷发展研究报告（附下载）

中国企业评价协会：2021中国新经济企业500强

DinK — Thu, 04 Aug 2022 15:22:34 +0000

日前，中国企业评价协会发布了“2021中国新经济企业500强”榜单。其中，腾讯、阿里巴巴、字节跳动位列前三。

更多阅读：
埃森哲是如何系统化做好数据分析
8种数据分析师必备方法
通往数据科学之路
想从事数据行业？你必须掌握这个最核心的技能
StateOfJS：2018年JavaScript 趋势报告
北大、微软亚洲研究院：高效的大规模图神经网络计算
机器学习的数学焦虑
腾讯QQ大数据：神盾推荐系统的超大规模参数学习探究
2017全球新闻传播新趋势
零售商制胜未来的十大关键投资领域
定性研究与定量研究的差别及其结合
数据科学新人需要知道的13个雷区
2020 年值得关注的十大技术趋势
如何探索事物的客观规律？
数据科学技能中，哪些是核心技能，哪些是热门/新兴技能？

StackOverflow：2022年度开发者调查报告

DinK — Thu, 23 Jun 2022 16:19:40 +0000

本次报告 StackOverflow 对全球 180 个国家和地区的开发人员进行了调查，与 2021 年一样，在调查中花费不到三分钟的受访者数据会被舍弃。报告涵盖了当下流行的技术，操作系统、云平台、数据库状况，工作就业、薪资情况等等内容，以下为报告部分摘录。

最流行语言：JavaScript 持续霸榜，Java 被挤出前五

今年，StackOverflow 针对三个不同的群体（所有受访者、专业开发人员、初学者）使用的流行技术进行了比较。

不出意外，所有受访者与专业开发者的调查数据显示，JavaScript连续十年成为最常用的编程语言。另外微软的TypeScript的排名一直在稳步提升，从 2020 年第 9 位上升至 2021 年的第 7 位，在今年则是挤下了 Java 升至第 5 位。Python 和 SQL 相比去年调换了各自的位置。

在初学者的调查中，情况稍有不同，HTML/CSS 等仍是初学者更好的入门选择，Javascript 和 Python 也是最受初学者欢迎的语言。

有趣的是，尽管 TypeScript 越来越受欢迎，但是人们对它的喜爱程度却下降了。Rust 仍是最受喜爱的编程语言，约有 87% 对开发者希望继续使用它，TypeScript 从去年的第 3 滑落到第 4。新兴语言 Elixir 升至第 2。

Web 框架：Node.js 与 React 并驾齐驱

从 2021 年开始，Stackoverflow 将Node.js从 “编程语言、脚本和标记语言” 类别转移到了更合适的 “Web 框架” 类别。在 58743 名受访者中，大约有 47% 的人使用 Node.js，43% 的人使用 React.js。同时 Node.js 和 React.js 是专业开发者和初学者最常使用的两种网络技术。

数据库：PostgreSQL 超越 Redis 成最受欢迎数据库

PostgreSQL 完成对 Redis 的超越，成为最受喜爱的数据库，结束了 Redis 长达 5 年的霸榜。

开发者工具：微软仍占主导地位

微软继续在开发者工具领域占据主导地位，Visual Studio Code 仍是多数开发者首选的 IDE。在 71010 名受访者中，大约有 74% 的人使用 Visual Studio Code，相比 2021 年的 71% 略有增加。Visual Studio 下降至 32% ，IntelliJ 与 Notepad++ 分列第 3 和第 4。

云平台：AWS 地位不可撼动

AWS 不仅仅是使用最多的云平台，也是最受喜爱的云平台。微软 Azure 和 Google Cloud 分列第 2 和第 3。

操作系统：排名变化不大

操作系统的排名几乎没有什么变化，Windows 在个人和专业用途方面胜出，但在专业用途方面，Linux 以 40% 的响应率超过 macOS 的 33% 位居第二。最值得注意的是适用于 Linux 的 Windows 子系统的增长，目前占个人使用的 14%，而 2021 年仅为 3%。

版本控制系统：Git 遥遥领先

StackOverflow 团队今年为版本控制系统引入了一个新类别，不出所料，Git 获得了高达 94% 的数据。如 StackOverflow 所说，没有其他技术能像 Git 这样被广泛使用，特别是在专业开发者中，而排名第二的 SVN 只有微不足道的 5%。但初学者中有 17% 的表示不使用版本控制系统。

Web 3 技术：结果呈三足鼎立姿态

调查显示，开发人员对于庄闲网络娱乐平台进入、加密货币和去中心化等感到困惑，大约有 32% 的人赞成，31% 的人反对，26% 表示无所谓，呈现三足鼎立态势。

工资变化：普遍得到提升

本次调查显示，自 2021 年以来，开发人员的工资普遍上涨，报告显示，平均工资中位数增加了约 23%，Flow、COBOL、Couchbase 和 IBM Cloud/Watson 增幅较多，其中以 COBOL 的提升最多，年薪中位数从 52340 美元跃升至 75592 美元。

在线完整报告：https://survey.stackoverflow.co/2022/

编译来自：infoq

更多阅读：
StackOverflow ：调查显示富裕国家流行 Python 和 C 语言
JetBrains ：2018 年中国开发者生态报告
2019年十大企业级编程语言榜单
SlashData：第16个年度开发者报告
SlashData：2018年Q2开发者报告
Stackoverflow：调查显示程序猿越老越吃香
2020年什么编程语言最受欢迎，待遇最高？
Bitmovin：2021年视频开发者报告
23年1月-23年8月StackOverflow提到ChatGPT帖子数（附原数据表）
StackOverflow：2015 年开发者调查报告
StackOverflow：调查显示苹果Swift成最受欢迎编程语言
云栖社区：2017中国开发者调查报告
TIOBE Index：iOS开发者带动编程语言排位变化 Objective-C 挤进排行榜前三
VisionMobile：2012年移动互联市场趋势，HTML5，新的花园围墙
VisionMobile：五种方法利用开发者延伸企业经营模式

世界经济论坛：未来劳动力的5个特征

DinK — Fri, 10 Jun 2022 03:20:22 +0000

在新冠疫情之后，企业领导者面临着在新环境中重新吸引员工队伍的挑战——这是一个比以往任何时候都更加数字化、机器人化、多样化和分散化的环境。处在这样的环境之中，落后者需要自担风险。

在为未来几十年的成功设定企业目标时，管理者需要了解员工的哪些信息？

新兴劳动力的五个特征

麻省理工斯隆工商管理学院的专家对新兴劳动力的五个特征及其重要程度进行了分析。

01、他们精通数据

数据驱动的公司能够增加收入，改善客户服务，提升运营效率，提高盈利能力。

麻省理工斯隆工商管理学院高级讲师 Miro Kazakoff 表示，“在一个拥有更多数据的世界中，拥有更多‘具备数据素养’人才的公司，将会脱颖而出”。Miro在麻省理工教授有关数据交流和数据说服力的课程。

要想实现这一点，我们需要“数据民主化”——即数据应该掌握在每个员工手中。

麻省理工学院信息系统研究中心的首席研究科学家 Barbara Wixom 表示：“每个人都将发挥作用，推动企业朝着新的发展方向（纳入包括数据在内的新工作方式）前进。数据是一项团体行动，整个组织都应该成为数据团队。”

美国专利商标局前主任 Michelle K. Lee（麻省理工88届本科，89届硕士）在今年早些时候的 EmTech 数字会议上发表了讲话，并陈述了如下观点——在企业层面，数据应被视为整个组织的资产，而不是创建或收集数据的各个部门的单独财产。

分析平台提供商 ThoughtSpot 的首席数据战略官 Cindi Howson 表示，利用数据需要协同合作。Howson 去年 8 月在麻省理工数据研讨会上的一次演讲中表示，一些公司将需要围绕数据和数据分析进行重组——这可能意味着企业需要将业务人员、技术人员和编程人员结合起来。

Howson 表示，想要成为最成功的的公司，管理者们需要将数据和数据分析嵌入到每个业务部门中，并实现一定程度的数据集中化。

02、他们乐于使用人工智能、机器学习和机器人

大多数专家都认为人工智能的未来意味着工作的未来。一项研究估计，机器人技术有望扩大，到2030年，全球机器人市场的价值将达到2600亿美元。

然而，这些领域的增长并非全无坏处。麻省理工经济学家Daron Acemgulu发现，美国 1000 名工人中每增加 1 个机器人，工资水平就会下降 0.42%，而就业人口比率则会下降 0.2 个百分点。

Acemoglu说：“如果我们忽视我们使用的人工智能类型的正确性，它可能会对收入不平等和社会凝聚力产生灾难性影响。”

尽管人们仍然担心人工智能可能取代工厂和仓库中的人类，但精明的雇主却将教育、医疗保健和职业培训等领域的人工智能作为人类劳动力的补充，而不是人类的替代品。

在制造业中，协作型机器人或补充型机器人都能够增强人类劳动力。麻省理工学院教授、机器人专家Julie Shah指出，通过机器人协作，工人可以将更简单的任务委托给机器人，重点放在更困难的工作上，从而提高生产力和工人的幸福感。

03、赋权新兴劳动力

根据麻省理工斯隆工商管理学院教授、工作与就业研究所所长 Thomas Kochan 的研究，工人们认为自己在工作中经历了相当大的“声量差距”（他们认为自己应该拥有的发言权或影响力，以及他们实际拥有的发言权或影响力之前存在着差距），这种差距广泛存在于工作报酬、工作条件和公平待遇等议题。

麻省理工斯隆工商管理学院人力资源与管理学教授 Paul Osterman 表示，这种情况不会持续太久。在全国范围内，低收入工人都在寻找他们的声音和目标，而雇主却置之不理——我只能这么说，风险自负。

Kochan教授促请雇主和雇员订立新的社会契约，使投资者能获得更高的回报，维持更高质素的职业生涯。这些条约的原则包括：

精心挑选具有强大技术和行为技能的员工。不断投资于员工的培训和发展。尊重工人权利。工人有能力适应不断变化的技术和工作要求。推行公平和透明的薪酬制度，确保雇员的收入随企业及整体经济表现的改善而增加。在影响员工未来的关键业务决策中为员工发声。

04、他们尊重、期待和理解“好工作”的价值

今天的雇员有自己的“好工作”标准：薪酬和福利好、工作时间稳定且可预测、职业道路、安全保障和公平公正的工作环境。

因此，雇主有需要再进一步，不单是培训或提高低薪雇员的工资。Osterman教授说，提高他们所做工作的质量对公司也很重要，影响到美国大约四分之一的成年人。

如果不这样做会怎么样？麻省理工学斯隆工商管理学院运营管理教授、《好工作战略：最聪明的公司如何投资于员工以降低成本并提高利润》一书的作者 Zeynep Ton 表示，对人员投资不足，会导致运营和客户服务出现问题，进而导致销售额下降，预算缩减。”

“这种恶性循环对投资者来说代价高昂，它伤害了客户；同时，它也表现出对工人的残忍——从工资到工作日程，从待遇到尊严。在这种恶性循环中，每个人都是输家。”

斯隆工商管理学院教授Erin Kellyand和明尼苏达大学社会学教授 Phyllis Moe在《超载：好工作是如何变糟的以及我们能做些什么》一书中呼吁重新考虑双边议程，将其作为一项行动计划，将员工的福利及企业优先事项和目标联系起来。

两位学者研究了一家公司，该公司推出了一项“重新设计工作”计划，其中包括家庭工作或混合时间表等选择。他们认为“重新设计工作”实施后，员工离职率在三年内下降了40%。

05、他们致力于促进公平和环保

伯克希尔银行（Berkshire bank）前执行副总裁、麻省理工学院斯隆商学院讲师Malia lazu表示，缩小技术差距和培养新兴劳动力的多样性至关重要。相关行动包括：让所有儿童学习早期教育课程（科学、技术、工程和数学）；使高等教育更加普及和公平；根据技能而非学位进行招聘；专业网络的评估和多样化。

去年，负责创新和包容性的副院长Fiona Murray和负责多样性、公平和包容性的副院长Ray Reagans详细介绍了麻省理工学院斯隆学院是如何改变机构文化的，希望其他组织可以从这个蓝图中学习。

他们写道：“我们正在解决学校对现有教师和学生招聘网络的依赖。为了改变这种状况，我们聘请了专业招聘公司，在招聘员工时采用更广泛、更多元化的网络。”

麻省理工斯隆商学院教授Emilio Castilla表示，公平必须超越招聘过程。他建议组织从公平和基于数据的角度解决促进和提高工资的问题。

工作与组织研究助理教授Jackson Lu发现，更普遍地说，具有多元文化经验的领导者是更好的沟通者，这种能力在领导跨国团队时尤其有效。

特别是对于年轻员工，公平的概念也适用于治理和环境问题。Cone communications在对千禧一代员工的研究中指出，如果没有强有力的企业社会责任政策，64%的千禧一代不会接受这份工作；83%的千禧一代将更加忠诚于帮助他们解决社会和环境问题的公司。

麻省理工斯隆商学院讲师兼可持续发展倡议高级副主任贝Bethany Patten表示，在过去15-20年中，从反对到积极接受环境实践的转变已成为常态。今天，公司的可持续发展绩效与公司的成功密切相关。

本文作者：Kara Baskin

记者，波士顿环球报

更多阅读：
世界经济论坛报告：为数据市场开发设计良好的治理结构
世界经济论坛：教育4.0报告
世界经济论坛：全球经济即将实现软着陆
世界经济论坛：如何建设一个经济上可行、普惠、安全的元宇宙
世界经济论坛：私营部门在生物多样性方面的角色和机遇
世界经济论坛报告：利用技术改善十亿人的生计
世界经济论坛：美国疫情后的经济表现如何？
世界经济论坛报告：未来的学校
世界经济论坛：释放制造业中人工智能的价值
世界经济论坛：中国与海湾地区在石油之外还有哪些合作空间？
世界经济论坛报告：关于中小企业未来就绪度的5项关键洞察
世界经济论坛：中国如何发展手机循环经济
世界经济论坛：加强AI生态系统促进社会创新
世界经济论坛：产业集群转型
世界经济论坛：东南亚净零转型的标签债券

Hired：2022年软件工程师报告

DinK — Sun, 29 May 2022 21:30:56 +0000

Hired对近37万次雇主和求职者互动的分析，以及2000多名软件工程师的调查采访。

平均年薪只涨了0.8%

加拿大的平均工资增长率最高，薪酬增幅为9.2%，其次是英国和美国，分别增长了2.7%和0.8%。

在美国，薪资排名最靠前的地区是：旧金山湾区、西雅图、纽约，其次是波士顿、洛杉矶、奥斯汀、亚特兰大、华盛顿特区、圣地亚哥、芝加哥等地。

其中，旧金山湾区、西雅图、纽约，两年排名均稳居前三。

薪酬排名前三的软件工程师分别是：安全工程师、研发工程师、自然语言处理（NLP）。

薪酬TOP10软件工程师还包括移动工程师、机器学习工程师、增强现实/虚拟现实工程师、数据库工程师、庄闲网络娱乐平台进入工程师、数据工程师。

对于时下相当热门的人工智能领域来说，NLP工程师和机器学习工程师都有不错的收入，分别是160227美元和158307美元。只不过相较于前一年，前者的年薪降低了4000多美元，后者增加了7000多。

Go的需求量最高，Python最受欢迎

比如Go就能给你带来1.8倍的面试机会。

在Hired的报告中，软件工程师们最喜欢的Top10编程语言依次是：Python、JavaScript、Java、TypeScript、C#、Go、HTML、C++、Ruby、C语言。

全栈工程师最受欢迎

PDF版本将分享到199IT知识星球，扫描下面二维码即可！

更多阅读：
Haystack Analytics：COVID-19对软件工程师的影响报告
Electric Cloud：调查显示软件工程师将20%时间浪费在等待上
Hired：科技行业女性和有色人种的收入仍然相对较低
报告2022年新加坡软件工程师薪资平均增长了7.6% 增幅赶不上该国房租涨幅
Hired：2019年度薪酬状况报告
Hired：2019年度薪酬状况报告
Hired：2019年全球科技业最鼓舞人心的领导者榜单
图解：数据科学家、数据工程师和软件工程师之间的区别
Chef：调查显示56%软件工程师都相信自己会变成百万富翁
Hired：报告显示在技术领域男性更有可能获得工作面试的机会
CareerCast：2012年职业排行榜：软件工程师高居榜首
消费者品牌报告：寻找真相
欧盟委员会：2023年开放数据成熟度（ODM）
上海数据交易所：2023年全球数据跨境流动规则全景图
Postman：2022年API状况报告

用Kano模型辅助产品功能决策

DinK — Fri, 27 May 2022 06:19:02 +0000

卡诺模型（Kano Model）是用于制定设计决策的工具。

通过根据功能对客户满意度的预期影响来对产品功能进行优先级排序，从而更好地进行设计决策。

卡诺模型有助于了解产品设计的功能是否会给用户带来预期的满意效果。

卡诺模型模型起源于1980年代的日本，它建立在三个核心原则之上：

1、产品依靠价值吸引客户

2、产品质量保证了客户的忠诚度

3、创新力是差异化和竞争市场所必需的

它由日本教授Noriaki Kano开发，根据客户对产品的要求或属性对功能进行分类，从而评估这些功能对用户满意度的影响。

Noriaki将客户对产品的要求或属性，分为必备属性（threshold），期望属性(performance)和魅力属性(excitement)。这些要素共同构成了产品的客户体验。

01 五个功能类别

1.必备属性（threshold）功能

Kano Model首先关注用户期望的基本功能。

例如在汽车上刹车或在酒店的淋浴间加热水。

这些功能是用户对该产品和服务的最低需求。

这些功能及服务并不能给用户带来足够的兴奋点。

从客户的角度来看，产品是否具有必备属性的功能会对满意度产生影响：

如果用户期望某种功能而该功能不起作用，他们会感到沮丧，但是如果这些功能满足了他们的期望值，用户也只会表示中立的满意度，不会有额外的惊喜。

而且，由于用户很少额外提出这些必备需求，所以这些功能需求有可能被忽略。

因此，在进行产品功能设计的时候，我们首先应该考虑如何保证用户的基本需求被满足。

2.期望属性（Performance）功能

具备期望属性的功能有两个特点：

1）由客户仔细评估并在购买时考虑到的功能

2）这些功能实施得越好，客户的满意度就越高

因此，这些功能对客户满意度具有线性影响。

当产品具备期望属性的功能，它们能大大提升用户满意度，相反，当这些期望功能未被实现时，用户满意度会降低。

与基本功能不同的是，用户往往热衷于在调研时提出这些他们期望的产品功能，因此这些功能不易被忽略。

3.魅力属性（Excitement）功能

魅力属性功能往往包含在意料之外的情况之中。

对于产品与服务，用户不会对具有魅力属性的功能抱有额外的预期。

因此，一旦该产品具有魅力属性功能时，会给用户带来额外的惊喜。

相反，如果产品不具备这些额外的功能，用户也并不会感到失望，因为他们从未抱有这些“不切实际的希望”。

如果产品及服务具备魅力属性功能，往往会给客户带来意想不到的超高满意度，并提升产品的口碑。

4.无差异属性（indifferent）功能

顾名思义，无差别属性功能不会引起客户的任何感觉。

请记住，此类功能的设计和开发可能无法以客户满意度的形式带来成比例的回报。

但是，并非总是如此。

有时，我们可以提供正确的功能来回答正确的问题，但却使它们过于复杂，以至于用户无法理解。

结果，他们对客户可能无动于衷，因为他们的价值对他们而言并不明显。

5.反向（reverse）属性功能

反向属性功能是指：对客户满意度具有相反影响的功能。

如果增加反向属性功能，用户的满意度会下降。

与此同时，此类功能会增加设计和开发成本。

因此，我们需要避免该类功能进入到产品开发阶段，不仅会损耗开发成本，且会降低客户满意度。

02 卡诺模型的应用

在设计团队中，产品的功能可能由任意的成员提出——您的团队，各种利益相关者和客户都会有不同的见解。

在这个时候，我们就需要运用卡诺模型对产品的功能进行筛选，保留必要功能，期望功能，争取魅力功能。

从而优化产品开发效率，提升客户满意度。

1.卡诺问卷（Kano Questionnaire）

要发现用户对产品功能的态度，我们可以根据两类问题来使用Kano问卷：

“产品拥有此功能，用户对此感觉如何？”

“如果产品不具备此功能，用户会感觉如何？”

这些问题不是开放性的，需要特定的答案。

用户可以选择以下几种回答：

我喜欢（I like it）

我期待(I expect it)

我是中立的(I’m neutral)

我可以忍受(I can tolerate it)

我不喜欢(I dislike it)

2.卡诺模型映射(kano model mapping)

a.卡诺模型评估表

其中，不同的回答结果分别代表：

A(attractive)-魅力属性

O (one dimensional)—期望属性

M(Must-have)-基本属性

I(Indifferent)-无差异属性

R(reverse) —反向属性

Q（questionable）–可疑结果

除了对于Kano属性归属的探讨，还可以通过对于功能属性归类的百分比，计算出Better-Worse系数，表示某功能可以增加满意或者消除很不喜欢的影响程度。

增加后的满意系数 Better/SI=（A+O）/(A+O+M+I)

消除后的不满意系数 Worse/DSI=-1*（O+M）/(A+O+M+I)

Better，可以被解读为增加后的满意系数。

better的数值通常为正，代表如果提供某种功能属性的话，用户满意度会提升。

正值越大/越接近1，表示对用户满意上的影响越大，用户满意度提升的影响效果越强，上升的也就更快。

Worse，则可以被叫做消除后的不满意系数。

其数值通常为负，代表如果不提供某种功能属性的话，用户的满意度会降低；值越负向/越接近-1，表示对用户不满意上的影响最大，满意度降低的影响效果越强，下降的越快。

因此，根据better-worse系数，对系数绝对分值较高的功能/服务需求应当优先实施。

根据better-worse系数值，将散点图划分为四个象限：

* 第一象限表示：better系数值高，worse系数绝对值也很高的情况。

落入这一象限的属性，称之为是期望属性。

即表示产品提供此功能，用户满意度会提升，当不提供此功能，用户满意度就会降低。

这是质量的竞争性属性，应尽力去满足用户的期望型需求。

提供用户喜爱的额外服务或产品功能，使其产品和服务优于竞争对手并有所不同，引导用户加强对本产品的良好印象。

* 第二象限表示：better系数值高，worse系数绝对值低的情况。

落入这一象限的属性，称之为是魅力属性。

即表示不提供此功能，用户满意度不会降低，但当提供此功能，用户满意度和忠诚度会有很大提升。

* 第三象限表示：better系数值低，worse系数绝对值也低的情况。

落入这一象限的属性，称之为是无差异属性。

即无论提供或不提供这些功能，用户满意度都不会有改变，这些功能点是用户并不在意的功能。

* 第四象限表示：better系数值低，worse系数绝对值高的情况。

落入这一象限的属性，称之为是必备属性。

即表示当产品提供此功能，用户满意度不会提升，当不提供此功能，用户满意度会大幅降低。

说明落入此象限的功能是最基本的功能，这些需求是用户认为我们有义务做到的事情。

同类型功能之间，建议优先考虑better系数较高，worse系数较低的。

在产品开发时，功能优先级的排序一般是：必备属性>期望属性>魅力属性>无差异属性。

b.数据分析

数据清洗→KANO二维属性归属分析→Better-Worse系数计算。

可以直接在Excel或SPSS中进行分析。

此外，还可以结合产品的一些数据支持进行结合分析，如用户画像，UV，转化率等。

c.数据解读

KANO模型是对功能/服务的优先级进行探索，具体情况还需要和业务方进行讨论，将Kano模型结果和业务实际情况结合讨论，确定可行的产品功能开发/优化的优先级顺序，以将调研结果落地实施。

03 总结

Kano模型可用于阐明客户对给定产品的要求，并帮助交付能够提高客户满意度的产品。

通过Kano问卷，我们可以从目标用户得到他们对产品需求的第一手答案。

这将会帮助我们确定产品功能设计的优先级，摈弃额外功能，节省开发成本，创造良好的用户体验。

作者 | 交互设计小助手

转自 | 美国交互设计资讯

题图 | 源自 pexels.com

更多阅读：
上海数据交易所：2023年全球数据跨境流动规则全景图
细分市场样本量不够时，如何得出靠谱的满意度分值？
36个顶级数据分析方法与模型！
世界银行：新冠危机表明G2P支付应向数字化发展
量表设计与分析实战
数据量持续飙升，信息与通信技术行业如何实现可持续发展？
在充满变革的世界中生存，企业必须采取的六项韧性战略
Postman：2022年API状况报告
ChatGPT-4 技术报告
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了
TikTok推荐算法详解：2023年如何实现病毒式传播
Stack Overflow：调查显示使用Linux的开发者数量要明显超过使用Mac
CarruthersandJackso：2022年数据成熟度指数
计算高效深度学习报告：算法趋势和机遇
欧盟委员会：2023年开放数据成熟度（ODM）

60种数据图表：使用场景和制作工具

DinK — Wed, 11 May 2022 14:59:14 +0000

01 点阵图

点阵图表 (Dot Matrix Chart) 以点为单位显示离散数据，每种颜色的点表示一个特定类别，并以矩阵形式组合在一起。

适合用来快速检视数据集中不同类别的分布和比例，并与其他数据集的分布和比例进行比较，让人更容易找出当中模式。

02 点数图

点数图 (Point & Figure Charts)也称为「P&F 图」，使用由 X 和 O 符号组成的一系列方格来显示特定资产的供需关系。

这种图表与时间无直接关系，主要集中看资产的过滤价格表现；它也不会显示交易量，其目的只是显示任何供需关系上的变化，称为「突破」(breakouts)。

推荐制作的工具有：rpnf。

03 弧线图

弧线图 (Arc Diagram) 是二维双轴图表以外另一种数据表达方式。

在弧线图中，节点将沿着 X轴放置，然后再利用弧线表示节点与节点之间的连接关系。

弧线图适合用来查找数据共同出现的情况。

但缺点是：不能如其他双轴图表般清楚显示节点之间的结构和连接，而且过多连接也会使图表难于阅读。

推荐的制作工具有：Protovis (编程语言)、D3 (编程语言)。

04 折线图

折线图用于在连续间隔或时间跨度上显示定量数值，最常用来显示趋势和关系。

此外，折线图也能给出某时间段内的「整体概览」，看看数据在这段时间内的发展情况。

推荐的制作工具有：MS Excel、Apple Numbers、D3、DataHero、Datamatic、Datawrapper、Envision.js、Google Charts、Google Docs、Infogr.am、OnlineChartTool.com、SlemmaVega。

05 平行坐标图

平行坐标图 (Parallel Coordinates Plots) 能显示多变量的数值数据，最适合用来比较同一时间的多个变量，并展示它们之间的关系。

当数据密集时，平行坐标图容易变得混乱、难以辨认。

解决办法是通过互动技术，突出显示所选定的一条或多条线，同时淡化所有其他线条，让我们能更集中研究感兴趣的部分，并滤除干扰数据。

推荐的制作工具有：D3、Protovis、RAWGraphs、The R Graph Gallery、Vega。

06 网络图

也称为「网络地图」或「节点链路图」，用来显示事物之间的关系类型。

这些节点通常是圆点或小圆圈，但也可以使用图标。

网络图主要有分别为「不定向」和「定向」两种。

不定向网络图仅显示实体之间的连接，而定向网络图则可显示连接是单向还是双向（通过小箭头）。

网络图数据容量有限，并且当节点太多时会形成类似「毛球」的图案，使人难以阅读。

推荐的制作工具有：Cytoscape、Datamatic、Gephi、Graph-tool、Mike Bostock’s Block、Plot.ly、sigmajs、Vega、ZoomCharts。

07 象形图

象形图 (Pictogram Chart) 也称为「象形统计图」，使用图案来显示数据量。

使用图案能克服语言、文化和教育水平方面的差异，是更具代表性的数据显示方法。

举个例子，如果数据是「5 辆车」，图中便会显示 5 个汽车图案。

推荐的制作工具有：Infogr.am、jChart。

08 直方图

直方图适合用来显示在连续间隔或特定时间段内的数据分布，有助于估计数值集中位置、上下限值以及确定是否存在差距或异常值；也可粗略显示概率分布。

推荐的制作工具有：MS Excel、Apple Numbers、D3、Datavisual、Google Docs、Infogr.am、OnlineChartTool.com、Protovis、R Graph Gallery、Slemma。

09 密度图

密度图 (Density Plot) 又称为「密度曲线图」，用于显示数据在连续时间段内的分布状况。

这种图表是直方图的变种，使用平滑曲线来绘制数值水平，从而得出更平滑的分布，并且它们不受所使用分组数量的影响，所以能更好地界定分布形状。

推荐的制作工具有：The R Graph Gallery、Cookbook for R。

10 人口金字塔

人口金字塔 (Population Pyramid) 也称为「年龄性别金字塔」，是彼此背靠背的一对直方图，显示所有年龄组和男女人口的分布情况。

人口金字塔最适合用来检测人口模式的变化或差异。

多个人口金字塔放在一起更可用于比较各国或不同群体之间的人口模式。

推荐制作的工具有：AnyChart、D3 (重叠版本)、Vega、ZingChart。

11 条形图

条形图 (Bar Chart) 也称为「棒形图」或「柱形图」，采用水平或垂直条形（柱形图）来比较不同类别的离散数值。

图表其中一条轴代表要比较的具体类别，另一条则用作离散数值的标尺。

条形图的离散数据是分类数据，针对的是单一类别中的数量多少，而不会显示数值在某时间段内的持续发展。

推荐的制作工具有：MS Excel & Apple Numbers、AnyChart、D3 、DataHero、Datamatic、Datawrapper、Google Charts、Google Docs、Infogr.am、OnlineChartTool.com、Protovis、Slemma、Vega、ZoomCharts。

12 多组条形图

多组条形图也称为「分组条形图」或「复式条形图」，是条形图的变种。

多组条形图通常用来将分组变量或类别与其他数据组进行比较，也可用来比较迷你直方图，每组内的每个条形将表示变量的显著间隔。

但缺点是，当有太多条形组合在一起时将难以阅读。

推荐的制作工具有：D3、DataHero、Datavisual、Datawrapper、Infogr.am、NVD3.js、R Graph Gallery、Slemma、Vega、Visage、ZoomCharts。

13 堆叠式条形图

跟多组条形图不同，堆叠式条形图 (Stacked Bar Graph) 将多个数据集的条形彼此重迭显示，适合用来显示大型类别如何细分为较小的类别，以及每部分与总量有什么关系。

堆叠式条形图共分成两种：

简单堆叠式条形图

将分段数值一个接一个地放置，条形的总值就是所有段值加在一起，适合用来比较每个分组/分段的总量。

100% 堆叠式条形图

会显示每组占总体的百分比，并按该组每个数值占整体的百分比来绘制，可用来显示每组中数量之间的相对差异。

推荐的制作工具有：MS Excel、Apple Numbers、AnyChart、Datavisual、Datawrapper、Infogr.am、Slemma、ZingChart、ZoomCharts。

14 不等宽柱状图

不等宽柱状图 (Marimekko Chart)也称为「马赛克图」，用来显示分类数据中一对变量之间的关系，原理类似双向的 100% 堆叠式条形图，但其中所有条形在数值/标尺轴上具有相等长度，并会被划分成段。

不等宽柱状图的主要缺点在于难以阅读，特别是当含有大量分段的时候。

此外，我们也很难准确地对每个分段进行比较，因为它们并非沿着共同基线排列在一起。

因此，不等宽柱状图较为适合提供数据概览。

推荐的制作工具有：D3。

15 面积图

面积图 (Area Graph) 是折线图的一种，但线下面的区域会由颜色或纹理填满。

跟折线图一样，面积图可显示某时间段内量化数值的变化和发展，最常用来显示趋势，而非表示具体数值。

两种较常用的面积图是分组式面积图和堆叠式面积图。

分组式面积图在相同的零轴开始，而堆叠式面积图则从先前数据系列的最后数据点开始。

推荐的制作工具有：MS Excel & Apple Numbers、D3、DataHero、Datamatic、Google Charts、Google Docs、Infogr.am、Protovis、Slemma、VegaOnlineChartTool.com。

16 比例面积图

非常适合用来比较数值和显示比例（尺寸、数量等），以便快速全面地了解数据的相对大小，而无需使用刻度。

比例面积图通常使用正方形或圆形。

常见技术错误是，使用长度来确定形状大小，而非计算形状中的空间面积，导致数值出现指数级的增长和减少。

推荐的制作工具有：D3、Datamatic、Datavisual、Infogr.am

17 堆叠式面积图

堆叠式面积图 (Stacked Area Graph) 的原理与简单面积图相同，但它能同时显示多个数据系列，每一个系列的开始点是先前数据系列的结束点。

堆叠式面积图使用区域面积来表示整数，因此不适用于负值。

总的来说，它们适合用来比较同一间隔内多个变量的变化。

推荐的制作工具有：MS Excel、Apple Numbers、DataHero、Datavisual、Google Docs、Infogr.am、OnlineChartTool、Slemma、Vega、ZingChart、ZoomCharts。

18 量化波形图

这种图表是堆叠式面积图的一种变体，但其数值并非沿着固定直线轴来绘制，而是围绕着不断变化的中心基线。

通过使用流动的有机形状，量化波形图 (Stream Graph) 可显示不同类别的数据随着时间的变化，这些有机形状有点像河流，因此量化波形图看起来相当美观。

在量化波形图中，每个波浪的形状大小都与每个类别中的数值成比例。

与波形图平行流动的轴用作时间刻度。

我们也可以用不同颜色区分每个类别，或者通过改变色彩来显示每个类别的附加定量值。

此外，当他们以互动形式展示时，比静态或印刷出来更有效率。

推荐的制作工具有：Bob Rudis’ GitHub、D3、infogr.am、JSFiddle、Lee Byron’s GitHub、NVD3.js、plotDB、Protovis、RAWGraphs、Stream graph generator。

19 雷达图

雷达图 (Radar Chart) 又称为「蜘蛛图」、「极地图」或「星图」，是用来比较多个定量变量的方法，可用于查看哪些变量具有相似数值，或者每个变量中有没有任何异常值。

此外，雷达图也可用于查看数据集中哪些变量得分较高/低，是显示性能表现的理想之选。

每个变量都具有自己的轴（从中心开始）。

所有的轴都以径向排列，彼此之间的距离相等，所有轴都有相同的刻度。

轴与轴之间的网格线通常只作指引用途。

每个变量数值会画在其所属轴线之上，数据集内的所有变量将连在一起形成一个多边形。

推荐的制作工具有：Amcharts、AnyChart、Google Docs、jChartFX、Online Chart Tool、ZingChart。

20 桑基图

桑基图 (Sankey Diagram) 用来显示流向和数量。

在每个流程阶段中，流向箭头或线可以组合在一起，或者往不同路径各自分开。

我们可用不同颜色来区分图表中的不同类别，或表示从一个阶段到另一个阶段的转换。

推荐的制作工具有：RAWGraphs、Sankey Diagram Generator、Sankey Diagrams Blog Software List、Sankey Flow Show、SankeyMATIC、Tamc。

21 平行集合图

平行集合图与桑基图类似，都显示流程和比例，但平行集合图不使用箭头，它们在每个所显示的线集 (line-set) 划分流程路径。

每个线集对应于一个维度/数据集，其数值/类别由该线集内的不同线段所表示。

每条线的宽度和流程路径，均由类别总数的比例份数所决定。

每条流程路径都可以用不同颜色代表，以显示和比较不同类别之间的分布。

推荐工具有：EagerEyes: ParallelSets、Jason Davies、Sankey Diagram Generator、SankeyMATIC。

22 误差线

误差线可以作为一项增强功能来显示数据变化，通常用于显示范围数据集中的标准偏差、标准误差、置信区间或最小/最大值。

误差线总是平行于定量标尺的轴线，可以是垂直或水平显示（取决于定量标尺是在 Y 轴还是 X 轴上）。

推荐的工具有：AnyChart、Highcharts、plotly、Vega。

23 树形结构图

树状结构图 (Treemap) 是一种利用嵌套式矩形显示层次结构的方法，同时通过面积大小显示每个类别的数量。

每个类别会获分配一个矩形区域，而其子类别则由嵌套在其中的小矩形代表。

当不同数量被分配到各个类别时，这些矩形的面积大小会与此数量成正比显示。

Ben Shneiderman 最初开发树状结构图用来在计算机上显示大量文件目录，而不会占用太多屏幕空间。

因此树状结构图是一种紧凑而且节省空间的层次结构显示方式，可让人快速了解结构。

推荐的制作工具有：AnyChart、D3、Datamatic、Google Charts、Google Docs、Infogr.am、jChartFX、RAWGraphs、Slemma、Vega、ZingChart。

24 圆堆积图

圆堆积 (Circle Packing) 也称为「圆形树结构图」，是树形结构图的变体，使用圆形（而非矩形）一层又一层地代表整个层次结构。

每个圆形的面积也可用来表示额外任意数值，如数量或文件大小。

我们也可用颜色将数据进行分类，或通过不同色调表示另一个变量。

虽然圆堆积看起来漂亮，但不及树形结构图般节省空间（因为圆圈内会有很多空白处），可是它实际上比树形结构图更能有效显示层次结构。

推荐的制作工具有：D3、D3 Zoomable、RAWGraphs。

25 饼图

饼形图 (Pie Chart) 把一个圆圈划分成不同比例的分段，以展示各个类别之间的比例。

饼形图适合用来快速展示数据比例分布，但主要缺点是：不能显示太多项目、通常需要图例说明、不能准确比较。

制作工具有很多：D3、DataHero、Datamatic、Datavisual、Datawrapper、Google Charts、 Google Docs、Infogr.am、Protovis、OnlineChartTool.com、Slemma、ZingChart…

26 圆环图

圆环图 (Donut Chart) 基本上就是饼形图，只是中间的部分被切掉。

不过，圆环图还是比饼形图略有优势，它让人不再只看「饼」的面积，反面更重视总体数值的变化：专注于阅读弧线的长度，而不是比较「饼与饼」之间的比例不同。

另外，圆环图中间的空白处更可以用来显示其他信息，因此更能节省空间。

推荐的制作工具有：D3、DataHero、Datamatic、Datavisual、Datawrapper、Google Docs、Infogr.am、Protovis、Slemma、Visage、ZingChart、ZoomCharts。

27 南丁格尔玫瑰图

南丁格尔玫瑰图 (Nightingale Rose Charts) 又称为「极面积图」。

统计学家和医学改革家佛罗伦萨‧南丁格尔 (Florence Nightingale) 曾在克里米亚战争期间使用这种图表传达士兵身亡情况，故得名。

在南丁格尔玫瑰图中，代表数值的是分段面积，而不是其半径。

推荐的制作工具有：Datamatic、Infogr.am。

28 旭日图

也称为「多层饼形图」或「径向树图」，通过一系列的圆环显示层次结构，再按不同类别节点进行切割。

推荐的制作工具有：Aculocity、D3、JavaScript InfoVis Toolkit、MS Office、Protovis、RAWGraphs、

29 螺旋图

也称为「时间系列螺旋图」，沿阿基米德螺旋线 (Archimedean spiral) 画上基于时间的数据。

图表从螺旋形的中心点开始往外发展。

螺旋图十分多变，可使用条形、线条或数据点，沿着螺旋路径显示。

螺旋图很适合用来显示大型数据集，通常显示长时间段内的数据趋势，因此能有效显示周期性的模式。

推荐的制作工具有：Arpit Narechania’s Block。

30 径向条形图

径向条形图是在极坐标系上绘制的条形图。

虽然看起来很美观，但径向条形图上条形的长度可能会被人误解。

推荐制作工具有：AnyChart。

31 径向柱图

也称为「圆形柱图」或「星图」。

这种图表使用同心圆网格来绘制条形图。

每个圆圈表示一个数值刻度，而径向分隔线则用作区分不同类别或间隔（如果是直方图）。

条形通常从中心点开始向外延伸，但也可以别处为起点以显示数值范围（如跨度图）。

此外，条形也可以如堆叠式条形图般堆叠起来。

推荐的制作工具有：jChartFX、Bokeh。

32 热图

热图 (Heatmap) 通过色彩变化来显示数据，当应用在表格时，热图适合用来交叉检查多变量的数据。

热图适用于显示多个变量之间的差异；显示当中任何模式；显示是否有彼此相似的变量；以及检测彼此之间是否存在任何相关性。

由于热图依赖颜色来表达数值，它比较适合用来显示广泛数值数据，因为要准确地指出色调之间的差异始终有难度，也较难从中提取特定数据点（除非在单元格中加入原始数据）。

推荐的制作工具有：MS Excel、Apple Numbers、Amcharts、AnyChart、Highcharts、jChartFX、plot.ly、R Graph、Zing Chart。

33 散点图

散点图 (Scatterplot) 也称为「点图」、「散布图」或「X-Y 点图」，用来显示两个变量的数值（每个轴上显示一个变量），并检测两个变量之间的关系或相关性是否存在。

图表中可加入直线或曲线来辅助分析，并显示当所有数据点凝聚成单行时的模样，通常称为「最佳拟合线」或「趋势线」。

如您有一对数值数据，可使用散点图来查看其中一个变量是否在影响着另一个变量。

可是请记住，相关性并非因果关系，也有可能存在另一个变量在影响着结果。

推荐的制作工具有：MS Excel、Apple Numbers、D3、DataHero、Datavisual、Google Charts、Google Docs、Infogr.am、OnlineChartTool.com、Vega、Visage、ZingChart。

34 气泡图

气泡图是一种包含多个变量的图表，结合了散点图和比例面积图，圆圈大小需要按照圆的面积来绘制，而非其半径或直径。

通过利用定位和比例，气泡图通常用来比较和显示已标记/已分类的圆圈之间的关系。

可是，过多气泡会使图表难以阅读，但我们可以在图表中加入交互性功能来解决这个问题（点击或把鼠标悬停在气泡上以显示隐藏信息），也可选择重组或筛选分组类别。

推荐制作的工具有：AnyChart、Google Charts、Google Docs、Infogr.am、jChartFX、Online Chart Tool、RAWGraphs、Slemma、Visage、ZingChart

35 气泡地形图

在这种数据地图中，指定地理区域上方会显示圆形图案，圆形面积与其在数据集中的数值会成正比。

气泡地图适合用来比较不同地理区域之间的比例，而不会受区域面积的影响。

但气泡地图的主要缺点在于：过大的气泡可能会与地图上其他气泡或区域出现重迭。

推荐的制作工具有：AnyChart、CARTO、Datavisual、Khartis、Google docs、Polymaps、ZoomCharts。

36 地区分布图

地区分布图通常用来显示不同区域与数据变量之间的关系，并把所显示位置的数值变化或模式进行可视化处理。

我们在地图上每个区域以不同深浅度的颜色表示数据变量，例如从一种颜色渐变成另一种颜色、单色调渐进、从透明到不透明、从光到暗，甚至动用整个色谱。

但缺点是无法准确读取或比较地图中的数值。

此外，较大的地区会比较小区域更加显眼，影响读者对数值的感知。

绘制地区分布图时的常见错误：对原始数据值（例如人口）进行运算，而不是使用归一化值（例：计算每平方公里的人口）。

推荐的制作工具有：amMaps、D3、d3.geomap、Google Charts、Google Docs、DataHero、Datamatic、Datawrapper、Infogr.am、Kartograph、Polymaps、Slemma、Target Map.com、Vega。

37 点示地图

点示地图 (Dot Map) 也称为「点示分布图」或「点示密度图」。

在地理区域上放置相等大小的圆点，旨在检测该地域上的空间布局或数据分布。

点示地图共有两种：

一对一（每点代表单一计数或一件物件）和一对多（每点表示一个特定单位，例如 1 点 = 10棵树）。

点示地图非常适合用来查看物件在某地域内的分布状况和模式，而且容易掌握，能提供数据概览。

推荐的制作工具有：AnyChart、CARTO、Datavisual、Infogr.am、Khartis、mbostock’s blocks、R Graph Gallery、ZoomCharts。

38 连接地图

连接地图 (Connection Map) 是用直线或曲线连接地图上不同地点的一种图表。

连接地图非常适合用来显示地理连接和关系，也可以通过研究连接地图上的连接分布或集中程度来显示空间格局。

推荐的制作工具是：AnyChart、ECharts、Javascript Maps、Curved、Straight、ZoomCharts。

39 流向地图

流向地图 (Flow Map) 在地图上显示信息或物体从一个位置到另一个位置的移动及其数量，通常用来显示人物、动物和产品的迁移数据。

单一流向线所代表的移动规模或数量由其粗幼度表示，有助显示迁移活动的地理分布。

推荐的制作工具有：AnyChart。

40 甘特图

甘特图 (Gantt Chart) 通常用作项目管理的组织工具，显示活动（或任务）列表和持续时间，也显示每项活动何时开始和结束。

甘特图适合用来规划和估计整个项目的所需时间，也可显示相互重迭的活动。

推荐的制作工具有：AnyChart、Amcharts、DHTMLX、GanttPro、Google Charts、Redbooth、RAWGraphs、Smartsheet。

41 箱形图

箱形图又称为「盒须图」或「箱线图」，能方便显示数字数据组的四分位数，可以垂直或水平的形式出现。

从盒子两端延伸出来的线条称为「晶须」(whiskers)，用来表示上、下四分位数以外的变量。

异常值 (Outliers) 有时会以与晶须处于同一水平的单一数据点表示。

箱形图通常用于描述性统计，是以图形方式快速查看一个或多个数据集的好方法。

推荐的制作工具有：AnyChart、D3、Protovis、R AWGraphs、R Graph Gallery、ZingChart。

42 子弹图

子弹图 (Bullet Graph) 的功能类似于条形图，但加入更多视像元素，提供更多补充信息。

子弹图最初由 Stephen Few 开发，用来取代仪表盘上如里程表或时速表这类图形仪表，解决显示信息不足的问题，而且能有效节省空间，更可除掉仪表盘上一些不必要的东西。

推荐的制作工具有：am chartsAnyChart、D3、DimpleJS、IgniteUI、jChartFX 、moderndata.plot.ly、NVD3.js、Protovis。

43 蜡烛图

又名「日本K线图」，通常用来显示和分析证券、衍生工具、外汇货币、股票、债券等商品随着时间的价格变动。

蜡烛图通过使用烛台式的符号来显示多种价格信息，例如开盘价、收盘价、最高价和最低价，每个代表单一时间段（每分钟、每小时、每天或每月）的交易活动。

每个烛台符号沿着 X 轴上的时间刻度绘制，显示随着时间推移的交易活动。

但是，蜡烛图只能显示开盘价和收盘价之间的关系，而非两者之间所发生的事件，因此也无法用来解释交易波动的缘由。

推荐的制作工具有：Aaron Beppu’s Block、amcharts、AnyChart、CanvasJS、ECharts、Google Chart、Google Docs、infogr.am、plotly、Protovis、ZingChart、ZoomCharts

44 跨度图

也称为「范围条形/柱形图」或「浮动条形图」，用来显示数据集内最小值和最大值之间的范围，适合用来比较范围，尤其是已分类的范围。

跨度图只集中显示极端数值，不提供任何关于最小值和最大值之间的数值、整体平均值或数据分布等其他信息。

推荐制作工具有：AnyChart、D3, Arpit Narechania’s Block、ZingChart。

45 卡吉图

卡吉图 (Kagi Chart)能通过一系列线段显示价格表现，进而显示特定资产的一般供需水平。

由于与时间无直接关系，它能更清晰地显示重要的价格走势。

推荐的制作工具有：D3、Arpit Narechania’s Block、FusionCharts、Ragu Ramaswamy’s Block、Wolfram Mathematica、

46 美国线

美国线 (Open-high-low-close Charts) 也称为「OHLC 图」或「价格图」，通常用作交易工具，显示和分析证券、货币、股票、债券等商品随时间的价格变动。

推荐的制作工具有：Amcharts、AnyChart、ByteMuse.com、CanvasJS、jChartFX、Plotly、vaadin、Zing Chart。

47 弦图

弦图 (Chord Diagram) 可以显示不同实体之间的相互关系和彼此共享的一些共通之处，因此这种图表非常适合用来比较数据集或不同数据组之间的相似性。

节点围绕着圆周分布，点与点之间以弧线或贝塞尔曲线彼此连接以显示当中关系，然后通过每个圆弧的大小比例再给每个连接分配数值。

此外，也可以用颜色将数据分成不同类别，有助于进行比较和区分。

推荐的制作工具有：Circos、D3、R Graph Gallery、ZingChart。

48 非彩带弦图

非彩带弦图 (Non-ribbon Chord Diagram) 是弦图的一个精简版本，仅显示节点和连接线，更加强调数据之间的连接关系。

推荐的制作工具有：Circos。

49 树形图

树形图 (Tree Diagram) 也称为「组织图」或「链路图」，是通过树状结构表示层次结构的一种方式。

其结构通常由没有上级/父级成员的元素开始（根节点），然后加入节点，再用线连在一起，称为分支，表示成员之间的关系和连接。最后是枝叶节点（或称为末端节点），是没有子节点的成员。

树形图通常用于表示家庭关系和血统、分类学、进化科学、计算机科学与数学等，也是企业和组织的管理工具。

推荐的工具有：Datamatic、Google Charts、Google Docs、giffy、Zoomcharts。

50 流程图

流程图 (Flow Chart) 使用一系列相互连接的符号绘制出整个过程，从而解释复杂和/或抽象的过程、系统、概念或算法的运作模式。

不同符号代表不同意思，每种都具有各自的特定形状。

流程图以弧形矩形表示流程的开始和结束；线段或箭头用于显示从一个步骤到另一个步骤的方向或流程；简单的指令或动作用矩形来表示，而当需要作出决定时，则使用钻石形状。

推荐的制作工具有：asciiflow、Creately、draw.io、gliffy、GoJS、Google Drawings、LucidChart、MS Visio。

51脑力激荡图

脑力激荡图也称为「心智图」，可以将相关想法、单词、图像和概念联合在一起。

脑力激荡图经常在项目初期使用，用来产生想法、查找关联、分类想法、组织信息、显示结构和一般学习。

推荐的制作工具有：Coggle、MindMup

52 记数符号图表

记数符号图表 (Tally Chart) 既是记录工具，也可通过使用标记数字系统来显示数据分布频率。

在绘制记数符号图表时，将类别、数值或间隔放置在同一个轴或列（通常为 Y 轴或左侧第一列）上。每当出现数值时，在相应的列或行中添加记数符号。

完成收集所有数据后，把所有标记加起来并把总数写在下一列或下一行中，最终结果类似于直方图。

推荐的制作工具有：纸和笔。

53 日历图

人类曾开发出各种日历系统作为组织工具，帮助我们提前做好计划。

我们也把日历当作可视化工具，适用于显示不同时间段的活动事件的组织情况。

今天我们最常用的日历形式是公历，每个月份的月历由七个垂直列组成（代表每周七天），另有约五至六行以水平方式代表星期。

可是，日历格式并没有严格规定，所以市面上有各式各样不同的设计，只要能以时间顺序显示日期或时间单位便可。

推荐的制作工具有：TimeandDate.com、Calendar Creator、ZingChart

54 时间线

时间线 (Timeline) 是以时间顺序显示一系列事件的图象化方式，主要功能是传达时间相关信息，用于分析或呈现历史故事。

如果是按比例绘制的时间线，我们可以通过查看不同事件之间的时间间隔，了解事件发生的时间或即将在何时发生，从中查找时间段内的事件是否遵循任何模式，或者事件在该时间段内如何分布。

有时时间线会与图表相互结合，显示定量数据随时间的变化。

推荐的制作工具有：Google Charts、Timeline.js、Tiki-Toki、Vega。

55 时间表

时间表 (Timetable) 可用作预定事件、任务和行动的引用和管理工具。

使用表格按时间顺序和/或字母顺序组织数据，能有助用户快速进行引用。

56 象形图

说明图旨在使用笔记、标签和图例来解释说明所显示的图像，以便解释概念或方法、描述物件或场所、显示事情的运作变化或帮助了解所显示的主题。

所使用的图像可以是象征性、图像化或真实相片。

57 茎叶图

茎叶图 (Stem & Leaf Plots) 又称为「枝叶图」，是一种按位数 (place value)组织数据的方法，可用来显示数据分布。

不变的位数由小至大、由上至下显示在中间的「茎」（通常是以十为单位），每个位数之内的数据则会成为「叶」并横向延伸。

除了向读者快速提供数据分布信息之外，茎叶图也可用于突出异常值和查找模式。

如果您有两个数据集，则可使用背对背或双重茎叶图来比较两者。

推荐的制作工具有：CalculatorSoup、Easycalculation.com、Protovis。

58 文氏图

文氏图 (Venn Diagram) 也称为「集合图」，显示集与集之间所有可能存在的逻辑关系，每个集通常以一个圆圈表示。

每个集都是一组具有共同之处的物件或数据，当多个圆圈（集）相互重迭时，称为交集 (intersection)，里面的数据同时具有重迭集中的所有属性。

推荐工具有：Datamatic、gliffy、R Graph Gallery、ZingChart。

59 小提琴图

小提琴图 (Violin Plot) 结合了箱形图和密度图的特征，主要用来显示数据的分布形状。

中间的黑色粗条表示四分位数范围，从其延伸的幼细黑线代表 95% 置信区间，而白点则为中位数。

推荐的制作工具有：The R Graph Gallery、seaborn、z-m-k’s Blocks。

60 字云图

字云图 (Word Cloud) 也称为「标签云图」、「词云」等，每个此的大小与其出现频率成正比，以此显示不同单词在给定文本中的出现频率，然后将所有的字词排在一起，形成云状图案。

在字云图上使用颜色通常都是毫无意义的，主要是为了美观，但我们可以用颜色对单词进行分类。

推荐的制作工具有：D3、Datamatic、Infogr.am、R Graph Gallery、Vega、Visage、Wordclouds.com、Wordle、ZingChart。

源自 | 数据分析1480

转自 | 大数据科学

题图 | 源自pixabay.com

更多阅读：
Stack Overflow：2020 年开发人员调查
Stack Overflow：2019全球编程语言高薪排行榜
2019年十大企业级编程语言榜单
如何全面解析数据并创造数据故事
北大、微软亚洲研究院：高效的大规模图神经网络计算
Stack Overflow：调查显示使用Linux的开发者数量要明显超过使用Mac
StackOverflow ：调查显示富裕国家流行 Python 和 C 语言
数据变现独角兽-10种商业模式浅析
2018年Go 语言调查报告
2020年什么编程语言最受欢迎，待遇最高？
Omdia: 苹果的显示屏技术路线图2021年 – 2023年
阿尔茨海默病认知衰退的“元凶”被发现！耶鲁大学：脑细胞突触是关键！
未来五年五大商业趋势
Amazon和Netflix的个性化推荐是如何工作的？
2019年开源数据库报告：热门数据库、云基础设施分析与混合持久化趋势

如何提升推荐系统的可解释性？京东智能推荐卖点技术全解析！

DinK — Sun, 08 May 2022 16:14:40 +0000

京东智能商客之推荐卖点是基于 NLP 的产品，目前已广泛地助力和赋能于京东商城的各个平台。今天和大家分享一下自然语言处理如何在工业界落地实现。主要围绕以下 5 个方面展开：

推荐卖点技术背景

架构描述

核心 AI 技术

模型研发与实践

产品落地与回报

01、推荐卖点技术背景

1. 什么是推荐卖点，用推荐卖点能做什么事情？

推荐卖点是一种商品文案，或者称之为对商品的描述。商品文案，即电商平台中在线利用文字来描述商品的特征、特色点、详细信息，以辅助商家吸引顾客、促进商品销售，丰富商品的推荐理由。

商品文案有多种类型，不同类型的商品文案有着不同的功能，主要包括长文案（商品标题和商品描述），短文案（卖点）。

商品标题是一种综合性描述信息的文字，在有限的字数内，信息完整且客观地阐述商品，例如描述商品的品牌、是什么物品、主要功能等。

商品描述类似于商品广告，可围绕某些特色点进行宣传，引导用户购买该商品。

商品卖点的目标是突出商品的特色，通常在 8 个字以内，用于丰富商品推荐理由。

传统的商品文案多是由人工撰写，费时费力，撰写速度也很难跟上新商品的迭代速度。随着自然语言处理飞速地迭代和发展，尤其是深度语言生成模型，通过商品文案自动化生成技术，可以帮助商铺的店家以又快又省的方式进行商品宣传。

2. 目前常用的文案生产技术

商品文案自动写作属于自然语言处理领域中 text summarization 或者 natural language generation 的问题。

输入是长文本形式，包括商品属性、商品详细描述、买家评论等，输出是目标商品文案，包括商品描述、商品标题、商品卖点等。

目前有以下几种文案生成模型的方法，如 Template-based generation、Deep neural network-based generation、Knowledge-based incorporate、Pattern-controlled 等。

Template-based generation：一种较为传统的方式，需要预先定义某类别商品的属性，然后进行商品的属性值提取，最后基于提取的商品属性做文案生成；

Deep neural network-based generation：随着深度学习的出现，开始使用深度生成模型做自然语言的生成，大多依靠的是典型的编码器和解码器结构，基于 transformer 等特征处理技术；

Knowledge-based incorporate：引入知识图谱和知识库等技术使生成的文案信息链更全，即使输入的信息不够完整，也可进行知识整合；

Pattern-controlled：该种方式能够控制生成文案的过程，比如可以控制生成的主题、重点、语言风格，以及文案长度等。

以上这几种方式主要针对长文本文案生成，目前还没有针对卖点短文案的生成技术。

3. 推荐卖点价值

卖点文案生成的核心是服务于推荐系统，可增加推荐系统的可解释性，向用户展示推荐理由；结合用户喜好进行个性化推荐，从而传达准确信息供用户决策；向用户展示特色优势如服务和优惠等信息，可以提升用户的满意度，促进点击行为，同时增加用户对平台的信任度以及延长停留时间。

4. 卖点短文案自动生成技术

通过卖点自动化生成技术，避免人工文案写作，节约了时间成本；同时，卖点短文案不需要复杂的文学表达，比较适合采用自动化文案生成的方式。为了生成高质量的卖点文案，需要做到以下几点：

能够捕捉到内容的特色点，足够吸睛；

文案长度有限，需要简短精巧，但包含重要信息；

能够实现个性化分发，针对不同的目标用户展示不同的推荐理由。

02、架构描述

接下来通过介绍推荐卖点在推荐系统中的架构设计来介绍卖点如何与推荐系统结合发挥作用。

首先是当请求被初始化时，混合模块（SOA）会触发前端（Broadway）收集用户信息、商品信息等数据；基于收集到的客户资料，Index 模块作为 Broadway 和后端推荐的中转站，将信息提供给推荐模块；AI-flow 是推荐模块，执行召回和排序，以获取推荐候选产品，根据产品的库存和受欢迎程度进行筛选，最后确定要推荐的产品同时将请求发送给卖点模块，进行卖点的提取和个性化分发。

SOA/Mixer：协调广告、推荐和分配应用的混合模块 / 平台。所有请求最初都发送到这个混合模块，然后分配给每个应用程序。

Broadway：推荐系统的前端。收集客户的资料信息和购买历史，以及产品信息（包括属性、评论、描述、和图像等），这些数据被发送到索引模块。

Index：作为 broadway 和后端推荐部分的中转站。Index 准备好来自 broadway 的输入数据并转发给推荐模块，并从 AI-flow 和 filtering 模块接收推荐产品及卖点。

AI-flow（召回）：推荐模块中负责召回特征的关键组件。这里用到的特征都是离线提取出来的，召回是 AI-flow 的第一步，它根据用户和产品特征从海量库存中检索出少量可能感兴趣的物品，然后将他们传递给排序模块。

AI-flow（排序）：这里我们采用非线性和线性的排序方法。GBDT 用于非线性排序，可以更好地从特征中捕捉非线性模式，逻辑回归用于线性特征排序；为了更好地捕捉动态数据分布，我们实施一种基于 FTRL（McMahan2011）的在线学习策略来处理在线数据流。

Intelligent Online Product Selling Point Extraction (IOPSE) ：用于产生卖点以支持产品推荐。具体来说，给定一个推荐商品，从卖点池中提取几个优质的卖点，然后根据目标客户的个人资料，通过个性化分配算法选择最适合的卖点，然后将客户 ID、产品推荐和卖点发送回前端进行展示。

03、核心 AI 技术

1. 智能卖点创作的技术流程

整个智能卖点创作模块分为两个部分：

卖点短文案的提取和生成，采用基于商品详情和用户评论的文本生成技术；

个性化卖点分发，采用基于用户画像的用户个性化卖点分发技术。

以石榴这个商品为例，首先获取卖点素材，比如石榴的属性表，商品标题，以及采用 OCR 文字识别技术从商品详情图片中提取的文字，买家的正向评论等；然后将获取的卖点素材输入到卖点提取和生产模块中，生成针对一个商品的多个优质卖点；在个性化分配模块中，结合客户兴趣给不同的用户进行不同的推荐卖点展示。

2. 卖点短文案的提取和生成

卖点短文案的提取和生成，主要包括卖点粗筛、卖点生成、卖点精筛这三个步骤。

① 卖点粗筛

目标是从商品文案素材库里（商详页 OCR，用户评论，达人文案等）提取初始卖点候选，主要基于 self-adversarialBERT 对文案素材（句子或者短语）进行打分，然后根据打分排序并选择 top-K 作为卖点生成素材，大范围地过滤掉与商品无实质性意义的短语或者句子。

在素材文案评分中，将人工写作的卖点（达人文案）定义为正样本，将用户评论或者商详页 OCR 等作为负样本，使用自对抗的 BERT 模型做分类训练。在实践的过程中，当句子输入模型之后，获取 Bert 模型的 softmax 层输出概率，表示该句子被分到高质量的概率，根据句子的概率进行排序。这里简单介绍一下 Bert 模型。它是基于 Transformer 的双向预训练语言模型，在预训练阶段有 Mask 语言模型和预测句子关系两个任务，在此基础上进行 finetune 从而完成文本相似度计算、文本分类、序列标注、问答类问题等。文本输入表征包括了语义表征、segment 表征（分割信息表征）、位置表征；最后将 softmax 层输出作为该文案的质量评分：

② 卖点生成

由于粗筛中选出的文案素材口语化、不简练，因此我们接下来依据 Transformer 和 Pointer generator 的文本生成模型基于已经筛选出的文案素材库进行卖点文案生成。

Transformer 是用于学习输入文本的表征向量，它的重要组成部分包括自注意力机制（multi-head self-attention）和位置编码 (positional embedding)。自注意力机制本质上会对句子中的每个字构建全连接的图，通过计算 attention 学习每个字的表征向量，考虑到句子中所有的字对该字的影响。位置表征中，每一个位置点都有一个编码，是一个周期函数。

将上一步获取到表征进行 Decoder 生成卖点文案。Pointer generator 与其他的语言生产模型的区别在于，其不仅可以从词库挑选要学习到的字，还可以从输入的句子中挑选字。首先分别计算从词库中选择字和从输入中选择字的概率，然后再将词库中的概率分布和输入中的概率分布结合获得最终的概率分布。

③卖点精筛

卖点精筛模型区别于粗筛模型，将生成后的卖点文案，输入到一种递归锐化的 BERT 模型中进行训练。具体来说，首先将达人卖点写作当做正样本，素材库文案 / 初始模型生成文案当做负样本，输入到 Bert 初始分类模型中进行训练；然后将前一步生成的排名靠前的高质量文案作为负样本，达人卖点文案作为正样本，再次输入到 Bert 模型中做优化训练，循环多次获得最终的高质量卖点文案。

3. 个性化分发

接下来，我们介绍基于用户画像的个性化分发。每一个产品有不同的特色点，可以产生多个高质量的卖点，我们希望根据客户的兴趣点为其分配最有吸引力的卖点，以引导用户购买该商品。个性化分发分为两个步骤，首先生成卖点文案的表征向量和用户兴趣的表征向量，然后匹配卖点表征向量和用户表征向量，从而实现卖点个性化分发。

用户兴趣嵌入表征：通过 work2vector 方式获得产品词里每个字的 word embedding，将产品词中每个字的表征向量求和获取该产品词的表征，结合用户对每个产品词的喜好权重，然后对所有的产品词进行加权平均，获取用户对产品词的喜好的表征向量。

卖点文案的特征向量：通过 work2vector 方式获得卖点文案里每个字的 word embedding，然后对卖点文案中每个字的表征向量求和得到卖点文案特征向量。

个性化分发：通过计算用户兴趣表征向量和卖点文案表征向量的相似度来实现。可用的向量相似度计算的主要方法有余弦相似度、皮尔森系数、欧式距离和基于 Kernel 的相似度计算等。

04、模型研发与实践

1. 文案输出素材选择

在模型开发的过程中，首先需要探索不同的卖点文案资源库对生成高质量卖点的影响。候选的卖点素材库除了基本的商品描述外，还有买家评论和商详页 OCR 提取文字。为了探索这两种素材来源的优劣，我们对比了这两种文案（买家评论、商详页 OCR 提取内容）在 5 周内对指标提升的影响。从下图中可以观察到，买家评论和商详页 OCR 提取内容均可以提高与销售相关的性能指标。特别地，买家评论素材源可将 UV 提升 7% 左右，原因可能是其他用户的评论更能激发用户的兴趣，即所谓的买家更了解买家；此外，商详页 OCR 素材源可能会带来 1% 左右的提升；这些数据告诉我们可以将这两个素材库作为初始素材库。

2. 在线卖点文案质量监管

在实践过程中，我们希望能够实时地检测和过滤历史数据中对购买行为产生负面影响的低质量卖点或者对购买行为产生促进作用的高质量卖点。由于人工很难综合评估卖点是否对客户有吸引力，所以我们希望通过业务端的反馈作为指标来帮助我们去识别高质量卖点或低质量卖点，在此基础上，可以过滤掉低质量卖点，同时通过实际生产过程中的高质量卖点来重新优化模型。对于在线监控模块，我们需要通过与业务相关的指标（曝光率、点击价值、客户停留时间等）计算相对提升指标。

3. 离线卖点文案模型优化

对于离线优化模块，我们发现经过业务反馈过滤出的低质量卖点和高品质卖点可以使模型对高质量卖点文案选择更加敏感，起到优化模型的作用。在实践过程中，我们将相对提升指标大于 30% 并且基础点击 PV > 5% 的短文案作为高质量正样本，剩余文案作为负样本，然后输入到 BERT 模型中进行 finetune，重新打分排序获取高质量文案；同时我们将基础点击 PV 大于对比点击 PV 或者对比点击 PV 小于某个阈值的短文案作为低品质负样本，剩余文案作为正样本，然后输入到 BERT 模型中进行 finetune, 从而打分排序同时过滤低评分的卖点文案。

05、产品落地与回报

当目前为止，我们已经完成了亿级别的卖点挖掘和生产，覆盖了上亿的 SKU，62 个品类（包括家电、运动、生鲜、处方药等）；同时，生成的卖点是多样化的，包括商品特色类、特色服务类、名人同款类、用户行为类、用户评价类、特色人群类，旨在能够挖掘商品特点以助力体验提升或者引入用户数据激发从众行为；另一方面，从销售指标上看，卖点技术可以有效帮助提升商品点击率（+2%）和停留时长（0.32%+），日常效果正向促进活动页赋能；基于 LBS 信息建设特色人群卖点（消费升级或者同城偏好），效果正向，目前在赋能极速版助力下沉市场用户运营。此外，推荐卖点也广泛地赋能于主站、京喜、极速版、通天塔活动页等多个应用场景。

来自： DataFunTalk

更多阅读：
数据科学家年薪12万美元算高吗？我爬取近6年三千份数据后发现了这些秘密
2016深度学习重大进展：从无监督学习到生成对抗网络
2021年面向 Go 开发者的调查
2019 年 AI 技术炒作周期：AutoML、智能应用软件、AI云服务受追捧
开启数据科学职业生涯的8个基本技巧
Uber如何处理和使用乘客数据改善App的体验？
2020年机器学习10大研究进展
一文了解推荐系统中的图神经网络
数据分析中6个常规的错误
2019年开源数据库报告：热门数据库、云基础设施分析与混合持久化趋势
2018年Go 语言调查报告
分析数据时常见的 7 类统计陷阱
阿里达摩院：GPT-4替代初级数据分析师的成本只有0.71% 换成高级数据分析师则是0.45%
中国互联网公司开源项目调查报告
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了

2021年新闻传播学C刊和C扩论文发表情况统计

DinK — Tue, 26 Apr 2022 14:13:57 +0000

CSSCI收录的期刊论文数量通常是反映一个学科高质量论文产出的重要指标。C扩一般是指办刊水平和学术价值接近C刊入选质量标准的刊物。

2021年新闻传播学CSSCI来源期刊和CSSCI来源期刊扩展版共发表了多少篇论文？这些论文呈现出怎样的主题特征？它们的作者分布和作者单位分布如何？高被引和高下载量的文章有哪些？

经过知网平台检索，2021年“新闻与传媒”和“出版”领域CSSCI来源期刊和CSSCI来源期刊扩展版共发表8078篇期刊论文，占同期发表期刊论文总数的15.8%。本文将从主题分析、发文机构、发文作者、被引量和下载量几个方面对8078篇期刊论文进行分析。

回顾2021年

主题分析

主题分析词云图

根据主题分析可知，2021年发表的CSSCI来源期刊和CSSCI来源期刊扩展版论文中涉及“媒体融合”的文章最多，高达368篇，在排名前40的主题中占比8.19%；涉及“短视频”的文章次之，有315篇，占比7.01%；涉及“社交媒体”的文章第三，有241篇，占比5.37%；涉及“主流媒体”的文章排名第四，有227篇，占比5.05%；涉及“科技期刊”“学术期刊”“出版业”“中国共产党”和“国际传播”的文章均超过140篇，分别占比4.41%、3.83%、3.32%、3.23%、3.12%；此外，“人工智能”“数字出版”“县级融媒体中心”“高质量发展”“媒介深度融合”“新媒体”等主题也是新闻传播CSSCI来源期刊和CSSCI来源期刊扩展版的热门话题，发文量均超100篇。

热门主题出现比例

发文机构分析

发文机构词云图

通过对发文机构分析可知，2021年发表CSSCI来源期刊和CSSCI来源期刊扩展版论文量最多的机构是中国传媒大学，发表了431篇文章；中国人民大学排名第二，发表了301篇文章；武汉大学排名第三，发表了228篇文章；南京大学排名第四，发表文章199篇；复旦大学和清华大学并列第五，发文量均为161篇；北京师范大学、北京大学、中央广播电视总台、上海大学和华东师范大学发文量均超100篇。西安交通大学2021年共发表97篇，排第12。

发文机构统计

发文作者分析

发文作者词云图

通过对发文作者分析可知，2021年发表的CSSCI来源期刊和CSSCI来源期刊扩展版论文量最多的是喻国明，发表了43篇文章；黄楚新排名第二，发表了21篇文章；陈昌凤排名第三，发表18篇文章；郑保卫、王晰巍排名第四、第五，分别发文17篇、15篇；陈力丹、王润泽、范军、童兵、常江、丁柏铨、白红义、刘建明、季为民、张爱军和韩立新发文量均在10篇及以上。西安交通大学李明德教授、马晓悦研究员分别发表论文9篇，我团队吴锋教授发表论文6篇，影响力较大。

发文作者统计

高被引文章分析

高被引文章列表

被引次数是衡量论文影响力以及被认可程度的重要指标。截至目前，8078篇CSSCI来源期刊和CSSCI来源期刊扩展版论文中，共有18篇文章被引达15次以上。其中，被引次数最多的是喻国明发表在《新闻界》上的文章《未来媒介的进化逻辑:“人的连接”的迭代、重组与升维——从“场景时代”到“元宇宙”再到“心世界”的未来》，截至目前被引52次；被引量排名第二的文章是黄楚新、刘美忆发表在《新闻与写作》上的文章《2020年县级融媒体中心建设现状、问题及趋势》，被引26次；被引量排名第三的文章是彭兰发表在《现代出版》的文章《数字时代新闻生态的“破壁”与重构》，被引22次；俞立平发表在《情报理论与实践》上的文章《客观赋权法本质及在科技评价中的应用研究——以学术期刊为例》排名第四，被引21次。我团队吴锋教授、博士生宋帅华发表在《编辑之友》的文章《井喷增长、场景多元、分层传播：2020年短视频行业发展特征及趋势前瞻》被引9次，获得了较大影响力。

高下载量文章分析

高下载文章列表

论文下载量是衡量论文的学术影响力的重要指标，它在一定程度上与论文将来的被引数量有很强的关联性。在8078篇CSSCI来源期刊和CSSCI来源期刊扩展版论文中，共有22篇文章下载量超过5000次。其中，下载次数最多的是喻国明发表在《新闻界》上的文章《未来媒介的进化逻辑:“人的连接”的迭代、重组与升维——从“场景时代”到“元宇宙”再到“心世界”的未来》，下载量达21522次；排名第二的是苏涛、彭兰发表在《国际新闻界》的文章《技术与人文：疫情危机下的数字化生存否思——2020年新媒体研究述评》，下载量达10662次；下载量第三的是周葆华,钟媛发表在《国际新闻界》的文章《“春天的花开秋天的风”：社交媒体、集体悼念与延展性情感空间——以李文亮微博评论（2020-2021）为例的计算传播分析》，下载量达9055次。

（注：本文仅统计了知网收录的新闻传播学科期刊论文，不包含交叉学科论文）

来自：西引力传播

更多阅读：
上海数据交易所：2023年全球数据跨境流动规则全景图
细分市场样本量不够时，如何得出靠谱的满意度分值？
36个顶级数据分析方法与模型！
世界银行：新冠危机表明G2P支付应向数字化发展
量表设计与分析实战
数据量持续飙升，信息与通信技术行业如何实现可持续发展？
在充满变革的世界中生存，企业必须采取的六项韧性战略
Postman：2022年API状况报告
ChatGPT-4 技术报告
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了
TikTok推荐算法详解：2023年如何实现病毒式传播
Stack Overflow：调查显示使用Linux的开发者数量要明显超过使用Mac
CarruthersandJackso：2022年数据成熟度指数
计算高效深度学习报告：算法趋势和机遇
欧盟委员会：2023年开放数据成熟度（ODM）

2021年面向 Go 开发者的调查

DinK — Sat, 23 Apr 2022 15:30:53 +0000

调查报告亮点

大多数回复与往年一致。例如，开发者对 Go 的满意度仍然很高，92% 受访者表示满意，75% 的受访者在工作中使用 Go。

今年的部分受访者来自于调查团队对 Go VS Code 插件使用者的随机抽样，因此调查的回复跟以往相比也有所不一样。

缺少关键库、语言特性和基础设施是使用 Go 最常见的障碍。（此调查是在 Go 1.18 发布之前进行的，泛型是报告中最多人反馈的第一大缺失特性）。

受访者希望优先考虑对调试和依赖管理的改进。

使用模块时的最大挑战涉及版本控制、使用私有仓库和多模块工作流。

81% 的受访者对 Go 项目的长期发展方向充满信心。

Go 使用情况

和前几年的调查结果一样，Go 主要在科技行业被广泛使用。70% 的受访者是软件开发者，少数从事 IT 或 DevOps 工作。76% 的受访者表示他们在工作中使用 Go 进行编程。72% 的受访者表示他们使用 Go 开发 API/RPC 服务，其他的主要用途是 Web 服务、库或框架、自动化部署和数据分析等。少数开发者还使用 Go 开发桌面应用、游戏、AI 和移动 APP。

一些新的统计结果：

大多数受访者将他们的组织描述为企业或中小型企业，大约四分之一的受访者将他们的组织描述为初创公司。咨询公司和公共机构的占比更少。

绝大多数受访者在少于 10 人的团队中工作。

超过一半 (55%) 的受访者每天在工作中使用 Go，受访者在工作之外使用 Go 的频率较低。

开发者使用 Go 遇到的阻碍

受访者被问及曾评估过 Go 但最终没有选择使用它，其中主要遇到的阻碍包括：缺少所需的语言特性、其他的编程语言对现有的工具和基础设施提供了更好的支持、Go 生态缺少所需的库、团队没有使用 Go 的经验、Go 工具不过丰富、Go 性能未能满足需求、招聘 Go 开发者困难…… 等。

由此可见，语言特性的缺失和生态不够丰富劝退了不少本想 “入坑” 的开发者。其中「泛型」是他们最希望添加的特性（调查进行的时候尚未发布提供了泛型的 Go 1.18）。除了泛型，开发者对于类型系统相关的特性也具有十分强烈的需求你。Go 团队表示，他们将收集更多关于这些需求的背景信息，并可能在未来探索不同的方式来满足这些需求，例如通过工具、库或对类型系统的修改。

那么这些相中了 Go，但最后又不采用它的受访者选了什么语言？下面的图表给出了答案：

Rust、Python 和 Java 是最常见的选择。对此 Go 团队认为，Rust 和 Go 有互补的特性，所以当 Go 不能满足项目的需求时，Rust 会是一个不错的选择。使用 Python 的主要原因是 Go 缺少库和现有的基础设施支持，因此 Python 的大型包生态系统可能会导致他们难以切换到 Go。同样，使用 Java 的常见原因是 Go 缺少一些功能，不过这应该会通过在 1.18 版本中引入泛型而得到缓解。

开发者对 Go 的满意度

跟去年一样，92% 的受访者表示他们在过去一年中对使用 Go 感到非常满意或比较满意。

此外，越来越多的开发者表示，Go 对于他们公司的成功提供了极大的帮助。

开发者对 Go 的诉求

依赖管理和错误处理是 Go 开发者需求最大的两项功能。

开发者工具和实践

与往年一样，绝大多数受访者表示在 Linux (63%) 和 macOS (55%) 系统上使用 Go。不过随着时间的推移，主力使用 Linux 开发的 Go 受访者比例似乎略有下降。

目标平台方面，超过 90% 的受访者选择了 Linux。尽管在 macOS 上开发的受访者多于 Windows，但他们大多数选择部署到 Windows 而不是 macOS。

最后

Go 开发者 2021 调查报告的部分关键要点：

此次调查的样本有所变化，但大部分同比指标保持稳定，大部分变化。

开发者对 Go 的满意度仍然很高

四分之三的受访者在工作中使用 Go，许多人每天都在使用 Go

Go 团队将优先改进调试和依赖管理的工作流程

完整报告查看：https://go.dev/blog/survey2021-results

更多阅读：
数据可视化最有价值的50个图表
Stack Overflow：2020 年开发人员调查
2017年度30大最惊艳的开源机器学习项目
2020年什么编程语言最受欢迎，待遇最高？
数据科学家年薪12万美元算高吗？我爬取近6年三千份数据后发现了这些秘密
10款开源的压力/负载测试工具
2018年Go 语言调查报告
2019年十大企业级编程语言榜单
Stack Overflow：2019全球编程语言高薪排行榜
CSDN：2021-2022年中国开发者现状调查
如何提升推荐系统的可解释性？京东智能推荐卖点技术全解析！
2021年GitHub年度报告：仅有 11% 的开发者想重返办公室
HackerRank：调查显示年轻的开发者反而对编程语言更保守
JetBrains：2019年Python开发者调查
数据处理的 9 大编程语言

中国翻译协会：2022中国翻译及语言服务行业发展

DinK — Fri, 01 Apr 2022 10:54:51 +0000

《报告》发现，2021年，全球以语言服务为主营业务的企业总产值预计首次突破500亿美元。中国含有语言服务业务的企业423547家，以语言服务为主营业务的企业达9656，企业全年总产值为554.48亿元，相较2019年年均增长11.1%。北京是语言服务企业数量最多的地区。

2021年语言服务需求方急需语种排行前十位情况。

“一带一路”沿线国家的翻译业务量有显著增长，其中，阿拉伯语、俄语、德语、英语和白俄罗斯语为市场急需的五个语种。

语言服务需求方对翻译技术评价。

《报告》显示，人工智能技术不断创新，机器翻译在行业的应用越来越广泛，具有机器翻译与人工智能业务的企业达 252家。“机器翻译+译后编辑”的服务模式得到市场普遍认同，通过调研，超九成企业表示，采用该模式能提高翻译效率、改善翻译质量和降低翻译成本。

更多阅读：
中国翻译协会：2022中国翻译人才发展
微软亚洲研究院刘铁岩博士：迎接深度学习的“大”挑战
Authagraph世界地图：让地球能看得更准确
如何快速应用机器学习技术？
定价策略和价格研究方法
阿里巴巴数据中台实践分享
谷歌大规模机器学习：模型训练、特征工程和算法选择
增长实战：破解获取、激活、留存的数据思维
Stack Overflow：2020 年开发人员调查
JetBrains：2019年Python开发者调查
爱卡数智&百度指数：2019年上海车展大数据
语音交互的前世今生
埃森哲是如何系统化做好数据分析
ICML：2019论文接收结果可视化
数据科学中各职业都在做什么？有什么区别？

中国翻译协会：2022中国翻译人才发展

DinK — Fri, 01 Apr 2022 10:52:39 +0000

《报告》指出，当前我国翻译人才队伍增长幅度较大。截至2021年12月31日，我国翻译服务人员已达538万人，比十年前增加144万余人，增长近40% 。

我国翻译人才队伍呈现“年轻化”“高知化”“梯队化”等特征，翻译人才队伍以本科以上的中青年为主，广泛分布在全国各地。京沪两地翻译人才占全国总数的43.58%，头部城市聚集效用凸显。

翻译人才队伍发展对各领域起到了重要支撑作用。其中，教育培训、信息与通讯技术、知识产权是最主要的翻译业务领域，分别占比41.1%、40.8%、38.3%。

更多阅读：
中国翻译协会：2022中国翻译及语言服务行业发展
如何快速应用机器学习技术？
阿里巴巴数据中台实践分享
定价策略和价格研究方法
Stack Overflow：2020 年开发人员调查
JetBrains：2019年Python开发者调查
KNX：2017年中国企业组织能力调研白皮书
如何给非专业人士讲解什么是深度学习？
Kaggle：2017机器学习及数据科学调查
微软亚洲研究院刘铁岩博士：迎接深度学习的“大”挑战
谷歌大规模机器学习：模型训练、特征工程和算法选择
增长实战：破解获取、激活、留存的数据思维
爱卡数智&百度指数：2019年上海车展大数据
企业数字化转型报告：四种类型企业与它们的数据运用现状
ICML：2019论文接收结果可视化

美国发展高科技的机制与启示：以硅谷和半导体为例

DinK — Wed, 16 Mar 2022 08:33:11 +0000

导读

大国竞争的关键是科技实力竞争，科技竞争的背后则是以教育体制、产学研模式、创新环境、市场活力为核心的科技软实力竞争。本文旨在分析美国科技体制，总结硅谷产学研用模式，以及产业政策在高科技产业发展过程中的作用，从而得出创新发展的经验启示。

科技是第一生产力，科技体制决定科技发展。美国作为老牌科技强国，在世界科技产业链中占有重要地位。美国科技类上市公司市值规模领先，2021 年末，全球市值前 10 名的公司中有 7 家是美国科技类公司，分别为苹果、微软、Google、亚马逊、特斯拉、Facebook、英伟达。全球 11 家市值千亿美元以上的半导体公司中有 9 家是美国公司，分别是英伟达、博通、英特尔、高通、德州仪器、超威半导体、应用材料、美光科技、拉姆研究。

根据对美国科技机制、政策以及硅谷和半导体产业的案例研究发现，美国发展高科技产业成功、长期领先全球的关键是三大要素：1）自由开放、鼓励创新、包容失败、多元化的创新创业文化，2）政府、大学、企业等紧密合作、相互促进、面向市场竞争的产学研用一体化生态体系，3）政府在鼓励创新、知识产权保护、立法、税收、移民、采购、支持基础研发甚至打压国际竞争对手等方面相对完善有效的顶层科技体制。

科技体制方面，行政与立法部门共同承担科技政策制定责任，联邦多部门以各自使命为导向进行分散的项目资助。

产学研用生态方面，政府支持，学校、企业密切合作，培养鼓励创业创新、科研项目转化，形成对内对外的技术转化服务体系和产学研一体化生态科技体系。斯坦福大学和硅谷地区是产学研生态建设的典范，成为美国乃至世界的科技创新中心。根据《2021 硅谷指数》报告，硅谷人口 310 万，人均年收入 15.2 万美元，专利数占美国整体的 13.1%，风险投资额占美国整体的 21.3%。斯坦福与硅谷的崛起并非简单依靠打造产业园区、孵化器或者设立技术转让办公室，而是以一流大学、一流科研人员与初创企业为核心主体，以自由开放、鼓励创新、包容失败的文化为基础，构建了一套各主体紧密合作、相互促进的产学研用生态系统。

美国在科技发展上总体以市场竞争、产学研用一体化见长，但是美国政府在发展高科技产业时也采取了政府采购、资金支持甚至打压国际竞争对手等多种产业支持和保护政策，实际情况可能跟很多人的印象以及美国对外宣传有所不同。在半导体产业发展之初，美国进行大量政府采购和税收优惠，对技术发展和商业化落地影响重大。日美贸易战期间，美国以关税、外交等多种手段打压遏制日本半导体产业，重获技术和市场优势。当下，美国政府仍通过大规模战略部署、资金支持等手段对本土产业进行保护。一是相继发布《半导体十年计划》、《创新与竞争法案》、《芯片法案》等产业规划方案，通过紧急拨款、税收优惠等方式增加半导体及相关设备研发生产。二是面对中国高科技产业崛起，美国采取和当年日美贸易战类似的特殊外交、贸易手段，包括加速 “出口管制实体清单”，以遏制他国相关产业发展。三是经历疫情、供应紧张和全球“缺芯” 困境后，美国政府更注重产业链完整安全，本土产能建设是下阶段发展重点之一。

从美国科技产业发展的历程来看，科学的体制设计，政府产业政策的有力支持，产学研用生态的建设，大学、企业多元化协作的伙伴关系，构筑集聚优秀人才的科研创新高地，对创新发展、强化国家战略科技力量有重要意义。

正文

1美国科技体制

美国之所以不断孕育前沿发明和创新公司，科技体制发挥了重要作用。早在美国立国之初，对科技与创新的鼓励就融入了美利坚的基因。1787 年《美国宪法》规定：“通过保障作者和发明者对他们的作品和发现在一定时间内的专有权利，来促进科学和有用艺术的进步。”

1945 年，时任国家科学研究与开发办公室主任的万尼瓦尔 · 布什向杜鲁门总统提交了著名报告《科学——没有止境的前沿》，系统阐述了科学的重要性和科技管理的理念，并总结出三条历史经验：

1）基础研究是为实现国家特定目标而进行应用研究和发展研究的基础，最适宜开展基础研究的是大学体制；

2）政府可以通过与工业界和大学签订研究合同和提供资助的制度来支持科技；

3）政府吸收科学家作为顾问和在政府中设置科学咨询机构，有助于总统和政府作出更准确有效的科技决策。在布什报告的基础上，承担政府对基础研究资助职责的美国国家科学基金会（NSF）得以建立，美国现代科技体制开始逐渐形成。

经过近 80 年的迭代与完善，美国已经形成一套与政治经济体制相匹配的多元分散的科技体系。站在联邦角度，多元分散最直接的体现在于科学政策制定的责任由行政部门和立法部门共同承担。其中政府负责制定科技预算、推进相关政策、协调科技工作；国会负责审批科技预算、人员机构的任命与设置，监管和评估相关的联邦部门和机构工作，并通过立法决定各项科技政策的框架。

行政层面，形成了 “决策 – 执行 – 研究” 三层架构，各层级主体众多但分工明确。美国总统享有国家科技活动的最高决策权和领导权，总统行政办公室下设白宫科学技术政策办公室（OSTP）、国家科学技术委员会（NSTC）、总统科学技术顾问委员会（PCAST）和管理与预算办公室（OMB）。其中 OSTP 主要为总统制定科技政策、分配研究经费提出分析建议，对科技政策形成与发展具有重要影响；NSTC 主要负责协调各政府机构间的科学政策，并由总统亲任委员会主席；PCAST 是总统最高级别的科学顾问团，主要提供政策咨询，其成员大多是政府外的顶尖科学家、工程师和学者，具有一定的独立性；OMB 主要负责管理总统向国会汇报预算的准备工作以及后续的协商，在确定科学项目的优先性方面有着最重要的影响力。

执行层面，不同于大部分国家通过一个中央政府部门或科技部集中支持科学，多元化的科学资助体系是美国科技体制最大的特点。众多联邦部门和独立机构共同承担资助科学研究、指导科技政策的责任，其中与科技关系最密切的联邦部门包括国防部、卫生与公共福利部、NASA、能源部、国家科学基金会和农业部六大部门。不同联邦部门与独立机构对应不同的使命，例如 NASA 主要支持空间探索、国防部研究增强国家安全、卫生基金会则支持更广泛的基础研究。但在某些交叉学科与前沿科研领域的资助上，多元化的体系会带来重复工作，某些项目可能面临多头管理。美国的立法者认为，不同机构出于不同的使命，看待科学问题的视角也会略有不同，这样把资助研究作为实现更广泛使命的一个要素，这种资助体系更有生命力，往往会产生意想不到的 “溢出效应”。因此这套多元化的科学资助体系得以沿袭至今。

研究层面，联邦研究机构、大学、企业和非盈利科研机构四类主体形成了有效的分工协作。联邦研究机构由政府直接管理或采取合同方式管理，主要从事重要技术的应用研究与部分基础研究，如隶属于能源部的橡树岭国家实验室，曾对负责原子弹研制的曼哈顿计划做出了重要贡献；大学以基础研究为主，美国拥有世界上数量最多、水平最高的研究型大学，同时给予研究人员极大的自由度，包括鼓励科研人员创业、促进科研成果转化；企业侧重于试验发展，大多以工业研究实验室为载体开发新技术与新产品，最知名的如美国贝尔实验室，发明了晶体管并开创了信息时代；其他非盈利机构主要包括地方政府或私人研究机构，主要从事基础研究与政策研究，对前三类主体形成补充。

法律层面，国会最重要的职能在于监督和立法。监督方面，国会有两类重要的职能机构，一类是国会的 “百科全书”，包括国会研究服务部（CRS）负责为国会提供广泛的政策和议题分析，以及一些专门委员会如众议院下设的科学、空间和技术委员会；另一类是国会的 “侦探机构”，如审计总署（GAO），负责调查和评估现有的政府政策及计划项目、确保经费被高效正确地使用。立法方面，美国非常注重科技成果的转化与对创新创业的鼓励支持，国会通过立法对从事科研工作的中小企业进行税收优惠、界定研究成果与发明专利的归属权，例如 1980 年制定的《专利与商标法修正案》（又称《拜赫 – 杜尔法案》），为联邦所资助的研究而产生的商业化创新提供了一个统一的框架，允许大学和其他非盈利组织获得这些发明的专利，并可以与公司合作、将他们推向市场。这个法案被普遍认为提高了美国大学与工业界之间的技术转移水平。

2美国的产学研用生态：斯坦福大学和硅谷的经典案例

斯坦福大学于 1891 年由时任加州州长利兰 · 斯坦福捐献 2000 万美元及近 5 万亩的农场土地正式建立。建校之初，斯坦福默默无名，发展远不及哈佛大学及邻近的加州大学伯克利分校。1951 年，时任工程学院院长的特曼与校长斯特林商定，将学校的大量土地以极低的价格出租以创办工业园区，此举既为学校创造了一定的收入，又吸引了不少企业入驻、解决了学生的就业问题，成为斯坦福发展的转折点。

1938年，斯坦福大学毕业生休利特和帕卡德在恩师特曼教授的支持下创立了惠普公司，被广泛认为是硅谷起源的标志。1955 年，在特曼的邀请下，“晶体管之父” 肖克利将半导体实验室建立在了硅谷，并于 1963 年到斯坦福任教。自此，硅、晶体管和集成电路在硅谷扎根，硅谷步入了高速发展时期。

硅谷是美国乃至世界的科技创新中心。20世纪 50 年代以来，硅谷已经孕育了惠普、英特尔、甲骨文、苹果、雅虎、谷歌、特斯拉等高科技企业。《2021 硅谷指数》报告指出：2020 年硅谷地区风险投资继续创纪录，总规模达 264 亿美元。美国四分之一的 “独角兽” 公司（市值在 10 亿美元以上）和三分之二的 “十角兽” 公司（市值在 100 亿美元以上）的总部位于硅谷。自 1990 年以来，硅谷在美国的专利注册份额占比持续增加，从占比 4% 上升到占比 13% 以上，2020 年硅谷注册的专利总数再创新高。硅谷总人口约 310 万，提供 155 万就业岗位，人均年收入达 15.2 万美元，较 2017 年相比硅谷人均收入继续增加 5 万美元，大幅高于美国人均水平。

斯坦福大学与硅谷取得巨大成功之后，世界上有许多大学都争相学习效仿，但成功者寥寥。根本原因在于斯坦福大学与硅谷的崛起并非简单依靠打造产业园区、孵化器或者设立技术转让办公室，而是以一流大学、一流科研人员与初创企业为核心主体，以自由开放、鼓励创新、包容失败的文化为基础，构建了一套各主体紧密合作、相互促进的产学研生态系统。下文对政府、大学与企业三大主体各自在硅谷生态中的作用进行分析。

2.1政府

美国政府在斯坦福和硅谷的发展初期起到了至关重要的作用。

一方面，联邦政府是大学基础研究的主要资助者。冷战时期，美国政府对军事技术方面的研究投入大大增加，斯坦福在特曼的带领下与联邦政府合作建立了 EDL（西尔维尼亚电子国防实验室）和 ESL（电磁系统实验室）等实验室，在无线电和晶体管技术方面的研究迅速发展。

另一方面，联邦政府是冷战时期硅谷许多初创企业的主要客户。二十世纪五十年代，晶体管仍然非常昂贵，一台电子计算器的价格相当于一辆汽车价格的 1/4。而政府出于国家安全需要大量采购晶体管、电子微波管等高科技产品，对价格也并不敏感，正是政府的支持使得这类初创企业能够持续地进行技术升级和降低成本。第一批入驻斯坦福工业园的惠普、洛克希德马丁，包括 Watkins Johnson、英特尔等均受益于此。

移民政策方面，美国政府的 H1B 赴美工作签证与移民签证机制吸引了大量国际人才流入。据《2021 硅谷指数》数据，硅谷外国出生的人口占比达到 39.1%，远远高于美国 14% 的平均水平，年外国移民人口流入 1.6 万人以上。

2.2大学

大学是硅谷生态系统中的核心之一。以斯坦福大学为例，大学的主要作用有三点：1）对外形成技术授权和合作机制；2）对内形成技术转化服务体系；3）打造一流的师资，培养一流的人才。

技术转化机制的核心部门为技术授权办公室（Office ofTechnology Licensing，OTL）。OTL 主要由具有科研或技术背景的项目经理组成，负责对技术转化的全生命周期进行管理，包括评估科研成果或发明是否可转化为专利、是否具有商业潜力、项目估值，并在此基础上为专利寻找合适的产业合作伙伴、协商最优条款等。技术授权的形式非常灵活，包括但不限于授权费、版税、股权等等，同时斯坦福大学规定，技术授权产生的收益由科研人员、所在学院、所在系分配。虽然技术授权收入占学校整体年度预算比例不大，但斯坦福认为此举可以增强学校与工业界的联系，并且可以彰显自身的基础科研实力，有利于争取更多的联邦科研经费支持。根据 OTL 披露的数据，2020 财年斯坦福大学新增 161 个技术授权项目和 25 个初创项目，从 847 项技术中获得了 1.14 亿美元的总特许权使用费收入。

此外，斯坦福也鼓励师生凭借研究成果创业，学校可以给予市场、资金、技术等方面的支持。2004 年谷歌上市后斯坦福大学作为早期投资人退出，仅这一项投资收益就达到 3.4 亿美元。

更关键的是，与传统产学研 “大学负责研究、企业负责商业化” 的线性模式不同，斯坦福大学与硅谷企业之间建立了类似于 “共生” 的相互依存关系。研究成果的商业化仅仅是其中的一部分，企业与大学之间还建立了合作研究、委托研究、人才合作培养、企业咨询、数据共享、设备租赁等多形式、多主体的协作机制，例如斯坦福大学的 BIO-X 项目就与强生、诺华等十余家生物制药巨头合作开展如访问学者助学金、资助合作研究、赠予基金等多种形式的研究计划。根据斯坦福披露的数据，2020 财年，通过工业合同办公室（Industrial Contracts Office，ICO），学校与企业签订了 1574 份协议，其中有 153 项资助研究协议、538 份材料转让协议。这些项目大大拓宽了斯坦福和企业之间的合作范围与内涵。

在师资队伍建设与人才培养方面，特曼教授有一个著名的理念——“steeplesof excellence”，即要让斯坦福成为一流的大学，必须要有一流的教授。由于美国的联邦资助采取同行评议制度，只有拥有一流的师资，才能获得更多的联邦资助。截止 2021 年，斯坦福共有 84 位校友、教授或研究人员获得诺贝尔奖，位列世界第七；29 位曾获得图灵奖，位列世界第一。现任教职中有 20 名诺贝尔奖获得者。斯坦福在化学、物理和电子工程方面的学科优势也吸引了大量理工科学生前来求学，斯坦福也已经累计为硅谷输送了数以万计的 “新鲜血液”。

2.3企业

企业是硅谷生态系统中的另一核心。除了上文提及的企业与大学之间多元化的合作机制，硅谷企业与科研人员也有着非常紧密的联系，不少企业创始人和高管与在校科研人员本身就是师生关系、同学或校友关系。这其中最著名的就是惠普公司的例子，特曼一开始利用军方的资源为惠普初期的发展解决了不少资金和订单方面的困难，并一直担任惠普的董事给予咨询。最终惠普成为美国最大的科技公司之一，特曼也成为公认的 “硅谷之父”。2001 年斯坦福 110 年校庆之际，惠普创始人休利特的基金会曾向斯坦福大学捐赠 4 亿美元用于基础教育与研究，创下当时美国大学接受单笔捐助金额的最高纪录。

除了私人关系，企业和大学的科研人员存在着广泛的互访、交流、合作和兼职，并且企业往往为大学科研人员带来以解决现实问题为导向的研究灵感。这其中的一个著名例子就是谷歌和经济学教授范里安的故事。范里安一开始在硅谷另一所知名大学 UC Berkeley 任职，他在休假期间到谷歌兼职并帮助谷歌设计了在线广告拍卖系统 AdWords，最后在大学退休后甚至成为了全职的谷歌首席经济学家。范里安认为这一职位能够让他通过接触大量的数据从而站在理论前沿，并有机会与大量优秀的业界人士交流，这一过程 “非常有趣”，而他设计的 AdWords 也为谷歌带来每年数百亿美元收入。

由于企业的集聚，企业与企业之间经济合作的开展难度和成本大大降低。合作主要分两方面，站在产业链角度，初创企业一般提供成熟企业的上游产品、技术或服务，因此初创企业一开始只需面向企业用户而非终端消费者，可以减少初期的营销成本与市场风险。SaaS（软件即服务）领域巨头 Salesforce 就是一个成功案例。站在股权角度，成熟企业可以通过并购初创公司不断扩充产品线、增强技术和专利储备。对初创企业来说，既可以借助巨头的销售和用户网络加快新产品的推广，对股东来说并购也意味着更多元和便捷的退出渠道。苹果、思科、惠普等巨头都是活跃的收购方。

站在系统的角度，企业是硅谷生态的重要闭环，只有企业不断发展壮大，才能最终创造就业、产生收入、贡献税收，而更高的收入水平、更多的产业集聚、更好的创业氛围进一步吸引优秀企业和一流人才流入，由此形成正向循环。据不完全统计，斯坦福的校友们创立了惠普、谷歌、雅虎、思科、英伟达、Twitter、LinkedIn、Netflix、Instagram 等硅谷巨头。正是这些企业的不断出现与成长为硅谷带来了源源不断的创新活力。根据《2021 硅谷指数》报告的数据，近十年来硅谷和旧金山地区的人均收入水平基本维持在美国整体水平的 2 倍左右。

但值得注意的是，收入不平衡、房价高增、贸易保护主义和疫情冲击就业等问题也对硅谷地区的人口活力产生一定负面影响。近几年硅谷人口净流入几乎停滞，2020 年硅谷人口增长速度创下互联网泡沫破裂后的新低。2015 年 7 月至 2020 年 7 月期间，硅谷地区流入外国移民 9 万人，但加州和美国其他地区居民流出近 12 万人，人口净流出约 3 万人。2020 年，硅谷地区出生率亦创历史新低。

收入分配方面，疫情加剧了硅谷地区收入不均衡情况。据《2021 硅谷指数》统计，新冠疫情对就业水平的影响因收入类别而异，硅谷的中、低收入员工收入降幅分别达 29% 和 31%，而高收入工作岗位的最大降幅仅为 13%。

房价方面，2016 年以来硅谷房价快速上行，中等房价购买能力群体比例缩减。根据 CoreLogic 的数据，2021 年湾区单户住宅中位价比 2020 年继续上涨 16% 以上。2020 年，200 万美元以上房屋销售占比上升到 16%，而 60 万至 100 万美元房屋销售占比下降到 26%，反映出具备中等房价购买能力的群体比例出现下降。

根据《2021 硅谷指数》，在过去十年中，硅谷的收入不平等增长速度是加州和美国的两倍。财富差距更加明显：前 16% 的家庭拥有 81% 的财富；与此同时，近五分之一的硅谷家庭没有储蓄，底层 53% 的人仅持有 2% 的可投资资产。

3 美国政府产业政策：以半导体为例

美国自身在发展高科技产业时采取了政府采购、资金支持等多种产业支持和保护政策。

一是在技术发展之初，美国政府既是技术发展的提出者，又是资金提供与产品采购者，进行大量政府采购和税收优惠，对技术发展和商业化落地影响重大。

二是在特殊时期会采取非常规贸易和外交手段对本土产业保护。日美贸易战期间，当美国政府认定半导体产业事关国家安全之后，不惜以关税、外交等多种手段打压遏制日本半导体产业。针对日本成立的 “超大规模集成电路” 研发联盟并快速取得半导体技术突破，美国的贸易代表一面指责日本的半导体产业政策不合理，另一面却对它赞叹不已，并游说美国政府也采取类似的政策措施。此后美国政府牵头成立 SEMATECH（半导体制造技术战略联盟），在国防部高级研究项目机构（DARPA）领导下，联合英特尔、德州仪器、IBM、摩托罗拉等在内的共 11 家公司共同研发，重新取得了对日本半导体产业的技术优势。

当下，半导体产业和技术进入相对成熟期后，美国政府仍继续通过大规模战略部署、资金支持等手段对本土产业进行支持和保护。2020 年以来，美国相关行业协会和政府相继发布《半导体十年计划》、《2021 年美国创新与竞争法案》、《美国芯片法案》等产业规划方案，通过紧急拨款、投资税收优惠等方式增加半导体及相关设备的研发和生产。而面对近年来中国高科技产业崛起，美国采取和当年类似的特殊外交、贸易手段，以图遏制中国高科技产业发展势头。包括加速 “出口管制实体清单”，禁止美国企业或采购美国设备的他国企业对中国企业出口等手段干预企业经营。当前，涉及军工、芯片等多个领域上百个实体被列入其实体清单。

三是实施多项政策贯穿产业发展全程，直接或间接的影响产业在融资、投资、税收、专利保护、科技研发等方面的进程。形式可分为减免所得税、企业低税率、额外费用减扣、亏损结转、所有权保护、打击恶性竞争等。早期出台的《经济复兴税收法》、《半导体芯片保护法》均是通过相关立法与优惠政策对产业发展进行扶持。

而经历疫情、供应紧张和全球 “缺芯” 困境后，美国政府更注重产业链完整性和安全性，本土半导体产能建设成为下阶段产业发展重点之一。《2021 年美国半导体现状报告》指出美国在半导体和微电子产品生产制造环节份额已从 1990 年的 37% 降至 12%。为维护产业链安全、推动产能建设，《美国芯片法案》对半导体制造业的投资提供 25% 的税收抵免，针对半导体产业的税收优惠措施再度加速出台。

3.1技术方向、资金支持与政府采购

技术发展初期，即 20 世纪 50 年代至 70 年代，美国政府既是技术发展的提出者，又是资金提供与产品采购者。一项新技术的发明存在资金与风险双高情况，私人企业无法承担，政府在有明确需求下的大力支持可以很好的缓和企业风险，为技术创新准备充分条件。

作为军方的技术支持，早期各大企业与实验室的研发多基于政府需求，因此，政府对技术发展方向影响重大。因战争产生的对电子信息技术 “高效、快速” 要求，催生了晶体管的诞生。但第一枚晶体管原材料锗的化学性能在高温条件下不稳定且产量有限，促使了硅材料的使用。其次，军方对元器件线路庞大复杂、故障率高提出了 “微型、轻便、高效” 要求，激发研发小型整合体，这也是 1959 年德州仪器实验室发明集成电路的直接动机。

政府的资金支持与大规模采购加快技术发展与产品商业化。研发经费分政府经费与民间经费，政府经费又分直接拨款与承包合同两种主要形式，而承包合同贡献率更强。据美国商务部数据统计，1958-1964 年期间，平均每年研发经费来自政府的比例约 85%（除 1956 年），1958 年政府直接拨款 400 万美金，承包合同费用则高达 990 万美金。集成电路发明后的六年内，政府对其资助达 3200 万美金，70% 来自空军。合作内容包括德州仪器 115 万美金的两年半的技术研发、德州仪器 210 万美金的 500 个集成电路生产能力、西屋公司的 430 万美金的电子产品生产等。在产品得到初步回报后，政府降低采购与资金力度，转接给个人与企业投资者，再借助市场效应扩大规模。

当下，半导体产业和技术进入相对成熟期后，美国政府仍继续通过大规模战略部署、资金支持等手段对本土产业进行保护。2020 年，美国半导体行业协会（SIA）和半导体研究公司（SRC）发布《半导体十年计划》，呼吁联邦政府投入研发资金以应对芯片技术的重大变革，推动人工智能、量子计算、先进无线通信等新兴技术发展。2021 年美国政府公布《美国创新与竞争法案》，其中包含 1 个针对芯片和 5G 领域的紧急拨款方案，将拨款约 1900 亿美元用于从总体上加强美国的技术能力，预计将在 2022 至 2026 财年拨款近 500 多亿美元专门用于增加半导体、微芯片和电信设备的研发和生产，其中包括未来 5 至 7 年规划在美国建成多个芯片制造厂等新产能规划。此外，2021 通过的《美国芯片法案》亦激励企业和政府部门进行半导体投资，对购买半导体制造设备企业税收抵免。成立国家半导体技术中心和国家先进封装制造工程基地，亦鼓励国防部和能源部扩大半导体投资。

3.2特殊时期的外交与贸易手段

到了半导体技术发展中期，日本以 DRAM 储存器为切入点，无论从产量、技术还是价格优势均反超美国，从 “后来者” 逆袭为世界霸主。对此，美国政府迅速做出了战略调整，包括最为著名的《美日半导体贸易协议》（The U.S-Japan Semiconductor Trade Agreements）与 SEMATECH 联盟（美国半导体科技与制造发展联盟）。

双边协议签订背景是日本抢走部分高科技领域，引发美国对自身发展的担忧。美日双边协议取消日本贸易壁垒扩大市场、同时遏制对手发展。80 年代前全球销量最高的半导体公司被美国所垄断，包括国民半导体、德州仪器、摩托罗拉等，到 1986 年，全球前十名的公司中有 6 家来自日本，前三强更是易主为日本电气、日立、东芝。为此，联邦政府开始在 1985 年与日本进行谈判，以 “反倾销” 名义令日本政府调整产业政策，主要要求为：

1）至 1991 年底，非日本企业生产的半导体器件与芯片在日本销量必须占日本市场总销量的 20%（之前日本政府保护下为 10% 以下）；

2）禁止日资在美投资并购；

3）建立价格监督机制，禁止第三国反倾销。依赖美军保护与国防需求，日本在 1986 年签订了协议。

由于当时众多美国企业为区别日本低价竞争，转向 ASIC（某种特殊目的的定制芯片）等高技术高附加值市场，双边协议带来的效益不算很大。协议过后，日本全球市场份额与 DRAM 市场份额变动不大，依旧处于美国之上。

对此美国于1989 年再次与日本签订贸易协议，条款扩大至专利保护与专利授权等，对此，日本不得不令本国企业开始采用美国框架与产品。数据显示，1996 年非日企业半导体产品在日本市场份额升至 30%，其中 75% 来自美国。

SEMATECH整合资源，提高信息、技术与人才交流。尽管美国对产业做出调整改变分工方式，转向 ASIC 定制市场形成 Fabless 运营模式，但基础技术、设备、材料的劣势不能忽视，对比日本 “价廉物美”，美国急需提高制造工艺降低成本，SEMATECH 为此发挥了巨大作用。

1987年，政府发挥主导效仿日本大规模集成电路技术合作联盟经验，联合英特尔、德州仪器、IBM、摩托罗拉等在内的共 11 家公司建立 SEMATECH，旨在增强美国国内半导体制造与原材料等基础供应能力。在国防部高级研究项目机构（DARPA）领导下，11 家企业除了互通有无，更是加强了与设备制造厂商之间的合作，包括：

1）委托开发设备；2）改进现有设备；3）制定下一阶段技术发展战略；4）加强信息交流。

其中最重要的是新设备开发，占总预算的 60%，项目集中在金属板印刷技术、蚀刻、软件及制造等。统一规划合理配置资源的同时，降低研究与实验的重复性，改善企业无主攻方向问题并大大提升制造能力与材料研发进程。因此，美国 1992 年重新夺回世界第一。

市场方面，美国国内对美产新设备采购意愿从 1984 年的 40% 提升到 1991 年的 70%，1992 年美国应用材料公司成为全球最大设备材料供应商，并保持至今；技术方面，日本终端芯片对比美国的相对成品率从 1985 年的 50% 下降到 1991 年的 9%，1993 年 SEMATECH 完成 0.35 微米的电路制造。

面对近年来中国高科技产业崛起，美国采取和当年打压日本类似的特殊外交、贸易手段，以图遏制中国高科技产业发展势头。贸易摩擦以来，美国加速列出 “出口管制实体清单”，采用禁止美国企业或采购美国设备的他国企业对中国企业出口等手段干预正常企业经营，以达到遏制他国半导体产业发展的目的。当前，涉及军工、芯片、科技、核电、安防、AI 人工智能、网络安全等多个领域的上百个实体被列入美国出口管制实体清单。

聚焦在半导体芯片领域，美国政府通过限制上下游采购、技术软件授权等措施打压他国半导体芯片产业发展。2019 年 5 月，美国将华为及其 68 家非美国关联企业列入其 “实体清单”，在没有美国政府批准条件下华为将无法向美国企业购买元器件。2020 年 8 月，实体清单再增加 38 家华为附属机构，进一步限制华为获取特定美国技术或软件，在美国境外设计和制造半导体。美国进一步打着贸易保护主义的旗号，剑指中国经济崛起和产业升级，尤其是对中国高科技领域的战略遏制和 “围猎”，对此我们要有清醒的认识。

3.3相关立法与优惠政策

注重法律保护的美国，在半导体方面实施了多项政策贯穿全程，直接或间接的影响半导体行业在融资、投资、税收、专利保护、科技研发等方面的进程。形式可分为减免所得税、企业低税率、额外费用减扣、亏损结转、所有权保护、打击恶性竞争等。

以《经济复兴税收法》为例，企业研发费用不作为资本支持而作为费用抵扣，如当年研发开支超过前 3 年平均值，超出部分给予 25% 税收减免，企业用于新技术改进的设备投资可以按照投资额 10% 进行所得税抵免。这一法案的实施，减免企业营业压力的同时增加企业创新研发动力与研发强度。

针对早期芯片行业版权混乱现象，美国出台专门也是当时世界第一部的《半导体芯片保护法》，进行注册后的集成电路权利人可以在 10 年内享有该作品的复制、发行等基础权利，也享有对恶性抄袭复制者的追诉权，即使没有注册，设计者也在 2 年内享有权利。但是《芯片法》不反对反向工程（通过现成产品进行设计复原），也一定程度的促进市场竞争。这部创新性的保护法案也影响了其他国家集成电路的专利保护，更是影响了世界知识产权组织（WIPO）修订《集成电路知识产权条约》与世界贸易组织（WTO）修订《与贸易有关的知识产权协议》。

在经历 2020 年疫情、供应紧张和全球产业链 “缺芯” 困境后，美国本土半导体产能建设成为下阶段产业发展重点之一，针对半导体产业的税收优惠措施再度加速出台。2021 财年国防授权法案 (NDAA) 中制定《美国芯片法案》中，政府和国会将为《芯片法案》授权的半导体制造、研究提供资金支持，并制定投资税收抵免优惠措施。根据《2021 年美国半导体现状报告》，美国在半导体和微电子产品生产制造环节份额已从 1990 年的 37% 降至 12%。此议案对半导体制造业的投资提供 25% 的税收抵免，以期增加美国本土芯片制造份额增长、缓解产业链困境和 “缺芯” 压力。

4 启示

从美国科技产业发展的历程来看，科学的体制设计，政府产业政策的有力支持，产学研用生态的建设，大学、企业多元化协作的伙伴关系，构筑集聚优秀人才的科研创新高地，对创新发展、强化国家战略科技力量有重要意义。

1）合理的产业扶持政策，可以促进 “卡脖子” 等核心技术领域攻关，加速扩展商业化应用落地。

产业政策在经济发展和产业结构升级过程中发挥着重要的作用。以国家主导的产业政策扮演着积极引导与调整产业结构的角色，能起到提升社会资源配置效率，加快产业、技术、人才向更优结构转变等重要作用，促进产业的升级与技术的进步。

美国 20 世纪 60 年代在半导体产业发展初期，政府采购集成电路的产品数量一度占到企业全部产量的 37%-44%，这对创新企业、中小企业带来巨大的帮助。在 80 年代后期半导体产业面临日本挑战时，美国由国防科学委员会和美国半导体协会共同牵头建立半导体制造技术科研联合体，由联邦政府提供联合体一半的经费，研究成果由政府和企业共享，最终夺回半导体企业世界第一的位置。当下，在半导体产业和技术进入相对成熟期后，美国政府仍发布《美国芯片法案》、《2021 年美国创新与竞争法案》，继续通过大规模战略部署、资金支持等手段对本土产业进行保护。

在产业发展初期，政府采购、资金支持等政策支持能为先进技术发展提供方向；在产业链相对成熟发展以后，成立产业组织、税收优惠等政策措施能进一步加速商用产能落地、保护本土产业链完整。组建研发联盟对 “卡脖子” 技术领域进行联合攻关，在关键技术领域加大对国产部件、系统软件采购比例，提供资金支持和相关的税收政策，对打造自主可控的科技产业生态具有重要意义。

2）市场导向的多层次、多元化的产学研用协作生态体系，对促进科研成果转化有正向积极作用。

从学校到企业，斯坦福大学技术授权办公室模式完善了对内对外的技术转化服务体系。对外形成技术授权和合作机制，对内形成技术转化服务体系并打造一流的师资，培养一流的人才。在大学与企业之间开展多层次的合作，一方面给予了大学教职人员在创业、兼职、咨询方面更大的自主权，另一方面给学生创造更好的学习、创业和交流环境，形成了良好的创新氛围。

我国《国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》提出，要 “坚持创新驱动发展，全面塑造发展新优势”，其中提升企业技术创新能力要 “促进各类创新要素向企业集聚，形成以企业为主体、市场为导向、产学研用深度融合的技术创新体系”。

产学研用生态建设，一是可以促进创新要素市场化，促成科研技术成果有效转化。企业和大学的科研人员存在的广泛的互访、交流、合作，为大学科研人员带来以解决现实问题为导向的研究灵感。通过高校办企、技术外包转让、联合研究、共建实体等方式，可以有效促进科研成果和技术转化，从而提高从技术创新到应用创新的创新链整体效能。

二是可以促进企业聚集形成正向生态循环。促进各类创新要素向企业集聚，一方面创造就业、产生收入、贡献税收，另一方面高收入、产业集聚、创业氛围进一步吸引优秀企业和一流人才流入，形成正向循环，不断完善 “产学研用” 生态的激励机制、法律保障措施，从而更好的完善机构设置和各主体融合。

3）开放人才政策、构筑集聚优秀人才的科研创新高地，对促进本国科技发展，巩固国家战略科技力量有重要意义。

以半导体产业发展为例，美国安全与新兴技术研究中心（CSET）2020 年报告声明，为了保持芯片领域安全和竞争力，美国需要利用其最大的优势之一：吸引、发展和留住世界上最优秀的科学和工程人才的能力。该报告提出，一是受益于硅谷、纽约科技谷等地区半导体人才集群，美国半导体产业创造了巨大的经济价值。二是来自外国的人才为美国半导体创新做出了重大贡献，美国大约 40% 的高技能半导体工人来自印度、中国等国家地区。三是美国大学是吸引外国半导体人才的主要途径。1990 年来，美国大学半导体研究生课程国际学生人数从 5 万人增加到 14 万人，而超过 80% 的半导体相关领域国际博士学生毕业后留美。四是注重与盟友和合作伙伴的合作，韩国、日本、荷兰和英国是美国以外重要的半导体公司所在地，CSET 认为加强与此类公司合作对于影响尖端半导体人才和技术的流动至关重要。

另一方面，半导体行业发展也为美国经济和劳动力就业市场产生积极影响。《美国半导体现状报告》指出，2020 年美国半导体行业总共提供 185 万就业岗位，其中包括 27.7 万名从事半导体研发、设计和制造直接雇佣人才；此外，每个半导体行业岗位都会拉动额外 5.7 个就业岗位。美国芯片设计、集成设备制造合计占全球半导体销售近 50% 的份额，2020 年美国半导体产业对 GDP 拉动为 2464 亿美元。

文：任泽平团队 @来源：泽平宏观

更多阅读：
硅谷内部报告：带你洞悉数字科技的世界
经济学家：硅谷没增加更多岗位
硅谷为何“不可复制”：文化与人才是关键
硅谷大数据【下】：硅谷四巨头如何玩转大数据
不注重基础研究的硅谷还能继续创新吗？
雅虎：调查显示硅谷“多样性”问题并非少数族裔人才不够所致
王川：三个视角看硅谷的泡沫何时会破灭
SIA：2022年第一季度全球半导体销售额达1517亿美元同比增长23%
IC Insights：预计2022年全球半导体销售额达6806亿美元增长11%
IC Insights：2021全球半导体市场份额报告日本份额降至6%
胡润研究院：2024全球独角兽榜发布半导体领域中国占比80%
Gartner：2022年全球半导体总收入达到6017 亿美元同比增长1.1%
IC Insights：预计2022年全球半导体销售额达到6806亿美元增长11%
SIA：2017年11月全球半导体销售额为 377 亿美元
IC Insights：2021年全球有17家公司半导体销售额超过100亿美元

达摩院：2022十大科技趋势

DinK — Tue, 28 Dec 2021 07:14:58 +0000

100多年前的1900年，物理学家威廉﹒汤姆生在发表新年贺词时回顾了物理学在19世纪取得的伟大成就。之前的几十年，物理学确实取得了突飞猛进的发展，汤姆生因此认为物理学的大厦已近落成，未来的物理学家们只要做些修补工作就可以了。

对于“物理学天空仅有的两朵乌云”——迈克尔逊-莫雷实验结果和以太漂移说之间的矛盾、热学中能量均分定理和实验结果的冲突，汤姆生认为也无须过分担心，今后的物理学家只要否定其中一方就可以了。但后人没能否定其中任何一方，反而是这两大矛盾重构了物理学的大厦——它们分别导致了量子力学和相对论的推出。

强烈的对比使人们意识到，科技往往关乎未来，而未来社会萌芽往往就隐藏在我们今天遭遇的痛苦、面对的疑惑、迎来的突破和无尽的遐想中。

人类从来都执着于展望未来和预测趋势，但也是这强烈的对比让人意识到，一叶知秋终究过于理想，未来总是超出预期。从思想萌芽到知识产生，从技术孕育到产品落地，从趋势形成到对手浮现，旁支层出不穷的前进之路总是让以具体科技为主线的科学史、创新史和社会史的书写超出人类的掌控，即便最富远见的学者也概莫能外。

预测从不容易，它代表着可以量化的客观知识和难以量化的主观思考在某个时点恰到好处的结合。如果说欠缺客观知识的趋势预测没有令人信服的科学基础，欠缺个人色彩的趋势预测也会失去足够的想象空间，它们或者导致预测走向发散，或者导致预测过于收敛。

达摩院每年发布的十大科技趋势预测就是这样一种尝试。因此，这份报告的意义不只在于预测结果正确与否，而在于它努力提供的一个独特视角和同样努力构建的一种科学方法。这个视角代表着一群面向实际问题的研究者对未来的思考，他们确实感受到了技术演进的惯性；这个科学的方法则尝试着让这群人与社会各界者展开互动，各方对未来的感知依靠这个方法交融，让整个社会都感受到技术演进的脉搏。

过去几年，在成功预测AI专用芯片崛起、超大规模图神经网络系统赋予机器常识、庄闲网络娱乐平台进入回归理性等技术趋势的同时，整套研究方法也在不断进化。到今年，研究者已经将视角扩大159个与信息科学交叉的领域，过去四年间的770多万篇论文和8.5万份专利都进入量化模型，定量分析的权重显著上升。与此同时，参与其中的科学家、创新者和政策研究者也越来越多，他们对已有状况的分析、对可能未来的前瞻和基于事实的严谨讨论，都让研究人员的思路得以开阔但视线得以聚焦

在这套方法论的帮助下，达摩院今年推出的十大科技趋势涵盖范式充值、场景变革和未来互联三大领域，其中有些趋势——例如AI for Science已现端倪，有些趋势——例如大小模型协同进化的具体方式仍存争议，有些趋势——例如硅光芯片的未来还需要时间来充分印证，这也给每个关心未来、关心趋势的人留下了一个作业。

确实，预测永远无法替代哪怕一次微小的实践。但历史已经同样并将继续证明，每一个充满想象力的科学预测都是每一次勇敢前行的伟大序曲。

更多阅读：
阿里达摩院发布AI EARTH 可精准分析遥感卫星、无人机等影像信息
达摩院：2023十大科技趋势
达摩院：2021十大科技趋势
Capterra：2024年美国科技趋势报告
2023年的科技趋势，除了ChatGPT还有哪些看点？
ADL报告：化危为机的11个科技趋势
未来今日研究所：2020年科技趋势报告（366页）
Gartner：预测影响企业转型五大科技趋势
德勤咨询：2024年科技趋势报告
德勤咨询：2023年科技趋势报告
Mindtree：2023年全球资本市场的科技趋势报告
德勤咨询：2022年科技趋势报告
阿里巴巴达摩院：2022年十大科技趋势
FTI：2020年娱乐、媒体和科技趋势报告
2019科技趋势：超越数字前沿

15种最常用的数据分析方法和模型

DinK — Tue, 28 Dec 2021 07:10:07 +0000

对外部用户分析模型

01、RFM分析

RFM分析模型用来对用户进行分类，并判断每类细分用户的价值。

通过三个关键指标判断客户价值并对客户进行观察和分类，针对不同的特征的客户进行相应的营销策略。

02、帕累托/ABC分析

ABC分析法可用于分清业务的重点和非重点，以此实现差异化的营销管理

。

03、波士顿矩阵分析

波士顿矩阵通过销售增长率和市场占有率，来将产品类型分为四类。

04、转化分析

转化漏斗模型，是工作中最常用的分析模型，可以分析整条业务流程中的转化和流失情况，通过转化数据，精确定位每个环节流失用户，进而定向营销促转化。

05、购物篮分析-关联规则

通过分析用户消费数据，把不同商品进行关联，挖掘二者之间的联系，就叫做商品关联分析法。

06、复购率分析

指最近一段时间购买次数，用于说明用户的忠诚度，反向则说明商品或服务的用户黏性。

07、留存分析

留存分析是一种用来分析用户参与情况/活跃程度的分析模型，用来查看进行初始行为后的用户中，经过一段时间后仍然存在客户行为。

08、月复购分析

月复购率分析可以帮我们观察用户的忠诚度。

提升复购率，可以提高用户购买的频次。

09、AARRR用户运营分析

AARRR模型又叫海盗模型，包含用户增长的5个指标：获客、激活、留存、收益、传播。

10、用户流入流出分析

对流入客户和流出客户的行为进行分析，分析后各个品牌的竞争力情况一目了然。

11、用户画像分析

用户画像分析用一句话来总结就是：用户信息标签化。

对内部运营分析方法

12、需求分析方法—KANO模型

KANO模型是对用户需求进行分类和优先排序的有用工具，将需求分为四类。

这个模型能帮助我们从海量需求中找出最值得去做的事。

必备型需求（必须有）：即常说的痛点。对于用户而言，这些需求是必须满足的，理所当然的。当不提供此需求，用户满意度会大幅降低。这类是核心需求，也是产品必做功能。

期望型需求（应该有）：当提供此需求，用户满意度会提升；当不提供此需求，用户满意度会降低。通常作为竞品之间比较的重点。

兴奋型需求（可以有）：惊喜型产品功能，超出用户预期，往往能带来较高的忠诚度。不提供也不会降低用户满意度。

无差异需求（可以没有）：用户根本不在意的需求，对用户体验毫无影响。尽量规避做此类型功能。

13、库存周转分析

通过分析企业从取得存货开始，到消耗、销售为止所经历的天数。周转天数越少，说明存货变现速度越快，销售状况越良好。

14、杜邦分析

杜邦分析法用来评价公司盈利能力和股东权益回报水平，从财务角度评价企业绩效。

15、盈亏平衡分析

盈亏平衡分析又称本量利分析法，是根据产品的业务量、成本、利润之间的相互制约关系的综合分析，用来预测利润，控制成本，判断经营状况。

转自：爱数据LoveData

更多阅读：
36个顶级数据分析方法与模型！
数据挖掘图书:谁说菜鸟不会数据分析(全彩) [平装]
成为顶尖自由职业者必备的 7 个软技能之一：沟通
数据科学家的15项原则
成为顶尖自由职业者必备的7个软技能之四：销售之王
上海数据交易所：2023年全球数据跨境流动规则全景图
细分市场样本量不够时，如何得出靠谱的满意度分值？
量表设计与分析实战
在充满变革的世界中生存，企业必须采取的六项韧性战略
数据量持续飙升，信息与通信技术行业如何实现可持续发展？
ChatGPT-4 技术报告
Postman：2022年API状况报告
TikTok推荐算法详解：2023年如何实现病毒式传播
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了
Stack Overflow：调查显示使用Linux的开发者数量要明显超过使用Mac

初创公司如何训练大型深度学习模型

DinK — Thu, 09 Dec 2021 16:03:24 +0000

本文最初发表于 AssemblyAI 网站，经原作者 Dylan Fox 授权，InfoQ 中文站翻译并分享。

引言

OpenAI 的 GPT-3 是一个令人印象深刻的深度学习模型，但是它有 1750 亿个参数，相当占用资源。尽管有不同的估计，但是这种规模的模型在一个 GPU 上的训练需要数百年。

幸好 OpenAI 有一个由微软提供的 NVIDIA V100 GPU 的高带宽集群，这让 OpenAI 可以在几个星期而不是几年内就能训练 GPT-3。这个集群到底有多大？根据本文所述，在 1024 个 NVIDIA A100 GPU 上训练 GPT-3 大约需要 34 天。

这个 GPU 的数量真是令人难以置信。每张 A100 GPU 的售价为 9900 美元，而我们讨论的是构建这样一个庞大的集群需要花费将近 1000 万美元。我们甚至还没有考虑到电力成本，或者你实际上必须安装 GPU 的服务器机架，或者维护这种类型的硬件的人力成本，以及其他成本。

如今，你可以从谷歌云这样的公有云提供商那里租用 A100 GPU，但按每小时 2.933908 美元计算，运行 1024 张 A100 GPU 34 天，加起来需要 2451526.58 美元。请记住，这个价格是针对单一的训练运行的价格。

我可以继续说下去，但问题是，训练大型模型既昂贵又缓慢。在 AssemblyAI，我们没有训练 1750 亿个参数范围内的模型（谢天谢地），但是我们的语音识别模型是非常庞大的 Transformer，正在快速接近 10 亿个参数。作为一家初创公司，速度和成本是我们必须不断优化的两件事。

这个问题的主要解决方法是在更多的 GPU 上训练模型，但是这需要很高的成本，往往是初创公司无法承受的。近几年来，我们学到了一些关于大型模型训练的经验，希望与大家分享。

模型尺寸和训练时间

在 AssemblyAI，我们构建了大型、准确的自动语音识别（Automatic Speech Recognition，ASR）模型，并通过简单的语音到文本的 API 进行公开。开发人员使用我们的 API 来开发应用，来实现转录电话、Zoom 视频会议、播客、视频以及其他类型的媒体内容。

我们性能最好的自动语音识别模型是大型 Transformer，在 48 张 V100 GPU 上需要大约 3 周的时间来训练。

32 个 NVIDIA V100s 训练一个模型

为什么我们这个模型的训练需要如此长的时间和如此多的 GPU？主要原因有三个：

1. 自动语音识别模型的输入特征是高维、长序列

计算出每隔 10 毫秒左右的一个音频文件的声谱图，并将其作为神经网络的输入特征。声谱图的形状 / 尺寸取决于音频数据的采样率，但是如果采样率是 8000 赫兹，那么声谱图中的特征数将是 81。如果是一个 16 秒的音频样本，它的形状会是 [1600, 81]，这是一个相当大的特征输入！

下面是声谱图作为矩阵的一个例子：

[[[-5.7940, -5.7940, -4.1437, ..., 0.0000, 0.0000, 0.0000], [-5.9598, -5.9598, -4.2630, ..., 0.0000, 0.0000, 0.0000], [-5.9575, -5.9575, -4.2736, ..., 0.0000, 0.0000, 0.0000], ..., [-4.6040, -4.6040, -3.5919, ..., 0.0000, 0.0000, 0.0000], [-4.4804, -4.4804, -3.5587, ..., 0.0000, 0.0000, 0.0000], [-4.4797, -4.4797, -3.6041, ..., 0.0000, 0.0000, 0.0000]]], [[[-5.7940, -5.7940, -5.7940, ..., 0.0000, 0.0000, 0.0000], [-5.9598, -5.9598, -5.9598, ..., 0.0000, 0.0000, 0.0000], [-5.9575, -5.9575, -5.9575, ..., 0.0000, 0.0000, 0.0000], ..., [-4.6040, -4.6040, -4.6040, ..., 0.0000, 0.0000, 0.0000], [-4.4804, -4.4804, -4.4804, ..., 0.0000, 0.0000, 0.0000], [-4.4797, -4.4797, -4.4797, ..., 0.0000, 0.0000, 0.0000]]], [[[-5.7940, -5.7940, -5.7940, ..., 0.0000, 0.0000, 0.0000], [-5.9598, -5.9598, -5.9598, ..., 0.0000, 0.0000, 0.0000], [-5.9575, -5.9575, -5.9575, ..., 0.0000, 0.0000, 0.0000], ..., [-4.6040, -4.6040, -4.6040, ..., 0.0000, 0.0000, 0.0000], [-4.4804, -4.4804, -4.4804, ..., 0.0000, 0.0000, 0.0000], [-4.4797, -4.4797, -4.4797, ..., 0.0000, 0.0000, 0.0000]]]

2. 模型包含大量参数

对于基于 Transformer 的神经网络，更大的网络通常会更好。很多论文都支持这一观点，其中 GPT-3 是最流行的例子。无论是在研究社区，还是在我们自己的内部研究中，我们都发现这种趋势同样适用于自动语音识别模型。

我们性能最好的模型是一个大型 Transformer，它包含近 5 亿个参数。随着参数的增加，在反向传播过程中，梯度更新所需要的计算能力就越大。神经网络的训练基本上可归结为进行一堆矩阵运算。模型中的参数越多，矩阵就越大。大型矩阵需要更多的计算和 GPU 内存资源。

3. 对大量数据进行训练

大型模型具有更强的建模能力，这要归功于其参数数量的增加，为了充分利用这种建模能力，我们在近 10 万小时的已标记的语音数据上对模型进行。举例来说，GPT-3 是在 45TB 的文本数据上训练的，它也可以视为 1099511626800 字左右的文本。

训练神经网络时，需要对数据集进行多次迭代（每次迭代都被称为“轮数”）。数据集越大，每次迭代或“轮数”的时间就越长。即使提前停止，在一个大的数据集上训练一个大的模型，进行 20~50 次的迭代，也会花费很多时间。

如何提高迭代速度

初创公司面临着一项艰巨的任务：在短期内取得重大进展。被誉为“突围型”的初创公司通常都会在最短的时间内取得最大进步。

对于一家刚起步的深度学习公司来说，这是一个艰难的挑战。如果你的模型需要 3~4 个星期进行训练，你是如何快速迭代的？

使用更多 GPU 训练

减少训练时间的最简单方法是在更多的 GPU 上训练模型。更多的 GPU 意味着可以使用更多的 GPU 内存来训练运行。例如，假设你可以在一个 GPU 上安装大小为 8 的 mini-batch。如果数据集中有 1000 个样本需要迭代，这意味着需要迭代 125 个 mini-batch（每个大小为 8）。如果每次迭代需要 1 秒，那么就需要 125 秒来迭代所有 125 个 mini-batch。

如果你有 4 个 GPU，你可以一次并行地迭代 4 个 mini-batch，而不是 1 个 mini-batch。这就是说，要完成所有 125 个 Mini-batch，只需要 32 次迭代。假定每一次迭代在 4 个 GPU 上花费 1.5 秒，这是因为 4 个 GPU 有额外的通信开销——然而，你仍然能够在 48 秒内迭代完整个数据集（32*1.5）。这个速度几乎是单个 GPU 的 3 倍。

不过，值得注意的是，更大的批量（batch）并不总是等同于更快的训练时间。如果你的有效批量大小过大，你的模型的总体收敛性将开始受到影响。选择适当的批量大小来训练是你必须试验的一项超参数，目前正针对不同的优化器（例如 LAMB 和 LARS）进行研究，这些优化器有助于缓解过大的批量大小损害收敛性的问题。

GPU 性能并非线性增长

训练的 GPU 越多，通信的开销就越大。因此，在 8 个 GPU 上训练的速度并不会比在单个 GPU 上训练快 8 倍。在 AssemblyAI，我们使用 Horovod 来管理跨多个 GPU 上的分布式训练运行。Horovod 是一个很棒的库，当你在训练集群中增加更多的 GPU 时，它可以帮助你获得更高的效率。

用 Horovod 的训练时间

在测试中，我们发现 Horovod 速度大大快于 DistributedTensorFlow 和 PyTorch DistributedDataParallel。尽管如此，PyTorch 还是在积极地开发，并在快速改进。在我们的测试中，我们发现 PyTorch DistributedDataParallel 在单台服务器上与 Horovod 相当，但是当扩展训练运行到多个服务器时（例如，4 个服务器，每个有 8 个 GPU），Horovod 的性能更好。

低精度训练

大多数模型默认是使用 FP32（浮点值 32，也称为单精度）进行训练。使用半精度（FP16）或混合精度进行训练，也可以加快训练时间。

FP16 张量是 16 位，或 2 个字节，其中每个位是 0 或 1，如 010101 10101010。FP32 张量是 32 位，或 4 字节，如 11110000 00001111 11001100 00110011。

训练期间更低的精度意味着更少的字节，这意味着在训练期间中需要的 GPU 内存更少，需要的带宽也更少，而且实际硬件级操作在较新 GPU 上运行得更快，所有这些都加快了训练速度。

使用 PyTorch，下降到 FP16 是比较容易做到的，例如 x = x.half 将一个 FP32 张量下降到 FP16。不过，要记住的是，在实践中训练的精确度较低，而且并不总是像在公园里散步那么简单。某些操作或自定义损失函数可能不支持较低的精度，可能需要大量的超参数调整，以使你的模型在 FP16 下收敛，而且较低的精度也可能会影响模型的总体精度。

如何降低训练成本

这很简单：不要使用像 AWS 或谷歌云那样的公有云。这样做似乎是最简单的开始方法，但是成本会迅速增加，尤其是与下面的选择相比。

自购硬件

如果你对管理自己的硬件感到满意（我们不推荐这么做），那么购买诸如 NVIDIA TITAN X 之类的消费级 GPU 是一个比较便宜的选择。举例来说，每张 TITAN X 的价格大约为 3000 美元，作为消费级 GPU，其性能出乎意料的好。如果你有能力建造自己的设备，走这条路只需支付一次硬件费用，但同时也要承担托管和维护训练设备的麻烦。

一些公司如 Lambda 等，可以为你提供相对廉价的定制训练设备。例如，一台配有 4 个 NVIDIA RTX A5000 和 NVLink 的机器大约需要 16500 美元。这包括内存、处理器、外壳等。你所要做的就是找个地方插上电源，然后支付你的电费。

专用云服务

在 AssemblyAI，我们从 Cirrascale 租用专用服务器。像 Cirrascale 这样的提供商有很多，但支付专用服务器的费用要比像 AWS 或谷歌云这样的大型公有云好得多。这个选择还使你能够自定义你所需的内存和处理器规格来定制你的机器，并为你选择 GPU 提供更大的灵活性。

比如，AWS 仅提供以下 GPU：

NVIDIA Tesla M60 GPUs

NVIDIA A100

NVIDIA Tesla V100

NVIDIA K80 (these are horrible)而 Cirrascale 公司提供的 GPU 种类繁多，比如 P100s、V100s、A100s、RTX 8000s 等。

很多时候，你并不需要最昂贵的 GPU 卡（现在的 A100）来在合理的时间内训练你的模型。而且，最新、最好的 GPU 通常不会立刻被 PyTorch 和 TensorFlow 等流行框架所支持。举例来说，NVIDIA A100s 在得到 PyTorch 的支持前就等了一段时间。

相对于大型公有云，如 AWS 或谷歌云，能够根据你的训练需求和预算定制一台机器，对于与小型托管服务提供商合作是一个巨大的优势。另外，由于你租用的是一台完整的物理机器，而非 AWS/ 谷歌云平台那样的虚拟化机器，因此实际的机器整体性能要好得多。

结语

总之，训练大型深度学习模型是许多初创公司都必需要面对的挑战。成本可能很高，迭代时间也可能很慢，而且如果你不小心，它们会严重影响你的创业进程。

原文链接：

https://www.assemblyai.com/blog/how-to-train-large-deep-learning-models-as-a-startup/

来自： AI前线

更多阅读：
深度点评亚马逊、微软、谷歌、IBM 等 6 大机器学习云
数据科学技能中，哪些是核心技能，哪些是热门/新兴技能？
Postman：2022年API状况报告
国家知识产权局研究中心：详解谷歌三代无人驾驶汽车的专利棋局
TIOBE：2024年10月编程语言排行榜 Python占据了21.90%的市场份额
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了
解析深度学习如何改变医疗成像领域
Joe Peddie Research：2022年Q2独显出货量较一季度下滑了22.6%
语音交互的前世今生
JPR：2024年Q2全球GPU出货量意外增长1.8%
智联招聘：2022年第二季度中国企业招聘薪酬报告
8种数据分析师必备方法
Guide2Research：2020全球顶尖计算机科学家排名
Stack Overflow：2019全球编程语言高薪排行榜
Stack Overflow：2020 年开发人员调查

2021年GitHub年度报告：仅有 11% 的开发者想重返办公室

DinK — Mon, 22 Nov 2021 14:33:53 +0000

2020 年，疫情打乱了人们的生活，远程办公成为常态。于开发者而言，他们也在疫情期间学会了平衡工作与生活，并开发出了一系列远程办公的辅助工具帮助企业创造更大价值，满足特殊时期的特殊需求。作为全球最大的代码托管平台，Github 见证了这种趋势带来的技术迭代，并在报告中展示了在疫情期间开发者如何更快地交付代码并提高生产力。

11 月 17 日，GitHub 正式发布了 2021 年度报告。报告中深入研究了全球超过 7300 万开发人员在 GitHub 上的发展趋势，其中包括 2021 年新增的 1600 万用户和财富 100 强中的 84% 的企业。

据报告显示，来自印度的 GitHub 用户总数比去年同期增长了 38.9%。目前，代码存储库中近 70% 的活跃用户来自北美以外。美国以外用户数量增长最快的国家和地区包括印度尼西亚、巴西、印度、俄罗斯、日本、德国、加拿大、英国和中国。

图片来源：GitHub

过去一年里，从开发者分布来看，43.2% 的 GitHub 活跃用户来自北美，其次是欧洲（33.5%）和亚洲（15.7%）。

其中，有 7555311 名开发者来自中国，而 2020 年，来自中国的开发者有 6521914 名。

在编程语言方面，JavaScript 依然在开发者中最受欢迎，Python 和 Java 紧随其后，在近三年来分别位列第二和第三位。

此外，可以看到，从 2017 年开始， C#、PHP、C++ 这些开发者以往使用更多的编程语言逐渐被 TypeScript 赶超，与 C/C++, Java 等静态类型语言不同的是，TypeScript 既具有 IDE 全方位的开发辅助和严格的代码检查的静态优势，又能让代码像 JavaScript 一样简洁和灵活，这也是开发者越来越倾向于使用 TypeScript 的原因之一。

在接受调查的十种语言中，只有 Shell 和 C 的位置与去年相比发生了变化——Shell 取代了 C 语言，上升至第 8 位。

除了对编程语言和开发者的调查外，Github 还进行了一项有意思的调查，那就是对比了疫情前后工作场地的变化。据调查结果显示，2021 年，生产力开始恢复到疫情之前的水平，而工作场所正在发生变化。当受访者被问及他们在疫情之前是如何工作的，以及在疫情之后他们希望如何与他人协作时，只有大约 11% 的受访者希望回到办公室工作，比之前的 41% 减少了 30%。

实践表明，自动化能够消除分歧和重复性工作，通过自动化，团队在开源方面的效率提高了 27%，工作效率提高了 43%，开发者实现了更高的完成度。

2021 年，开发者代码的传递速度大幅提升。开发团队每日合并的拉取请求数量提高了 61%。开发者更少的项目，合并速度更快，一般不到 1 天即完成合并。

参考链接：

https://octoverse.github.com/

来自： AI前线

更多阅读：
2019年十大企业级编程语言榜单
HackerRank：调查显示年轻的开发者反而对编程语言更保守
2020年什么编程语言最受欢迎，待遇最高？
Stack Overflow：2020 年开发人员调查
CSDN：2021-2022中国开源开发者调查
数据科学家年薪12万美元算高吗？我爬取近6年三千份数据后发现了这些秘密
StackOverflow ：调查显示富裕国家流行 Python 和 C 语言
2021年面向 Go 开发者的调查
非常全的大数据相关资源整理
RedMonk：2021年6月编程语言 JavaScript居榜首
2017 年，阿里巴巴开源的那些事儿
深度点评亚马逊、微软、谷歌、IBM 等 6 大机器学习云
数据处理的 9 大编程语言
为啥芯片那么难搞？终于有人讲透了！
10款开源的压力/负载测试工具