
在理想状态中,数据系统会剔除之前不恰当的人类偏见。但是我们必须警惕,确保大数据的应用不会造成对某一特定群体的系统性歧视。我们需要发展出一种“经由设计的平等机会”法则,从运算过程的第一步开始到最后,促进公平,反对歧视。如果计算机系统的公平性、对于数据分析的伦理性路径能够得到保障,那么这样一套新的实践就具有很强的潜力去增加机会、克服歧视。
对于数据来说,促进公平和克服歧视的挑战集中在两个方面:
2)算法自身的工作机制。

和其他领域类似,程序员和科学家对大数据系统的设计、训练以及运用过程中产生的偏见,可能既非故意也是无心。因此,要践行“经由设计的平等机会”法则,就要在决策制定时,包括在雇佣、推荐、打分、筹款以及社会参与等方面,以一种基于研究的方法(Research-based Method)“弱化偏见”,以避免设计者由于自身的文化和生活经验带来的不可回逆的后果,使得偏见成为常态。
随着大数据和机器学习技术的不断进步,一个重要的启示是,不能再不加质疑地过多依赖于新的系统,而是需要不断地测试输入数据、决策机制以及输出结果。那种认为数字不会撒谎、永远代表客观事实的“数据原教旨主义”,会带来严重且迷惑的后果,给人们的生活带来极大的负面影响。
于此同时,我们还需要关注这些算法系统是如何被使用的,确保这些关于地点、人物、偏好等更多的信息被合理合法有道德地使用,进一步促进民主公平。

(1)问题:因为缺少信用纪录,许多美国人无法获得可以负担的贷款。
大数据解决这一问题的可能路径是利用数据分析获取多种来源的信息,为消费者获得贷款创造更多的机会。一些贷款机构收集之前未利用过的数据,比如电话账单、公共档案、早先的地址、教育背景、缴税纪录,另一些贷款机构可以考虑更加非传统的来源,比如手机使用过程中收集的位置数据、从社交媒体平台上收集的信息,在线购物纪录中的消费偏好,甚至贷款申请人在个人金融网站上浏览的速度。
通过大数据设计的信用工具为千百万的美国人获得贷款创造了一个新的评分机制,而在以往,这些人因为缺少足够的信用纪录而无法获得信用评分,或者因为评分过低而无法获得贷款。
由于算法系统的复杂性和专利特征,对于评价产品的研究还相当匮乏。如果不改善这一点,这种利用新的评价方式的算法系统在贷款市场上的应用将会对个人信用测定造成歧视性的伤害。

(1)问题:传统的雇佣过程可能不必要地过滤了拥有与招聘职位相符技能的应聘者。
即使企业在招聘中大量使用了算法系统和自动化工具,但是无法避免招聘人员存在无意识的“与我相似”的偏好带来的偏见,而这会对雇佣多样性造成妨碍。算法系统可以通过设计避免这种偏见,增加雇佣的多样性。然而,由于算法设计依靠的是人力和不完美的数据,因此,算法系统也有可能建立在有瑕疵的判断和假设之上,从而固化偏见。
与信用评分一样,数据分析可以在职场用于评价人员与工作的匹配度。如上所述,招聘中的“与我相似偏见”或者“类同偏见”可以使一位用意良好的人事经理往往选择与其有共同点的应聘者。相反,算法驱动的招聘程序可以避免个人偏见,识别出最适合特定岗位的人才。
企业也可以利用数据驱动的路径发现通过传统的教育或职场经历要求而被高估的雇员。当公平、伦理和机会成为招聘算法设计的核心,大规模的数据系统可以克服传统招聘实践中引发歧视的那些明示或者暗示的偏见。除了招聘决策和人员部署外,先进的算法系统也可能解决就业歧视中其他由来已久的挑战,比如工资差距或者职业隔离。
机器学习的算法能够通过雇员过去的表现判断哪类雇员更可能获得成功,或者通过人事经理过去的决定分析其偏好。但是如果这些信息来源本身具有历史性的偏见,那么算法评价恰恰复制了同样的偏见。
企业开始通过多样化的人力资源分析平台来筛选应聘者。对于构建美国职场公平性来说,关键的是企业要持续推动以公平和伦理的方法使用数据工具,避免偏见的固化而造成对某些人群的冷遇。

(1)问题:学生往往在申请大学、寻找适合大学的信息和入学等方面面临挑战
与此同时,高等教育机构收集和分析大量的学生和申请者的数据。在高等教育入学中使用大数据,可能会产生歧视,也有可能用来预防歧视。同样的技术可以识别和帮助那些需要额外帮助的学生,也可以用来拒绝学生的入学申请或其他机会。
为了解决大学质量和费用信息缺乏的问题,政府创造了一种新的大学评分卡,提供大学绩效的可靠信息。从未披露过的全国毕业大学生收入数据,包含了毕业校友的收入和学生贷款等最可比较的数据。这些数据也可以鼓励大学加强对学生完成大学学业的支持。
除了教育部提供的大学评价卡的数据以外,高等教育机构也利用大数据对入学学生的发展进行分析和追踪,为学生建立定制化的学习安排。大数据技术可以通过个性化建议提高学生的学习效率,克服学习结果的持续的差异性,对那些可能退学或失败的学生提供额外的帮助。
尽管数据能够帮助高中学生选择合适的大学,但是对于学校和学生成功的因果关系的准确评估还面临多种挑战。一个重要的制约是,联邦数据资源中缺乏可以反映学生个人学业准备水平的数据,比如GPA、SAT或ACT成绩。因为学生的学业准备水平是评价大学质量的重要指标,缺少这一变量可能对大学质量的评价产生偏见。
在入学决策中,高等教育机构可能使用大数据技术在学生入学前预测申请学生毕业的可能性。大学可能会拒绝来自低收入家庭的学生或者那些毕业面临特别挑战的学生。
另一方面,一些学校和州积极利用数据提升学生入学率和成功率以及防止歧视。例如,田纳西州一项以结果为本的基金方案为四年制大学提供有关数据如何推动学生成功的说明。田纳西的模型对有资格获得Pell奖学金和成年(年龄大于24岁)学生的“学分累积”和“学位获得”的结果赋予了额外的价值。这样,大学有动力招收低收入家庭和成年学生并支持他们获得成功。

地方、州和联邦执法机构越来越多地利用数据分析和算法系统以达成保卫美国的使命。执法官员使用数据和新技术对形势进行分析并作出恰当地反映。与此同时,执法机构也希望在其服务的社区中始终保持责任心,并且在数字时代也同样得以保持。同样的,协助执法机构作出决策和采取行动的技术也应当理性地加以使用,考虑其对社区信任关系建立的影响。
执法机构长期以来试图识别犯罪行为的模式,以便更加高效地分配有限的资源。新技术取代了人工操作,许多警察局开始使用复杂计算模型系统,重新确定犯罪高发地区,将犯罪数据与气温、时间、与其他建筑物和设施的距离以及其他变量联系起来。总统21世纪警务特别小组建议,执法机构应当总结技术为基础的执法的模型政策和最佳实践,提升社区的信任,制定与技术对隐私影响相关的国家标准,总结可为立法部门采用的最佳实践,以制定执法机构收集、使用、留存、传递视听数据和生物数据的规则。随即,白宫发布了“警方数据倡议”,推动警方数据更加透明,提高社区信任度。使用去身份的警方数据以及本地犯罪与人口统计资料等背景数据,系统可以发现预测未来高风险犯罪活动的最有指示性的因素。一些最新的分析模型技术,通常被成为“预测警务”,在预测犯罪行为可能发生的时间和地点上有相当高的精确度。
如果谨慎地设计和部署大数据方法,执法机构可以与风险实证相关的因素和变量进行决策,而非依据有瑕疵的个人的直觉和偏见。然而,非常重要的是,数据和算法系统不可以用于加剧刑事司法系统中无根据的差异性。
数据分析预测工具必须确保算法不依据下列因素而不成比例地挑选出特定群体,包括种族、宗教、收入水平、教育或其他与个人犯罪行为的可能性有关的特征。另一个需要重视的问题的是刑事司法数据众所周知非常糟糕。部分原因是因为主要的数据资源库,联邦调查局的统一犯罪报告(UCR)有必要进行现代化,自愿贡献的数据常常由于缺少丰富性和完整性而无法用于深度分析。即使犯罪报告得以改善,许多刑事司法数据仍具有内在的主观性。
• 鼓励市场参与者设计最佳的算法系统,包括透明和问责机制,比如保障主体修改错误数据和对算法决定提出申诉的能力。
• 推动算法审计和大数据系统外部测试的学术研究和产业发展,确保人们得到公平对待。
• 扩大计算机科学和数据科学的参与性,包括扩大机会,提高所有美国人对大数据算法的熟悉和了解程度。
• 思考政府和私人部门在设计大数据的利用之路的规则时所扮演的角色。
更多阅读: