英国警方刚刚修改了他们的AI警务系统,原因是它“涉嫌”歧视穷人

一项旨在帮助英国警方做出羁押决定的算法最近做了一些调整,原因是担心它可能会歧视来自贫困地区的公民。回顾这项算法工作的历程,你会发现它做出的预测和人类预测有着巨大的差异。

过去五年,达勒姆警察局和计算机科学家们一直在开发“危害风险评估工具”(简称HART)。HART是一个人工智能系统,它可以预测犯罪嫌疑人两年内再犯的概率是较低、中等还是较高。

HART是英国警方最先采用的人工算法之一。它不直接决定是否羁押犯罪嫌疑人,而是意在帮助警察决定是否将某个人列入一个叫做“Checkpoint”的康复计划。这个康复计划的初衷是调停诉讼,防止嫌疑人被送上法庭。

HART系统用到了34项个人数据(包括年龄、性别和犯罪史等)来评估犯罪风险的高低,其中包含了邮政编码。不过警方目前正在剔除该AI系统中的邮政编码信息的主要字段,比如删除达勒姆邮政编码的前四位数。2017年9月发表的一篇学术论文草案在回顾对这项算法的使用时写道:“HART目前正在接受数据更新,目的是删除两个与邮政编码相关的预测指标中的一个。”这篇论文的联合作者之一是一位警方成员。

爱丁堡纳皮尔大学犯罪司法系统专家Andrew Wooff说道:“我对于将邮政编码前几位作为预测指标心存忧虑。”他补充说,将地域和社会人口统计信息等作为预测指标,会加深警务决策和司法系统中的偏见。“如果系统预测某个邮编对应的地区具有犯罪高发风险,而且警方据此采取了行动,无疑会放大这种认知。”

这篇即将发表的学术论文,首次对HART进行了认真的审视。它指出,邮政编码和社区的贫困程度可能有一定的相关性。住址信息之所以会成为预测犯罪的相关指标,可能是人为造成的结果。如果把邮政编码作为建立再犯模型的依据,那么这个模型就会使犯罪高发地区的居民备受关注。这篇论文强调,真正令人担忧的不是模型本身,而是用来构建模型的预测因子。

该论文还强调,“人类和算法的预测观念存在明显的分歧。”在该算法的初始实验阶段,警方成员被要求模仿算法的输出结果,预测一个人的再犯几率是较低、中等还是较高。差不多三分之二的情况下(63.5%),警员将罪犯的再犯几率归类为中等。论文中写道,“模型和警员预测的吻合率只有56.2%。”

就修改算法一事,外媒WIRED联系了达勒姆警察局,但截至发稿时间尚未收到对方答复。

剖析HART算法的内在机制

“您被邀请参加一项研究计划”,一位达勒姆警官手中的邀请函这样写道。他被告知,“这项研究将彻底改变你的生活”,如果这项研究获得成功,罪犯们将永不再犯。

Checkpoint计划是达勒姆警察局和剑桥大学联合主导的一项实验。这项实验希望通过研究为什么有些人会吸毒、酗酒、无家可归和出现心理问题来降低再犯罪率。

Checkpoint计划的研究对象由HART算法来提供。如果某人被HART算法判定为具有中等再犯几率,就会被列入Checkpoint计划。而被系统判定为具有较低或较高再犯风险的人,则不会被列入计划。

弗吉尼亚大学公共政策与经济学教授Jennifer Doleac说道:“人们的生活被现状所扰,但有没有一种更好的处理犯罪的方式呢,这种方式更加公平,让我们更加接近社会目标?”Checkpoin计划曾被霍华德刑法改革联盟授予奖项,后者称赞了它试图让人们免受司法体系困扰的尝试。

HART是一个使用R编程语言,通过随机森林进行决策的机器学习系统。所谓随机森林,是指一种基于一系列不同输出进行预测的方法。

HART所做的每一个决策都是建立在历史数据之上的,它通过分析历史数据来预测未来。达勒姆警察局向HART的第一代模型提供了2008-2012年期间的104000起羁押时间的详细信息。它从这些信息中提取出了包括位置数据在内的34个预测因子,并据此预测每个人的再犯几率。HART的所有预测结果都是通过系统内部的509个投票得出的,投票分为低、中、高三个选项。

这项研究由达勒姆警察局的刑事司法主管Sheena Urwin领导,他发表的研究成果显示,HART系统在真实世界中是行之有效的。HART系统的早期版本曾经预测一个24岁的男子具有高再犯几率。该男子有过暴力犯罪史,警方掌握了他的22条犯罪记录。HART系统内部投票时有414票投给了高再犯几率,另有87票和8票分别投给了中等再犯几率和低再犯几率。后来该男子果然因为谋杀而被捕定罪。

以算法为执法依据

虽然人工智能在警察和执法机构中的应用仍处于早期阶段,但对有志于开发AI算法系统的警察机构来说,这个过程中已经暴露出了很多值得警惕的问题。

Pro Publica 2016年的一项调查研究曾被广泛引用,该调查显示,Northpointe开发的COMPAS软件对黑人犯罪持有偏见。

乔治梅森法学教授Megan Stevenson在研究风险评估算法Kentucky的作用时发现,该算法并没有起到多大的作用。通过分析一百多万起刑事案件的资料,Stevenson得出结论,“它既没有带来风险评估算法的拥趸们所期待的效率提升,也没有像批评者们预言的那样加深种族歧视。”研究结果还显示,法官们使用Kentucky系统的风险评估法的时间越长,他们就越倾向于回到自己原有的工作方法和模式。

为了避免人类的种族和社会歧视渗透到HART算法当中,达勒姆警察局专门为员工举办了围绕“无意识歧视”的宣传讲座。警方还强调,这项算法所使用的预测因子中并不包含种族,而且算法输出的结果只是一种辅助,它的目的在于帮助人类更好地作出决策。2017年12月,Urwin向国会议员解释道:“虽然我不能告诉你具体的数字,但警员们确实不会完全按照算法的预测行事,因为预测并非全部和最终的参考依据,它只是一种辅助而已。”

爱丁堡纳皮尔大学的Wooff教授则表示,出于时间紧迫和集约资源的考虑,警方可能会让警员们过度依赖AI生成的决定。他说道:“我可以想象,警员们可能更依赖于系统的决策而不是自己的思考。” Wooff教授认为,书面记录对需要做决策的警员们或许有所帮助,“这部分是因为,一旦出现了问题,你可以为自己的决策辩护。”

另一项聚焦于COMPAS软件的准确性的研究发现,它和没受过专业训练的人类做出的决策没什么不同。这项研究的作者之一Julia Dressel说道:“COMPAS的预测并不比那些几乎没有任何刑事司法经验的人,基于在线调查做出的预测更加准确。” Julia Dressel现在已经成了一名苹果工程师。

Dressel和达特茅斯学院教授Hany Farid付费让人们使用亚马逊的Amazon Mechanical Turk网站,预测罪犯是否会再次犯罪,并将预测结果和COMPAS的结果相比较。结果显示,人类和算法的预测准确率都在67%左右。Dressel说道:“我们不能凭空想象,认为一个工具运用了大数据就能准确地预测未来。我们需要让它达到非常高的标准,而且要对它进行测试,让它证明自己确实像标榜的那般准确有效。”

开诚布公,接受公众监督

达勒姆警察局的算法是一个“黑箱”,系统无法完全解释自己是如何做出决策的,我们只知道它是基于模型内部的超过420万个数据点。2017年9月,对HART的总结和反思得出一个结论,“不透明度似乎无可避免”。目前HART系统仅接入了达勒姆警局的数据,未来它可能还会接入地方议会或英国警察国家数据库中的数据。

为了规避算法不透明的问题,警方创建了一个框架,框架规定了算法该在何种情况下被使用。这个框架被称为“算法注意事项”,里面说道,算法必须是合法、准确、可挑战、负责人和可解释的。

AI Now研究所的技术人员Dillon Reisman说道:“问责不能只是一个核对清单。很高兴看到他们制定了“算法注意事项”,但他们还应该思考优先使用算法是否恰当。” AI Now研究所主要的做事情是研究人工智能对于社会产生的影响。

警方拒绝公布HART的底层代码,认为这不符合大众的利益,而且有可能将这个系统扼杀于研究阶段。不过,警方表示他们愿意将底层系统交给中央组织。

“达勒姆警察局将准备好向算法监管机构公开HART算法和相关的个人数据及羁押数据集,”警方被问及数据公开问题时如此回应道。

Reisman认为,仅仅公开这些数据还不够,因为“光看代码无法对算法进行评估”。他说道:“你还等知道人们是如何根据算法的决策采取行动的。”

在这些发生之前,AI警务系统的有效性仍值得商榷。2017年9月,一份由Urwin参与写作的关于HART的审查报道,重点关注了算法预测是否完全适用,以及种族等相关数据是否应该被纳入警务系统这两大课题。

COMPAS分析报告的联合作者说道:“根据以往的行为准确预测一个人未来两年会做些什么是非常困难的。如果你无法做到那样高的准确率,那么就应该放弃这种方法,转而寻找其他更简单的途径,并在公民的自由和社会稳定之间寻找平衡。”雷锋网雷锋网

 via wired 雷锋网编译