研究显示:美国预测犯罪的软件并不比普通人更准确

下一篇文章

夏威夷发送导弹警报的界面让我回到了 90 年代

一项最新研究发现,司法系统中常用于预测哪些犯人会再次犯罪的软件 COMPAS 所取得的效果并不比 Mechanical Turk 平台上普通人的随机选择更好,且两者都存在种族偏见。

由于公众日渐怀疑类似 COMPAS(用于替代制裁的矫正罪犯管理分析)的自动化系统是否能准确预测复杂的累犯率数据,达特茅斯学院的朱莉亚·德雷塞尔(Julia Dressel)和汉尼·法里德(Hany Farid)对这个系统展开了研究

为了检验这个系统,他们在亚马逊 Mechanical Turk 平台上招募了一些志愿者评估罪犯的性别、年龄和犯罪记录(当然,没有提供该罪犯是否再次犯罪的信息)。关于罪犯随后是否再次犯罪,这些志愿者被要求提供肯定或否定的预测。随后,这些预测被汇总起来,并根据大多数人的选择做出最终判断。这些罪犯的信息也被输入 COMPAS 的累犯预测引擎进行处理。

事实证明,复杂而昂贵的软件并没有比未经训练的普通人带来更高的预测准确度,准确来说准确度还要更低。志愿者正确预测累犯的概率为 67%,而软件的准确率只有 65%。志愿者和软件同时预测的累犯者只占 70%。

如果说这个软件的意义就是准确复制没有经验的普通人取得的结果,那么基本是成功的。然而,情况并非如此。

实际上,研究者还发现他们可以只用年龄及前科次数这两个数据点就能复制 COMPAS 取得的结果。

德雷塞尔表示:“我们的研究结果并没有证明,那些神秘、看起来很复杂的数据工具要比人工更准确、更公平。使用这种软件没什么帮助,只会导致一些人被剥夺第二次机会。”

用于分类犯罪的人工决策树的示例

这些还不是全部。研究进一步发现,志愿者和 COMPAS 的分类器都表现出相当神秘的种族偏见。

两者都会对黑人罪犯做出错误预测(即预测这些罪犯会再次犯罪,但实际上并没有),而对白人罪犯会做出反向的错误预测。无论种族信息是否被包含在评估数据中,这种偏见都会出现。

在使用的数据集中,黑人罪犯的累犯率要比白人罪犯高(原因很多且复杂,因此这里暂不讨论),但评价中并没有反映这点。无论评价者是否知道他们的种族,黑人罪犯都会被预测更容易再犯,而白人罪犯相反。考虑到这些数据可能被用于确定,哪些罪犯需要受到警方的特别关注,因此很可能这种偏见会永久存在。然而目前尚不清楚,什么样的指标可以替代种族指标。

不幸的是,关于公平性的问题尚无法得到解答。这项研究也没有继续探索这个问题的答案,而只是专注于系统的准确性。现在我们已经知道,准确率很低,因此人们可能会认为,COMPAS 的所有预测结果都值得怀疑,而不仅仅是可能存在偏见的结果。

这样的研究结论并不是全新的。2015 年的一项研究关注了预测罪犯再犯的 9 个自动化指标,并发现其中 8 个指标是不准确的。

COMPAS 的开发商 Equivant 已对这项研究做出了正式回应。该公司表示,只有 6 个指标实际被用于预测再犯,而不是研究中提到的 137 个(这些数据被用于其他判断,因为 COMPAS 软件的功能并不仅仅是预测累犯率)。此外该公司认为,从某些标准来看,70%的准确率(COMPAS 的准确率确实接近于 70%)已经足够好。如果是这样,那么这些标准应当被重新审视。

类似纽约的城市正在开展正式项目,调查此类系统的算法偏见,无论是预测犯罪,识别累犯者,还是给嫌疑犯定罪。这很有意义。对此类私有系统的独立评估,例如本周的这篇论文,是让企业保持诚实和产品有效性的关键。

 

编译/维金

Study shows software used to predict repeat offenders is no better at it than untrained humans