【TECH】AI将改变世界 但“AI偏见”亦会
人工智能偏见,也称AI偏见(AI bias)已经成为一个热门话题。在美国,最近争取种族平等的大规模抗议活动让人们注意到治安算法不公平地针对少数族裔,而多年来,已有活动家指出,搜索算法经常将负面形象或词语与弱势社群联系起来。在香港版Google中输入“黑人是”,可以看看世界上最著名的搜寻AI会给出什么建议。
如今,当人工智能技术将彻底改变我们的社会和经济时,我们是否应该害怕它也会破坏我们社会的平等和正义?
其记录将分为上下两篇刊布。本篇为第一篇,探讨“AI偏见”究竟意味着什么。下篇,我们将看到人类可以做些什么来修复这种偏见。
“机器是种族主义者”或“人工智能成为性别歧视者”这样吸引眼球的标题是有误导性的。成“机器 ”或“人工智能”本身有偏见并没有意义,而是它们被构建和使用的方式让它们的行为有偏见。为什么呢?这一点,我们首先需要进步了解“机器学习”(machine learning)的一些基本知识。
可以“学习”,便可有偏见
目前人工智能的绝大部分应用都是基于一类算法,叫做“深度学习”(deep learning)算法,是机器学习的分支。深度学习的核心就是识别数据中的特征,例如照片中对应人脸的特定像素特征。
深度学习算法之所以大有用处,是因为它可以适应不同数据进行“学习”。算法有不同的“学习”方式,但都涉及在大规模的训练数据中自动寻找特征。
譬如,假如我们想让一个算法在图像中能够识别狗,我们就给它展示许多不同图像,然后,算法就会尝试猜测哪个图像包含狗,哪个没有;每次失败,就会调整自己的参数,直到它能可靠地区分。
这些技术的好处是让我们能够自动化许多以前只有人类才能完成的任务,譬如,评估应聘者、评级考试,或者决定哪些罪犯最有可能重新犯罪。结果是,算法对谁被录用、谁考上大学或谁被送进监狱的影响愈来愈大。
“垃圾进,垃圾出”
在算法构建的各个阶段,都可能会出现偏见。
当亚马逊开始使用其招聘算法时,算法表现出性别歧视的倾向。为什么呢?很简单,因为算法学会了过去招聘人员的性别偏见。
最广泛讨论的偏见类型发生在数据收集期间。深度学习算法只能从我们提供给它分析的数据中学习,如果训练数据将偏见的资料输入演算法,演算法自然也一定会输出偏见。电脑科学领域有一句习语指“垃圾进,垃圾出”。
“垃圾”可以通过两种方式引入到算法中。第一是数据无法很好地反映现实情况:譬如,如果面部识别算法都是用浅色皮肤的脸的图片训练的,那么它将很难识别其他肤色的脸。
第二种情况是,数据正确地反应现实,但现实本身却是不公的。这种情况通常发生在使用历史数据来训练算法的时候。当亚马逊公司使用它过去的招聘数据来训练其招聘算法时,算法表现出性别歧视的倾向。为什么呢?很简单,因为算法学会了过去招聘人员的性别偏见。可以想像,如果在香港有公司使用历史数据来训练招聘算法,它很可能会学会怎么歧视那些在底层组别学校上学或住在公屋的求职者。
被算法巩固的偏见
数据专家经常用“垃圾进,垃圾出”这个概念来逃避责任,称“这不是我们的错,问题在于数据”。但AI偏见也可能在数据收集阶段之前或之后被内置到算法中。
每一个算法的构建都有一个目标:股票交易算法的目标是利润最大化,而债务风险评估算法则试图最大限度降低坏账比例。这些目标是由人设定的,但算法却经常会以意想不到的、可能存在乃至巩固偏见的方法去追求这些目标。譬如,为了最大限度地减少坏账,银行的算法可能会将种族视作批准贷款与否的重要因素。即便你告诉它要忽略种族这个参数,算法仍然可能会通过数据中与种族相关的特征进行选择性歧视,如国籍或住址。
在设定目标和收集数据后,为了提高算法的效率,数据专家仍需要告诉它要注意数据的哪些属性,但这并不总是一个简单的选择:就招聘算法而言,除了相关工作经验和教育程度之外,是否还要告诉它考虑性别和年龄等属性?
【TECH】是一个正在进行的关于技术和社会的系列报道,其目的是在历史、社会、经济、政治的背景下解释科技新闻。从人工智能到纳米药物,从人类的改进到工作的未来,01国际【TECH】系列探讨破坏性科技创新如何被商业化、规管、滥用和再利用——不仅解释科技是如何改变世界,也分析世界是如何塑造科技。
究竟什么是“公平的AI”?
有时候,构建公平的人工智能不仅仅是为了确保一视同仁。就像对于任何强大的技术一样,科学家们不应该只担心技术如何设计,而是要问更大的问题,譬如,谁会使用这个算法?它将用于哪些人群?这些数据是谁拥有的?这项任务真的应该自动化吗?
因为数据专家通常不会思考其工作的社会影响,也鲜有接受相关培训,因此这些大问题往往被大多数据专家所忽视。然而,这种情况正在开始改变。5月,人工智能研究人员发表的一篇文章对人工智能偏见进行了深入研究,试图陈述人工智能领域中同样遗留着历史殖民主义的权益不公。
作者举了剑桥分析公司(Cambridge Analytica)的例子,为了改进它的选举算法,这家公司在2015年尼日利亚和2017年肯尼亚选举中对其算法进行了测试,并最终将算法应用在英国和美国大选中。后来的研究发现,这些测试主动扰乱了肯尼亚的选举进程,某种程度上,这与大英帝国在历史上在殖民地进行新药和新技术试验本质并无不同。
问题在于,人类对“公平”的定义并不相同,但算法却依赖于不变的数学模型。
除了对社会和政治影响之外,人工智能的偏见还触及到更深的伦理问题,甚至是对“公平”的定义。问题在于,人类对“公平”的定义并不相同,但算法却依赖于不变的数学模型。
举个例子,在招生的过程中,大学通常对学生使用相同的标准,这叫做待遇公平(fairness in treatment),但对来自弱势社群的学生可能会有稍微不同的要求,这叫做结果公平(fairness in outcome)。而算法则总是使用相同的数学规则:如果一个学校的算法尊重待遇公平,它就不能保证结果公平。
AI偏见是一面镜子
言及至此,我们应该很清楚“种族主义”或“性别歧视”等问题并非来自于深度学习机器本身,而是来自于创造它的人。
我们使用的人工智能虽然强大,但仍然只是一种处理数据的复杂数学工具。就像割草机或吹风机一样,深度学习算法是为人制造的,是我们欲望的产物,我们社会结构的结果。
AI不会创造新的偏见,而它会放大已有的偏见。通过教算法如何“学习”,我们教它们像我们一样行事。通过给它们的目标,提供的数据或对AI的不同用途,我们教算法重现我们最想隐藏的“特征”:我们思想和社会的不公平性。
Google会给出带有种族主义色彩的搜索建议,正是因为人们会搜索种族主义的内容。如果AI公司和研究员想要学会遏制AI偏见,他们需要审视自己的偏见。古人用“铜、史、人”这三面镜子来正衣冠、知兴替、明得失,或许在如今这个科技时代,我们也可“以AI为镜,以祛偏见”。
相关文章