现在是机器学习和AI不客观,算法或加剧刻板印象

人工智能揭示刻板印象随时代而变 美国100年来对女性及少数族裔看法改观

科技世界网     发布时间:2017-08-14    根据普林斯顿信息技术和政策中心(Center for InformaTIon Technology and Policy,CITP)的一项研究,虽然人工智能系统鼓励我们洞察我们所依赖的互联网大数据时代,然而这却容易对女性以及宗教种族群体产生一些偏见。 现在是机器学习和 AI 算法的黄金时代,智能算法的应用无处不在。根据计算机科学副教授 Arvind Narayanan 的研究,这种现象却会不经意强化和扩大了社会上流传的或者用户潜意识中的既定偏见。其文章已经提前发表在 2016 年 8 月的 arXiv 数据库中。 Arvind Narayanan 团队发现那些有意将女性更多地和家庭言辞结合的算法,同时有的算法的结果还会对老年人或者特定种族信仰人群挂上负面影响。“对于每一种记录在人群中的偏差,包括对性别的刻板印象和宗族歧视,在今天的机器学习模型中,我们已经能够复制出来,”Narayanan 说道,这项研究是她在博士后研究期间和英国巴斯大学计算机科学系的 Aylin Caliskan-Islam,以及 CITP 的访问学者 oanna Bryson 一起完成的。 研究通过探索词组在文本中的使用规律,并用机器学习算法构建语言模型,比如,通过关联所有维基百科或者新闻节选报道的十亿数量级的字节。语言模型每次只学习一个单词,研究员通过单词的几何坐标,对其在一个多维空间中的位置进行定位。如果这些单词经常挨着某些特定的单词,那么表明这两者间具有关联性,并且其所处的位置也能反映这些单词的含义。 通过这些单词在坐标系中的位置关系,研究人员发现了字里行间的偏见印象。 如果用这些文本训练模型,那么不难发现,互联网算法加剧了刻板偏见的扩大,比如男性经常会和“医生”联系在一起,这样的词还包括“雄心壮志”及“药物”。然而“护士”这个词更多的和女性关联在一起,这样的字眼还有“护理”及“药物”。这个模型将会默认“护士”是女性的,即使译文中的护士是男性的。 为了检测算法结果的偏差,研究人员努力建立一种针对人类对象的长期使用的测试工具,来揭露语言模型中潜在的偏差,即内隐联想测验(Implicit AssociaTIon Test)。以人类为主要目标的检测译文来检测一些与名字、肤色等人口这类词汇相连接的,比如“邪恶”或者“美好”等带有主观情感的词语。通过机器学习算法所使用语言的几何化模型,可以更直接的通过测算褒义、贬义、中性的词汇之间的间隔来锁定学习结果中出现的偏差。 诸如此类的偏见足以对现实世界产生巨大的影响。比如,在 2013 年哈佛大学 Latanya Sweeney 带领的研究团队发现非裔美国人的名字更容易和通缉令形成配对。这样的结果无意地引起了种族歧视,比如当一个非裔美国人投递他的简历时,如果雇员在网上搜索他的名字,那么歧视很容易发生,因为他的名字更多的和犯罪这样的字眼挂钩。 “人工智能的力量其实和人类旗鼓相当,并不存在碾压或完爆的现象,”Bryson 是这样理解人工智能与人类的关系的,“我们人类可以不断地学习。只要我们拔掉电源,AI 程序的发展就会停滞在某个阶段。” Narayanan 认为,如果我们可以处理这种偏见,人类可以采取一些措施从而使这种情况得以减轻缓解。也就是说,人类可以从数学意义上更正一个语言模型的偏差,并对算法出现类似的错误结果之时提高警觉。但更重要的是,我们还应该注意自身的用语习惯。

无独有偶。在之前的另一项研究中,当被要求画一幅科学家的画像时,目前约有1/3的美国儿童会勾勒出女性形象。这是自上世纪60年代以来出现的重大转变。在一项分析中,心理学家将在1996~2016年开展的78项“画一名科学家”研究的结果综合在一起,其中涉及约2万名从幼儿园到高中的美国少年儿童。上世纪六七十年代,99.4%的儿童画出的是男性科学家。这一比例在1985~2016年降至72%。到本世纪头10年,约1/3的画作描绘的是女性科学家。

通过对几十年来出版的英语文本进行分析,研究人员发现,他们的程序所嵌入的显然与来自同一时期的性别和种族刻板印象的调查结果相一致。随后,研究人员利用从20世纪头10年到90年代,美国的报纸、书籍和杂志上使用的2亿个词汇,分析了那些没有被调查过的情绪。

研究人员指出,来自其他时代和其他地方的人们可能不会告诉你他们的偏见,但他们也无法隐藏自己的偏见。

澳门太阳集团2018网站,研究人员首先想看看,嵌入是否能很好地反映刻板印象。

研究人员设计了他们的程序用以使用嵌入的词汇。通常,一串数字代表一个单词的意思,而这些单词的意思是基于文本中的周围其他单词所考量的。例如,如果人们倾向于把女性描述为情绪化的,那么“情绪”这个词语会比“男人”这个词汇更频繁地出现在“女人”的旁边,而文字的嵌入将会把它挑出来——“情绪”的嵌入将会比“男人”更加接近“女人”。而这便是对女性的一种偏见。

而其他的研究结果则集中于种族和宗教——亚洲人的名字与局外人的联系变得不那么紧密了,而在一个单独的数据集(从1988年到2005年的美国《纽约时报》中获取)中,与恐怖主义有关的词汇在1993年和2001年纽约市世界贸易中心遭袭后,变得与某些组织关系更加密切。

澳门太阳集团2018网站 1

本文由澳门太阳集团2018网站发布于科技中心,转载请注明出处:现在是机器学习和AI不客观,算法或加剧刻板印象