【大数据.一】人工智能一定更客观? 学习不全面或致误判及偏见
人工智能,会令我们的生活更美好吗?这是不少人心中的问号。大数据、人工智能、演算法……这些词汇似乎每天都走入我们的视线,当大家仍未弄清楚它们是什么,媒体已争相报道人类的工作很快会被取替,叫人焦虑。大数据开启了时代转型,改变了我们的生活及理解世界的方式,它的潜在价值固然值得期待,但大数据既可以是文明进化,亦可以是新的藩篱。海量的数据可以发挥巨大的威力,不单知道你是谁,更可发展到行为预测的阶段,对人的监控、对私隐的侵犯或比往日更轻而易举,数据科学发展与道德之间的矛盾也难分难解。大数据可以做什么?会否引伸更多问题?谁又是拥有数据的人?人人都着眼于它的好,但曾否想过我们对它有多少理解,又如何理解它的功用?此乃《谁搬走了我的数据?》专题报道之一
网上流行一个比喻:人工智能(AI)就是机械人的脑袋,机械人好不好用就视乎AI厉不厉害。那么AI如何变厉害?人类就要给AI吃大数据,而演算法就是机械人的消化系统,负责统计、比对、关联及分析大数据,产出人类能够解读的结果。机器学习正是一门炙手可热的人工智能科学之一,让机器自动学习算法,借此找出规律及作出预测,不经人手。重点是,只要数据够新鲜、够干净,AI便健康。
现时感测装置、无线射频识别系统、交通流量运输分析等技术每分每秒在现实世界中收集实时资讯,而大数据的精髓在于高频率地挖掘及分析大量资料,再对所有数据进行分析处理。这并非单纯的数据库搜索过程,而是可以透过宏观分析,观察到微观方法无法突显的资讯关联性及讯息,从中获取商业或社会价值。
大数据具备4V特点—大量(Volume)、速度(Velocity)、多样(Variety)及价值(Value),当中的数据所指的并不只限于数字,还可以是文字、声音、图片、视频等。不论是使用通讯软件、浏览社交平台,还是信用卡消费记录、乘车记录,我们对自己所做的事可能已习以为常,但你一个赞好,也在传达着个人偏好的数据,不断增加社会的数据量。科技市场研究公司国际数据资讯(IDC)预测,全球资料领域在2025年将增至163ZB(1ZB相等于1兆GB),是2016年16.1ZB资料的十倍。
SocialFace创办人及技术总监张栢鸣说,“我们找到的,不会比一个看完所有相的人多,只是我们交由机器效劳。” 拜人脸辨识所赐,歌手张学友在内地巡回演出,还未巡回一圈,便已“协助”警方拘捕60名逃犯。张栢鸣同样“靠样揾食”,SocialFace是针对社交活动的智能平台,利用人脸辨识、大数据、人工智能演算法等分析活动照片,并提供活动报告、分享即时相簿及推荐人脉三大核心服务。
你的脸就是社交名片
张栢鸣解释,不少组织在举办活动时,都会拍摄大量照片,平台可透过辨识照片中的参加者,分析他们的性别、年龄及种族等,准确度可达99%,并透过分析不同参加者出现在同一照片的次数、姿势等,知道参加者之间的交流,自动建立人脉关系图,找出最活跃、令活动最有所得益的中心人物。张栢鸣说,对活动主办方而言,有分量的人出席活动可令活动生色不少,有别于过往倚靠经验及公关,“现在靠机器帮你完成,利用相片了解到哪些人是重要的,再请他们过来。”
这并非张栢鸣的第一间公司,他在香港科技大学念博士时成立一所专门处理大数据及图像分析技术的公司,加入创科香港基金会(Hong Kong X Foundation)后,结识了提供活动摄影平台的公司负责人,张栢鸣发现对方能接触庞大的市场,但只专注于分享相片,而自己则有“用户图像联系分析”技术,所以2018年初开始合作,互补优势,为客户增值。
技术的便利并不仅于此,除了为活动主办方分析活动数据外,平台也会提供分享照片的功能,“以往的惯常做法是逐张相挑选出来,现在可以完全自动化,就算我不知道对方身份,也可以先将他分类,而这个资料库是不断累积的。”张栢鸣补充,透过影像,我们会知道谁与谁有交流,可以协助参加者找回对方,重建照片内人物的社交网络。
若参加者愿意提供个人资料,平台可推荐人脉,得知其他同样愿意提供资料的参加者联系资讯,甚至知悉合照者的共同朋友、曾一同出席场合等。他强调,SocialFace重视用户私隐,视乎用户愿意公开多少,就像应用程式WhatsApp的最后上线时间,“你愿意让他人知道你看了讯息没有,你便可以知道对方看了没有。”
作为提供技术的平台,SocialFace现时以香港商业客户为主,过去一年已应用于近百场活动,除了获投资者支持,他们也于2018年10月,加入由阿里巴巴、商汤科技及香港科技园公司合作成立的“香港人工智能及数据实验室”(HKAI Lab)。张栢鸣强调:“数据是属于客户的,不能公开拿去卖,我们能够做的只是分析数据,将报告的结果交予客户。”但长远而言,他想把SocialFace发展成一个数据共享平台,“未必完全开放,可能是需要买卖或作为一种知识与他人分享,如果你愿意分享自己的数据,你也可以接触到他人的数据,始终数据的主动权在我们的客户手上,客户愿意分享多少,便会是多少。”
他指出,数据愈多,SocialFace能知道的事便愈多,因为算法会变得愈准确。他亦提醒:“影像没法捕捉所有人,但始终有一个切入点,活动有摄影师是很正常的事,而我们只利用摄影师发现人与人之间的关系。如果在活动当中有监控镜头,反而会令参与者更不自在。”数据不足,通过人的努力尚且可以弥补,但如果数据在背后作祟,将一些人拒诸门外,这又如何是好?
英国作家乔治.奥威尔(George Orwell)在其经典小说《1984》中写道:“谁控制过去,就控制未来;谁控制现在,就控制过去。”当时,奥威尔所指的是“历史”。但在大数据时代,人人都急着让数据说话,现今理解为“大数据”,也不为过。
人工智能所作出的判断不是凭空或随机,而是需要经过输入数据深度学习,从而训练它在某一方面的能力,因此搜集过往某一领域的数据是人工智能研究的共同起点。但偏见及歧视并不源于算法本身,而是研究团队提供予机器的数据:一方面,数据不足会使AI学习不全面,有机会作出错误判断;另一边厢,使用过去不准确或存有偏见的数据学习,再输出新的数据,会令过往的歧视在未来得以加强,进一步放大及巩固人类的固有偏见。
美国电子商务巨擘亚马逊(Amazon)刚刚宣布弃用一个歧视女性的人工智能招聘系统,系统在2014年起用作审核应征者履历表,亚马逊只要将几百份履历丢进去,它就会为应征者评分,并筛选合适员工。招聘过程经简化及自动化,让人事部可快速从庞大的应征者当中筛走不合适的人。但此系统在2015年被发现有“性别偏见”,因为参考过去十年亚马逊的聘用记录,系统会把出现“女性”,甚至学历为某“女子大学”的履历扣分。系统出现此偏见,是基于亚马逊过往录取的人都以男性为主,导致系统认定男性应征者更符合公司要求。大数据容易将群体特征强加于个人,将人分门别类及标签行为,令人失去部分权利;而不停的自我实现将令系统陷入不公平循环,使歧视长存于整个算法之内,这也是令人头痛的地方。
以人工智能为核心技术的自动决策系统应用日益广泛:企业先收集大众的上网习惯、购物记录、位置数据等各种数码脚印,透过算法预测行为:算法可以决定你看到什么新闻,听到什么歌曲,看到什么类型的广告,为你作一连串的个性化推荐,它对未来欠缺了一些想像,但这看来也无伤大雅。只是人工智能的影响力并不局限于此,它还可以决定谁得到贷款,谁得到工作,甚至在司法程序中决定你犯罪后的刑罚,在这时手执“生杀大权”的歧视就不再是轻于鸿毛,它只会为你画地为牢,不论虚拟还是现实,也在左右你的人生。
为了让世界更公平、更有效率,人类将本由人承担的决策工作交到机器学习系统手上,因为我们假设机器比人类更客观、公正,但事与愿违,人类社会的偏见及歧视偏偏在机器学习中重现,甚至放大,算法歧视可如何克服,如何避免形式化,以至成为可被操作的算法?这还有很长一段路要走。张栢鸣说:“机器暂时取代不到人,需要人的参与去调整。”
上文刊载于第144期《香港01》周报(2018年12月31日)《谁搬走了我的数据?》。
其他《谁搬走了我的数据?》专题报道文章:【大数据.二】企业赚钱基于用户数据 学者倡数据产权保大众权利
浏览更多周报文章︰【01周报专页】《香港01》周报各大书报摊及便利店有售。你亦可按此订阅周报,阅读更多深度报道。
相关文章:【大数据】用大数据重新定义人 当经济穷省遇上高科技【大数据】贵州数据铁笼管人管事 大数据非收集私隐?【大数据】数字化时代争议四起 社会恶果有待分解【科技.未来】多国收集国民DNA 大数据与个资权利可否共存?