【人工智能.一】AI学习靠他们 数据标注员究竟是什么?
数据标注员可谓近年伴随人工智能衍生的新职业,如今在业界和学界都有共识:优质的数据是人工智能的基础,人工智能产业带动数据服务需求,未来这行业还需要海量的数据。数据并非凭空而出,你用键盘敲下的每个字,随手用美颜相机拍的自拍照,工作日高峰期塞车的场景,无论是图片、语音或其他形式,都可以成为产业链所需的“食材”——数据。这些原始“食材”,需要筛选、辨识、打上标签,经过加工后喂食给机器,才能使机器具备智能。这个过程正是成千上万的“王利利们”正在从事的行业。他们拿到数据,用一个个点、线、框,描绘和制订具体的标准与定义,教会机器什么是眼睛、鼻子和嘴巴。此乃《贵州大数据》专题报道之四
22岁的王利利是贵州一所职业学校的大三学生,学市场营销专业。早上起床,她习惯拿起手机,用语音输入搜索天气和新闻,手机根据语音要求,自动读出头条新闻。王利利是毕节黔西人,有时候在宿舍讲方言,手机的语音识别也畅通无阻,“我不知道是经过怎样的处理,感觉真的很神奇。”神奇与满足感交织于王利利的心中,她知道手机上的语音输入功能,离不开自己的工作。她不仅是一名即将毕业的大三学生,还是有着两年多工作经验的数据标注员,是隐匿在人工智能浪潮中,站在人工智能背后的人。
根据2017年“普华永道”发布的人工智能预测,直至2030年,人工智能产业带来的全球经济效益总计将达15.7万亿美元(约122万亿港元),其中中国AI效益的GDP占比为26.1%,高达7万亿美元(约55万亿港元),属于全球第一。人工智能已经进入信息处理、零售、金融、城市治理、教育、医疗、工业制造及智能家居等领域,未来还将钻进人类日常生活的方方面面。这个产业的兴起,不仅标志着科技水平的飞跃,产业链下游亦激发人们对数据市场的重视,重新形塑劳动密集型产业。
人工智能背后的人
距离贵阳市区约一个多小时车程的黔南州百鸟河数字小镇,正以数据服务吸引大众关注。贵州盛华职业学院约于2009年成立,随着一代代信息技术浪潮席卷,学校目前正依托人工智能、VR技术发展来确立专业领域。除了王利利,还有许多学生在课余前往来离学校不远的梦动科技实习,从事数据标注的工作。
2013年左右,王利利还在读高中,第一次听到“大数据”三个字。那时候她走路上学,心里琢磨着,要是能通过大数据记录步行时间,根据数据调整步伐就好了,“那时候觉得大数据是用来解决一些问题的”。考上贵州盛华职业学院后,在大一上学期碰巧听到“大数据+俱乐部”的宣讲会,好奇心终于萌芽,她成为了梦动的实习生。两年前刚成为数据标注实习生时,接手的任务比较简单,属于众包项目的图片分类,“用鼠标点、点、点就可以了”。刚开始做起来非常快,一天能做几千张,结算方式公开透明,三天时间就拿了几百块钱,对王利利而言,那是一种“标得很上瘾的感觉”。王利利的父母都在老家务农,生活负担沉重。读大学后,王利利能够自己承担生活费,有时剩下的工资还能补贴家用。数据标注的工作多做多得,她有一股冲劲。
众包项目不稳定,有数据的时候才有工作。她大二做了语音项目后,工作就变得稳定了。现在的项目大多是电脑视觉和语音识别的任务。语音识别的项目,有时一天工作七小时,标注的有效时段只有一小时,音频里面包括很多嘈杂的场景,对于训练算法来说,什么都需要考虑。比较累的标注任务,或许属于人脸识别。根据客户需求会有不同的标注方法,复杂的情况下,需要在一张脸上标注超过100个点。眉毛、鼻子、嘴唇和脸颊等不同部位的标注数量都有明确规定,脸部线条上的点距需要均分。这种任务费时较久,一天可能只标示50张图。
如今人脸识别已经是最为广泛的应用场景之一。例如进入京东的无人超市,需要先在京东App上传个人相片,进入超市通过摄影镜头检测匹配面容后,方可进入。不仅零售业,城市治理或安全防范领域已经开始应用人工智能的人脸识别技术。其中最知名的人脸识别,包括过马路时通过摄影镜头识别乱过马路的行人。深圳市于2017年4月启用“智能行人闯红灯取证系统”,一年内抓拍行人闯红灯事件近14,000宗。被抓拍到不良行为的人,经过系统识别、后台分析数据信息后,其人像图片会于马路边的屏幕上实时曝光。
王利利积累了丰富的标注经验,现在已经成为审查环节的负责人,有时候其他人标得不够好,她便说,“你自身幻想一下,如果刷脸的时候,别人把你的钱用完了,你是不是很心疼。”看到AI应用出事,她也会感到难过。曾有车祸原因来自自动驾驶系统无法识别某些场景,这与数据标注场景不够全面不无关系。
除了家乡的县城,王利利去过最远的地方就是贵阳了。“我去(贵阳市区)医院的时候会坐公交,从玻璃窗看到外面播放大数据,用数据分析贵阳租房、哪里的人密集或不密集、交通会不会拥挤,还会出现哪里住房标稀疏,帮人找工作……我觉得大数据真的很神奇,能够利用数据,把贵阳市的情况都展现在一个屏幕上。我看到的时候,感觉很欣慰。”王利利的笑容明朗,“人工智能发展在风口浪尖上,相当于我们已经站在前端了。”
事实上,人工智能市场的确在迅猛膨胀。根据中国信息通信研究院的数据,2017年中国人工智能领域市场规模达216.9亿元人民币,与2016年相比增加52.8%。在技术领域布局上,电脑视觉领域更是“拔得头筹”,占有37%。
有多少人工,就有多少智能
业界广泛流行一句话,“有多少人工,就有多少智能”,这句话也被王利利记在心里。人工智能的时代,的确不能忽略智能是由“人工”(在背后工作的人)铺垫而成的。
近五年,中国人工智能企业数量迅猛增长,逾1,500家AI公司先后诞生,其中2016年涨幅最高,初创立的企业数量超过340家,而主攻数据分析类的企业就占据四成。不少AI数据服务科技公司在这两年拿到了超过千万元(人民币)级别的A轮融资,能够提供整天数据服务的公司,包括数据方案的设计、数据采集与标注等,已能获得过亿的A轮融资。
AI基础服务供应商倍赛(BasicFinder)便是乘着行业潮流,分得一杯羹的数据服务公司。倍赛的创办人杜霖在大学期间,就读于上海交通大学最好的电脑班,他在大学就培养了对电脑视觉的热爱,并利用数据挖掘技术做了搜索引擎营销的工具,通过创业捞得第一桶金。那是人工智能还未成为热潮的时候。
杜霖回忆道,2014年国内的深度学习技术兴起,当时他与同伴花了六个月时间做了一个实验,训练模型用了两个月便取得综合识别率高达90%的客观结果。他意识到剩下三分之二的时间,都是用来采集有效数据,并对数据进行分类和标签,还需要找人负责处理数据,不断迭代后才能训练出稳定的模型。
那时起,杜霖的团队发觉要将数据作为人工智能行业的入口。“技术是会随着时间的发展,成本愈来愈低的,但真正的门槛是数据,我们认准当时deep learning(深度学习)是基于supervise(监督)。”所谓的监督,是电脑需要人来教很多东西,“我们认准这个算法在短时间内不会取得重大突破,所以当时就在探索可以做什么。我们预测数据量一定会膨胀,需求一定会成指数级地爆发,每个行业都会有数据梳理和打标签的需求,以及整个(数据)生命周期管理的需求。”2017年,倍赛科技正式对外运营,如今已经获得两轮融资,2018年至今,数据业务已经有十倍以上的增长。
“那时候还没有把AI领域的数据重视起来,但我们看到,真正的AI是由数据堆起来的。那会儿大家都觉得模型和技术是门槛,其实最终大家已经发现,数据是真正的门槛,因为所有做模型的公司,都在积累自己的数据,而且行业里模型差异不是非常大。”杜霖表示。
数据是一个绝对的门槛。杜霖透露,现在做人脸识别的大公司,人脸数据量起步都是过亿的,若只有几十万人脸数据想做一个start-up(初创公司),“你连门都挤不进去”.
海量数据都能直接用来训练模型吗?事实上,非结构化的数据,属于一种负文本、负媒体,而结构化指的是一种关系型的数据。如果只是单纯拿到一张相片,便属于非结构化数据,需要通过打标签的方式来处理这些数据。杜霖表示,一般只有30%的数据不需要打标签,而一开始模型都是由打标签的方式串连起来的。
“AI行业是离不开打标签的数据,数据谁来打标?一定是人来打标,一定是人把自己对于事物的理解交给电脑,你可以理解成是一个基于统计学的模型,统计学的模型里面,你只有见过的样本数愈多,理解能力愈强,用人的理解来说,就是见多识广。”杜霖解释。以一个停车场的图片场景为例,数据标注员会将密密麻麻的车辆分门别类,尽管图片像素不高、车辆重叠难以辨别,都能细致地打上标签。
数据标注是劳动密集型产业
深度学习的场景愈发复杂,数据需求量不断增加,愈来愈多人加入数据标注员的队伍,尽管他们有如隐形人一般,很少被人看见。事实上,多家数据公司的负责人向我们证实,这两年的数据需求的确如大爆炸般增长。遍布全国的数据工厂或小作坊,也如雨后春笋般野蛮生长,大家都想抢占先机,分一杯羹。
一开始科技巨头会组建自己的数据团队,但因数据需求量飞速增加,他们必须将任务外判出去。因此也催生了更多数据标注工厂。但也有初创公司会组建自己的团队,负责自己的业务。杭州一家无人驾驶初创公司,便有70人左右的数据标注团队,工作量稳定,每日标注量达到2,400个。
数据标注工厂或小作坊,更多集中于能满足低廉劳动力的三、四线城市,例如河北、河南、山东、山西等的城市。数据标注员一般也有大专学历水平,有时甚至连本科生也会从事这个行业。甚至有说法是,有些小作坊的老板,在街上找十个人就能成立一间公司。目前行业内没有明确的从业者数据,但据估计,应该至少有十万人成为全职的数据标注员。
另一种方式是数据众包。位于北京的龙猫数据公司亦于2016年正式进入AI领域,推出数据众包服务平台。龙猫的市场负责人康萌表示,目前App的用户数量已经达到500万人,用户散落全国各地。这是一种快速、便捷地积累数据的方式,包括语音或不同场景的采集和标注。
一般的数据标注流程是由科技巨头将任务外包给数据服务公司,数据服务公司或者再分配给下游的数据工厂或小作坊。经过层层分包,数据标注员拿到的薪金并不多。“(这个工作)就像在富士康工作。”香港大学社会学博士黄丹对数据标注行业进行初步调研时,有数据小作坊的老板这么描述这个行业。她指出,数据标注是一种低收入的行业,并且枯燥无聊,“他们会说自己的工作和富士康工人没有区别。”黄丹问一位曾经做过数据标注的人,离开这个行业的原因,对方抛下三个字:“快瞎了。”
要捞一桶金并不容易,行业存在的另一个问题是流动性强,很多小作坊的员工做了一段时间便离开了,老板们都很着急。进入市场太快,接不到任务、拿不到资源,很容易变成一份朝不保夕的工作。“他们就是朝不保夕者,不稳定无产者,工作没有了就再找一个。”黄丹说。
天津大学人工智能学院朱鹏飞教授长期关注AI领域,他指出,“数据在人工智能领域,相当于劳动密集型的产业。整个数据产业,如果拿未来三年有一千亿产值来说,这里面大概有10%的工作属于数据采集、清洗、标注、加工。”朱鹏飞打了个比方,“现在中国有很多数据工厂,它和之前加工衬衫、纺织是差不多的,只不过他们操作的对象变成了数据。”海量数据难免会有质量参差不齐的问题,香港大学新闻及传媒研究中心副教授傅景华指出,如何保证标注质量?虽然会有质量检测,但若控制不得当,数据可能会产生问题。
延伸阅读:【人工智能.二】躲在AI背后 数字劳工无保障最易被取代?
上文节录自第139期《香港01》周报(2018年11月26日)《站在风口浪尖 教人工智能学习的人》。
重温《贵州大数据》系列文章:【大数据.一】用大数据重新定义人 当经济穷省贵州遇上高科技【大数据.二】数据铁笼管人管事 大数据非收集私隐?【大数据.三】数字化时代争议四起 社会恶果有待分解
浏览更多周报文章︰【01周报专页】《香港01》周报各大书报摊及便利店有售。你亦可按此订阅周报,阅读更多深度报道。