【人工智能．一】AI学习靠他们　数据标注员究竟是什么？　

撰文：林可欣

出版：2018-11-28 18:00更新：2025-02-12 12:11

数据标注员可谓近年伴随人工智能衍生的新职业，如今在业界和学界都有共识：优质的数据是人工智能的基础，人工智能产业带动数据服务需求，未来这行业还需要海量的数据。数据并非凭空而出，你用键盘敲下的每个字，随手用美颜相机拍的自拍照，工作日高峰期塞车的场景，无论是图片、语音或其他形式，都可以成为产业链所需的“食材”——数据。这些原始“食材”，需要筛选、辨识、打上标签，经过加工后喂食给机器，才能使机器具备智能。这个过程正是成千上万的“王利利们”正在从事的行业。他们拿到数据，用一个个点、线、框，描绘和制订具体的标准与定义，教会机器什么是眼睛、鼻子和嘴巴。此乃《贵州大数据》专题报道之四

贵州盛华职业学院的学生，在课余时间来到梦动科技公司当数据标注员实习生。（梁鹏威摄）

22岁的王利利是贵州一所职业学校的大三学生，学市场营销专业。早上起床，她习惯拿起手机，用语音输入搜索天气和新闻，手机根据语音要求，自动读出头条新闻。王利利是毕节黔西人，有时候在宿舍讲方言，手机的语音识别也畅通无阻，“我不知道是经过怎样的处理，感觉真的很神奇。”神奇与满足感交织于王利利的心中，她知道手机上的语音输入功能，离不开自己的工作。她不仅是一名即将毕业的大三学生，还是有着两年多工作经验的数据标注员，是隐匿在人工智能浪潮中，站在人工智能背后的人。

根据2017年“普华永道”发布的人工智能预测，直至2030年，人工智能产业带来的全球经济效益总计将达15.7万亿美元（约122万亿港元），其中中国AI效益的GDP占比为26.1%，高达7万亿美元（约55万亿港元），属于全球第一。人工智能已经进入信息处理、零售、金融、城市治理、教育、医疗、工业制造及智能家居等领域，未来还将钻进人类日常生活的方方面面。这个产业的兴起，不仅标志着科技水平的飞跃，产业链下游亦激发人们对数据市场的重视，重新形塑劳动密集型产业。

人工智能浪潮方兴未艾，预料未来五年的数据需求持续上升，人力和人才都成为个中关键。（梁鹏威摄）

人工智能背后的人

距离贵阳市区约一个多小时车程的黔南州百鸟河数字小镇，正以数据服务吸引大众关注。贵州盛华职业学院约于2009年成立，随着一代代信息技术浪潮席卷，学校目前正依托人工智能、VR技术发展来确立专业领域。除了王利利，还有许多学生在课余前往来离学校不远的梦动科技实习，从事数据标注的工作。

2013年左右，王利利还在读高中，第一次听到“大数据”三个字。那时候她走路上学，心里琢磨着，要是能通过大数据记录步行时间，根据数据调整步伐就好了，“那时候觉得大数据是用来解决一些问题的”。考上贵州盛华职业学院后，在大一上学期碰巧听到“大数据+俱乐部”的宣讲会，好奇心终于萌芽，她成为了梦动的实习生。两年前刚成为数据标注实习生时，接手的任务比较简单，属于众包项目的图片分类，“用鼠标点、点、点就可以了”。刚开始做起来非常快，一天能做几千张，结算方式公开透明，三天时间就拿了几百块钱，对王利利而言，那是一种“标得很上瘾的感觉”。王利利的父母都在老家务农，生活负担沉重。读大学后，王利利能够自己承担生活费，有时剩下的工资还能补贴家用。数据标注的工作多做多得，她有一股冲劲。

众包项目不稳定，有数据的时候才有工作。她大二做了语音项目后，工作就变得稳定了。现在的项目大多是电脑视觉和语音识别的任务。语音识别的项目，有时一天工作七小时，标注的有效时段只有一小时，音频里面包括很多嘈杂的场景，对于训练算法来说，什么都需要考虑。比较累的标注任务，或许属于人脸识别。根据客户需求会有不同的标注方法，复杂的情况下，需要在一张脸上标注超过100个点。眉毛、鼻子、嘴唇和脸颊等不同部位的标注数量都有明确规定，脸部线条上的点距需要均分。这种任务费时较久，一天可能只标示50张图。

如今人脸识别已经是最为广泛的应用场景之一。例如进入京东的无人超市，需要先在京东App上传个人相片，进入超市通过摄影镜头检测匹配面容后，方可进入。不仅零售业，城市治理或安全防范领域已经开始应用人工智能的人脸识别技术。其中最知名的人脸识别，包括过马路时通过摄影镜头识别乱过马路的行人。深圳市于2017年4月启用“智能行人闯红灯取证系统”，一年内抓拍行人闯红灯事件近14,000宗。被抓拍到不良行为的人，经过系统识别、后台分析数据信息后，其人像图片会于马路边的屏幕上实时曝光。

数据标注员王利利认为，能投身大数据潮流中，是神奇的事。（梁鹏威摄）

王利利积累了丰富的标注经验，现在已经成为审查环节的负责人，有时候其他人标得不够好，她便说，“你自身幻想一下，如果刷脸的时候，别人把你的钱用完了，你是不是很心疼。”看到AI应用出事，她也会感到难过。曾有车祸原因来自自动驾驶系统无法识别某些场景，这与数据标注场景不够全面不无关系。

除了家乡的县城，王利利去过最远的地方就是贵阳了。“我去（贵阳市区）医院的时候会坐公交，从玻璃窗看到外面播放大数据，用数据分析贵阳租房、哪里的人密集或不密集、交通会不会拥挤，还会出现哪里住房标稀疏，帮人找工作……我觉得大数据真的很神奇，能够利用数据，把贵阳市的情况都展现在一个屏幕上。我看到的时候，感觉很欣慰。”王利利的笑容明朗，“人工智能发展在风口浪尖上，相当于我们已经站在前端了。”

事实上，人工智能市场的确在迅猛膨胀。根据中国信息通信研究院的数据，2017年中国人工智能领域市场规模达216.9亿元人民币，与2016年相比增加52.8%。在技术领域布局上，电脑视觉领域更是“拔得头筹”，占有37%。

近五年人工智能企业在2016年涨幅最高，初创企业数量超过340家，而主攻数据分析类的企业就占据四成。（梁鹏威摄）

有多少人工，就有多少智能

业界广泛流行一句话，“有多少人工，就有多少智能”，这句话也被王利利记在心里。人工智能的时代，的确不能忽略智能是由“人工”（在背后工作的人）铺垫而成的。

近五年，中国人工智能企业数量迅猛增长，逾1,500家AI公司先后诞生，其中2016年涨幅最高，初创立的企业数量超过340家，而主攻数据分析类的企业就占据四成。不少AI数据服务科技公司在这两年拿到了超过千万元（人民币）级别的A轮融资，能够提供整天数据服务的公司，包括数据方案的设计、数据采集与标注等，已能获得过亿的A轮融资。

AI基础服务供应商倍赛（BasicFinder）便是乘着行业潮流，分得一杯羹的数据服务公司。倍赛的创办人杜霖在大学期间，就读于上海交通大学最好的电脑班，他在大学就培养了对电脑视觉的热爱，并利用数据挖掘技术做了搜索引擎营销的工具，通过创业捞得第一桶金。那是人工智能还未成为热潮的时候。

（梁鹏威摄）

杜霖回忆道，2014年国内的深度学习技术兴起，当时他与同伴花了六个月时间做了一个实验，训练模型用了两个月便取得综合识别率高达90%的客观结果。他意识到剩下三分之二的时间，都是用来采集有效数据，并对数据进行分类和标签，还需要找人负责处理数据，不断迭代后才能训练出稳定的模型。

那时起，杜霖的团队发觉要将数据作为人工智能行业的入口。“技术是会随着时间的发展，成本愈来愈低的，但真正的门槛是数据，我们认准当时deep learning（深度学习）是基于supervise（监督）。”所谓的监督，是电脑需要人来教很多东西，“我们认准这个算法在短时间内不会取得重大突破，所以当时就在探索可以做什么。我们预测数据量一定会膨胀，需求一定会成指数级地爆发，每个行业都会有数据梳理和打标签的需求，以及整个（数据）生命周期管理的需求。”2017年，倍赛科技正式对外运营，如今已经获得两轮融资，2018年至今，数据业务已经有十倍以上的增长。

“那时候还没有把AI领域的数据重视起来，但我们看到，真正的AI是由数据堆起来的。那会儿大家都觉得模型和技术是门槛，其实最终大家已经发现，数据是真正的门槛，因为所有做模型的公司，都在积累自己的数据，而且行业里模型差异不是非常大。”杜霖表示。

曾有交通事故的原因是自动驾驶系统无法识别部分场景，数据标注场景的工作不可小觑。（梁鹏威摄）

数据是一个绝对的门槛。杜霖透露，现在做人脸识别的大公司，人脸数据量起步都是过亿的，若只有几十万人脸数据想做一个start-up（初创公司），“你连门都挤不进去”．

海量数据都能直接用来训练模型吗？事实上，非结构化的数据，属于一种负文本、负媒体，而结构化指的是一种关系型的数据。如果只是单纯拿到一张相片，便属于非结构化数据，需要通过打标签的方式来处理这些数据。杜霖表示，一般只有30%的数据不需要打标签，而一开始模型都是由打标签的方式串连起来的。

“AI行业是离不开打标签的数据，数据谁来打标？一定是人来打标，一定是人把自己对于事物的理解交给电脑，你可以理解成是一个基于统计学的模型，统计学的模型里面，你只有见过的样本数愈多，理解能力愈强，用人的理解来说，就是见多识广。”杜霖解释。以一个停车场的图片场景为例，数据标注员会将密密麻麻的车辆分门别类，尽管图片像素不高、车辆重叠难以辨别，都能细致地打上标签。

梦动科技公司数据标注员的电脑屏幕。（梁鹏威摄）

数据标注是劳动密集型产业

深度学习的场景愈发复杂，数据需求量不断增加，愈来愈多人加入数据标注员的队伍，尽管他们有如隐形人一般，很少被人看见。事实上，多家数据公司的负责人向我们证实，这两年的数据需求的确如大爆炸般增长。遍布全国的数据工厂或小作坊，也如雨后春笋般野蛮生长，大家都想抢占先机，分一杯羹。

一开始科技巨头会组建自己的数据团队，但因数据需求量飞速增加，他们必须将任务外判出去。因此也催生了更多数据标注工厂。但也有初创公司会组建自己的团队，负责自己的业务。杭州一家无人驾驶初创公司，便有70人左右的数据标注团队，工作量稳定，每日标注量达到2,400个。

数据标注工厂或小作坊，更多集中于能满足低廉劳动力的三、四线城市，例如河北、河南、山东、山西等的城市。数据标注员一般也有大专学历水平，有时甚至连本科生也会从事这个行业。甚至有说法是，有些小作坊的老板，在街上找十个人就能成立一间公司。目前行业内没有明确的从业者数据，但据估计，应该至少有十万人成为全职的数据标注员。

据统计，目前至少有十万人投身数据标注员行业。（梁鹏威摄）

另一种方式是数据众包。位于北京的龙猫数据公司亦于2016年正式进入AI领域，推出数据众包服务平台。龙猫的市场负责人康萌表示，目前App的用户数量已经达到500万人，用户散落全国各地。这是一种快速、便捷地积累数据的方式，包括语音或不同场景的采集和标注。

一般的数据标注流程是由科技巨头将任务外包给数据服务公司，数据服务公司或者再分配给下游的数据工厂或小作坊。经过层层分包，数据标注员拿到的薪金并不多。“（这个工作）就像在富士康工作。”香港大学社会学博士黄丹对数据标注行业进行初步调研时，有数据小作坊的老板这么描述这个行业。她指出，数据标注是一种低收入的行业，并且枯燥无聊，“他们会说自己的工作和富士康工人没有区别。”黄丹问一位曾经做过数据标注的人，离开这个行业的原因，对方抛下三个字：“快瞎了。”

曾经做过数据标注的人，离开的原因是“快瞎了”。（梁鹏威摄）

要捞一桶金并不容易，行业存在的另一个问题是流动性强，很多小作坊的员工做了一段时间便离开了，老板们都很着急。进入市场太快，接不到任务、拿不到资源，很容易变成一份朝不保夕的工作。“他们就是朝不保夕者，不稳定无产者，工作没有了就再找一个。”黄丹说。

天津大学人工智能学院朱鹏飞教授长期关注AI领域，他指出，“数据在人工智能领域，相当于劳动密集型的产业。整个数据产业，如果拿未来三年有一千亿产值来说，这里面大概有10%的工作属于数据采集、清洗、标注、加工。”朱鹏飞打了个比方，“现在中国有很多数据工厂，它和之前加工衬衫、纺织是差不多的，只不过他们操作的对象变成了数据。”海量数据难免会有质量参差不齐的问题，香港大学新闻及传媒研究中心副教授傅景华指出，如何保证标注质量？虽然会有质量检测，但若控制不得当，数据可能会产生问题。

延伸阅读：【人工智能．二】躲在AI背后　数字劳工无保障最易被取代？

上文节录自第139期《香港01》周报（2018年11月26日）《站在风口浪尖教人工智能学习的人》。

重温《贵州大数据》系列文章：【大数据．一】用大数据重新定义人　当经济穷省贵州遇上高科技【大数据．二】数据铁笼管人管事　大数据非收集私隐？【大数据．三】数字化时代争议四起　社会恶果有待分解

浏览更多周报文章︰【01 周报专页】《香港01》周报各大书报摊及便利店有售。你亦可按此订阅周报，阅读更多深度报道。

【人工智能．一】AI学习靠他们 数据标注员究竟是什么？

【人工智能．一】AI学习靠他们　数据标注员究竟是什么？