数据标注这份工作,也不是谁都能做的
在一排一排的电脑前,这里的年轻人们一边浏览照片和视频,一边标记他们看到的每样东西。有的是在为无人驾驶公司标注路上的汽车和红绿灯,有的是在为无人售货公司标注面包牛奶巧克力。
河南省郏县睿金科技公司总部的工人正在标注数据
据《纽约时报》的报道,在位于中原腹地的河南河北,数据标注正在渐渐成为最新的劳动密集型行业。
有多少人工,就有多少智能。目前的人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。
当然,狸花猫也是猫
然而,在人工成本更高以及对数据标注要求更复杂的硅谷,工程师们需要寻找其他出路来获取大规模的高质量有标记数据。
众包
在人工费用高昂的硅谷,工人的最低时薪约为 13 美元左右。对于很多创业公司和中小企业来说,雇工人标注数据实在承受不起。最经济的方法就是把大量任务拆分成小任务,再以低廉的价格分发到用户手中。
其中最有名的在线众包平台就是亚马逊旗下的 Amazon Mechanical Turk 了。
在 Mechanical Turk 上,发布者可以自行上传标注任务,用户只需要填写简单的个人信息就可以开始工作。为了搞清楚 Mechanical Turk 到底是怎么工作的,硅星人也注册了一个账号。
在 Mechanical Turk 的开始页面,有各种奇奇怪怪的任务。这其中包括“标注厨房里的事物”,“找出电子邮件地址和发件人名字”,“给图片中的物体勾线”等等。
每个任务中包含若干个被称为 HIT(人类智能任务,Human Intelligence Task)的小任务,标注员每完成一个小任务可以获得相应的报酬。
其中最便宜的一个是给图片中的建筑分类,判断这个小楼是属于拉丁裔、亚裔还是中东人。每完成一个可以获得 1 美分(约 7 分人民币)报酬。
而最贵的一个,是找一位中文母语者按要求录 150 句中文,可以获得 6 美元。
除了这些简单易懂,点一下鼠标就能完成的任务,在 Mechanical Turk 上还有更多高要求的标注工作。
比如,有一个任务要求标注者看 10 秒钟视频,并用一句话描述视频里的内容。在描述时,不能出现拼写和语法错误,也不能加以主观臆断,在囊括所有重要内容的同时又不能描述太多不重要的细节。
而实现这么一个高要求的任务,发布者只需要付出 0.3 美元赏金。
建议家长拿这个玩意儿训练小朋友写英语短句
尽管任务复杂报酬低廉,Mechanical Turk 上的任务还是供不应求。一些低要求的工作被放出来不到十秒,就被抢光了。
截至2011年1月,Mechanical Turk 上的注册工人数量已经达到了 50 万,在这些人的帮助下,有无数资金不充裕的人工智能研究得以实现。
此外,在网站输入验证码时,其实我们也在顺便做数据标注,只不过得不到报酬罢了。
比如这种标出路牌的验证码
而其实, Mechanical Turk(直译为机械土耳其人)的名字早就剧透了人工智能训练的本质。
1769 年,初代 Mechanical Turk 的发明者——匈牙利机械师沃尔夫冈·冯·肯佩伦制造了一个“能战败人类”的下棋木偶。这个“智能”木偶在欧洲和美洲几乎战无不胜,连拿破仑一世和本杰明·富兰克林都成了它的手下败将。然而直到 1857 年,《国际象棋月刊》才揭露,其实傀儡里坐了一个象棋国手。
而电脑屏幕背后的人,又和机器里坐着的象棋国手有什么区别呢?
和专业人士合作
众包模式固然有种种优点,但它的缺点也是致命的。
当我向一位 Google 工程师朋友提起 Mechanical Turk 的时候,他表示“我们不敢用 Turk 标注”。
因为众包模式,通过 Mechanical Turk 标注的数据良莠不齐,花钱标注已经花了大功夫,整理和“清洗”数据又要浪费很多时间。尤其对于很多专业领域来说,普通人根本无法完成数据标注。
比如这种,你能告诉我哪个是有病变的吗?
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/27087.html