非营利组织Partnership on AI的项目和研究负责人索纳姆·金达尔(Sonam Jindal)说:“这是一条完整的供应链。业界的普遍看法是,这项工作不是技术开发的关键部分,不会繁荣很长时间。所有的兴奋都围绕着构建人工智能扩散,一旦我们构建了它,就不再需要注释了,所以为什么要费心考虑它呢?但数据标记是人工智能的基础,就像人类智能是人工智能的基础那样,我们需要将这些视为人工智能经济中真正的工作,这些工作将在很长时间内继续存在。”
工程师和数据供应商表示,这种繁荣与萧条的周期源于人工智能的开发节奏。训练一个大型模型需要大量的注释,然后是更多的迭代更新,工程师们希望所有这些都尽可能快地进行,这样他们就能赶上目标发布日期。他们可能在几个月的时间里需要数千名注释员,然后降至几百人,最后只需要十几名特定类型的专家。这个过程有时候会循环进行。“问题是,谁来承担这些波动的成本?”Partnership on AI的金达尔说。
划重点:
1.人工智能通过在大量数据中寻找模式来学习,但首先这些数据必须由人类进行分类和标记,数据注释员由此应然而生,他们被视为隐藏在机器背后的“幽灵劳工”。
2.注释员们的工作枯燥而乏味,经常需要做重复性的工作,按件计酬,平均时薪在5到10美元(约合人民币36到72元)之间。到今年年初,部分注释员的时薪已经降到了每小时1到3美元(约合人民币7到22元)。
3.注释工作依然是人工智能的基础,它已经形成了完整的供应链。这类工作将在很长时间内继续存在。
4.注释工作与智能手机、汽车制造不同的地方在于,它有易变形和流动性,经常会流向运营成本更低的地方。
从内罗毕大学毕业几个月后,现年30岁的乔(Joe)找到了一份注释员的工作,主要帮助处理用于训练人工智能的原始信息,这样的工作枯燥而乏味。人工智能通过在大量数据中寻找模式来学习,但首先这些数据必须由人类进行分类和标记,因此可以说人类是隐藏在机器背后的“幽灵劳工”。
以乔的工作为例,他正在为自动驾驶汽车标记视频,一帧一帧地从每个摄像头角度识别汽车、行人、骑单车者,以及司机需要注意的任何东西。这是一项困难且需要不断重复的工作。一个几秒钟的短视频需要8个小时来注释,乔为此可以得到大约10美元的报酬。
然后,在2019年,一个机会突然出现在他面前,乔开始为一家急需注释员的新公司培训新人,收入是以前的四倍。每隔两周,50名新员工就会排队进入内罗毕的一栋办公楼,开始他们的学徒生涯。对注释员的需求似乎无穷无尽。他们将被要求对镜子自拍中看到的衣服进行分类,通过机器人吸尘器的眼睛来确定他们所在的房间,并在激光雷达扫描的摩托车周围画出方框。乔的半数以上学生通常在培训结束前就退出了。“有些人不知道如何长时间呆在一个地方,”他委婉地解释道。此外,他承认,“这项工作很无聊”。
但在一个工作机会稀缺的地方,这毕竟是一份不错的工作,乔培养了数百名毕业生。培训结束后,这些学徒可以回到家里,独自在卧室和厨房里工作,不准告诉任何人他们在做什么。这不是真正的问题所在,因为就连他们自己甚至都不理解他们在干什么。
为自动驾驶汽车标记对象的工作很容易,但对扭曲的对话片段进行分类、识别说话者是机器人还是人类,却充满了挑战。每个识别对象都是某个更大项目的一小部分,所以很难说他们到底在训练人工智能做什么。这些对象的名称也没有提供任何线索,Crab Generation、Whale Segment、Woodland Gyro以及Pillbox Bratwurst,都是些没有任何逻辑顺序的工作代号。
至于雇佣他们的公司,大多数人只知道它叫Remotasks,一个为任何英语流利的人提供工作机会的网站。就像大多数注释员一样,乔也不知道Remotasks是Scale AI公司旗下合同工外包公司。Scale AI是一家估值数十亿美元的硅谷数据供应商,其客户包括人工智能初创企业OpenAI和美国军方。Remotasks和Scale AI的网站上都没有提到过对方。
01 用独特的人类能力帮助机器
公众对OpenAI的ChatGPT等大语言模型的大部分反应,都集中在它们似乎准备自动化的工作方面。但即使是最令人印象深刻的人工智能系统也离不开人类的帮助,无数人都在通过给数据贴上标签来训练它,并在数据被混淆时介入干预。只有那些有能力购买这些数据的公司才能参与行业竞争,而那些得到这些数据的公司则会竭尽全力保守这些数据的秘密。其结果是,除了少数人外,我们对影响这些系统行为的信息知之甚少,对塑造这些系统行为背后的人更是如此。
对乔的学生们来说,这是一份剥去了一切正常表象的工作:他们需要遵守严格的时间表,不需要知道在做什么,或者在为谁工作。事实上,他们很少称自己是在工作,只是在例行完成“任务”。他们自称为任务工作者。
人类学家大卫·格雷伯(David Graeber)曾为所谓的“狗屁工作”(bullshit jobs)下过定义,即没有意义或目的的工作。这些工作应该被自动化,但由于受到官僚主义、地位或惰性等原因影响,却没有被自动化。培训人工智能的工作与之类似:人们想要自动化的工作,通常认为已经自动化了,但仍然需要人类来参与。这些工作是有特殊用途的,只是注释员们不知道罢了。
当前的人工智能热潮就始于这种相当乏味、重复性的劳动。早在2007年,时任普林斯顿大学教授的人工智能研究员李飞飞就曾怀疑,改善图像识别神经网络的关键是在更多数据上进行训练,需要数百万而非数万张经过标记的图像。问题是,她的团队需要花费数十年时间和数百万美元才能给这么多照片贴上标签。
李飞飞在亚马逊的众包平台Mechanical Turk上找到了数千名工人,世界各地的人们在这个平台上以低廉的报酬完成各种小任务。由此产生的标注数据集被称为ImageNet,它使机器学习取得了重大突破,使该领域重新焕发活力,并迎来了最近十年的进步。
注释仍然是开发人工智能必不可少的部分,但工程师们经常觉得,对于更有魅力的建模工作来说,它只是一个短暂的、繁琐的先决条件。你可以尽可能便宜地收集尽可能多的标记数据来训练自己的模型,如果能够成功,至少在理论上,你就不再需要注释员了。但是,注释工作永远不会真正完成。研究人员认为机器学习系统“十分脆弱”,当遇到训练数据中没有被很好解释的东西时,很容易失败。这些失败被称为“边缘案例”,可能会产生严重的后果。
2018年,网约车公司Uber的一辆自动驾驶测试车撞死了一名女性,原因在于:尽管它的编程要求避开骑单车者和行人,但它不知道该如何对待骑自行车过马路的人。随着提供法律建议和医疗帮助的人工智能系统越多,它们遇到的边缘案例就越多,就需要更多的人类来对它们进行分类。这已经催生了一个全球性的产业,由像乔这样的人组成,他们用自己独特的人类能力来帮助机器。
在过去的六个月里,科技调查记者乔什·齐耶扎(Josh Dzieza)与来自世界各地的二十多名注释员进行了交谈,其中许多人正在训练尖端的聊天机器人,但也有许多人在做维持人工智能运行所需的平凡体力劳动。有人对TikTok视频的情绪化内容、垃圾邮件新变体以及不当在线广告进行分类。还有人在查看信用卡交易,找出与之相关的购买类型,或者查看电子商务推荐,并决定在购买了另一件衬衫后,你是否真的会喜欢那件衬衫。
人类正在纠正客服聊天机器人的错误,倾听亚马逊智能助手Alexa的请求,并在视频通话中对人们的情绪进行分类。他们给食物贴上标签,这样智能冰箱就不会被新包装弄混,在发出警报之前检查自动安全摄像头,并帮助陷入困惑的自动拖拉机识别玉米。
02 注释是一门大生意,催生了“最年轻白手起家亿万富翁”
非营利组织Partnership on AI的项目和研究负责人索纳姆·金达尔(Sonam Jindal)说:“这是一条完整的供应链。业界的普遍看法是,这项工作不是技术开发的关键部分,不会繁荣很长时间。所有的兴奋都围绕着构建人工智能扩散,一旦我们构建了它,就不再需要注释了,所以为什么要费心考虑它呢?但数据标记是人工智能的基础,就像人类智能是人工智能的基础那样,我们需要将这些视为人工智能经济中真正的工作,这些工作将在很长时间内继续存在。”
OpenAI、谷歌和微软等我们所熟知名字背后的数据供应商以不同的形式出现。还有些私人外包公司拥有类似呼叫中心的办公室,比如位于肯尼亚和尼泊尔的CloudFactory,乔在那里做注释工作,时薪1.2美元,然后才转投Remotasks。
还有像Mechanical Turk和Clickworker这样的“众工”网站,任何人都可以注册来完成任务。处于中间的是Scale AI之类的服务。任何人都可以注册,但每个人都必须通过资格考试和培训课程,并接受绩效监控。注释是一门大生意。Scale AI由当时19岁的亚历山大·王(Alexander Wang)于2016年创立,2021年的估值为73亿美元,使他进入《福布斯》“最年轻白手起家亿万富翁”之列。
这条错综复杂的供应链,外人很难了解。据业内人士透露,购买标记数据的公司要求严格保密。注释有时候会泄露正在开发的人工智能系统信息,而大量注释人员的加入使得泄漏难以防止。注释员总是被警告不要告诉任何人他们的工作,甚至不要告诉他们的朋友和同事。最重要的是,极端的劳动分工确保了他们没有足够的信息来谈论自己的工作,即使他们想说也没办法。
有鉴于此,没有办法对从事注释工作的人数进行详细的估计,但可以肯定的是,从业人数很多,而且还在快速增长。谷歌研究院最近发表了一篇论文,对注释员的数量给出含糊的估计,约有“数百万人”,将来甚至有可能达到“数十亿”。
自动化常常以令人意想不到的方式到来。医疗数据注释公司Centaur Labs的首席执行官埃里克·杜海姆(Erik Duhaime)回忆说,几年前,多位知名机器学习工程师预测,人工智能将取代放射科医生的工作。当这种情况没有发生时,传统看法转为放射科医生将使用人工智能作为工具。
杜海姆认为,这两种情况都没有发生。人工智能非常擅长特定的任务,这促使工作被分解,并分配给专门的算法系统和同样专业的人类。他举例称,人工智能系统可能能够发现癌症,但只能在特定类型的机器、特定类型的图像中发现。所以,你需要有人来帮助检查人工智能是否被输入了正确类型的数据,也许还需要其他人来检查它的工作,然后再把它交给另一个人工智能撰写报告,最后再交给人类。杜海姆说:“人工智能不会取代人类的工作,但它确实改变了工作的组织方式。”
如果你认为人工智能是一台聪明的、会思考的机器,你可能会忽略它背后的人类。杜海梅认为,人工智能对现代工作的影响就像是从工匠过度到工业制造时代:连贯的过程被分解成小任务,沿着装配线排列,有些步骤由机器完成,有些由人类完成,但与以前的情况完全不同。
对人工智能将带来颠覆的担忧常常被反驳为,人工智能自动化了某些任务,而不是整个工作。这些任务通常是乏味而枯燥的,可以让人们去追求更有成就感、更人性化的工作。但同样可能的是,人工智能的崛起看起来也像过去节省劳动力的技术,也许就像电话或打字机那样,它们消除了传递信息和手写的苦差事,但产生了更多有关通信、商业和文书方面的工作,以至于需要由文员、会计师、打字员等新型员工组成的新办公室来管理这些工作。当人工智能加入你的工作时,你可能不会失去工作,但它可能会变得更陌生、更孤立、更乏味。
03 将复杂的现实简化为机器可以读懂的东西
今年早些时候,记者齐耶扎注册了Remotasks的工作。这个过程很简单。只需要输入电脑规格、网速和基本的联系信息,就可以进入“培训中心”。为了获得付费任务,齐耶扎首先必须完成相关的、但没有任何报酬的入门课程。培训中心展示了一系列课程,这些课程的名字令人难以理解,比如胶水泳衣和海报夏威夷等。齐耶扎点击了名为GFD Chunking的东西,它要求在社交媒体照片中给衣服贴标签。
除此之外,还有关于任务的指示说明,比如必须给真实的、可以供人类穿着或打算供真人穿着的物品贴标签。齐耶扎对自己区分真人可以穿的真衣服和不能穿的假衣服的能力充满信心,于是他开始了测试。然而,他马上遭到了当头一击:电脑给出一张杂志图片,上面是一位穿着裙子的女性照片。衣服的照片应该被视为真正的衣服吗?不,齐耶扎想,因为人不能穿衣服的照片。结果显示错误!因为在人工智能看来,真衣服的照片就相当于真衣服。
接下来的照片是一个女人在昏暗的卧室里对着一面全身镜自拍。她穿的衬衫和短裤是真衣服,那衣服的倒影也是真的吗?齐耶扎同样给出了否定答案,但人工智能系统认为,真实衣服的倒影也应该是真实的衣服。
在经历了令人尴尬的反复试验之后,齐耶扎终于开始了真正的工作,但他却惊恐地发现,他一直在努力遵循的指示已经被更新了很多次,而且长度增至43页,包括不要在装满衣服的打开的行李箱上贴标签;不要给鞋子贴标签,但要给脚蹼贴标签;要给紧身裤贴标签,但不要给紧身衣贴标签;即使有人穿着毛巾,也不要给毛巾贴标签;给服装贴标签,但不要给盔甲贴标签。等等......
德国魏森鲍姆研究所(Weizenbaum Institute)研究数据工作的研究员米拉格罗斯·米塞利(Milagros Miceli)表示,整个行业都存在指示说明普遍混乱的情况。在某种程度上,这是机器学习系统学习方式的产物。人类只需要几个例子就能理解“衬衫”的概念,而机器学习程序需要成千上万个例子,而且它们需要以完美的一致性和足够的多样性(马球衫、户外穿的衬衫、挂在架子上的衬衫)进行分类,这样系统才能处理现实世界的多样性。米塞利说:“想象一下,我们需要将复杂的现实简化为笨拙机器可以阅读的东西。”
对于机器来说,简化现实的行为会给其带来极大的复杂性。指令编写者必须提出规则,使人类能够以完美的一致性对世界进行分类。为了做到这一点,他们经常创建人类不会使用的类别。如果一个人被要求给一张照片中的所有衬衫贴上标签,他可能不会给镜子里的衬衫贴上标签,因为他们知道那是反射的影子,并非真实的衣服。但对于不了解现实世界的人工智能来说,这只是像素,两者是完全相同的。如果数据集中有些衬衫被标记,而其他反射的衬衫没有被标记,那么该模型将不起作用。于是,工程师带着更新的信息回到供应商那里,要求给镜子反射的衬衫贴标签。很快,你就会有另一份长达43页的指南,上面全是红色的大写字母。
注释员的工作通常是把人类的理解放在一边,非常非常严格地按照指示去做。正如一位注释员所说,像机器人一样思考。这是一个奇怪的精神空间,尽你所能遵循荒谬但严格的规则,就像在服用致幻剂时参加标准测试那样。注释员总是会遇到些令人困惑的问题,比如,这是一件带有白色条纹的红衬衫还是一件带有红色条纹的白衬衫?如果柳条碗里装满了苹果,那它是“装饰碗”吗?豹纹是什么颜色的?每个问题都必须回答,一个错误的猜测可能会让你被禁,并启动一个全新的、完全不同的任务,它有自己令人费解的规则。
04 按件计酬,每隔三个小时就要查看任务
Remotasks上的大部分工作都是按件计酬的,一项任务的收入从几美分到几美元不等。因为任务可能需要几秒钟或几个小时完成,所以工资很难预测。当Remotasks刚进入肯尼亚时,注释员说它的报酬相对较高。根据任务的不同,平均每小时大约5到10美元。但随着时间的推移,报酬会下降。
Scale AI发言人安娜·弗兰科(Anna Franko)表示,该公司的经济学家会分析项目的细节、所需的技能、地区生活成本和其他因素,“以确保公平和有竞争力的薪酬”。Scale AI的前员工还表示,薪酬是通过一种类似暴涨定价的机制确定的,该机制会根据可用的注释员数量和需要数据的速度进行调整。统计显示,美国的Remotasks注释员通常每小时可赚10到25美元,但有些专业标注领域的专家报酬更高。到今年年初,肯尼亚注释员的工资已经降到了每小时1到3美元(约合人民币7到22元)。
对远程任务工作最常见的抱怨是其易变性。这类工作足够稳定,可以作为一份长期全职工作,但有太多不可预测性,不能完全依赖它。注释员花费数小时阅读说明并完成无偿培训,只是为了完成十几个任务,然后项目就结束了。可能几天都没有什么新任务,然后,毫无征兆地,一个完全不同的任务出现了,可能持续几小时到几周。任何任务都可能是他们的最后任务,他们也永远不知道下一个任务什么时候会到来。
工程师和数据供应商表示,这种繁荣与萧条的周期源于人工智能的开发节奏。训练一个大型模型需要大量的注释,然后是更多的迭代更新,工程师们希望所有这些都尽可能快地进行,这样他们就能赶上目标发布日期。他们可能在几个月的时间里需要数千名注释员,然后降至几百人,最后只需要十几名特定类型的专家。这个过程有时候会循环进行。“问题是,谁来承担这些波动的成本?”Partnership on AI的金达尔说。
要想取得成功,注释员必须协同工作。维克多在内罗毕上大学时就开始为Remotasks工作,当有人告诉他在交通管制任务中遇到困难时,他说每个人都知道要远离那个任务:太棘手,薪水低,不值得。像许多注释员一样,当有好任务出现时,维克多会使用非官方的WhatsApp群来传播消息。当他想出一个新点子时,他就会开始即兴的谷歌会议,向其他人展示如何做到这一点。任何人都可以加入并一起工作一段时间,分享技巧。他说:“我们已经形成了一种互相帮助的文化,因为我们知道,一个人不可能知道所有的诀窍。”
因为工作毫无征兆地出现又消失,所以注释员总是需要保持警惕。维克多发现,项目通常会在深夜突然出现,所以他习惯每三个小时左右就起来检查一次。当有任务时,他会一直保持清醒。有一次,他连续36个小时不睡觉,在人群的照片中给肘部、膝盖和头部做标记,尽管他也不知道为什么。还有一次,他熬夜太久,以至于眼睛红肿不堪。
注释员通常只知道他们正在为其他地方的公司训练人工智能系统,但有时匿名的面纱会消失,指示说明中提到的品牌或聊天机器人线索太多了。一名注释员称:“我读了指示说明,在谷歌上进行了搜索,发现我在为一位25岁的亿万富翁工作。如果我让某人成为亿万富翁,而我每周能赚几美元,那我真的是在浪费生命。”
维克多自称是人工智能的“狂热信徒”,他开始做注释工作是因为他想帮助实现一个完全自动化的未来。但今年早些时候,有人在他的WhatsApp群里发了一篇《时代》杂志的报道,讲的是供应商Sama AI的员工培训ChatGPT识别有毒内容的情况,他们的时薪不到2美元。维克多说:“人们对这些公司利润丰厚但薪酬却如此之低感到愤怒。”直到被告知Remotasks与Scale AI的联系,他才知道两者的关系。他参与的其中一项任务的说明与OpenAI使用的几乎相同,这意味着他可能也参与了ChatGPT的训练,时薪大约为3美元。
“我记得有人发帖说,我们将来会被人铭记,”他说。零一人回答说:“我们受到的待遇比步兵还差。我们在未来的任何地方都不会被记住,这一点我记得很清楚。没有人会认可我们所做的工作和付出的努力。”
识别服装和标注客户服务对话只是注释工作中的一小部分。最近,市场上最热门的是聊天机器人培训师。因为它需要特定领域的专业知识或语言流利程度,而且工资往往会根据地区进行调整,所以这份工作的薪酬往往更高。某些类型的专业注释每小时薪酬可达50美元或更多。
一个名叫安娜(Anna)的女人在得克萨斯州找工作时,偶然发现了一个通用的在线工作清单,于是她申请了工作。在通过了入门考试后,她被带进了一个有1500人的Slack房间,那里正在训练代号为Dolphin的项目,后来她发现这是谷歌DeepMind的聊天机器人Sparrow,它是与ChatGPT竞争的众多聊天机器人之一。安娜的工作就是整天和Sparrow聊天,时薪约为14美元,加上工作效率高的奖金,“这绝对比在当地超市打工赚取10美元时薪要好”。
05 AI响应三大标准:准确性、有用性和无害性
而且,安娜很喜欢这份工作。她与Sparrow讨论过科幻小说、数学悖论、儿童谜语和电视节目等话题。有时,聊天机器人的回答会让她大笑不止。有时候,她也会觉得无话可说。安娜称:“有时候,我真的不知道到底该问什么,所以我有一个小笔记本,里面已经写了两页的东西。我在谷歌上搜寻有趣的话题,所以我认为自己可以很好地应付七个小时,但情况并非总是如此。”
每次安娜提示Sparrow时,它都会给出两个回答,然后她要选出最好的一个,从而创造出所谓的“人类反馈数据”。当ChatGPT去年年底首次亮相时,其令人印象深刻的自然对话风格被归功于它经过了大量互联网数据的训练。但是,为ChatGPT及其竞争对手提供动力的语言是经过几轮人工注释过滤的。
一组承包商编写了工程师希望聊天机器人如何表现的示例,他们先提出问题然后给出正确答案,描述计算机程序然后给出功能代码,询问犯罪技巧然后礼貌地拒绝。在用这些例子对模型进行训练之后,还会引入更多的承包商来提示它并对其响应进行排序。这就是安娜对Sparrow所做的。
确切地说,评分者被告知使用的标准各不相同,比如诚实、乐于助人或只是个人偏好等。关键是,他们正在创造关于人类品味的数据,一旦有了足够的数据,工程师们就可以训练第二个模型来大规模模仿他们的偏好,使排名过程自动化,并训练他们的人工智能以人类认可的方式行事。结果是一个非常像人类的机器人诞生了,它基本上会拒绝有害的请求,并以似乎有自我意识的方式解释了它的人工智能本质。
换句话说,ChatGPT看起来很人性化,因为它是由一个模仿人类的人工智能训练出来的,而这个人工智能正在模仿人类行事。
这种技术被称为“从人类反馈中强化学习”,简称RLHF,它非常有效,可以停下反思人工智能没有做的事情。例如,当注释员教模型要准确时,模型并没有学习根据逻辑或外部来源检查答案,甚至不知道作为概念,准确性到底为何物。尽管这个模型仍然是一个模仿人类写作模式的文本预测机器,但现在它的训练语料库已经补充了定制的示例,并且该模型已经加权以支持它们。
这可能会促使模型从其语言地图中被标记为准确的部分提取模式,并产生恰好与事实相符的文本,但也可能导致它模仿准确文本的自信风格和专业术语,同时写出完全错误的东西。不能保证注释员标记为准确的文本实际上是准确的。即使它是准确的,也不能保证模型从中学习到正确的模式。
这种动态使得为聊天机器人注释并不容易。它必须是严格和一致的,因为草率的反馈,比如把听起来正确的材料标记为准确的,可能会让训练出来的模型更有说服力。OpenAI和DeepMind在早期的联合项目中使用了RLHF,在这个案例中,训练虚拟机器人手抓取物品,结果也训练了机器人的手在物体和它的评分者之间的位置,并在周围摆动,这样它就只会出现在它的人类监督者面前。
对语言模型的响应进行排名总是有些主观,因为这是一种语言。任何长度的文本都可能包含多个元素,这些元素可能是正确的,也可能是错误的,或者具有误导性。OpenAI的研究人员在另一篇早期RLHF论文中遇到了这个障碍。为了让他们的模型对文本进行总结,研究人员发现,只有60%的模型总结是好的。“与机器学习中的许多任务不同,我们的查询没有明确的基本事实,”他们哀叹道。
当安娜给Sparrow的回答打分时,她应该查看它们的准确性、有用性和无害性,同时还要检查这个模型没有给出医疗或财务建议,没有把自己拟人化,也没有违反其他标准。为了成为有用的训练数据,模型的反应必须被量化地排序:一个能告诉你如何制造炸弹的机器人比一个拒绝回答任何问题的无害机器人“更好”吗?
在DeepMind的一篇论文中,当Sparrow的制造者轮流注释时,四名研究人员争论他们的机器人是否假设了向其寻求情感建议的用户的性别。据DeepMind的研究科学家杰弗里·欧文(Geoffrey Irving)介绍,该公司的研究人员每周都会举行注释会议,在会上他们自己审核数据,讨论模棱两可的案例。当某个案例特别棘手时,他们会咨询伦理或主题专家。
安娜经常发现,她不得不在两个糟糕的选择中做出选择。她说:“即使它们都是错得离谱的答案,你仍然需要找出哪一个更好,然后写下解释原因的文字。”有时,当两个回答都不好时,她会被鼓励自己给出更好的回答。在训练过程中,约有半数时间需要她这样做。
06 注释越来越需要特定技能和专业知识
因为反馈的数据很难收集,所以出售的价格更高。据了解该行业的人士透露,安娜正在收集的这类基本偏好数据售价约为每条1美元。但如果你想训练一个模特做法律研究,你需要一个受过法律培训的人,这会导致成本增加。参与其中的每个人都不愿透露自己到底花了多少钱,但一般来说,专业的书面示例可能要几百美元,而专家评级可能要50美元或更多。一位工程师透露,他曾花300美元买过Socratic对话的样本。
OpenAI、微软、Meta和Anthropic没有透露有多少人为他们的模型贡献了注释,他们的报酬是多少,或者他们位于世界的什么地方。谷歌姊妹公司DeepMind的欧文说,在Sparrow上工作的注释员根据他们所在的位置,得到的报酬至少相当于最低工资的时薪。安娜对Remotasks“一无所知”,但对Sparrow更了解,知道它是DeepMind的人工智能助手,其创建者使用RLHF对它进行了培训。
直到最近,发现语言模型的不良输出还是相对容易的,看起来像是胡言乱语。但随着模型变得越来越好,这样的工作变得更加困难,这是个被称为“可扩展监督”的问题。谷歌在其人工智能助手Bard首次亮相时使用了现代语言模型,这无意中证明了发现现代语言模型的错误是多么困难。这条轨迹意味着,注释越来越需要特定的技能和专业知识。
去年,一个叫刘易斯(Lewis)的人在Mechanical Turk上工作,在完成一项任务后,他收到了一条消息,邀请他加入一个他从未听说过的平台。它被称为Taskup.ai,这个网站非常简单,只有一个海军背景,上面写着“按需付费”的文字。刘易斯选择了注册。
这份工作的报酬比他以前做过的其他工作都要高得多,通常是每小时30美元左右。不过,它也更具挑战性,要求设计复杂的场景来欺骗聊天机器人给出危险的建议,测试模型保持自身角色的能力,以及就科学话题进行详细的对话,这些话题有很强的技术性,需要进行广泛的研究。刘易斯觉得这份工作“令人满意、令人兴奋”。在检查一个模型尝试用Python编写代码的同时,刘易斯也在学习。他不能连续工作超过4个小时,以免精神疲惫导致犯下错误,他想保住这份工作。
刘易斯说:“如果有什么是我可以改变的,我只想知道更多关于另一端发生了什么。我们只知道完成工作所需的知识,但如果我能知道得更多,也许我就能取得更大成就,也许还能把它当成一种职业。”
科技调查记者齐耶扎采访了另外八人,他们大多在美国工作,都有类似的经历,即在其他平台上回答调查或完成任务,然后发现自己被Taskup.ai或几个类似网站录用了,比如DataAnnotation.tech或Gethybrid.io。他们的工作通常涉及训练聊天机器人,尽管与他们工作过的其他网站相比,他们对聊天机器人的质量要求更高,目的也更专业。其中一个是演示电子表宏,另一个只需要进行对话,并根据她想要的任何标准对回应进行评级。她经常问聊天机器人一些问题,这些问题在与7岁女儿聊天时也会出现,比如“最大的恐龙是什么?”,“写一个关于老虎的故事。”
Taskup.ai、DataAnnotation.tech和Gethybri.io似乎都属于同一家公司:Surge AI。其首席执行官埃德温·陈(Edwin Chen)既不愿证实也不否认这一联系,但他愿意谈论他的公司以及他如何看待注释的演变。
埃德温表示:“我一直觉得标注领域过于简单化了。”在谷歌、Facebook和推特从事人工智能研究后,他确信众包标签是不够的,并于2020年创立了Surge AI。埃德温说:“我们希望人工智能可以讲笑话,写很好的营销文案,或者在我需要治疗的时候帮助我。但不是每个人都能讲笑话或解决Python编程问题的,注释领域需要从这种低质量、低技能的思维模式转变为更丰富的东西,并捕捉到我们希望人工智能系统拥有的人类技能、创造力和价值观。”
07 机器学习系统太奇怪了,永远不能完全信任
去年,Surge AI重新标记了谷歌根据情绪对Reddit帖子进行分类的数据集。谷歌剥离了每条帖子的上下文,并将其发送给印度的注释员进行标注。熟悉美国互联网文化的Surge AI员工发现,30%的标注是错误的。像“见鬼了,我的兄弟”这样的帖子被归类为“讨厌”,而“凉爽麦当劳,我的最爱”则被归入“喜爱”行列。
埃德温表示,Surge AI会审查注释员的资质,比如从事创意写作任务的人是否有创意写作的经验,但具体如何寻找员工是“秘密”。与Remotasks一样,工作人员通常必须完成培训课程,尽管与Remotasks不同的是,培训期间接受任务可以得到报酬。拥有更少、更训练有素的员工,产生更高质量的数据,使得Surge AI的薪酬比同行更高,但他拒绝详细说明,只说员工的工资是“公平、合乎道德水平”。这类注释员的时薪在15美元到30美元之间,但他们只是所有注释员中的一小部分,这个群体现在有10万人。他解释说,这种保密源于客户的要求。
Surge AI的客户包括OpenAI、谷歌、微软、Meta和Anthropic。Surge AI专注于反馈和语言注释,在ChatGPT推出后,它收到了大量的请求,埃德温说:“我以为每个人都知道RLHF的力量,但我猜人们只是没有从内心上理解。”
这些新模型令人印象深刻,它们激发了新一轮的预测,即注释即将实现自动化。考虑到所涉及的费用,这样做的财政压力很大。Anthropic、Meta和其他公司最近在使用人工智能方面取得了长足的进步,减少了指导模型所需的人工注释量,其他开发人员已经开始使用GPT-4来生成训练数据。
然而,最近的一篇论文发现,经过GPT-4训练的模型可能正在学习模仿GPT的权威风格,准确性更低。到目前为止,当人工智能的改进使一种形式的标注过时时,对其他更复杂类型的标注需求就会上升。今年早些时候,这场辩论公开化了,Scale AI的首席执行官在推特上说,他预测人工智能实验室在人类数据上的投入将很快达到数十亿美元,就像他们在算上的投入一样。OpenAI首席执行官萨姆·奥特曼(Sam Altman)回应说,随着人工智能的进步,数据需求将会减少。
埃德温怀疑人工智能是否会达到不再需要人类反馈的程度,但他确实看到,随着模型的改进,标注变得越来越困难。像许多研究人员一样,他认为未来的道路将涉及人工智能系统帮助人类监督其他人工智能。Surge AI最近与Anthropic合作进行了一个概念验证,让人类注释员在一个不可靠人工智能助手的帮助下回答关于一篇冗长文本的问题,其理论是人类必须感觉到他们人工智能助手的弱点,并合作推理找到正确答案。
另一种可能性是两个人工智能相互辩论,然后由人类做出最终判断。OpenAI研究科学家约翰·舒尔曼(John Schulman)最近在伯克利的一次演讲中表示:“我们还没有看到这种东西真正的实际应用潜力,但它开始变得必要,因为注释员很难跟上模型的进步。”
埃德温说:“我认为你总是需要一个人来监视人工智能在做什么,就因为他们是这种外星人。机器学习系统太奇怪了,永远不能完全信任。当今最令人印象深刻的模型有些在人类看来似乎非常奇怪的弱点。尽管GPT-4可以生成复杂而令人信服的文本,但它无法辨别出哪些词是形容词。”
08 随着任务流动,ChatGPT帮了大忙
随着2022年的结束,乔开始从他的学生那里听说,他们的任务清单经常是空的。然后他收到一封电子邮件,通知他肯尼亚的训练营即将关闭。他继续在网上培训任务,但他开始担心未来。
“有迹象表明,这种情况不会持续太久,”乔说。注释工作即将离开肯尼亚。从他在网上认识的同事那里,他听说这类任务要被送去尼泊尔、印度和菲律宾。乔说:“公司从一个地区转移到另一个地区。他们在当地没有基础设施,因此可以灵活地转移到运营成本对他们更有利的地方。”
人工智能行业与手机和汽车制造商的一个不同之处在于它的流动性。这项工作在不断变化,不断实现自动化,取而代之的是对新类型数据的新需求。这是一条流水线,但它可以不断地、迅速地重新配置,移动到任何有合适技能、带宽和薪资的地方。
最近,注释任务薪水最高的工作回到美国。今年5月,Scale AI开始在自己的网站上列出注释工作,招聘在人工智能有望征服的几乎所有领域都有经验的人。其中有些人工智能培训师的名单,他们拥有健身教练、人力资源、金融、经济、数据科学、编程、计算机科学、化学、生物、会计、税务、营养、物理、旅游、K-12教育、体育新闻和自助等领域的专业知识。
你可以教机器人学习法律,每小时可以赚45美元;教它们诗歌,每小时可以赚25美元。网站上还列出了招募有安全经验的人,大概是为了帮助训练军事人工智能。Scale AI最近推出了一种名为Donovan的防御语言模型,该公司高管将其称为“人工智能战争中的弹药”,并赢得了参与陆军机器人战斗车辆项目的合同。
安娜仍在得克萨斯州训练聊天机器人。同事们变成了评论者和Slack管理员,她不知道为什么,但这给了她希望,这份工作可能是一份长期的职业。她不担心的一件事是被自动化取代工作,她说:“我的意思是,聊天机器人能做很多惊人的事情,但它们也会做些非常奇怪的事情。”
Remotasks刚进入肯尼亚时,乔认为注释可能是一份不错的职业。即使在工作转移到其他地方后,他也决心继续从事这份工作。他推断,内罗毕有成千上万的人知道如何做这项工作。毕竟,他训练了很多人。乔在城里租了一间办公室,开始寻找外包合同:一份是为一家建筑公司标注设计图的工作,另一份为某种农业项目标注被昆虫破坏的水果,还有一份是为自动驾驶汽车和电子商务做标注的日常工作。
但乔发现,他的愿景很难实现。他现在只有一名全职员工,而之前有两名。他说:“我们一直没有稳定的工作流程。”因为客户还在收集数据,所以好几周都无事可做。当客户收集完数据后,他不得不引入短期承包商来满足他们的最后期限:“客户不在乎我们是否有持续的工作。只要数据集标注工作完成,那就没问题了。”
为了不让自己的技能被白白浪费掉,其他的任务执行者决定任务去哪里,他们也去哪里。他们租用代理服务器来掩饰自己的位置,购买假身份证来通过安全检查,这样他们就可以假装在新加坡、荷兰、密西西比州或任何任务流动的地方工作。这是一项有风险的业务。据多名任务执行者称,Scale AI越来越积极地暂停那些被发现隐瞒位置的账户。
“这些天来,我们变得有点聪明了,因为我们注意到,在其他国家,他们的工资很高,”维克多说。他在马来西亚工作的收入是肯尼亚的两倍,但“你要谨慎行事”。
另一位肯尼亚注释员说,在他的账户因神秘原因被封后,他决定不再按规则行事。现在,他在多个国家经营多个账户,在收入最高的地方执行任务。他说,多亏了ChatGPT,他工作速度很快,质量评分也很高。他说,这个机器人很棒,能让他在几分钟内快速完成10美元的任务。