在黄土高原与关中平原交界的宜君县,深秋时节的景色宛如一幅灰黄交织的画卷。正是在这片土地上,阿娟开启了她职业生涯的新篇章——成为一名人工智能训练师。
阿娟的工作地点是一个规模不大的办公室,里面仅有二十来名员工。她的日常任务是给电脑屏幕上的店铺门头图片打上标签。那些曝光过度、店名虚化或门头反光的图片,都被她一一剔除。这些标注过的图片将被用于AI的学习,帮助它识别并审核商家上传的门头图片。尽管工作看似简单,但阿娟在熟练后,能在十几秒内处理一张图片,一天下来,她能标注近两千张图片。
然而,阿娟所从事的数据标注工作,在过去两三年间,常常与“低门槛”、“劳动密集型”等词汇联系在一起。从业者们对自动驾驶、人工智能等概念知之甚少,只是机械地完成点击鼠标的任务。但如今,随着ChatGPT等生成式AI的爆火,人工智能的发展迈入了新阶段,数据标注行业也悄然发生了变化。
刘到闲,一位985高校的硕士毕业生,便是这一变化的见证者。他转行成为了一名数据标注师,就职于一家互联网大厂,月薪超过1.5万元。与阿娟不同,刘到闲的工作更多地涉及与产品、算法团队的沟通,以及制定数据标注规则。他需要把专业的知识“翻译”成大白话,让一线标注员也能轻松理解。他的目标是,把AI培养成一个专家。
在刘到闲看来,培养AI的过程就像培养一个孩子。一开始,需要教给AI最基础的知识,比如识别鸟、花、车等物体。但要让AI完成人类的工作,就需要教给它更专业的知识和技能。这就需要像刘到闲这样的高学历年轻人加入,他们不仅具备专业知识,还能制定高质量的标注规则。
随着AI的发展,数据标注工作的要求也在不断提高。如今,即便是最基础的一线数据标注员,也需要具备大专以上的学历。而像百度智能云这样的大公司,在招聘数据标注师时,更是偏好211高校的毕业生。这意味着,阿娟这样的基础标注员正面临着职业挑战。
阿娟亲身经历了数据标注行业的变化。她最初加入这个行业时,招聘要求简单,只要会用办公软件就行。但随着时间的推移,任务难度不断提升,公司招聘的学历要求也越来越高。阿娟和同事们开始接触形式更丰富、标注规则更复杂的项目。比如,在视频侵权类项目的标注中,他们需要判断给定的关键词和视频内容的关联度,并按照标注规范一一对应标注。
然而,对于阿娟和同事们来说,他们并不清楚这些变化是如何发生的。他们只是按照经理给的项目和标注规范去完成工作,很少好奇这些标注完的数据会用到哪里。但无论如何,他们都在为AI的发展贡献着自己的力量。
在数据标注行业,一个共识正在形成:要想在专业领域落地,高质量的垂类数据是竞争的核心。比如医疗场景中的影像识别,需要临床医生进行标注;法律场景中的合同条款,需要律师标注条款中的逻辑关联和司法解释。这导致像刘到闲这样具备垂直领域专业知识的AI训练师成为了香饽饽。
刘到闲所在的公司也意识到了这一点。他们开始投入大笔资金,邀请专业的录音师录制一手的声音数据,以提升AI模型的准确性。同时,他们也在探索如何更好地利用专家型AI训练师来获取真实数据,以提升模型的质量。
但这条道路并不平坦。为了确保工作质量,大型AI公司越来越多地把高质量数据标注的工作放到了内部,或直接雇佣专家,而不是以往的外包。这导致数据标注行业的竞争日益激烈,阿娟这样的基础标注员面临着更大的职业挑战。
尽管如此,阿娟并没有放弃。她凭借着自己的努力和勤奋,从一名基础标注员晋升为小组长,负责组员们的标注准确率和效率。她计划继续提升自己的职业能力,争取在未来晋升为项目经理。
而对于刘到闲来说,他也在思考着自己的未来。尽管他目前享受着高薪和稳定的职业发展,但他也感受到了行业的波动和不确定性。他开始寻找其他的工作机会,考虑是否回到媒体行业或转岗做AI产品经理。
在人工智能的浪潮中,阿娟和刘到闲都是不可或缺的角色。他们用自己的双手和智慧,为AI的发展贡献着力量。但与此同时,他们也在面对着行业的挑战和不确定性。未来,他们将何去何从?这仍然是一个未知数。