GPT風(fēng)口下的數(shù)據(jù)標(biāo)注員:人工智能背后的“老師”和AI局外人 新要聞
2023-05-06 12:28:51 來(lái)源: 貝殼財(cái)經(jīng)

數(shù)據(jù)標(biāo)注員正在工作。受訪者供圖


(相關(guān)資料圖)

ChatGPT大火后,數(shù)據(jù)標(biāo)注員迅速進(jìn)入大眾視野,也成了就業(yè)新風(fēng)口。他們有的年薪百萬(wàn),有的日結(jié)兩百,但在ChatGPT風(fēng)口上,作為人工智能背后“老師”的他們卻也是局外人,存在被替代的風(fēng)險(xiǎn)。

所謂數(shù)據(jù)標(biāo)注員即指,對(duì)人工智能原始數(shù)據(jù)集進(jìn)行標(biāo)注、分類、分析和清洗來(lái)幫助訓(xùn)練機(jī)器學(xué)習(xí)算法和人工智能模型的職業(yè)。數(shù)據(jù)標(biāo)注員以入行門檻低,上手快,薪資待遇好也廣受縣城青年歡迎,目前全國(guó)已經(jīng)建立起多座超千人數(shù)據(jù)標(biāo)注基地。

然而,數(shù)據(jù)標(biāo)注行業(yè)這一新風(fēng)口同樣存在“教會(huì)徒弟,餓死師傅”的可能,隨著人工智能大模型的迭代這一職業(yè)可能面臨被替代的風(fēng)險(xiǎn)。目前國(guó)外已經(jīng)出現(xiàn)AI自動(dòng)標(biāo)注替代人工標(biāo)注的案例。那么,在人工智能行業(yè)飛速發(fā)展的當(dāng)下,對(duì)普通人來(lái)說(shuō)數(shù)據(jù)標(biāo)注員是一份好工作嗎?數(shù)據(jù)標(biāo)注這一細(xì)分賽道發(fā)展前景如何?目前正面臨哪些問題?未來(lái),數(shù)據(jù)標(biāo)注行業(yè)會(huì)被AI標(biāo)注顛覆嗎?

對(duì)此,新京報(bào)貝殼財(cái)經(jīng)記者采訪了數(shù)位數(shù)據(jù)標(biāo)注員、數(shù)據(jù)標(biāo)注行業(yè)創(chuàng)業(yè)者以及人工智能領(lǐng)域有標(biāo)注需求的甲方公司負(fù)責(zé)人、學(xué)界人士,試圖解答上述問題。

4分錢一個(gè)框,每天拉夠2500個(gè),數(shù)據(jù)標(biāo)注成就業(yè)新風(fēng)口

作為人工智能背后的“老師”,小雷并不十分明白“什么是人工智能”,也不是很理解“自己是怎么教人工智能學(xué)習(xí)的”。從每天早上9點(diǎn)上班開始,他的腦子里就只有一件事——怎么完成單日2500個(gè)框,達(dá)到95%合格率的要求。

幾個(gè)月前,小雷辭去了工廠車間的工作,應(yīng)聘成為了一名數(shù)據(jù)標(biāo)注員。相較于制造業(yè)的灰塵、酷暑和嚴(yán)寒,新工作辦公室內(nèi)有空調(diào)和暖氣,整潔干凈的辦公桌上還擺放著新鮮的綠植。

寬敞明亮的辦公室里聚集了包括小雷在內(nèi)的50多名20-30歲的年輕人,他們大多具備大專院校及以上教育水平,乘著人工智能的風(fēng)口成為了行業(yè)基層的數(shù)據(jù)標(biāo)注員,每天的工作就是對(duì)海量數(shù)據(jù)進(jìn)行清洗、分類、畫框、注釋、標(biāo)記等操作,轉(zhuǎn)換成符合算法工程師要求的標(biāo)準(zhǔn)交付。

以自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云標(biāo)注為例,小雷的單位規(guī)定單日標(biāo)注任務(wù)量為2500個(gè)框,底薪2500元,合計(jì)每個(gè)框4分錢,超額完成任務(wù)還有績(jī)效工資,這對(duì)學(xué)歷不高,身處河南縣城的青年來(lái)說(shuō),已經(jīng)算是一份薪資中等偏上的工作。

所謂數(shù)據(jù)標(biāo)注即指對(duì)未經(jīng)處理過(guò)的語(yǔ)音、圖片、文本、視頻等數(shù)據(jù)進(jìn)行加工處理,從而轉(zhuǎn)變成機(jī)器可識(shí)別信息的過(guò)程。數(shù)據(jù)標(biāo)注是人工智能獲取訓(xùn)練數(shù)據(jù)的主要渠道,應(yīng)用場(chǎng)景廣泛。從語(yǔ)音轉(zhuǎn)錄、人臉識(shí)別、自動(dòng)駕駛到AI聊天,人工智能模型訓(xùn)練所需要的海量數(shù)據(jù)目前幾乎全部依賴數(shù)據(jù)標(biāo)注員手工標(biāo)注。

不過(guò),與大眾印象中高新技術(shù)行業(yè)往往需要高學(xué)歷人才不同,2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》對(duì)該職業(yè)的能力特征描述為“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力;空間感、色覺正?!保胀ㄊ芙逃潭葎t為“初中畢業(yè)(或相當(dāng)文化程度)”。

高需求量、低用工門檻為學(xué)歷層次相對(duì)較低的普通人提供了進(jìn)入辦公室工作的機(jī)會(huì)。2018年,山西轉(zhuǎn)型綜合改革示范區(qū)與百度合作,建造了基地占地面積超1萬(wàn)平米,數(shù)據(jù)標(biāo)注員超2000多名的數(shù)據(jù)標(biāo)注基地;在新疆和田,有4000人在當(dāng)?shù)氐臄?shù)字經(jīng)濟(jì)產(chǎn)業(yè)園從事數(shù)據(jù)標(biāo)注工作;在山東的第一個(gè)數(shù)據(jù)標(biāo)注基地,已經(jīng)有1500名從業(yè)者。

數(shù)據(jù)標(biāo)注員正在工作。受訪者供圖

基層數(shù)據(jù)標(biāo)注員層層外包下有的到手薪資千余元,人員流動(dòng)頻繁

結(jié)束上一份電商工作后,高小貝回到太原老家,在朋友的介紹下開始接觸數(shù)據(jù)標(biāo)注行業(yè)。付費(fèi)后,高小貝進(jìn)入培訓(xùn)公司的3D點(diǎn)云項(xiàng)目組,從0基礎(chǔ)到逐漸上手再到開始接單,高小貝用了40多天,項(xiàng)目標(biāo)注單價(jià)則為1毛8分錢。

第一次項(xiàng)目回款,高小貝收到了三千四百多元,除去培訓(xùn)費(fèi)用,還有少部分結(jié)余。

與高小貝相比,小雷入職前并未參加任何培訓(xùn),從完全不懂到單日完成2500個(gè)框且正確率95%,單位只給了小雷一周不到的時(shí)間,由于從事時(shí)間較短,熟練度欠佳,再加上經(jīng)常返工重標(biāo),即使每天多加班2-3個(gè)小時(shí),小雷效率最高的時(shí)候,單日工作量也只有2000個(gè)框左右。

所謂3D點(diǎn)云項(xiàng)目單日2500個(gè)框,并不意味著僅是圈出圖片中的障礙物,實(shí)際上,標(biāo)注員在工作時(shí)還要注意障礙物的尺寸、ID、方向,以及點(diǎn)云是否框全,是否漏框了輪胎點(diǎn),是否框入了地面點(diǎn),同時(shí)還要判斷車在高速行駛時(shí)出現(xiàn)的殘影是否框選等。小雷認(rèn)為3D點(diǎn)云標(biāo)注工作并不算難,但具體操作要求比較復(fù)雜,所以很難在單日內(nèi)大批量標(biāo)注。

“標(biāo)注本身就是個(gè)重復(fù)性的工作。上手不難,難的是都不愿意培養(yǎng),都喜歡直接能干的?!鼻皵?shù)據(jù)標(biāo)注員田先生如此告訴貝殼財(cái)經(jīng)記者。由于缺乏培養(yǎng)機(jī)制,再加上職業(yè)發(fā)展天花板有限,從事數(shù)據(jù)標(biāo)注行業(yè)接近一年后,本科畢業(yè)的田先生選擇了辭職。

同為3D點(diǎn)云標(biāo)注項(xiàng)目,小雷公司開出的標(biāo)注單價(jià)為每個(gè)框4分錢,而高小貝所在的培訓(xùn)公司單價(jià)則為1毛8分錢,為何會(huì)出現(xiàn)如此大的單價(jià)差異?

實(shí)際上,多位數(shù)據(jù)標(biāo)注行業(yè)受訪者向記者證實(shí),行業(yè)內(nèi)層層外包的現(xiàn)象比較嚴(yán)重,從有標(biāo)注需求的甲方公司到中標(biāo)的乙方公司,再到框架下的二包、三包,甚至四包公司,每層都會(huì)抽取一定的費(fèi)用,最后落到標(biāo)注員身上,標(biāo)注單價(jià)4分錢并不罕見。一位有標(biāo)注需求的甲方公司項(xiàng)目負(fù)責(zé)人向貝殼財(cái)經(jīng)記者透露,自家公司的視頻事件描述標(biāo)注,報(bào)價(jià)一條9毛,最后分到標(biāo)注員手中單價(jià)可能只有幾分錢。

此外,由于標(biāo)注工作的層層外包,標(biāo)注公司交付時(shí)的溝通成本也隨之變高,甲方的需求經(jīng)過(guò)層層傳達(dá)后經(jīng)常出現(xiàn)溝通不及時(shí),標(biāo)注標(biāo)準(zhǔn)來(lái)回變化的情況,因此返工重標(biāo)也是大多數(shù)基層數(shù)據(jù)標(biāo)注員不得不面對(duì)的問題之一。

數(shù)據(jù)標(biāo)注員低入門門檻的同時(shí)也意味著低競(jìng)爭(zhēng)力,所謂的數(shù)據(jù)標(biāo)注行業(yè)在中低端市場(chǎng)正逐漸演變?yōu)閭鹘y(tǒng)的人力資源密集行業(yè)。

在每天加班的情況下,小雷一個(gè)月到手薪資也只有一千多元,且要忍受由于長(zhǎng)時(shí)間操作電腦、鼠標(biāo)而帶來(lái)的眼睛干澀、手部酸痛感。目前,小雷選擇了辭職尋找新的工作。

層層外包模式下,也有原來(lái)的從業(yè)者,選擇了創(chuàng)業(yè)。

考慮到從事數(shù)據(jù)標(biāo)注工作個(gè)人產(chǎn)出有限,且行業(yè)表現(xiàn)為多勞多得,高小貝選擇了復(fù)制裂變,自己投資開辦了一家數(shù)據(jù)標(biāo)注公司。不到一年的時(shí)間內(nèi),她的標(biāo)注公司全職人數(shù)達(dá)到了20人,公司標(biāo)注部門每月凈營(yíng)收在2.5萬(wàn)-4萬(wàn)元之間。

此外,從自己的創(chuàng)業(yè)經(jīng)歷出發(fā),高小貝的公司還開發(fā)了標(biāo)注孵化業(yè)務(wù),提供對(duì)個(gè)人以及團(tuán)隊(duì)的數(shù)據(jù)標(biāo)注培訓(xùn),目前公司已經(jīng)孵化分公司3家,孵化人數(shù)則達(dá)到了16人。“市場(chǎng)上割韭菜的公司居多,高額加盟費(fèi)、分包轉(zhuǎn)包各種情況搞得整體市場(chǎng)烏煙瘴氣。但總的來(lái)看,行業(yè)本身很適合小資本創(chuàng)業(yè)、賠率低,如果創(chuàng)業(yè)者能接到優(yōu)質(zhì)訂單,在團(tuán)隊(duì)管理、培訓(xùn)流程上得到指導(dǎo),行業(yè)前景還是不錯(cuò)的?!备咝∝愓f(shuō)。

收入兩極分化,高素質(zhì)人才年薪百萬(wàn)背后?

林霖(化名)也是數(shù)據(jù)標(biāo)注行業(yè)的頭部玩家,他以傳統(tǒng)人力資源行業(yè)起家,后轉(zhuǎn)型數(shù)據(jù)標(biāo)注行業(yè)。

“今年人工智能生成賽道爆發(fā),我們公司已經(jīng)接到了大批量數(shù)據(jù)標(biāo)注外包需求,預(yù)計(jì)今年可以做到十倍營(yíng)收增長(zhǎng)?!绷至貙?duì)貝殼財(cái)經(jīng)記者表示。

他認(rèn)為,數(shù)據(jù)標(biāo)注行業(yè)發(fā)展?jié)摿薮螅粩鄶U(kuò)張團(tuán)隊(duì)規(guī)模,提升團(tuán)隊(duì)整體素質(zhì)才能接到一手優(yōu)質(zhì)的標(biāo)注項(xiàng)目。林霖的團(tuán)隊(duì)目前全職員工人數(shù)上千,其中本科生占比較大,公司在河南、湖南、重慶等多地均設(shè)有數(shù)據(jù)標(biāo)注基地,服務(wù)的客戶主要是頭部的互聯(lián)網(wǎng)和人工智能企業(yè)。

2020年轉(zhuǎn)型數(shù)據(jù)標(biāo)注行業(yè),經(jīng)歷了行業(yè)非線性增長(zhǎng)的幾年,林霖的公司搶占了數(shù)據(jù)標(biāo)注行業(yè)的小風(fēng)口,在生成式人工智能標(biāo)注領(lǐng)域已是業(yè)內(nèi)最大團(tuán)隊(duì)之一。

林霖向貝殼財(cái)經(jīng)記者透露,數(shù)據(jù)標(biāo)注員的平均薪資一般略高于公司當(dāng)?shù)仄骄劫Y,尤其是高素質(zhì)標(biāo)注人才,薪資待遇則更高?!澳壳拔抑雷罡叩模兇庾鰯?shù)據(jù)標(biāo)注,不參與算法、研發(fā)等,差不多在90-100(萬(wàn)年薪)。”

普通數(shù)據(jù)標(biāo)注員月薪兩三千,高級(jí)數(shù)據(jù)標(biāo)注從業(yè)者年薪百萬(wàn),為何會(huì)有如此大的薪資差距?

林霖向貝殼財(cái)經(jīng)記者解釋,普通數(shù)據(jù)標(biāo)注員僅需要對(duì)一個(gè)標(biāo)注題目負(fù)責(zé),高級(jí)數(shù)據(jù)標(biāo)注從業(yè)者則需要對(duì)一個(gè)標(biāo)注環(huán)節(jié),甚至對(duì)整個(gè)標(biāo)注需求負(fù)責(zé);此外,標(biāo)注業(yè)務(wù)也根據(jù)難易程度分為不同等級(jí),例如在自動(dòng)售貨機(jī)訂單審核項(xiàng)目,人工僅需抽查機(jī)器判斷的已售商品是否準(zhǔn)確即可,如是否將果粒橙識(shí)別為可口可樂,對(duì)標(biāo)注員個(gè)人能力要求不高,而在ChatGPT問答規(guī)則設(shè)計(jì)項(xiàng)目中,好的標(biāo)注員在回答“背誦蘇軾《水調(diào)歌頭》”提問時(shí),不僅會(huì)給出詩(shī)詞全文,還會(huì)揣摩提問者提問意圖,給出蘇軾在中國(guó)詩(shī)詞史上地位如何、此首詩(shī)詞相關(guān)的背景、詩(shī)詞衍生的其他內(nèi)容等等?!耙粋€(gè)優(yōu)秀的數(shù)據(jù)標(biāo)注員能通過(guò)關(guān)鍵詞,識(shí)別出提問者背后的真實(shí)需求是什么,進(jìn)而設(shè)計(jì)規(guī)則?!痹诹至氐墓静环χ锌圃翰┦繌氖聰?shù)據(jù)標(biāo)注工作。

與大部分人印象中數(shù)據(jù)標(biāo)注員低門檻好上手不同,林霖透露,數(shù)據(jù)標(biāo)注行業(yè)其實(shí)不乏對(duì)高素質(zhì)人才的需求,例如醫(yī)藥行業(yè)、金融行業(yè)相關(guān)的標(biāo)注更傾向于尋找有相關(guān)教育經(jīng)歷或從業(yè)背景的人才標(biāo)注,ChatGPT人機(jī)對(duì)話項(xiàng)目則傾向于尋找文字理解能力好的人才操作。

教會(huì)徒弟餓死師傅”?數(shù)據(jù)標(biāo)注員會(huì)AI標(biāo)注替代嗎?

隨著人工智能自主學(xué)習(xí)能力的不斷加強(qiáng),人工智能研究者們已經(jīng)開始嘗試向機(jī)器“喂養(yǎng)”未標(biāo)注的數(shù)據(jù)與部分半標(biāo)注的數(shù)據(jù),不依賴人工標(biāo)注的自監(jiān)督學(xué)習(xí)和數(shù)據(jù)標(biāo)注也已在業(yè)界出現(xiàn)。來(lái)自蘇黎世大學(xué)的一篇名為《在文本注釋任務(wù)上,ChatGPT優(yōu)于眾包工人》的論文顯示,用ChatGPT給文本做數(shù)據(jù)標(biāo)注的成本不到0.003美元一條,顯著低于人力成本。

“教會(huì)徒弟,餓死師傅”的傳言正在彌漫,數(shù)據(jù)標(biāo)注員最終會(huì)被AI標(biāo)注替代嗎?

多位學(xué)界人士對(duì)貝殼財(cái)經(jīng)記者表示,低門檻的數(shù)據(jù)標(biāo)注工作的確會(huì)被人工智能標(biāo)注取代,如果大模型的性能已經(jīng)滿足需求,那么直接用大模型的預(yù)測(cè)作為標(biāo)簽,來(lái)蒸餾小模型即可,如ChatGPT已經(jīng)能夠成熟地自動(dòng)識(shí)別和分類文本,并對(duì)文本的情感進(jìn)行分析和評(píng)估。不過(guò),也有學(xué)界人士告訴記者,雖然自動(dòng)標(biāo)注發(fā)展越來(lái)越成熟,但正確率并未達(dá)到100%,而是普遍集中在50-70%。此外,不少數(shù)據(jù)標(biāo)注項(xiàng)目其實(shí)稍有門檻,對(duì)于某些特定領(lǐng)域的標(biāo)注,人工智能暫時(shí)還不能取代人類。

林霖則表示,自己非??春脭?shù)據(jù)標(biāo)注行業(yè)未來(lái)的發(fā)展。他認(rèn)為,人工智能行業(yè)的發(fā)展無(wú)窮無(wú)盡:從語(yǔ)音標(biāo)注到人臉標(biāo)注,再到自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云標(biāo)注,以及近幾年大熱的ChatGPT類標(biāo)注。

“與其擔(dān)心沒有項(xiàng)目可接,不如提高自己與時(shí)俱進(jìn)的能力”。高小貝則告訴記者,人工智能領(lǐng)域有一句流傳甚廣的老話非常適用,即“人工智能行業(yè),有多少人工就有多少智能”。

編輯 岳彩周

校對(duì) 盧茜

關(guān)鍵詞:
責(zé)任編輯:zN_0654