siemens x
人工智能

探尋AI可持續(xù)發(fā)展的“燃料” “語料筑基,智生時代”語料主題論壇邀您參與

2025China.cn   2024年06月21日

在電影《黑客帝國》中,人類被想象為“生物電池”,機(jī)器從人類身體所產(chǎn)生的熱量和電力中獲取能量。這種設(shè)定雖然夸張,但引發(fā)了人們對于虛擬現(xiàn)實(shí)與現(xiàn)實(shí)世界之間的界限,以及自由意志等問題的思考。

電影中的“生物電池”概念也引出了一個有趣的現(xiàn)代對比:隨著人工智能的發(fā)展,人們在某種程度上開始“為AI打工”。在大型文本生成項(xiàng)目中,如OpenAI的GPT系列,高性能的AI模型對高質(zhì)量語料的需求巨大。因此,為了訓(xùn)練這些AI,人們需要創(chuàng)造和整理大量的高質(zhì)量文本數(shù)據(jù)。這個過程看似為減少人類的勞動而設(shè)計(jì),實(shí)際上卻讓人類在某種程度上成了AI的“做題家”,即持續(xù)提供用于訓(xùn)練AI的數(shù)據(jù)。雖然這種情況和電影中的設(shè)定不同,但也呈現(xiàn)了一種新的依賴關(guān)系:人類的智力產(chǎn)物直接支持著人工智能的發(fā)展和優(yōu)化。

WAIC 2024密切關(guān)注語料數(shù)據(jù)的發(fā)展。為深入探討語料數(shù)據(jù)的策略、實(shí)踐與挑戰(zhàn),大模型語料數(shù)據(jù)聯(lián)盟、上海庫帕思科技有限公司、上海市數(shù)商協(xié)會、上海市人工智能行業(yè)協(xié)會將聯(lián)合舉辦“語料筑基,智生時代”數(shù)據(jù)主題論壇,為與會者提供深入洞察。

論壇時間:7月6日 9:30-12:30

論壇地點(diǎn):上海世博中心金廳A

語料枯竭成為發(fā)展人工智能的障礙

語料庫是訓(xùn)練AI模型的“食糧”,其質(zhì)量直接決定了模型的性能和應(yīng)用的廣泛性。在全球范圍內(nèi),從學(xué)術(shù)研究到商業(yè)應(yīng)用,人工智能的發(fā)展都嚴(yán)重依賴于大量高質(zhì)量、多樣化且公正的數(shù)據(jù),這些數(shù)據(jù)是訓(xùn)練精確、可靠和公正的AI系統(tǒng)的基礎(chǔ)。

然而,由于采集限制、成本、維護(hù)等多種原因,高質(zhì)量語料短缺正在成為全球人工智能研發(fā)中普遍存在的一個國際性難題,且短期內(nèi)無法通過單純加大資金投入解決。

導(dǎo)致高質(zhì)量語料短缺的原因有以下幾種:首先,數(shù)據(jù)的采集往往受限于版權(quán)、隱私保護(hù)法規(guī)以及數(shù)據(jù)來源的限制,導(dǎo)致無法廣泛地收集到多樣的數(shù)據(jù)樣本。此外,數(shù)據(jù)的標(biāo)注工作不僅成本高昂,而且需要大量的人工參與,這在很大程度上限制了數(shù)據(jù)集的規(guī)模和多樣性。標(biāo)注數(shù)據(jù)的準(zhǔn)確性和一致性的維護(hù)也是一個挑戰(zhàn),因?yàn)椴煌臉?biāo)注者可能會有不同的理解和判斷標(biāo)準(zhǔn)。

早在2022年,就有學(xué)者指出高質(zhì)量語料將會成為AI發(fā)展的制約,例如Nostalgebraist曾說過高質(zhì)量的語料數(shù)據(jù)的缺失將會成為機(jī)器學(xué)習(xí)的瓶頸。近年來,不斷有研究發(fā)現(xiàn),由于互聯(lián)網(wǎng)語料內(nèi)容的持續(xù)下降,互聯(lián)網(wǎng)語料數(shù)據(jù)增速已經(jīng)從90年代將近100%的年增速率下降至2010年的兩位數(shù)增長率,預(yù)計(jì)本世紀(jì)末,增長率將會下降至1%。

2024年6月4日,Pablo Villalobos等人在一項(xiàng)研究中進(jìn)一步預(yù)測了高質(zhì)量語料枯竭的具體時間。該研究表明,高質(zhì)量數(shù)據(jù)預(yù)計(jì)將于2028年枯竭,高質(zhì)量數(shù)據(jù)的缺位將會嚴(yán)重限制未來大模型大表現(xiàn)(如下圖所示)。

圖片來源:Will we run out of data? Limits of LLM scaling based on human-generated data

為了延緩語料數(shù)據(jù)短缺,在國際上,許多研究機(jī)構(gòu)和企業(yè)都在努力通過技術(shù)創(chuàng)新來克服這些難題,比如使用半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)技術(shù)減少對大規(guī)模標(biāo)注數(shù)據(jù)的依賴,或者開發(fā)更智能的數(shù)據(jù)增強(qiáng)技術(shù)來提高現(xiàn)有數(shù)據(jù)的利用率。同時,一些開源項(xiàng)目和合作平臺也在推動更多高質(zhì)量、可共享的數(shù)據(jù)集的生成,以減少各個研究組織之間的重復(fù)工作,提高整個行業(yè)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。

高質(zhì)量語料短缺是全球AI研究與應(yīng)用領(lǐng)域共同面臨的問題,需要國際合作和技術(shù)創(chuàng)新共同解決。這不僅僅是中國獨(dú)有的問題,而是一個全球性的挑戰(zhàn),對于推動人工智能技術(shù)的持續(xù)進(jìn)步至關(guān)重要。

官方語料機(jī)構(gòu)有望成為高質(zhì)量語料提供“庇護(hù)所”

在面對全球性的高質(zhì)量語料短缺問題時,官方語料機(jī)構(gòu)的設(shè)立有望成為解決這一困境的關(guān)鍵所在。這類機(jī)構(gòu)能夠起到“庇護(hù)所”的作用,通過系統(tǒng)的管理與創(chuàng)新技術(shù)的應(yīng)用,有效延緩語料枯竭的趨勢,為人工智能的持續(xù)發(fā)展提供強(qiáng)有力的支持。

通過把控和優(yōu)化多種模型合成的數(shù)據(jù),官方語料機(jī)構(gòu)能夠有效管理數(shù)據(jù)的分發(fā)和使用。這種集中管理不僅保證了數(shù)據(jù)質(zhì)量,還有助于防止在數(shù)據(jù)遷移學(xué)習(xí)過程中丟失關(guān)于原始人類數(shù)據(jù)分布的關(guān)鍵信息。

此外,機(jī)構(gòu)還可以通過嚴(yán)格的數(shù)據(jù)審核與模型訓(xùn)練流程,防止因迭代輸出而導(dǎo)致的結(jié)果同質(zhì)化。結(jié)果同質(zhì)化有降低模型的創(chuàng)新能力和適應(yīng)性的風(fēng)險(xiǎn),而官方機(jī)構(gòu)的介入則可以確保每一次數(shù)據(jù)的更新和模型的迭代都能引入新的視角和多樣性。

通過官方機(jī)構(gòu)管理非公開高質(zhì)量數(shù)據(jù),對于機(jī)器學(xué)習(xí)也尤為重要。這些數(shù)據(jù)通常涉及敏感信息或?qū)I(yè)領(lǐng)域知識,需要在確保隱私和安全的前提下進(jìn)行處理和使用。通過官方機(jī)構(gòu)的專業(yè)管理,這類數(shù)據(jù)可以在遵循法律和倫理標(biāo)準(zhǔn)的同時,為機(jī)器學(xué)習(xí)模型提供精確和深入的訓(xùn)練材料。

此外,官方語料機(jī)構(gòu)還可以運(yùn)用先進(jìn)的數(shù)據(jù)處理技術(shù),如data filtering和deduplication,提高數(shù)據(jù)處理的質(zhì)量。這些技術(shù)可以從大量的公共語料中篩選出高質(zhì)量數(shù)據(jù),去除重復(fù)或低質(zhì)量的信息。

“語料筑基,智生時代”語料專題論壇為行業(yè)帶來更優(yōu)解

為滿足大模型發(fā)展對高質(zhì)量、大規(guī)模、安全可信語料數(shù)據(jù)資源的需求,保障大模型科研攻關(guān)及相關(guān)產(chǎn)業(yè)生態(tài)發(fā)展,本次大會期間,上海庫帕思科技有限公司將聯(lián)合大模型語料數(shù)據(jù)聯(lián)盟、上海市數(shù)商協(xié)會、上海市人工智能行業(yè)協(xié)會以“語料筑基,智生時代”為主題舉辦語料專題論壇。

論壇圍繞“高質(zhì)量語料數(shù)據(jù)如何高效供給賦能大模型產(chǎn)業(yè)發(fā)展”的話題,從專業(yè)化、鏈接型、前瞻性三個維度,向市場傳遞重構(gòu)語料生態(tài)的頂層設(shè)計(jì)理念(報(bào)名請掃描海報(bào)二維碼填寫信息)。

本次論壇還將正式發(fā)布2024語料風(fēng)云榜,遴選語料行業(yè)優(yōu)秀企業(yè)和案例,打造標(biāo)桿示范,鼓勵更多的市場主體投身于語料產(chǎn)業(yè)生態(tài)布局,推動語料全行業(yè)“提質(zhì)、增效、降本”發(fā)展,有效緩解語料“供給難、供給貴”的問題。

評選面向國內(nèi)外人工智能語料的代表企業(yè),圍繞產(chǎn)品服務(wù)、研發(fā)創(chuàng)新、經(jīng)營效率、風(fēng)險(xiǎn)合規(guī)、品牌影響力與可持續(xù)發(fā)展等指標(biāo)進(jìn)行評價(jià),通過申報(bào)、預(yù)選、復(fù)選、公示、發(fā)布五個環(huán)節(jié),最終評出2024語料風(fēng)云榜。

2024語料風(fēng)云榜的評價(jià)標(biāo)準(zhǔn)分為“好企業(yè)、好產(chǎn)品、好規(guī)則”三個一級指標(biāo)維度,細(xì)分至六個二級指標(biāo)(經(jīng)營能力、品牌能力、產(chǎn)品能力、創(chuàng)新能力、規(guī)范能力、基礎(chǔ)能力),以及16個細(xì)化三級指標(biāo)。語料產(chǎn)品及服務(wù)應(yīng)滿足主體合規(guī)、來源合規(guī)、流通合規(guī)的要求,如不滿足則不可參評。

意向申報(bào)企業(yè)可從鏈接中下載并填寫申報(bào)材料,于6月9日18點(diǎn)前,將申報(bào)材料發(fā)送至郵箱 liuminhao@iyiou.com 。

申報(bào)材料下載鏈接:

https://pan.baidu.com/s/1KzntFSNJ5cLko8qfjsc8pg?pwd=5as6 提取碼: 5as6

附件一:2024語料風(fēng)云榜企業(yè)申報(bào)承諾書

附件二:2024語料風(fēng)云榜企業(yè)申報(bào)表

如有任何問題,歡迎與相關(guān)負(fù)責(zé)人聯(lián)系,誠摯歡迎您的到來。

袁佳毅 13917988406

虎林林 18116365535

(來源:世界人工智能大會)

標(biāo)簽:世界人工智能大會 我要反饋 
2024世界人工智能大會專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會
專題報(bào)道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]