siemens x
人工智能

2020語(yǔ)言與智能技術(shù)競(jìng)賽:云知聲認(rèn)知智能團(tuán)隊(duì)獲機(jī)器閱讀理解任務(wù)冠軍

2025China.cn   2020年11月10日

  11月6日,由中國(guó)中文信息學(xué)會(huì)(CIPS)和中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)聯(lián)合主辦的“第五屆語(yǔ)言與智能高峰論壇”在線舉行。大會(huì)同期為“2020語(yǔ)言與智能技術(shù)競(jìng)賽”五大任務(wù)領(lǐng)域優(yōu)秀團(tuán)隊(duì)授獎(jiǎng),憑借在閱讀理解技術(shù)方向的深厚積累,云知聲認(rèn)知智能團(tuán)隊(duì)摘得機(jī)器閱讀理解任務(wù)冠軍獎(jiǎng)牌。

  “2020語(yǔ)言與智能技術(shù)競(jìng)賽”由中國(guó)中文信息學(xué)會(huì)(CIPS)和中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)聯(lián)合主辦,百度公司、中國(guó)中文信息學(xué)會(huì)評(píng)測(cè)工作委員會(huì)和中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專委會(huì)聯(lián)合承辦,設(shè)立機(jī)器閱讀理解、面向推薦的對(duì)話、關(guān)系抽取、語(yǔ)義解析與事件抽取五大熱門(mén)競(jìng)賽任務(wù),并提供面向真實(shí)應(yīng)用場(chǎng)景的大規(guī)模數(shù)據(jù)集。

  今年的參賽規(guī)模創(chuàng)歷年新高,五大任務(wù)領(lǐng)域累計(jì)報(bào)名參賽隊(duì)伍超5300支,參賽選手超6000人,大賽累積收到有效提交結(jié)果近15000份,成為中文NLP領(lǐng)域參賽人數(shù)最多的賽事。除整體參賽人數(shù)規(guī)模翻倍之外,參賽隊(duì)伍陣容亦堪稱豪華,覆蓋了海內(nèi)外知名高校、科研機(jī)構(gòu)以及諸多知名企業(yè)。

  作為本次競(jìng)賽的核心任務(wù)之一,機(jī)器閱讀理解 (Machine Reading Comprehension)是指讓機(jī)器閱讀文本,然后回答和閱讀內(nèi)容相關(guān)的問(wèn)題。閱讀理解是自然語(yǔ)言處理和人工智能領(lǐng)域的重要前沿課題,對(duì)于提升機(jī)器的智能水平,使機(jī)器具有持續(xù)獲取知識(shí)的能力等方面具有重要價(jià)值,近年來(lái)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。本次大賽機(jī)器閱讀理解評(píng)測(cè)是連續(xù)舉辦多年的一個(gè)任務(wù),吸引了包括中國(guó)科學(xué)技術(shù)大學(xué)、中國(guó)科學(xué)院大學(xué)等一千多支知名校企隊(duì)伍參加。

  機(jī)器閱讀理解的例子:

  問(wèn)題(q) : 喬丹打了多少個(gè)賽季?
  篇章(p) : 邁克爾·喬丹在NBA打了15個(gè)賽季。他在84年進(jìn)入NBA,期間在1993年10月6日第一次退役改打棒球,95年3月18日重新回歸,在99年1月13日第二次退役,后于2001年10月31日復(fù)出,在03年最終退役……
  參考答案(a): [‘15個(gè)’,‘15個(gè)賽季’]

  本次大賽的機(jī)器閱讀理解任務(wù)注重閱讀理解模型在真實(shí)應(yīng)用場(chǎng)景中的魯棒性,挑戰(zhàn)模型的過(guò)敏感性、過(guò)穩(wěn)定性以及泛化能力。比賽過(guò)程中,云知聲認(rèn)知智能團(tuán)隊(duì)依托自身雄厚的技術(shù)積累,以及在醫(yī)療等領(lǐng)域的產(chǎn)業(yè)化實(shí)戰(zhàn)經(jīng)驗(yàn),所提交系統(tǒng)取得F1值較基線提升26%的佳績(jī),在預(yù)賽和復(fù)賽F1值和EM值在均位列第一。

  比賽中,云知聲認(rèn)知智能團(tuán)隊(duì)針對(duì)閱讀理解系統(tǒng)存在的過(guò)敏感、過(guò)穩(wěn)定和泛化性不足三個(gè)問(wèn)題進(jìn)行了有針對(duì)性的優(yōu)化,增強(qiáng)了閱讀理解系統(tǒng)在真實(shí)場(chǎng)景中的魯棒性;團(tuán)隊(duì)還借助云知聲預(yù)訓(xùn)練語(yǔ)言模型平臺(tái)UniPLM,對(duì)模型進(jìn)行了快速迭代和高效訓(xùn)練;最后利用模型集成的方法進(jìn)一步提高了閱讀理解模型的性能指標(biāo)。

  ●利用數(shù)據(jù)增強(qiáng)的方法來(lái)處理過(guò)敏感、過(guò)穩(wěn)定問(wèn)題。針對(duì)過(guò)敏感問(wèn)題,使用問(wèn)句生成和相似度匹配模型兩階段過(guò)程后生成候選樣本,用來(lái)攻擊訓(xùn)練好的閱讀理解模型,若攻擊成功則生成過(guò)敏感類型的增強(qiáng)樣本。針對(duì)過(guò)穩(wěn)定問(wèn)題,使用實(shí)體識(shí)別方法從文章中識(shí)別與答案相關(guān)實(shí)體,與問(wèn)句信息結(jié)合融入篇章中生成候選樣本,用來(lái)攻擊訓(xùn)練好的閱讀理解模型,若攻擊成功則生成過(guò)穩(wěn)定類型的增強(qiáng)樣本。

  ●利用領(lǐng)域外數(shù)據(jù)來(lái)增強(qiáng)模型的泛化能力。增加了包括DuReader、CMRC等通用領(lǐng)域的語(yǔ)料。還增加了證券公告、五種學(xué)科的教育領(lǐng)域數(shù)據(jù)。

  ●借助云知聲預(yù)訓(xùn)練語(yǔ)言模型平臺(tái)UniPLM來(lái)進(jìn)行模型的快速迭代和高效訓(xùn)練。UniPLM基于Huggingface的transformers庫(kù)進(jìn)行開(kāi)發(fā),支持各類主流的預(yù)訓(xùn)練語(yǔ)言模型以及分類、序列標(biāo)注、閱讀理解等NLP任務(wù)。UniPLM融合了TensorBoard和微軟NNI框架,支持可視化訓(xùn)練和自動(dòng)調(diào)調(diào)參。它還可以高效地在分布式訓(xùn)練平臺(tái)Atlas上進(jìn)行多機(jī)多卡訓(xùn)練。

  讓機(jī)器理解人類語(yǔ)言是人類長(zhǎng)期以來(lái)的夢(mèng)想,也是人工智能應(yīng)用必須迎接的挑戰(zhàn)。作為云知聲全棧技術(shù)版圖的重要模塊,經(jīng)過(guò)多年的持續(xù)投入與潛心研發(fā),當(dāng)前云知聲認(rèn)知智能技術(shù)已處行業(yè)領(lǐng)先水平,由云知聲與中科院自動(dòng)化所合作完成的項(xiàng)目——“大規(guī)模知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)與應(yīng)用”亦榮獲2019年北京市科學(xué)技術(shù)進(jìn)步一等獎(jiǎng)。相關(guān)技術(shù)成果也已先后應(yīng)用至醫(yī)療、家居、車載等諸多垂直領(lǐng)域。

(轉(zhuǎn)載)

標(biāo)簽:云知聲Unisound 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國(guó)工博會(huì)于9月24日至28日在國(guó)家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國(guó)漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]