IBM團(tuán)隊「AI辯論家」研究登頂Nature封面!AI與人類斗嘴誰更強(qiáng)?

2025China.cn 2021年03月18日

　　在很多游戲和圍棋比賽中，人工智能(AI)都展現(xiàn)出了 “超人” 能力，現(xiàn)在，它又開始沖擊辯論賽了。

　　自 AI 概念誕生以來，如何讓計算機(jī)對自然語言的理解和處理能力接近人類，一直是科學(xué)家們的終極愿景。經(jīng)過數(shù)十年的發(fā)展，目前業(yè)界已經(jīng)開發(fā)出能夠執(zhí)行語言理解任務(wù)的 AI 模型，對于常規(guī)任務(wù)和特定語言現(xiàn)象，例如預(yù)測某個句子的情感，當(dāng)前最先進(jìn)的 AI 系統(tǒng)通常能給出一個不錯的結(jié)果，再搭配上語音相關(guān)技術(shù)，進(jìn)行簡單的人機(jī)對話交互也不再稀奇。

　　然而，在更復(fù)雜的任務(wù)中，例如自動翻譯、自動摘要和多輪隨機(jī)對話考驗下，AI 系統(tǒng)仍然不能很好地滿足人類需要，而比這些單一任務(wù)更具綜合性的考驗是：辯論。

　　那么，AI 有能力和人進(jìn)行主題辯論嗎?

　　辯論代表了人類大腦的一種主要認(rèn)知活動，需要同時應(yīng)用廣泛的語言理解和語言生成能力，一個自主的辯論系統(tǒng)超出了以往語言研究的范圍。

　　不過，來自 IBM 的 AI 研究團(tuán)隊報告了一項最新的研究進(jìn)展：Project Debater(意為 “辯手項目”)，經(jīng)評估，該系統(tǒng)已可以與人類專家選手進(jìn)行體面且有意義的現(xiàn)場辯論，它能通過儲存了 4 億篇新聞報道和維基百科頁面的知識庫，自行組織開場白和反駁論點。

圖|Project Debater 與人類選手辯論(來源：IBM)

　　相關(guān)論文以 “An autonomous debating system”(一個自主辯論系統(tǒng))為題，于 3 月 18 日以封面文章的形式發(fā)表在頂級科學(xué)期刊《自然》(Nature)上。

　　據(jù)了解，Project Debater 最早于 2011 年被提出，堪稱 “十年磨一劍”，研究人員的目標(biāo)是讓 AI 與人類進(jìn)行現(xiàn)場辯論時應(yīng)對自如。另外，他們還強(qiáng)調(diào)了 AI 與人類進(jìn)行辯論和在游戲競賽中挑戰(zhàn)人類之間有著根本區(qū)別，這有助于讓 AI 走出 “舒適區(qū)”，因為在辯論領(lǐng)域，人類仍然占優(yōu)勢，AI 需要新的范式才能取得實質(zhì)性進(jìn)展。

1

初次亮相就對陣冠軍選手

　　研究人員定義了一種辯論形式，它是學(xué)術(shù)競爭性辯論中常用的辯論風(fēng)格簡化版，即一旦被稱為 “辯論動議” 的主題宣布，Project Debater 和人類選手都各有 15 分鐘的準(zhǔn)備時間。

　　準(zhǔn)備就緒后，雙方就開始輪流發(fā)言，開場發(fā)言和第二次發(fā)言各為 4 分鐘，閉幕發(fā)言各有 2 分鐘，演講通常由支持動議立場的論據(jù)和反駁該立場的觀點論據(jù)組成，辯論前后觀眾們會對辯論動議進(jìn)行投票，能爭取更多選票的選手被宣布為勝利者。

圖|辯論流程與格式的詳細(xì)情況(來源：Nature)

　　Project Debater 的一次正式亮相是在 2019 年 2 月 11 日，它與一位廣受認(rèn)可的辯論冠軍 Harish Natarajan 進(jìn)行了一次現(xiàn)場辯論較量，Harish Natarajan 是 2016 年世界大學(xué)辯論錦標(biāo)賽的總決賽選手，也是 2012 年歐洲大學(xué)辯論錦標(biāo)賽的冠軍，此次辯論也是 AI 在公眾面前的首次現(xiàn)場辯論。

　　雖然最終觀眾的投票結(jié)果仍是人類勝利，但 Project Debater 的表現(xiàn)給觀眾留下了深刻的印象，盡管它的修辭技巧仍未達(dá)到專業(yè)選手的水平，但它已能夠指出辯論中的相關(guān)要點。

圖|Project Debater 與 Harish Natarajan 的現(xiàn)場辯論(來源：IBM)

　　而這次研究論文的重點，則是描述 Project Debater 系統(tǒng)及其在廣泛辯題中的結(jié)果，而不是這個特定的事件。

　　考慮到參與辯論所需的任務(wù)的多樣性，以端到端系統(tǒng)的形式設(shè)想一個整體解決方案，例如一個單一的神經(jīng)模型，幾乎是不可行的。相反，IBM 研究團(tuán)隊的做法是將問題分解為并行執(zhí)行的模塊化具體任務(wù)。

　　有趣的是，其中一些相關(guān)研究受到了科學(xué)界的高度關(guān)注。例如，上下文相關(guān)的語境檢測和上下文相關(guān)的證據(jù)檢測任務(wù)是在該項目背景下提出和制定的，現(xiàn)已成為計算論證界的一個活躍研究領(lǐng)域。

2

AI 辯手是怎樣練成的?

　　整體來說，Project Debater 由四個主要模塊組成：論點挖掘、論據(jù)知識庫(AKB)、論點反駁和論證構(gòu)建。

　　其中，論點挖掘主要分兩個階段進(jìn)行。在離線階段，基于約有 4 億篇報道文章的大型語料庫(來自 LexisNexis2011-2018 語料庫)，把文章分成句子，并用其中的單詞、維基百科的概念、它們提到的實體以及預(yù)定義的詞匯來索引這些句子。到了在線階段，一旦辯論動議被提出，系統(tǒng)就依賴此索引進(jìn)行全語料庫的句子級參數(shù)挖掘、檢索與動議相關(guān)的立場聲明和證據(jù)。

　　具體而言，首先，使用定制查詢檢索包含此類論據(jù)的高傾向性句子;接下來，使用神經(jīng)模型根據(jù)這些句子代表相關(guān)論據(jù)的概率對它們進(jìn)行排序;最后，結(jié)合神經(jīng)網(wǎng)絡(luò)和基于知識的方法對每個接近動議的論點立場進(jìn)行分類。

圖|Project Debater 辯論系統(tǒng)架構(gòu)(來源：Nature)

　　在此過程中，系統(tǒng)還使用主題擴(kuò)展組件來更好地包含相關(guān)參數(shù)的范圍。也就是說，如果主題擴(kuò)展組件成功識別出與辯論相關(guān)的其他概念，它會請求參數(shù)挖掘模塊也搜索描述這些概念的參數(shù)。此外，論點挖掘模塊還搜索支持另一方的論據(jù)，目的是準(zhǔn)備一組對手可能使用的論據(jù)和可能作為回應(yīng)的證據(jù)，這一套操作稍后由反駁模塊使用。

　　AKB 旨在捕捉不同辯論之間的共性。AKB 中的文本包含原則性的論點、反證論點和可能與廣泛主題相關(guān)的常見例子，這些文本是手動編寫或自動提取然后手動編輯，并分組成專題類。

　　給定一個新的辯題，系統(tǒng)能使用基于特征的分類器來確定哪些類與該辯題相關(guān)。然后，所有與匹配類相關(guān)聯(lián)的文本都可以潛在地用于語音中，系統(tǒng)根據(jù)它們與辯題的語義關(guān)聯(lián)性來選擇那些它預(yù)測最相關(guān)的文本，這些文本不僅包括論點，還包括鼓舞人心的引語、豐富多彩的類比、辯論的適當(dāng)框架等等。

　　在論點反駁階段，IBM 的 Watson(沃森)將使用其針對定制語言和定制聲學(xué)模型的自動語音到文本服務(wù)，將人類對手的語音轉(zhuǎn)換為文本，神經(jīng)模型會將獲得的文本分割成句子，并添加雙關(guān)語。

　　下一步，專用組件會確定哪些提前預(yù)測的論據(jù)確實由對方陳述，并針對性提出反駁。除了基于主張的反駁論據(jù)之外，AKB 的關(guān)鍵情感術(shù)語也被識別出來，并作為簡單反駁形式的索引。

　　最后的論證構(gòu)建模塊，則是一個集成聚類分析的基于規(guī)則的系統(tǒng)。在刪除了預(yù)先指定為冗余的參數(shù)之后，剩余的參數(shù)將根據(jù)語義相似性進(jìn)行聚類，對于每個集群，都會確定一個主題，類似于一個維基百科的概念。

　　系統(tǒng)會選擇一組高質(zhì)量的論點集群。接下來，使用各種文本規(guī)范化和重新措辭技術(shù)來提高流利性，最后使用預(yù)定義的模板逐段生成每個語音，完成與對手的辯論交流。

3

AI 的辯論能力如何?

　　與玩游戲、下圍棋等競賽不同，辯論往往摻雜著更多主觀因素，因此客觀評估一個 AI 辯論系統(tǒng)的性能是項挑戰(zhàn)，因為沒有一個統(tǒng)一標(biāo)準(zhǔn)來決定辯論勝利者。

　　在公開辯論中，辯論前后觀眾的投票可以決定 “獲勝” 的一方，但這種方法存在固有的局限性。

　　首先，如果辯論前的觀眾投票高度不平衡，那其中一方的勝辯壓力必定就很高;其次，投票涉及個人意見，并可能受到各種難以量化和控制的因素影響;另外，創(chuàng)造一個有大量公正觀眾的現(xiàn)場辯論是復(fù)雜的，而制作多場這樣的辯論更是如此。

　　盡管如此，研究人員為了評估 Project Debater 系統(tǒng)的總體性能，將其與各種基線進(jìn)行比較，并跟蹤其隨時間的進(jìn)展情況，由于 Project Debater 之外，研究人員并沒有發(fā)現(xiàn)其他自動方法可以參加一個完整的辯論活動，因此，對比的范圍也是在有限任務(wù)下進(jìn)行，比如生成一個辯論開場白，這顯然是任何辯論系統(tǒng)應(yīng)該具備的第一步。

圖|Project Debater 系統(tǒng)對比評估(來源：Nature)

　　研究人員選擇了 78 個動議來評估當(dāng)一個新的辯題出現(xiàn)時，各種 AI 系統(tǒng)以及人類專家的表現(xiàn)，每一次演講都由 15 位評審員進(jìn)行了回顧評分，以判斷此演講是否能作為支持辯題立場的良好開場白，其中 5 分表示高度一致。Project Debate 的評估結(jié)果明顯優(yōu)于其他系統(tǒng)，并且非常接近人類專家的得分。

　　在開場白之后的評估中，研究人員使用了相同的 78 個動議，再次要求被選中的一組人群想象自己是辯論聽眾，在這種情況下，讓他們閱讀三篇辯論演講，但不告知演講的來歷。結(jié)果顯示，所有辯題 Project Debater 的平均得分均高于中立 3 分，78 個動議中有 50 次表現(xiàn)的平均得分≥4 分，這表明在至少 64% 的動議中，群眾評論員認(rèn)為 Project Debater 在辯論中表現(xiàn) “良好”。

　　不過，雖然 Project Debater 得分顯著高于所有對比基線和對照組的得分，但距離人類專家的得分還有明顯差距。

圖|Project Debater 輸出的辯論內(nèi)容類型分析(來源：Nature)

　　值得注意的是，研究人員還將 Project Debater 系統(tǒng)的內(nèi)容組成與人類預(yù)先準(zhǔn)備的信息相結(jié)合，圍繞關(guān)鍵主題進(jìn)行分組，以提供關(guān)于廣泛主題的知識、論據(jù)和反駁。所以，知識庫中還補(bǔ)充了所謂的 “罐裝” 文本 —— 由人類預(yù)先編寫的句子片段 —— 可用于在辯論中介紹和組織文稿。

　　在進(jìn)一步評估中，研究人員檢查了所有 78 個動議辯論演講中的內(nèi)容類型相對分布。結(jié)果是，Project Debater 只有不到 18% 的內(nèi)容是來自傳統(tǒng)的 “罐裝” 文本，而剩下的內(nèi)容是由更高級的 AI 底層系統(tǒng)組件提供的。

　　在 Nature 評論文章中，來自英國鄧迪大學(xué)(University of Dundee)辯論技術(shù)中心的 Chris Reed 撰文表示，這一發(fā)現(xiàn)暗示了一個未來，即 AI 可以幫助人類制定和理解復(fù)雜的論點。

　　在 AI 領(lǐng)域，開發(fā)能夠識別人類自然語言中的論點的 AI 系統(tǒng)是一項最嚴(yán)峻的挑戰(zhàn)。Project Debater 展示了該領(lǐng)域的研究已經(jīng)取得了很大的進(jìn)步，并強(qiáng)調(diào)了在開發(fā)能夠識別、生成和辯論觀點的技術(shù)時，將不同 AI 組件(每個組件處理特定任務(wù))集成在一起工作的重要性，無疑這是一項巨大的工程壯舉。

　　同時，他也指出了一些問題，Project Debater 系統(tǒng)最薄弱的方面或許就是，它努力在模仿人類辯手在思維和表達(dá)方面的連貫性和流暢性 —— 這個問題與論據(jù)選擇、抽象表達(dá)和編排論點的最高層次有關(guān)，且這種局限性并不是 AI 系統(tǒng)所獨(dú)有的，人類初級選手同樣存在。

　　舌戰(zhàn)群儒般的高超辯論技巧是門藝術(shù)，而構(gòu)成好的論據(jù)組合的模式也是極盡不同的，因此，僅僅通過詢問人類觀眾是否認(rèn)為這是 “一場體面的辯論表演” 來評價 Project Debater 的性能也是另一種局限。在現(xiàn)實世界中，沒有明確的界限來界定論點，發(fā)生在辯論之外的討論也不是離散的，而是與交叉引用、類比、例證和概括的網(wǎng)絡(luò)互連。

圖|Project Debater 工作流程示意圖

4

探索舒適區(qū)之外的能力

　　在論文討論部分，研究人員表示，AI 和自然語言處理(NLP)的研究通常集中在所謂的 “狹義 AI” 上，由狹義定義的任務(wù)，通常具有明確的評估指標(biāo)，并適合于端到端的解決方案，例如那些源于深度學(xué)習(xí)技術(shù)研究的快速落地的解決方案。

　　相反，“復(fù)合 AI” 任務(wù)，即與更廣泛的人類認(rèn)知活動相關(guān)的任務(wù)，需要同時應(yīng)用多種技能，AI 系統(tǒng)處理的效率較低。

　　自 20 世紀(jì) 50 年代以來，AI 技術(shù)突飛猛進(jìn)，能執(zhí)行日益復(fù)雜的任務(wù)，在游戲或棋盤競賽中的明確規(guī)則下，是 AI 發(fā)揮能力的 “舒適區(qū)”。

　　首先，游戲中有一個明確的贏家定義，便于使用強(qiáng)化學(xué)習(xí)技術(shù);其次，游戲中的每個動作都有明確的定義，可以被客觀地量化，從而訓(xùn)練競賽技巧;另外，在玩游戲時，AI 系統(tǒng)會想出任何策略來確保獲勝，即使相關(guān)的動作不容易被人類理解;最后，對于許多 AI 任務(wù)挑戰(zhàn)，大量相關(guān)的結(jié)構(gòu)化數(shù)據(jù)是可用的，這對于系統(tǒng)的開發(fā)必不可少。

　　這四個特點在競爭性辯論中卻并不適用，競爭性辯論需要一種高級的使用人類語言的形式，一種有很大的主觀性和解釋空間的形式，相應(yīng)地，往往沒有明確的贏家。而許多現(xiàn)實世界的問題本質(zhì)上也是模糊的，站在不同角度的立場也根本不同。

　　對于 AI 系統(tǒng)來講，使用人類可能無法捉摸的策略贏得辯論似乎不太可能，特別是在需要人類觀眾評判勝利者的情況下。因此，在人類所擅長的辯論比賽中，走出舒適區(qū)的 Project Debater，還有許多問題有待解答。

　　參考資料：

　　https://www.nature.com/articles/s41586-021-03215-w

　　https://www.nature.com/articles/d41586-021-00539-5

　　https://www.research.ibm.com/artificial-intelligence/project-debater/

　　https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/

　　文章來源于學(xué)術(shù)頭條，作者庫珀

（轉(zhuǎn)載）

標(biāo)簽：IBM 人工智能

我要反饋

相關(guān)鏈接

從搜索到AI，百度能否在香港重新定義自己

過去一年來，百度業(yè)績表現(xiàn)呈穩(wěn)中向好的趨勢，股價逐步回升，這為百度股價赴港二次上市鋪平了道路。從搜索巨頭向AI領(lǐng)域進(jìn)軍，深耕十年后，“擁有強(qiáng)大互聯(lián)網(wǎng)基礎(chǔ)的AI巨頭”終于成為百度... [詳情]

2021年03月18日百度人工智能

百度上線輕竹健康A(chǔ)PP，再度進(jìn)軍十萬億大市場?

近日，百度在醫(yī)療健康領(lǐng)域再落一子。2021年3月16日，百度上線了一款名為輕竹健康的一站式健康管理平臺，集合了資訊、測量提醒、血糖血壓記錄、健康課堂和商城等多項服務(wù)。功能與百度之... [詳情]

2021年03月18日百度智能醫(yī)療

5G賦能智慧水務(wù)行業(yè)發(fā)展如火如荼

水是人類生活的源泉而隨著城市的發(fā)展水污染問題也越來越嚴(yán)重，水資源監(jiān)管和治理成為城市發(fā)展的一大困擾，水質(zhì)監(jiān)控不及時、水災(zāi)預(yù)警不及時更是直接關(guān)系到民生問題。而智慧水務(wù)的發(fā)展則... [詳情]

2021年03月18日智慧水務(wù)

資訊熱點

仙工智能副總裁張綏：以新質(zhì)生產(chǎn)力助力機(jī)器人行業(yè)高質(zhì)量發(fā)展華為發(fā)布交通與物流大模型和鐵路一云一網(wǎng)N樞紐創(chuàng)新解決方案汽車智能化“卷”向車燈，安森美兩款重磅方案透露出哪些趨勢? 創(chuàng)新為鑰施耐德電氣發(fā)布全新EcoStruxure開放自動化平臺V24.0版臨工智科攜智能化解決方案引領(lǐng)智能制造新潮流喜報丨珞石機(jī)器人入選工信部《首臺(套)重大技術(shù)裝備推廣應(yīng)用指導(dǎo)目錄》中國信通院發(fā)布《互聯(lián)網(wǎng)域名產(chǎn)業(yè)報告(2024年)》山東重工與寧德時代簽署戰(zhàn)略合作協(xié)議超前劇透!工博會第一家教你造輪式人形機(jī)器人的廠商來了

專題報道

2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行，展會以“工業(yè)聚能新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會

WAIC 2024將于7月在上海舉行，論壇時間7月4日-6日，展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會，本屆展覽會... [更多]

視頻

/resupload/guangzhi/AS00012420/1722563248652_1.jpg

2024年魏因加特納隆重推出vario?系列轉(zhuǎn)子銑床賦能食品加工行業(yè)變革，GEA持續(xù)推進(jìn)本土化戰(zhàn)略直擊美國RE+展 | 欣旺達(dá)動力儲能電芯及領(lǐng)先解決方案走向全球施耐德電氣對話英偉達(dá)：AI算力的迅猛增長，如何推動數(shù)據(jù)中心物理基礎(chǔ)建設(shè)？億萬克分布式存儲解決方案億萬克全液全冷解決方案億萬克政務(wù)云平臺解決方案