司法正義可以通過人工智能實現(xiàn)嗎?

2025China.cn 2021年04月06日

　　編譯 | Mr Bear

　　校對 | 維克多

　　著名學者 Terence Mauri 以其對顛覆性技術的評論而聞名。他是麻省理工學院和倫敦商學院的客座教授，其觀點被廣為發(fā)表。2020 年 10 月，Tenrence Mauri 發(fā)表了一篇發(fā)人深省的的評論文章「Robot judges that can determine guilt will be 'commonplace' within 50 years」，討論了他對法律系統(tǒng)的預測。

　　這篇文章提到的「可以判定有罪/無罪的機器人法官將在 50 年內普及開來」并不是一件令人沮喪的事情。事實上，這是一個相當重大的論斷。正如諾貝爾物理學獎獲得者玻爾所說，「預測是非常困難的，尤其是對于未來的預測」。然而，這種構想?yún)s似乎為那些希望將人工智能技術用于司法公正和個人權利的人照亮了前路。

　　按照 Mauri 的假想，機器人法官可以按照如下所述的方式工作：機器人法官將分析從被告處收集到的音頻、視頻、熱量等數(shù)據(jù)，從而尋找判斷其是否說謊的線索，這些線索可能是不正常的語言模式、面部表型或身體溫度變化。這種分析可以檢測出人類察覺不到的線索，檢測出說謊的標志的準確率高達 99.9%。

　　然而，Mauri 的假想也存在一些漏洞，在以下情況下，其假想可能不成立：

　　首先，Mauri 似乎將正義和測謊混為一談，但這樣做過于簡單了。有的說謊者可能很擅長說謊。但是律師可能將正義稱之為「法律對事實的正確應用」，而這不僅僅涉及測謊。在普通法系中，「犯罪」是指有「犯罪心理」或「犯罪意圖」的人實施了有罪行為。因此，在刑事法庭上(以及陪審員你的腦海里)，人們的工作之一就是試圖回答一些有關被告心理狀態(tài)的問題。

　　誠然，具有必要的犯罪意圖的被告可能不得不通過撒謊來掩蓋這種意圖，但是檢測這些謊言并不像對有關精神的問題做雙選題。例如，盜竊的部分犯罪意圖是「試圖永久奪取他人的被偷物」。陪審員需要評估被告的意圖，此時檢測到的謊言可能對該任務有所幫助。謊言可能存在于人類或其證據(jù)的一系列信息中，這些信息包括其它的謊言、真相、陳述、矛盾和推斷。

　　人們需要向法律及其應用投入更多的思考。例如，人們的非法判定可能是無意間進行的。有時人們會對真實場景下目擊的現(xiàn)象做出錯誤的陳述，從而導致產生法律上的錯誤。如果有待回答的問題是「行為是否合理」、「某種信念在民主社會中是否值得尊重」、或者「過失行為的后果是否可以預見」，我們應該怎么應對?可見，優(yōu)勢法律測試是十分微妙的。

　　不過，機器學習系統(tǒng)確實能夠發(fā)現(xiàn)人類觀察者無法發(fā)現(xiàn)的模式。Mauri 可能希望人工智能可以從大量有關案件及其涉案人員的大量數(shù)據(jù)中提取出犯罪的痕跡。只要人工智能系統(tǒng)不會始終直接將說謊等同于有罪，該系統(tǒng)就是相對可行的。如果人工智能將被用于幫助判定有罪或不當行為，它將不僅僅是一個大型的測謊儀。

　　除此之外，我們還需要考慮「對信念的體現(xiàn)」，它往往是將人工智能應用用于人類行為的基礎。

　　在 Mauri 看來，他構想的人工智能法官將收集被告所有一絲一毫的數(shù)據(jù)，并且在缺乏有效的經過標注的訓練標簽或者手動編碼的特征的情況下，對數(shù)據(jù)抽絲剝繭。但不幸的是，我們懷疑這種推斷方法很可能會像這樣發(fā)展：說謊者和講真話的人之間的差別必須表現(xiàn)在語言類線索和非語言線索中，而我們可以及時將人工智能發(fā)展到可以準確識別這些區(qū)別的地步。

　　然而，「科學」思想并不支持這種「對信念的體現(xiàn)」。Vrij 等人給出了一些批判性的觀察：并不存在僅僅與說謊相關的非語言和語言線索——并不會像「匹諾曹」一樣，說謊鼻子就會邊長。說真話的人和說謊者之間的差異往往非常小;說謊者會努力讓自己看起來可信。如上文所述，有些人真的很擅長說謊。

　　有趣的是，心理學實驗也會遇到與人工智能的訓練集相類似的問題。在一個典型的實驗設計中，一些被試會被要求執(zhí)行一項任務，而其它的人則被作為對照組。例如，Mann等人在論文「Unraveling the Misconception About Deception and Nervous Behavior」中所展示的，其試圖掌握個人走私非法物品時的行為變化。然而，如果我們要求「普通人」以犯罪的方式行事，這類研究真正的價值又何在?我們觀察的是并沒有犯罪的人在試圖扮演罪犯時的行為，而實際上我們想要觀察的是真正的罪犯的行為。

　　在機器學習的應用中，我們也會看到系統(tǒng)使用錯誤的「被試」的數(shù)據(jù)訓練。招聘軟件就是一個很好的例子：我們往往會使用一些被認為具有某項工作所需的特質的雇員的數(shù)據(jù)訓練招聘平臺軟件。在對這群員工進行采訪后，采訪記錄(例如，眼神交流、詞匯的范圍、面部表情、語音語調)會被用作機器學習的行為特征。接著，「被試」會接受一個視頻采訪，系統(tǒng)會根據(jù)學習到的特征對其進行評分。

　　然而，這種評價方式存在一些不合理的地方：根據(jù)定義，用于訓練的人群已經得到了工作，他們已經帶上了某種社會偏見的印記;此外，完全無法勝任工作的人太少了，也有太多的人由于人脈而非才能得到了工作;這種系統(tǒng)深深地印刻上了企業(yè)雇主的文化烙印;用于訓練的人群在職業(yè)道路上相較于待招聘者走得更遠，他們對采訪結果并不會太緊張。而且，所有上述問題都建立在某種并不一定成立的「對信念的體現(xiàn)」上，它假設行為特征和能力之間存在關聯(lián)。

　　本文并非想要向讀者傳遞一種悲觀的情緒。我們只是想針對當前的機器學習應用和方法進行一些外推的思考，即使在它們已經取得巨大成功的領域中，這些應用和方法也過于狹隘。我們的直覺是，人工智能將深刻地改變法律系統(tǒng)及其運行模式。但是，這種深刻的變化將取決于對于更深入的人類課題的研究：相信某人意味著什么?何為公正?如何判斷是否公正?何為直覺(它在人類的判斷過程中，是一種很少被察覺到的影響)?本文作者「對信念的體現(xiàn)」是，認為這些人類的概念都只不過是復雜的科學謎題，而非無法科學地解釋的東西。

　　讓我們把眼光重新投向機器學習應用，本文所表達出的擔憂可能與 Matthew Syed 在「Rebel Ideas」一書中所提出的「認知多樣性的缺乏」有關。從以技術為主的視角來看，考慮將人工智能用于個人權利并不可行。

　　參與這項工程的人太少了，在本文提出的例子中，律師和心理學家的加入可能會有所幫助。開發(fā)者們總是基于在薄弱的基礎上構建優(yōu)雅而復雜的人工智能系統(tǒng)，然而我們底層的科學理論尚存疑慮，這種理論基礎并不牢固、或者沒有經過嚴謹?shù)膶彶?，或者甚至沒有底層的科學理論。而也許，他們正試圖回答錯誤的問題。

　　論文鏈接：https://thegradient.pub/robot-judges/

（轉載）

標簽：人工智能

我要反饋