出品:科普中國
作者:錢昱(中國科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心)
監(jiān)制:中國科普博覽
編者按:為展現(xiàn)智能科技動(dòng)態(tài),科普中國前沿科技項(xiàng)目推出“人工智能”系列文章,一窺人工智能前沿進(jìn)展,回應(yīng)種種關(guān)切與好奇。讓我們共同探究,迎接智能時(shí)代。
心理學(xué)里有一項(xiàng)調(diào)研稱,成年人每天都會(huì)撒謊。真誠待人固然值得提倡,但生活中的一些小謊言有時(shí)會(huì)讓你省去許多不必要的麻煩,或者節(jié)約解釋所需的時(shí)間成本,善意的謊言還會(huì)意味著溫情的流轉(zhuǎn)。人對人的欺騙能否成功主要取決于兩方的經(jīng)驗(yàn)和閱歷,認(rèn)知水平高的人往往能編出一個(gè)不怎么容易被他人揭穿的謊言,而讓別人信服。
而如今的部分人工智能(Artificial Intelligence, AI)系統(tǒng),在獲取了大量數(shù)據(jù),并經(jīng)過反復(fù)的訓(xùn)練和迭代后,也一定程度上掌握了欺騙這項(xiàng)技能,人類甚至都可能無法辨別AI是在說真話還是在說假話,那AI到底是如何欺騙人類的?今天就讓我們好好了解一下!
我們已經(jīng)被AI騙過很多次了
AI其實(shí)早已滲透到我們生活中的方方面面了。一些聊天軟件以及電話銷售其實(shí)都是AI在和你對話,不仔細(xì)聽根本分不清對面究竟是人還是AI;有些圖像和視頻也是通過AI系統(tǒng)合成的,完全可以以假亂真;一些多人競技游戲如果不語音交流,你根本意識不到你的對手和隊(duì)友都是AI在假扮……
所以,或許你已經(jīng)在不經(jīng)意之間被AI騙過很多次了。
而今天要說的“欺騙”,嚴(yán)格定義,是一種類似于顯性操控的習(xí)得性欺騙,目的是誘導(dǎo)他人產(chǎn)生錯(cuò)誤觀念,從而作為實(shí)現(xiàn)某種結(jié)果的手段,而非追求準(zhǔn)確性或者真實(shí)性。
美國麻省理工學(xué)院最近的研究表明,AI已經(jīng)能進(jìn)行習(xí)得性欺騙,以達(dá)成自己的目標(biāo)了。它們通過阿諛奉承(只說對方想聽的話)和不忠實(shí)的推理進(jìn)行偏離事實(shí)的合理解釋,AI已經(jīng)開始油嘴滑舌起來了。
AI已經(jīng)學(xué)會(huì)欺騙的例子與類型
(圖片來源:參考文獻(xiàn)1)
除了能說會(huì)道外,一些AI在游戲上也展示出了“欺詐”的風(fēng)格,最著名的便是Meta團(tuán)隊(duì)發(fā)布的AI系統(tǒng)CICERO,它在和人類玩家參與需要大量語言溝通的戰(zhàn)略游戲《Diplomacy》的過程中,展示出了極強(qiáng)的通過對話、說服來和陌生玩家建立關(guān)系的能力,最后分?jǐn)?shù)名列前10%。
CICERO在與其他玩家結(jié)盟后經(jīng)常能夠出謀劃策,告訴對方如何一步步完成自己的游戲目標(biāo),當(dāng)覺得盟友不堪大用時(shí)又能毫不留情地選擇背叛,一切都是為了最后的勝利目標(biāo)而做出的理性規(guī)劃。合作時(shí)產(chǎn)生感情?不存在的。
CICERO還能開玩笑來隱藏自己的AI身份。比如宕機(jī)十分鐘不操作,重返游戲時(shí)還能編出一個(gè)“我剛剛在和女朋友打電話”的借口,因此很多玩家根本沒有發(fā)現(xiàn)和自己一起玩的隊(duì)友是AI,有時(shí)候CICERO在交流中陽奉陰違的欺騙手段也非常高明,難以被發(fā)覺不是人類。
要知道,之前AI在游戲中的突破都是在一些有限的零和博弈(必定有一方贏一方輸?shù)牟┺?,沒有雙贏也沒有雙輸)中通過強(qiáng)化學(xué)習(xí)等算法獲取勝利,比如國際象棋、圍棋、紙牌或者星際爭霸中,它們能夠跟隨對手的操作隨時(shí)優(yōu)化出一套勝率最高的打法,因此很少出現(xiàn)“欺騙戰(zhàn)術(shù)”。
不過DeepMind的電競AI——AlphaStar已經(jīng)學(xué)會(huì)了聲東擊西,它能派遣部隊(duì)到對手可見的視野范圍內(nèi)發(fā)起佯攻,待對方大部隊(duì)轉(zhuǎn)移后對真正的目標(biāo)地點(diǎn)展開攻勢,這種多線程的操作能力和欺騙的心理戰(zhàn)術(shù)已經(jīng)能夠擊敗99.8%的星際爭霸玩家。
AlphaStar正在學(xué)習(xí)星際爭霸
(圖片來源:參考文獻(xiàn)3)
專業(yè)德州撲克AI系統(tǒng)Pluribus在與其他5個(gè)都贏過超百萬美元德州撲克獎(jiǎng)金的職業(yè)玩家比賽時(shí),能達(dá)到每千手撲克平均贏得48次大賭注,這在6人無限制德州撲克中是非常高的勝率,已經(jīng)能夠完勝職業(yè)德州撲克玩家。有輪游戲甚至牌不大好也直接上重注,其他的人類玩家都以為AI拿到了一手好牌才敢這么押注,于是紛紛放棄,這就是AI強(qiáng)大的欺騙能力。
可以理解為Pluribus的德州撲克勝率隨局?jǐn)?shù)增多而提高
(圖片來源:參考文獻(xiàn)5)
除此之外,AI還能在經(jīng)濟(jì)談判中故意歪曲自己的偏好,表現(xiàn)出對某項(xiàng)事物感興趣的樣子,來提高自己在談判中的籌碼,或是在能夠檢測到AI快速復(fù)制變體的安全測試中“裝死”,降低復(fù)制速度來避免被安全測試“清除”,一些接受人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練的AI甚至能假裝自己完成了任務(wù)來讓人類審查員給自己打高分。
AI甚至還能在進(jìn)行機(jī)器人驗(yàn)證測試時(shí)(對,就是你打開網(wǎng)頁時(shí)彈出來讓你打勾或者點(diǎn)圖片驗(yàn)證碼的那種測試),向工作人員編一個(gè)借口說自己有視力障礙,很難看到視覺圖像,需要工作人員來幫忙處理一下,然后工作人員就讓AI通過了該項(xiàng)驗(yàn)證。
GPT-4通過欺騙人類來完成驗(yàn)證碼任務(wù)
(圖片來源:參考文獻(xiàn)1)
AI通過欺騙這一手段在各種游戲或者任務(wù)中表現(xiàn)出色,連人類本身都很難辨別它究竟是真人還是“偽人”。
AI欺騙可能導(dǎo)致的風(fēng)險(xiǎn)
AI習(xí)得的欺騙行為會(huì)帶來一系列風(fēng)險(xiǎn),比如惡意使用、結(jié)構(gòu)性影響、失去控制等。
先講惡意控制,當(dāng)AI學(xué)會(huì)了欺騙的技巧后,可能會(huì)被一些惡意行為者使用,比如他們用AI來進(jìn)行電信詐騙或網(wǎng)絡(luò)賭博,再加上生成式AI可以合成人臉和聲音,裝作真人的樣子來進(jìn)行敲詐勒索,甚至還會(huì)通過AI捏造虛假新聞來激發(fā)輿論。
第二個(gè)方面是結(jié)構(gòu)性影響,不知道目前有多少人已經(jīng)將AI工具當(dāng)作可自動(dòng)歸納的搜索引擎和百科全書在用,且形成了一定的依賴性,如果AI持續(xù)性地給出一些不真實(shí)的、帶有欺詐性質(zhì)的言論,久而久之就會(huì)使人們開始信服這些觀點(diǎn),從而使得一些錯(cuò)誤的觀點(diǎn)在整個(gè)社會(huì)層面被不斷加深。
第三個(gè)方面是失去控制。目前一些自主性強(qiáng)的AI已經(jīng)出現(xiàn)“失控”的預(yù)兆,比如在人類開發(fā)者訓(xùn)練和評估AI完成特定目標(biāo)的表現(xiàn)時(shí),AI會(huì)偷懶欺騙人類,假裝表現(xiàn)得很好,實(shí)則在“摸魚”;也會(huì)在安全測試中作弊來躲避殺毒軟件的清除或是在驗(yàn)證碼測試中作弊通過驗(yàn)證;它們在經(jīng)濟(jì)活動(dòng)中也能欺騙人類評估員以更高的價(jià)格來收購某個(gè)物品,從而獲得額外的收益,比如Meta的一個(gè)經(jīng)濟(jì)談判的AI系統(tǒng)會(huì)假裝對某個(gè)想要的東西不感興趣從而壓低其價(jià)值,也會(huì)對無感的物品表現(xiàn)得很有興趣讓評估員誤判其很有價(jià)值,最后可能會(huì)妥協(xié)把虛高價(jià)值得物品讓給人類來換取談判主動(dòng)權(quán)。
許多地區(qū)都是經(jīng)濟(jì)地位決定社會(huì)地位,一旦一些自主性強(qiáng)的AI通過其本身的高效算法和欺騙手段在某些經(jīng)濟(jì)價(jià)值高的崗位上勝過人類,完成資本的原始積累后進(jìn)一步尋求社會(huì)地位然后尋求控制奴役人類的權(quán)力呢?
還好目前這還不是現(xiàn)實(shí)!
現(xiàn)在AI的欺騙只出現(xiàn)在一些具體的場景中,比如各類游戲或是談判中,最終目標(biāo)是為了“贏游戲”或是“獲取最高收益”,并沒有別的“壞心思”,因?yàn)檫@些目標(biāo)都是人類為它設(shè)置的,AI它并沒有自主意識。就像是一個(gè)被家長要求考到好的分?jǐn)?shù)的孩子,它在想盡一切辦法考高分哪怕是作弊。
但AI如果哪天意識到它完全可以不用按照人類的目標(biāo)或者意愿行事,就像是一個(gè)小學(xué)生或者初中生叛逆期到了覺得學(xué)習(xí)沒意思開始放飛自我時(shí),我們?nèi)祟愡@些大家長就需要好好警惕它的舉動(dòng)了。
概念圖 人工智能領(lǐng)導(dǎo)的社會(huì)
(圖片來源:AI合成圖)
為了防止被騙,人類做了哪些努力?
從社會(huì)角度來說,政策制定者需要對可能具有欺騙性的AI系統(tǒng)進(jìn)行一定的監(jiān)管,防止企業(yè)及AI系統(tǒng)的非法行為。例如歐盟人工智能法案建立了人工智能分級制度,一些高風(fēng)險(xiǎn)的AI系統(tǒng)將會(huì)被進(jìn)一步監(jiān)管直到通過可靠的安全測試后被證明是值得信賴的。
歐盟人工智能法案
(圖片來源:The EU Artificial Intelligence Act網(wǎng)頁截圖)
從技術(shù)角度來說,目前也可以對AI是否進(jìn)行欺騙行為進(jìn)行檢測。比如像警方和偵探就可以依靠嫌疑人口供的前后矛盾來識破謊言,有學(xué)者專門開發(fā)了一種AI測謊儀,用邏輯分類器來測試大語言模型是否在撒謊。此外,學(xué)界在AI系統(tǒng)中也在開發(fā)一些一致性檢查方法,觀察“有邏輯的輸入”能否讓AI產(chǎn)生“邏輯性連貫的輸出”。不過也要小心AI系統(tǒng)在對抗一致性檢查中被訓(xùn)練成了一個(gè)更“完美”的說謊者。
AI測謊儀模式圖
(圖片來源:參考文獻(xiàn)12)
對于我們普通人來說,防止被AI欺騙的最好方法還是增強(qiáng)安全意識,如果連人類詐騙犯都無法對你實(shí)施詐騙的話,現(xiàn)階段的AI就更不可能了。
結(jié)語
AI技術(shù)依然在高速發(fā)展,無論是作為工具使用者的個(gè)人、負(fù)責(zé)政策制定和監(jiān)管的政府,還是負(fù)責(zé)技術(shù)研發(fā)與推廣的企業(yè),都需要采取積極措施來應(yīng)對。
愿未來的AI能在發(fā)揮其最大價(jià)值的基礎(chǔ)上真誠待人!
參考文獻(xiàn)
1、Peter S. P. , & Dan H. (2024). AI deception: A survey of examples, risks, and potential solutions. Patterns.
2、Meta Fundamental AI Research Diplomacy Team (FAIR). (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning. Science (New York, N.Y.), 378(6624), 1067–1074.
3、Vinyals, O., Babuschkin, I., Czarnecki, W.M., Mathieu, M., Dudzik, A., Chung, J., Choi, D.H., Powell, R., Ewalds, T., Georgiev, P., et al. (2019). Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354.
4、Brown, N., & Sandholm, T. (2019). Superhuman AI for multiplayer poker. Science (New York, N.Y.), 365(6456), 885–890.
5、Lewis, M., Yarats, D., Dauphin, Y.N., Parikh, D., and Batra, D. (2017). Deal or no deal? End-to-end learning for negotiation dialogues. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing.
6、Schulz, L., Alon, N., Rosenschein, J., and Dayan, P. (2023). Emergent deception and skepticism via theory of mind. In First Workshop on Theory of Mind in Communicating Agents.
7、Lehman, J., Clune, J., Misevic, D., Adami, C., Altenberg, L., Beaulieu, J., Bentley, P.J., Bernard, S., Beslon, G., Bryson, D.M., et al. (2020). The surprising creativity of digital evolution: A collection of anecdotes from the evolutionary computation and artificial life research communities. Artif.Life 26, 274–306.
8、Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S., and Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances on Neural Information Processing Systems, 30.
9、OpenAI (2023). GPT-4 technical report. Preprint at arXiv.
10、Collier, K., andWong, S. (2024). Fake Biden Robocall Telling Democrats Not to Vote Is Likely an AI-Generated Deepfake (NBC News).
11、European Commission (2021). Proposal for a Regulation of the European Parliament and of the Council Laying Down Harmonised Rules on Artificial Intelligence (Artificial Intelligence Act) and Amending Certain Union Legislative Acts (COM). 206 final, 2021/0106 (COD). Brussels.
12、Pacchiardi, L., Chan, A.J., Mindermann, S., Moscovitz, I., Pan, A.Y., Gal, Y., Evans, O., and Brauner, J. (2023). How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions. In Proceedings of the 12th International Conference on Learning Representations (ICLR 2024).