“網(wǎng)絡(luò)暴力”的治理,國(guó)家正在積極從法律角度,通過(guò)亮紅牌、劃紅線的方式治理網(wǎng)絡(luò)暴力,凈化網(wǎng)絡(luò)空間。也有部分公司開始探索將人工智能自然語(yǔ)言處理技術(shù)應(yīng)用于網(wǎng)絡(luò)暴力的分析上。
“網(wǎng)絡(luò)暴力”是什么?
“網(wǎng)絡(luò)暴力”是指用文字、圖片、視頻等形式在網(wǎng)絡(luò)上誹謗、污蔑他人,損害他人的名譽(yù)權(quán)、隱私權(quán)等,給當(dāng)事人帶來(lái)精神壓力與心靈創(chuàng)傷,是社會(huì)暴力在網(wǎng)絡(luò)上的延伸。我們最常見(jiàn)的網(wǎng)絡(luò)暴力主要出現(xiàn)在微博、視頻、新聞資訊、論壇上。
“網(wǎng)絡(luò)暴力”的成因,一是網(wǎng)絡(luò)的匿名性,保護(hù)了個(gè)人隱私的同時(shí),也讓侵權(quán)者可以發(fā)表不計(jì)后果的言論;二是部分媒體為了追求流量與關(guān)注度,采用片面報(bào)道和刻意扭曲事實(shí)來(lái)增加話題性;三是當(dāng)輿論形成,個(gè)人容易趨向于群體價(jià)值理念的方向、忽視了自我理性思考的能力。
自然語(yǔ)言處理技術(shù)(NLP)與“網(wǎng)絡(luò)暴力”
社交媒體上的網(wǎng)絡(luò)暴力主要以評(píng)論、彈幕等形式傳播,對(duì)于分析評(píng)論、彈幕這樣的非結(jié)構(gòu)化語(yǔ)言數(shù)據(jù),應(yīng)用的核心AI技術(shù)主要是自然語(yǔ)言處理。自然語(yǔ)言處理技術(shù)基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法,能夠讓機(jī)器自動(dòng)學(xué)習(xí)語(yǔ)言特征,從而讓機(jī)器擁有對(duì)人類語(yǔ)言的理解能力,目前該技術(shù)已廣泛用于文本分類、自動(dòng)摘要、問(wèn)答系統(tǒng)、機(jī)器翻譯、情感分析等方面,在現(xiàn)實(shí)生活中常見(jiàn)的語(yǔ)音助手、以及最近大火的ChatGPT等都是自然語(yǔ)言處理技術(shù)常見(jiàn)的應(yīng)用,而在“網(wǎng)絡(luò)暴力”治理方面,也會(huì)涉及到以下幾個(gè)方向:
文本實(shí)體抽?。?/strong>
“網(wǎng)暴”的對(duì)象通常是某個(gè)人物或事件,所以我們首先要在海量評(píng)論數(shù)據(jù)中篩選出對(duì)某網(wǎng)暴事件的評(píng)論,這里面主要涉及命名實(shí)體識(shí)別算法(NER)。NER算法主要分為基于規(guī)則方法,基于統(tǒng)計(jì)方法,基于深度學(xué)習(xí)方法等。
圖1 命名實(shí)體識(shí)別方法
文本情感分析:
情感分析可以針對(duì)某條評(píng)論進(jìn)行正/負(fù)向打分,同時(shí)識(shí)別出語(yǔ)義中是否包含不同種類的情緒細(xì)節(jié),還可以從文本中智能提煉對(duì)整體情緒影響最大的關(guān)鍵詞。從而可以了解千萬(wàn)條評(píng)論內(nèi)容背后的網(wǎng)民情緒分布,甚至還可以按時(shí)段,按地域,按性別對(duì)不同群體對(duì)不同事件的情緒進(jìn)行分析,及時(shí)管控對(duì)事件的消極暴力情緒,同時(shí)根據(jù)極性詞挖掘更多潛在網(wǎng)暴行為。
、
圖2 不同的情緒分類
涉及的技術(shù)點(diǎn)主要是利用機(jī)器學(xué)習(xí)(SVM等)或深度學(xué)習(xí)(CNN)的文本分類和極性詞挖掘,整體流程如圖所示:
圖3 句子級(jí)情感分析方案
文本相似度分析:
對(duì)同一個(gè)事件的評(píng)論內(nèi)容進(jìn)行相似度分析,可以幫助我們發(fā)現(xiàn)事件評(píng)論的輿論趨勢(shì)。對(duì)不同事件的評(píng)論內(nèi)容進(jìn)行相似度分析,可以找到與“網(wǎng)暴”用戶用詞或表達(dá)有共同點(diǎn)的評(píng)論,挖掘出某件事/某個(gè)人近期的輿論積極/消極性。目前,相似度分析的深度學(xué)習(xí)范式主要有兩種,如下圖所示:
圖4 相似度分析的兩種范式
第一種范式首先通過(guò)深度神經(jīng)網(wǎng)絡(luò)提取評(píng)論內(nèi)容的表示向量,再通過(guò)表示向量的簡(jiǎn)單距離函數(shù)(歐式距離等)計(jì)算兩者的相似度,這種方式提取表示向量通常用孿生網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),屬于這一類的常用模型包括DSSM、CNTN等。
第二種范式是通過(guò)深度模型提取評(píng)論內(nèi)容的交叉特征,得到匹配信號(hào)張量,再聚合為相似度分?jǐn)?shù)。
句法/詞法分析:
通過(guò)句法和詞法分析,我們可以挖掘出大量“積極”評(píng)論和“網(wǎng)暴”評(píng)論的常見(jiàn)句法,詞法習(xí)慣,從而總結(jié)出當(dāng)前網(wǎng)絡(luò)環(huán)境中“網(wǎng)暴”用戶普遍所使用的話術(shù)和用詞,以及不同用戶在表達(dá)觀點(diǎn)極性時(shí)所使用的的語(yǔ)言特點(diǎn)。
句法結(jié)構(gòu)分析,用來(lái)識(shí)別句子的主謂賓定狀補(bǔ),并分析各成分之間的關(guān)系,一般基于深度學(xué)習(xí)的RNN和LSTM序列模型。
詞法分析的任務(wù)就是:將輸入的評(píng)論內(nèi)容字符串轉(zhuǎn)換成詞序列并標(biāo)記出各詞的詞性,主要用到序列標(biāo)注技術(shù),具體算法包括,條件隨機(jī)場(chǎng)(CRF)、RNN+CRF等。
圖5 詞法分析樣例
總結(jié)
“網(wǎng)絡(luò)暴力”的存在,不僅會(huì)直接危害到受害人的權(quán)益,還會(huì)對(duì)網(wǎng)絡(luò)安全和社會(huì)和諧帶來(lái)不良的影響。中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心憑借在深度學(xué)習(xí)、圖像識(shí)別、自然語(yǔ)言處理、OCR等方面的技術(shù)積累,推出內(nèi)容安全防護(hù)產(chǎn)品,可對(duì)圖片、文本、視頻、音頻等中涉黃、涉暴恐、涉政、涉賭、圖片OCR、人臉識(shí)別等多維度內(nèi)容進(jìn)行安全檢測(cè)。
隨著AI技術(shù)的發(fā)展,基于技術(shù)手段的互聯(lián)網(wǎng)暴力治理,將逐漸扮演重要角色。中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心將在該場(chǎng)景持續(xù)進(jìn)行先進(jìn)技術(shù)探索,結(jié)合業(yè)界前沿技術(shù)賦能內(nèi)容生態(tài)構(gòu)建,積極響應(yīng)國(guó)家網(wǎng)信辦“清朗”系列專項(xiàng)行動(dòng),為清朗網(wǎng)絡(luò)環(huán)境貢獻(xiàn)自己的一份力量。
參考資料
【1】知乎百科:網(wǎng)絡(luò)暴力,https://www.zhihu.com/topic/19592480/intro
【2】全面解讀文本情感分析,https://zhuanlan.zhihu.com/p/270399396
【3】自然語(yǔ)言處理NLP(6)——詞法分析,https://blog.csdn.net/echoKangYL/article/details/87912509
作者:徐婧揚(yáng)
單位:中國(guó)移動(dòng)智慧家庭運(yùn)營(yíng)中心