版權歸原作者所有,如有侵權,請聯(lián)系我們

[科普中國]-詞義消歧

科學百科
原創(chuàng)
科學百科為用戶提供權威科普內(nèi)容,打造知識科普陣地
收藏

在 計算機語言學, 詞義消歧(WSD) 是一個自然語言處理和本體論 的開放問題 。 歧義與消歧是自然語言理解中最核心的問題,在詞義、句義、篇章含義層次都會出現(xiàn)語言根據(jù)上下文語義不同的現(xiàn)象,消歧即指根據(jù)上下文確定對象語義的過程。詞義消歧即在詞語層次上的語義消歧。

簡介語義消歧/詞義消歧是自然語言處理任務的一個核心與難點,影響了幾乎所有任務的性能,比如搜索引擎、意見挖掘、文本理解與產(chǎn)生、推理等。

在語言學長期發(fā)展的過程中,語言本身積累了許多一詞多義的用法。語言的產(chǎn)生是多方面共同作用的結果。語言的使用是不斷變化的,一個詞在發(fā)展中有許多具體的意思,現(xiàn)在通用的還有一些意思。不同地區(qū)可能對一個詞有不同 的用法,不同的行業(yè)對一個詞也會不同,甚至不同群體、不同個人、不同語氣都會有自己的特殊的解讀意思。語義消歧是一種語言理解的方式,一方面我們要理解通用詞語一詞多義的含義及應用,另一方面,還要考慮到具體場景,運用相關知識庫、語料訓練來增加一詞多義的性能。

迄今為止,豐富多樣的技術已經(jīng)被研究,以詞典為基礎的方法,使用知識庫與知識圖譜技術的,監(jiān)督學習的,無監(jiān)督的,半監(jiān)督的,基于詞或者詞向量的?;诟鞣N資源的、半監(jiān)督的、同時基于詞與詞向量的應該是發(fā)展的方向。1

困難詞典基于詞典的語義消歧依賴于詞典對語義的區(qū)分。粗粒度的一詞多義指區(qū)分較大的語義,比如水,可能表示自然水,也能指水貨;細粒度的一詞多義指能區(qū)分較小不同的語義。如果詞典缺少某一層次/某一些語義的描述,以詞典作為詞語義的完全描述就會導致問題。這個特點對WSD(詞義消歧)與EL(entity linking)同樣適用。解決這個問題的辦法是,對描述較少的語義聚集自動增量增加聚類。

英文里常用的字典包括WordNet, Roget'Thesaurus, BabelNet. 任意語言都可以把常用的字典、詞典、網(wǎng)絡百科、專業(yè)知識庫/數(shù)據(jù)庫 作為消歧的詞典wenjian2

詞性標注詞性標注與詞義消歧是相互關聯(lián)的2個問題,在人的系統(tǒng)他們同時能到滿足。但是目前系統(tǒng)一般并不能讓2者公用參數(shù),同時輸出。語義理解,包括分詞、詞性標注、詞義消歧、句法解析、語義解析 并不是前饋的,是相互依賴的存在反饋的。

詞性標注與語義消歧都要依賴上下文來標注,但是詞性標注比語義消歧要簡單以及成功。原因主要是詞性標注的標注集合是確定的,而語義消歧并沒有,并且量級要大的多;詞性標注的上下文依賴比語義消歧要短。2

judge依賴有時候人也不能很地判斷一個詞屬于哪個意思。對于粗粒度的區(qū)分肯定比細粒度的高。所以一般選擇粗粒度的任務,因為需要使用人的判斷作為黃金biaoz 。2

語言學許多研究者認為要做到詞義消歧,需要理解語用學、一些常識。語言學本身就是與知識緊密結合的,肯定需要語言相關的常識幫助解析,就像實體消歧需要實體的相關的知識一樣。2

不同任務使用詞義消歧的區(qū)別不同的任務具體詞義消歧會不同。比如翻譯,不必須顯式地輸出詞義消歧中間結果,他需要最后的句子的同義即可。2

多義的定義人們一般能在粗粒度的定義上獲得一致的看法,當他到更細的粒度,則很難統(tǒng)一。并且即便同個語義,在不同的環(huán)境里,也許還會有不同,因為語言表達有無限的可能性,導致語義在細粒度可能會遷移。2

本詞條內(nèi)容貢獻者為:

王沛 - 副教授、副研究員 - 中國科學院工程熱物理研究所