版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-跨語檢索

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

跨語檢索,或稱“跨語資訊檢索”(Cross-Language Information Retrieval,CLIR),其定義采用 Oard, D. W.在1997年發(fā)表的文章《Cross-Language Information Retrieval Defined》。跨語檢索意指使用者使用某種自然語言的檢索詞匯檢索由另一種語言表達(dá)的文件。1

舉例來說,使用者使用(自己熟悉的)中文產(chǎn)生一組檢索詞匯進(jìn)行檢索,而其檢索結(jié)果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的文件。

起源與發(fā)展1969年,Salton,G.發(fā)表《Automatic processing of foreign language documents》文章。Salton 以智能文本信息檢索系統(tǒng)當(dāng)作實(shí)驗(yàn)對(duì)象,智能檢索系統(tǒng)背后有多國(guó)語言語料庫的支援,借由該系統(tǒng),Salton 使用英文為主要檢索詞匯的語言,檢索德文的文件和資料,反之亦然。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),采用全自動(dòng)文件處理方法(fully automatic text processing methods)的 SMART 文件檢索系統(tǒng)可以用相對(duì)簡(jiǎn)單而有效率的方式,進(jìn)行文獻(xiàn)索引、分類、搜尋,和檢索等工作。這也是文獻(xiàn)中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。

1992年,美國(guó)國(guó)家標(biāo)準(zhǔn)和科技機(jī)構(gòu) (National Institute of Standards and Technology, 簡(jiǎn)稱 NIST)和美國(guó)情報(bào)局先進(jìn)研發(fā)活動(dòng) (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡(jiǎn)稱 DARDA ] 合作舉辦“文字檢索會(huì)議”(The Text REtrieval Conference, TREC),一開始是附屬于 TIPSTER Text program底下的計(jì)劃,從1992年之后,每年都會(huì)舉辦一次TREC會(huì)議。TREC 會(huì)議成立目的是輔導(dǎo)與支援資訊檢索相關(guān)研究,提供標(biāo)準(zhǔn)測(cè)試集協(xié)助研究者進(jìn)行測(cè)試等。

1996年,美國(guó)計(jì)算機(jī)協(xié)會(huì)(Association of Computing Machinery,ACM)在瑞士所舉辦的SIGIR-96會(huì)議中,首次出現(xiàn)以跨語檢索為研究主題的研討會(huì),與跨語檢索相關(guān)的討論,可在這本會(huì)議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。

1998年,召開第一次 NII Test Collection for IR Systems program 會(huì)議(NTCIR)。NTCIR會(huì)議主要是由日本學(xué)術(shù)振興會(huì)(JSPS)、日本國(guó)家科學(xué)資訊系統(tǒng)中心(NACSIS),以及日本國(guó)立情報(bào)學(xué)研究所(NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領(lǐng)域中,能發(fā)展出以日文為主的標(biāo)準(zhǔn)測(cè)試集。至今,已發(fā)展出NTCIR1~6的文件集。

2000年,歐盟成立“跨語言資訊檢索論壇”(Cross Language Evaluation Forum,CLEF) ,每年定期舉辦跨語檢索研討會(huì),并且推動(dòng)跨語檢索技術(shù)評(píng)比。目前有文字資訊檢索評(píng)比,或稱文本信息檢索(text retrieval)評(píng)比和跨語圖片資訊檢索評(píng)比,或稱跨語圖像檢索(Cross-Language Image Retrieval] )項(xiàng)目,除了跨語檢索技術(shù)評(píng)比之外,尚包括發(fā)展以歐洲語系為主的單語資訊檢索系統(tǒng)(monolingual information retrieval system)的基礎(chǔ)建設(shè),包含測(cè)試 (testing)和評(píng)鑒(evaluating)等工作,該組織也包含在歐盟的數(shù)位圖書館(digital library)計(jì)劃中。

特征跨語檢索的特征,根據(jù)陳信希教授在2002年的《跨語檢資訊檢索:理論、技術(shù)與應(yīng)用》這篇文章指出,共具有六項(xiàng)特征,將內(nèi)容統(tǒng)整如下:

檢索詞匯的歧義性(ambiguity):翻譯檢索詞匯的過程,不只會(huì)遇到檢索詞匯一詞多義的情形,翻譯后的目標(biāo)檢索詞匯(target query)的多義性(polysemy)也是需要解決的問題之一。

檢索詞匯(query)和文件(document)分屬不同語言:其為跨語檢索最主要的特征。檢索詞匯和文件間必須要有特定的對(duì)應(yīng)關(guān)系,翻譯技術(shù)是建立其關(guān)系的重要運(yùn)算之一。

檢索詞太短:跨語檢索者所輸入的檢索詞匯往往太簡(jiǎn)短,因而造成翻譯和歧義性的困難度。

語言識(shí)別(language identification)困難:如果跨語檢索系統(tǒng)無法辨識(shí)該檢索詞匯是何種語言,如中文、英文、拉丁文和俄文等,就無法檢索出使用者所需要的資料。

斷詞和書寫符號(hào)的問題:因?yàn)橹形牡脑~與詞之間沒有明顯的分隔符號(hào),因此會(huì)有斷詞(segmentation)的問題。而俄文、西班牙文等語文,電腦沒有自動(dòng)產(chǎn)生文字的功能,如當(dāng)使用者欲于搜索引擎或文件中,輸入俄文,必須利用其他的應(yīng)用軟件,才能產(chǎn)生俄文,而不像英文或中文可直接從輸入法中選擇。

輸出結(jié)果的呈現(xiàn)(visualization):包含檢索結(jié)果得到的多語言文件要如何合并,界面該如何呈現(xiàn),才能使檢索者一目了然等問題。

使用技術(shù)根據(jù)陳信希和陳光華的文章,目前跨語檢索相關(guān)技術(shù),可分成三大類,分述如下:2

翻譯檢索詞匯:此法視處理檢索詞匯的方式,又區(qū)分成兩種方法,一種是控制詞匯,另一種是自由詞匯。

控制詞匯:使用控制詞匯進(jìn)行檢索時(shí),由于為系統(tǒng)內(nèi)定的詞匯,所以,雖然使得檢索的過程比較順利,可是能找到的資料有限。

自由詞匯:可分成三種策略,分別是知識(shí)庫策略、語料庫策略和混合式策略。

知識(shí)庫策略:一種是采用辭典的方法,另一種則是采用索引典策略的知識(shí)架構(gòu)。

語料庫策略:此法比較復(fù)雜,包含了四種方法,分別是“詞匯對(duì)列方式”、“文句對(duì)列方式”、“文件對(duì)列”和“不采用對(duì)列方式”。

翻譯文件:此法可分成兩種,一種為文本的翻譯,另一種為特征向量的翻譯。

不翻譯。

參見資訊檢索(information retrieval)

文本信息檢索(text retrieval)

圖像檢索(image retrieval)

單語資訊檢索(monolingual retrieval)

美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)

本詞條內(nèi)容貢獻(xiàn)者為:

黃倫先 - 副教授 - 西南大學(xué)