近年來,計算機(jī)技術(shù)、語言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個信息檢索技術(shù)領(lǐng)域的發(fā)展。今天小編要給大家介紹的便是信息檢索技術(shù)論文,歡迎閱讀!
信息檢索技術(shù)論文
[摘要]通過對近年來計算機(jī)科學(xué)、人工智能、專利文獻(xiàn)加工等領(lǐng)域的發(fā)展進(jìn)行總結(jié),從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術(shù)五個方面介紹專利文獻(xiàn)計算機(jī)檢索技術(shù)的最新發(fā)展。機(jī)器翻譯技術(shù)和多邊共同分類體系的完善有助于提高計算機(jī)檢索效率、消除語言障礙,而語義檢索、圖像檢索和文獻(xiàn)自動處理技術(shù)的發(fā)展有望使面向不同層次用戶的計算機(jī)智能化檢索系統(tǒng)得以實現(xiàn)。
[關(guān)鍵詞]專利文獻(xiàn) 計算機(jī)檢索 語義檢索 圖像檢索
1、前言
近年來,計算機(jī)技術(shù)、語言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個信息檢索技術(shù)領(lǐng)域的發(fā)展,專利文獻(xiàn)的計算機(jī)檢索技術(shù)正成為情報檢索領(lǐng)域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術(shù)五個方面介紹專利文獻(xiàn)計算機(jī)檢索技術(shù)的最新發(fā)展。
2、多語言混合檢索
專利文獻(xiàn)是由各國、各地區(qū)專利局或世界知識產(chǎn)權(quán)局出版的官方文獻(xiàn),因此一般以各局官方語言出版。雖然大部分專利文獻(xiàn)是英語文獻(xiàn),但是仍然存在大量日文、中文、德文、法文及其他語種的文獻(xiàn)。出版語言的多樣性給專利文獻(xiàn)的檢索和利用帶來了極大的障礙,要實現(xiàn)多語言混合檢索,機(jī)器翻譯是必不可少的技術(shù)。目前一些專利局在其上推出了機(jī)器翻譯系統(tǒng),例如我國國家知識產(chǎn)權(quán)局提供有漢英機(jī)器翻譯,日本特許廳提供有日英機(jī)器翻譯,韓國知識產(chǎn)權(quán)局提供有韓英機(jī)器翻譯等,上述網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)對其他國家的用戶閱讀方便和使用本國專利文獻(xiàn)起到了幫助作用。
隨著計算機(jī)技術(shù)的發(fā)展,機(jī)器翻譯的技術(shù)也迅速發(fā)展,從傳統(tǒng)的基于規(guī)則的機(jī)器翻譯擴(kuò)展到了基于實例或模版的機(jī)器翻譯、統(tǒng)計機(jī)器翻譯等。尤其是近年來語言學(xué)和人工智能技術(shù)的發(fā)展,以語義描述或以知識描述為特征的智能機(jī)器翻譯系統(tǒng)正逐步成為研究的熱點。專利文獻(xiàn)作為一種特殊的科技文獻(xiàn),由于其具有特定的句法和語言結(jié)構(gòu),同時例如權(quán)利要求書等具有法律公示性文件的作用,這對翻譯的準(zhǔn)確性提出了更高的要求,已有研究者通過在機(jī)器翻譯系統(tǒng)內(nèi)集成多個翻譯引擎、對不同特點的內(nèi)容使用不同引擎翻譯的方式來提高翻譯質(zhì)量。
已有的機(jī)器翻譯系統(tǒng)基本局限于單篇文獻(xiàn)的機(jī)器翻譯,無法實現(xiàn)真正的多語言混合檢索。多語言混合檢索系統(tǒng)不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻(xiàn)進(jìn)行檢索,其實現(xiàn)方式主要有如下三種:翻譯檢索式、翻譯文獻(xiàn)或者兩者相結(jié)合的混合式。翻譯檢索式的工作量小,比較適合于因特網(wǎng)檢索,但由于檢索式通常缺乏語境,翻譯難度較大;翻譯文獻(xiàn)的方式雖然有利于提高翻譯質(zhì)量,進(jìn)而有利于文獻(xiàn)檢索,但存在的主要問題是翻譯量太大、翻譯時間長。
3、分類檢索
分類號一直是專利文獻(xiàn)檢索的重要手段。目前除了基本涵蓋各國專利文獻(xiàn)的國際專利分類(IPC)之外,美國專利商標(biāo)局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標(biāo)準(zhǔn)不統(tǒng)一、分類條目不夠完備、文獻(xiàn)分類更新不及時等缺陷,導(dǎo)致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻(xiàn),ECLA雖然能夠檢索到多國的文獻(xiàn),但仍然不能有效地檢索日本、韓國、中國等國的專利文獻(xiàn)。
為改善這種局面,美國、日本和歐洲自2000年即開始了“三邊分類和諧計劃”,該計劃旨在推進(jìn)ECLA、UC和FI三個分類體系的融合以增強(qiáng)分類號檢索的功能,同時對現(xiàn)有IPC分類體系提出改進(jìn)建議。依據(jù)2009年召開的第27次三邊會議,韓國知識產(chǎn)權(quán)局已經(jīng)加入上述計劃,而中國國家知識產(chǎn)權(quán)局也以觀察國的身份參與這項工作。此外,近年來美國專利商標(biāo)局、日本特許廳、歐洲專利局、韓國知識產(chǎn)權(quán)局和中國國家知識產(chǎn)權(quán)局五局積極開展合作,其中一個重要的合作項目是“共同的分類”。該項目的實施將有利于提高分類的一致性,擴(kuò)展或細(xì)化部分技術(shù)領(lǐng)域的分類,進(jìn)而提高檢索的效率和質(zhì)量。
不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”項目,都必將推進(jìn)專利文獻(xiàn)分類體系的進(jìn)一步發(fā)展,實現(xiàn)真正意義上的“基于檢索的分類”,進(jìn)一步增強(qiáng)分類號在專利文獻(xiàn)計算機(jī)檢索中的作用。
4、語義檢索
當(dāng)前專利文獻(xiàn)檢索的主要手段為關(guān)鍵詞和分類號檢索,而由于一詞多義、一義多詞,專利文獻(xiàn)撰寫、加工和翻譯質(zhì)量不一以及關(guān)鍵詞的機(jī)械匹配等問題,本質(zhì)上決定了其查全率和查準(zhǔn)率受限制。隨著計算技術(shù)、人工智能、自然語言處理等技術(shù)的發(fā)展,搜索引擎的智能化有望從根本上提高現(xiàn)有檢索系統(tǒng)的檢索質(zhì)量。
搜索引擎的智能化具體表現(xiàn)為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、信息組織及檢索結(jié)果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質(zhì)在于以語義為對象進(jìn)行搜索,而不是對字符串進(jìn)行簡單的機(jī)械匹配,因此可避免關(guān)鍵詞匹配檢索中由于詞和義不對應(yīng)所導(dǎo)致的問題。
語義檢索過程一般包括對被檢索的文檔以及輸入的檢索式進(jìn)行語義分析和匹配處理。這種語義分析處理依賴于詞匯的語義描述技術(shù)以及分別用于詞義鑒別和詞匯過濾的語義識別技術(shù)和詞匯鏈算法。可以通過諸如WordNet等語義詞典對詞匯實現(xiàn)較完備的語義描述,保證人和機(jī)器對詞匯的理解一致。
最新發(fā)展的潛在語義索引通過將文獻(xiàn)搜索過程中的向量空間模型和奇異值分解相結(jié)合,可以揭示文檔中的詞間關(guān)系,因而適于構(gòu)建專利文獻(xiàn)搜索引擎”…。利用語義進(jìn)行檢索還可以將專利文獻(xiàn)中的`非技術(shù)性信息考慮在內(nèi),例如將特定的技術(shù)概念和申請人、發(fā)明人等信息進(jìn)行語義聯(lián)系。此外,語義檢索還可以從用戶角度出發(fā),考慮用戶的檢索需求,從而為諸如查新、侵權(quán)等不同目的的檢索提供相應(yīng)的結(jié)果。
近年來國內(nèi)一些開發(fā)商也紛紛提供具有語義檢索功能的專利文獻(xiàn)檢索系統(tǒng),例如東方靈盾開發(fā)的專利檢索系統(tǒng)和Patenticst網(wǎng)站。Patentics網(wǎng)站除了可以實現(xiàn)傳統(tǒng)的關(guān)鍵詞檢索功能,還支持語義檢索,僅通過輸入檢索所針對的專利文獻(xiàn)號,即可自動對其進(jìn)行語義分析、文獻(xiàn)檢索,并對結(jié)果進(jìn)行相關(guān)度排序。當(dāng)前專利文獻(xiàn)檢索領(lǐng)域還未廣泛應(yīng)用語義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語義技術(shù)提高檢索的效率,還有望能對檢索結(jié)果進(jìn)行分析、評價,甚至自動生成檢索報告。
本文來源:http://www.nvnqwx.com/shiyongwen/2304229.htm