近年來,計算機技術、語言學以及人工智能技術的發展促進了整個信息檢索技術領域的發展。今天小編要給大家介紹的便是信息檢索技術論文,歡迎閱讀!
信息檢索技術論文
[摘要]通過對近年來計算機科學、人工智能、專利文獻加工等領域的發展進行總結,從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。機器翻譯技術和多邊共同分類體系的完善有助于提高計算機檢索效率、消除語言障礙,而語義檢索、圖像檢索和文獻自動處理技術的發展有望使面向不同層次用戶的計算機智能化檢索系統得以實現。
[關鍵詞]專利文獻 計算機檢索 語義檢索 圖像檢索
1、前言
近年來,計算機技術、語言學以及人工智能技術的發展促進了整個信息檢索技術領域的發展,專利文獻的計算機檢索技術正成為情報檢索領域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。
2、多語言混合檢索
專利文獻是由各國、各地區專利局或世界知識產權局出版的官方文獻,因此一般以各局官方語言出版。雖然大部分專利文獻是英語文獻,但是仍然存在大量日文、中文、德文、法文及其他語種的文獻。出版語言的多樣性給專利文獻的檢索和利用帶來了極大的障礙,要實現多語言混合檢索,機器翻譯是必不可少的技術。目前一些專利局在其上推出了機器翻譯系統,例如我國國家知識產權局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國知識產權局提供有韓英機器翻譯等,上述網絡機器翻譯系統對其他國家的用戶閱讀方便和使用本國專利文獻起到了幫助作用。
隨著計算機技術的發展,機器翻譯的技術也迅速發展,從傳統的基于規則的機器翻譯擴展到了基于實例或模版的機器翻譯、統計機器翻譯等。尤其是近年來語言學和人工智能技術的發展,以語義描述或以知識描述為特征的智能機器翻譯系統正逐步成為研究的熱點。專利文獻作為一種特殊的科技文獻,由于其具有特定的句法和語言結構,同時例如權利要求書等具有法律公示性文件的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過在機器翻譯系統內集成多個翻譯引擎、對不同特點的內容使用不同引擎翻譯的方式來提高翻譯質量。
已有的機器翻譯系統基本局限于單篇文獻的機器翻譯,無法實現真正的多語言混合檢索。多語言混合檢索系統不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻進行檢索,其實現方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結合的混合式。翻譯檢索式的工作量小,比較適合于因特網檢索,但由于檢索式通常缺乏語境,翻譯難度較大;翻譯文獻的方式雖然有利于提高翻譯質量,進而有利于文獻檢索,但存在的主要問題是翻譯量太大、翻譯時間長。
3、分類檢索
分類號一直是專利文獻檢索的重要手段。目前除了基本涵蓋各國專利文獻的國際專利分類(IPC)之外,美國專利商標局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標準不統一、分類條目不夠完備、文獻分類更新不及時等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專利文獻。
為改善這種局面,美國、日本和歐洲自2000年即開始了“三邊分類和諧計劃”,該計劃旨在推進ECLA、UC和FI三個分類體系的融合以增強分類號檢索的功能,同時對現有IPC分類體系提出改進建議。依據2009年召開的第27次三邊會議,韓國知識產權局已經加入上述計劃,而中國國家知識產權局也以觀察國的身份參與這項工作。此外,近年來美國專利商標局、日本特許廳、歐洲專利局、韓國知識產權局和中國國家知識產權局五局積極開展合作,其中一個重要的合作項目是“共同的分類”。該項目的實施將有利于提高分類的一致性,擴展或細化部分技術領域的分類,進而提高檢索的效率和質量。
不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”項目,都必將推進專利文獻分類體系的進一步發展,實現真正意義上的“基于檢索的分類”,進一步增強分類號在專利文獻計算機檢索中的作用。
4、語義檢索
當前專利文獻檢索的主要手段為關鍵詞和分類號檢索,而由于一詞多義、一義多詞,專利文獻撰寫、加工和翻譯質量不一以及關鍵詞的機械匹配等問題,本質上決定了其查全率和查準率受限制。隨著計算技術、人工智能、自然語言處理等技術的發展,搜索引擎的智能化有望從根本上提高現有檢索系統的檢索質量。
搜索引擎的智能化具體表現為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、信息組織及檢索結果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質在于以語義為對象進行搜索,而不是對字符串進行簡單的機械匹配,因此可避免關鍵詞匹配檢索中由于詞和義不對應所導致的問題。
語義檢索過程一般包括對被檢索的文檔以及輸入的檢索式進行語義分析和匹配處理。這種語義分析處理依賴于詞匯的語義描述技術以及分別用于詞義鑒別和詞匯過濾的語義識別技術和詞匯鏈算法。可以通過諸如WordNet等語義詞典對詞匯實現較完備的語義描述,保證人和機器對詞匯的理解一致。
最新發展的潛在語義索引通過將文獻搜索過程中的向量空間模型和奇異值分解相結合,可以揭示文檔中的詞間關系,因而適于構建專利文獻搜索引擎”…。利用語義進行檢索還可以將專利文獻中的`非技術性信息考慮在內,例如將特定的技術概念和申請人、發明人等信息進行語義聯系。此外,語義檢索還可以從用戶角度出發,考慮用戶的檢索需求,從而為諸如查新、侵權等不同目的的檢索提供相應的結果。
近年來國內一些開發商也紛紛提供具有語義檢索功能的專利文獻檢索系統,例如東方靈盾開發的專利檢索系統和Patenticst網站。Patentics網站除了可以實現傳統的關鍵詞檢索功能,還支持語義檢索,僅通過輸入檢索所針對的專利文獻號,即可自動對其進行語義分析、文獻檢索,并對結果進行相關度排序。當前專利文獻檢索領域還未廣泛應用語義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語義技術提高檢索的效率,還有望能對檢索結果進行分析、評價,甚至自動生成檢索報告。
本文來源:http://www.nvnqwx.com/shiyongwen/2304229.htm