信息檢索教學應用影響作用研究論文6篇
第1篇:跨語言信息檢索中的最關聯英文語義翻譯選取
0引言
在跨語言的信息檢索Web環境中,需要采用語義本體模型匹配和特征提取方法進行各種語義翻譯處理和語義信息分析,實現對信息檢索庫中語義信息資源調度和模型構建。由于跨語義信息檢索數據庫中存在一定的語義沖突,嚴重影響了語言翻譯和信息檢索的準確性,存在語義異構和語義分歧問題,特別是在跨語言數據庫中對英文語義翻譯的關聯性不好,在信息檢索、數據集成和數據庫重構中導致對關聯語義的匹配度和檢索的準確度不高[1?2]。因此,需要進行跨語言信息檢索中的最關聯英文語義翻譯選取設計,利用語義分析與提取技術提高跨語言信息檢索的準確性[3]。本文以異構英文語義本體模型為研究對象,進行最關聯英文語義翻譯選取和特征提取研究,找出語義相同或者相似概念對,逐一地對本體之間語義信息素進行相似度信息分析和信息素導引,提高對語言信息數據庫的訪問和檢索能力,并取得一定的研究成果。
1關聯英文語義本體結構模型構建
1.1跨語言信息檢索的英文翻譯語義映射
為了實現跨語言信息檢索中的最關聯英文語義翻譯選取,需要首先構建跨語言信息檢索中最關聯英文語義本體結構模型,基于語義相似度計算方法進行跨語言信息檢索的英文語義翻譯的機器學習和訓練。首先給出跨語言信息檢索的數據訪問和語義選取結構圖如圖1所示。
根據圖1所示的跨語言信息檢索的數據訪問和語義選取結構,進行跨語言信息檢索語義映射關系的分類[4?5]。
定義1英文語義映射。針對語法分析方案Ai,跨語言信息檢索英文翻譯的本體語義映射模型的形式化定義是一個五元組,其中:
C:語義修飾概念集合。C中的語句CS有m種不同的語法分類,從語義上來說,對語義相似度分析,得到跨語言數據庫中包含有多個從句。在本體中,AA是后置定語,滿足基本單元的語句語義結構。
I:實例集合。I為每次選擇一個簡單子句的每個實例,通過語義映射得到一個惟一的個體。在本體中,實例是語句語義結構的本體映射表象,因此也稱為語義修飾目標。
HC:語句的語義相關度的分類關系集合。這類關系可以求出非語句主干的特征映射關系(Hyponymy),用函數來表示表示本體中父概念(Super?Concept)和子概念(Sub?Concept)之間的不同的語法分析方案。
R:當前跨語言信息檢索關聯英文數據庫本體內元素的分類集合。R所包含的關系可分成兩大類:語義指向性信息索引行為關系和概念的隸屬關系。
A:語義修飾目標集合。A中的每條語義修飾目標代表英文翻譯語義中實詞的個數,它可用于語義修飾目標之間的語義相關度來描述概念和實例之間跨語言信息檢索的映射關系,或者描述第i種語法分析方案下的語義特征映射的約束關系。
1.2語義本體相關度計算模型
在上述進行了跨語言信息檢索的英文翻譯語義映射定義基礎上,根據跨語言信息檢索中英文語句的多種語法分析方案,構建最關聯英文語言翻譯的語法分析方案。
假設跨語言信息檢索數據庫中關聯英文的本體映射三層集成分布概念集合的數學模型可表示為:
式中:中的是表示語句具有m種語法分析方案的個數,表示語義相關度;語句主干權重系數。英語從句具有m種語法分析方案,最符合語義邏輯的語法分析方案滿足所有詞匯翻譯相關性的約束條件為:
根據跨語言信息檢索的詞語知識(Lexicalknowledge)得到語義映射關系的差異性特征。通過對不同本體進行英文翻譯的語法分析,對概念的上下文(Context)進行關聯匹配度分解,在概念節點Mountain中考慮等價的語義映射,根據語義本體相關度計算,得到語法分析的最佳方案[6]。
定義2語義本體模型。跨語言信息檢索關聯英文翻譯的本體與之間的語義修飾互信息特征通過一個映射函數M表示,。其中,C是本體的語義關聯度,rel是跨語言信息檢索數據庫中的英文資源信息一個實詞集合,被稱之為英文從句的歸結關系。
采用語義指向性信息索引方法進行英文翻譯的上下文語義映射,可進行從句范圍選擇中預期使用的詞匯能有效反映英文語義翻譯的單語義。根據簡單語義單元建立英文翻譯的語義修飾關系[7],如圖3所示。
由于建立本體之間英文翻譯的語義修飾關系存在異構性,語義結構為:,概念節點(Cs和Ct′)對英文翻譯中的語義關聯句屬于主句,還是從句進行判斷,判斷準則為:Cs與Ct′之間內部語法結構映射關系()、Cs與Ct′之間簡單語義單元的語義特征映射關系()、Cs與Ct′之間的自組織映射泛化關系()、Cs與Ct′之間的從句權重關系()和Cs與Ct′之間的每種語法分析方案的映射關系()。計算每個簡單語義單元的語義本體相關度,得到異構本體之間的語義相關度值,例如:把語義塊的n個英文翻譯詞匯進行信息素濃度聚焦,實現知識共享、重用,得到跨語言信息檢索中英文翻譯詞句集合rel中的語義指向性信息索引的語義相關度表示為式中:表示語句CS中關聯英文語義翻譯的相似度;表示兩組本體片段之間進行跨語言信息檢索的語義關聯度,且系數。
2最關聯英文語義翻譯選取實現
2.1英文語義翻譯的上下文語義映射
在上述進行了關聯英文語義本體結構模型構建的語義本體相關度計算的基礎上,進行跨語言信息檢索中的最關聯英文翻譯的選取。針對當前方法存在的弊端,本文提出一種基于最關聯語義本體模型匹配的跨語言信息檢索英文翻譯選取方法,采用語義指向性信息索引方法進行英文翻譯的上下文語義映射[8]。在一個概念詞語知識的英文語義本體模型中,語義詞典庫用一個三元組的形式K=(O,A,R)表示。其中,O是語義詞典庫的英文語義對象集合,A是跨語言檢索的屬性集合,R是O和A之間的詞語選擇語義用二元素表示。設本體模型的拓撲結構中英文翻譯的從句屬性總數為m,各個分詞的語義信息流在翻譯采樣信息時間間隔的自相關函數為:
式中:英文語義翻譯的上下文語義映射的提取率與的差別越來越大,則解釋信息與概念信息流與完全無關;作為所包含的元素節點集合的自相關函數,趨于0。通過英文語義翻譯的上下文語義映射模型構建[9],得到英文語義翻譯的上下文語義映射的規則如下:
(1)將跨語言信息檢索中英文的連接詞和謂詞邏輯表示成概念上下文形式;
(2)將介詞,如“in”或者“of”,表示成相應的邏輯公式;
(3)將帶有包含關系從句如“except”或者“butnot”表示成否定形式。
根據上述規則構建英文語義翻譯的上下文語義映射,進行最關聯英文語義翻譯選取。
2.2跨語言檢索最關聯英文語義翻譯選取
在本體模型O=中采用關鍵詞索引方法,給定邏輯公式W,通過上下文語義映射進行詞頻信息X,Y特征提取,根據語義本體之間的詞語知識和本體片段映射方法進行英文語義翻譯的特征提取,分別為:
式中:,是分別是語義標識過程中英文實詞X,Y的語義修飾目標集;是聯合訪問語義相似度詞頻信息,表示X,Y所得到的準確的語義信息召回的聯合概率密度函數。
在進行跨語言檢索最關聯英文語義翻譯選取中,假設V是形容詞,S是V的后置虛詞,O是V的最佳語義相關度,L是S,V,O中間的簡單子句,AB是前置定語,AA是跨語言信息檢索的后置謂語,PD是實詞的個數,通過語義關聯度匹配,實現英文語義翻譯選取,步驟表述如下:
步驟1(數據預處理):根據詞匯語義進行本體映射中英文從句的分詞選擇,并獲得其詞性,為進行準確的英文翻譯提供目標從句;
步驟2(找到詞匯語義的子句):針對語句CS,對應于n個詞匯所形成的概念樹,可以找出最佳語義相關度值,對簡單子句集合進行從句范圍選擇;
步驟3:計算分段L的語義結構,選擇計算結果最佳的簡單子句CSi,乘以權重系數KS,進行查準率優化,語義修飾CSi;
步驟4:選擇具有最佳語義相關度值的簡單句,如果滿足約束條件,則重復步驟2,3;否則,計算所有子句的最佳語義相關度;
步驟5:針對語法分析方案Ai,選擇前置虛詞,計算一次值,當滿足英文語義翻譯的上下文語義映射的規則,算法結束。
3實驗測試分析
在進行跨語言信息檢索的最關聯英文語義翻譯選取的實驗中,以KDDP2015跨語言數據庫作為詞匯語義資源,采用Matlab7編程軟件進行英文語義翻譯選取的編程設計。測試英文翻譯問題來自于KDDP2015的CWT200G數據測試集,測試集中包含21個語義等價概念集、46個不同語言的從句屬性集和358個實例集。測試通過跨語言信息檢索實現最關聯英文語義翻譯的查全率、查準率和最佳語義相關度值測試結果見表1。
分析表1中結果得知,采用本文模型進行跨語言信息檢索的最關聯英文語義翻譯,能達到最佳語義相關度配準,提高英文語義翻譯的查全率和查準率。圖4為不同方法進行英文語義翻譯選取的查準率對比結果,結果表明,采用本文方法進行關聯英文語義翻譯的查準率高于傳統模型,具有優越性。
4結語
為了提高跨語言信息檢索中的英文語義翻譯準確性,本文提出一種基于最關聯語義本體模型匹配的跨語言信息檢索英文翻譯選取方法。構建跨語言信息檢索中最關聯英文語義本體結構模型,采用語義指向性信息索引方法進行英文翻譯的上下文語義映射,根據語義本體之間的詞語知識和本體片段映射方法進行英文語義翻譯的特征提取,實現最關聯英文語義翻譯選取。仿真測試結果表明,采用本文方法進行跨語言信息檢索,英文語義翻譯選取的召回性能較好,查全率、查準率較高,在英文跨語言檢索和翻譯中具有較好的應用價值。
本文來源:http://www.nvnqwx.com/shiyongwen/2473741.htm