信息檢索教學(xué)應(yīng)用影響作用研究論文6篇
第1篇:跨語言信息檢索中的最關(guān)聯(lián)英文語義翻譯選取
0引言
在跨語言的信息檢索Web環(huán)境中,需要采用語義本體模型匹配和特征提取方法進(jìn)行各種語義翻譯處理和語義信息分析,實(shí)現(xiàn)對(duì)信息檢索庫中語義信息資源調(diào)度和模型構(gòu)建。由于跨語義信息檢索數(shù)據(jù)庫中存在一定的語義沖突,嚴(yán)重影響了語言翻譯和信息檢索的準(zhǔn)確性,存在語義異構(gòu)和語義分歧問題,特別是在跨語言數(shù)據(jù)庫中對(duì)英文語義翻譯的關(guān)聯(lián)性不好,在信息檢索、數(shù)據(jù)集成和數(shù)據(jù)庫重構(gòu)中導(dǎo)致對(duì)關(guān)聯(lián)語義的匹配度和檢索的準(zhǔn)確度不高[1?2]。因此,需要進(jìn)行跨語言信息檢索中的最關(guān)聯(lián)英文語義翻譯選取設(shè)計(jì),利用語義分析與提取技術(shù)提高跨語言信息檢索的準(zhǔn)確性[3]。本文以異構(gòu)英文語義本體模型為研究對(duì)象,進(jìn)行最關(guān)聯(lián)英文語義翻譯選取和特征提取研究,找出語義相同或者相似概念對(duì),逐一地對(duì)本體之間語義信息素進(jìn)行相似度信息分析和信息素導(dǎo)引,提高對(duì)語言信息數(shù)據(jù)庫的訪問和檢索能力,并取得一定的研究成果。
1關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型構(gòu)建
1.1跨語言信息檢索的英文翻譯語義映射
為了實(shí)現(xiàn)跨語言信息檢索中的最關(guān)聯(lián)英文語義翻譯選取,需要首先構(gòu)建跨語言信息檢索中最關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型,基于語義相似度計(jì)算方法進(jìn)行跨語言信息檢索的英文語義翻譯的機(jī)器學(xué)習(xí)和訓(xùn)練。首先給出跨語言信息檢索的數(shù)據(jù)訪問和語義選取結(jié)構(gòu)圖如圖1所示。
根據(jù)圖1所示的跨語言信息檢索的數(shù)據(jù)訪問和語義選取結(jié)構(gòu),進(jìn)行跨語言信息檢索語義映射關(guān)系的分類[4?5]。
定義1英文語義映射。針對(duì)語法分析方案Ai,跨語言信息檢索英文翻譯的本體語義映射模型的形式化定義是一個(gè)五元組,其中:
C:語義修飾概念集合。C中的語句CS有m種不同的語法分類,從語義上來說,對(duì)語義相似度分析,得到跨語言數(shù)據(jù)庫中包含有多個(gè)從句。在本體中,AA是后置定語,滿足基本單元的語句語義結(jié)構(gòu)。
I:實(shí)例集合。I為每次選擇一個(gè)簡單子句的每個(gè)實(shí)例,通過語義映射得到一個(gè)惟一的個(gè)體。在本體中,實(shí)例是語句語義結(jié)構(gòu)的本體映射表象,因此也稱為語義修飾目標(biāo)。
HC:語句的語義相關(guān)度的分類關(guān)系集合。這類關(guān)系可以求出非語句主干的特征映射關(guān)系(Hyponymy),用函數(shù)來表示表示本體中父概念(Super?Concept)和子概念(Sub?Concept)之間的不同的語法分析方案。
R:當(dāng)前跨語言信息檢索關(guān)聯(lián)英文數(shù)據(jù)庫本體內(nèi)元素的分類集合。R所包含的關(guān)系可分成兩大類:語義指向性信息索引行為關(guān)系和概念的隸屬關(guān)系。
A:語義修飾目標(biāo)集合。A中的每條語義修飾目標(biāo)代表英文翻譯語義中實(shí)詞的個(gè)數(shù),它可用于語義修飾目標(biāo)之間的語義相關(guān)度來描述概念和實(shí)例之間跨語言信息檢索的映射關(guān)系,或者描述第i種語法分析方案下的語義特征映射的約束關(guān)系。
1.2語義本體相關(guān)度計(jì)算模型
在上述進(jìn)行了跨語言信息檢索的英文翻譯語義映射定義基礎(chǔ)上,根據(jù)跨語言信息檢索中英文語句的多種語法分析方案,構(gòu)建最關(guān)聯(lián)英文語言翻譯的語法分析方案。
假設(shè)跨語言信息檢索數(shù)據(jù)庫中關(guān)聯(lián)英文的本體映射三層集成分布概念集合的數(shù)學(xué)模型可表示為:
式中:中的是表示語句具有m種語法分析方案的個(gè)數(shù),表示語義相關(guān)度;語句主干權(quán)重系數(shù)。英語從句具有m種語法分析方案,最符合語義邏輯的語法分析方案滿足所有詞匯翻譯相關(guān)性的約束條件為:
根據(jù)跨語言信息檢索的詞語知識(shí)(Lexicalknowledge)得到語義映射關(guān)系的差異性特征。通過對(duì)不同本體進(jìn)行英文翻譯的語法分析,對(duì)概念的上下文(Context)進(jìn)行關(guān)聯(lián)匹配度分解,在概念節(jié)點(diǎn)Mountain中考慮等價(jià)的語義映射,根據(jù)語義本體相關(guān)度計(jì)算,得到語法分析的最佳方案[6]。
定義2語義本體模型。跨語言信息檢索關(guān)聯(lián)英文翻譯的本體與之間的語義修飾互信息特征通過一個(gè)映射函數(shù)M表示,。其中,C是本體的語義關(guān)聯(lián)度,rel是跨語言信息檢索數(shù)據(jù)庫中的英文資源信息一個(gè)實(shí)詞集合,被稱之為英文從句的歸結(jié)關(guān)系。
采用語義指向性信息索引方法進(jìn)行英文翻譯的上下文語義映射,可進(jìn)行從句范圍選擇中預(yù)期使用的詞匯能有效反映英文語義翻譯的單語義。根據(jù)簡單語義單元建立英文翻譯的語義修飾關(guān)系[7],如圖3所示。
由于建立本體之間英文翻譯的語義修飾關(guān)系存在異構(gòu)性,語義結(jié)構(gòu)為:,概念節(jié)點(diǎn)(Cs和Ct′)對(duì)英文翻譯中的語義關(guān)聯(lián)句屬于主句,還是從句進(jìn)行判斷,判斷準(zhǔn)則為:Cs與Ct′之間內(nèi)部語法結(jié)構(gòu)映射關(guān)系()、Cs與Ct′之間簡單語義單元的語義特征映射關(guān)系()、Cs與Ct′之間的自組織映射泛化關(guān)系()、Cs與Ct′之間的從句權(quán)重關(guān)系()和Cs與Ct′之間的每種語法分析方案的映射關(guān)系()。計(jì)算每個(gè)簡單語義單元的語義本體相關(guān)度,得到異構(gòu)本體之間的語義相關(guān)度值,例如:把語義塊的n個(gè)英文翻譯詞匯進(jìn)行信息素濃度聚焦,實(shí)現(xiàn)知識(shí)共享、重用,得到跨語言信息檢索中英文翻譯詞句集合rel中的語義指向性信息索引的語義相關(guān)度表示為式中:表示語句CS中關(guān)聯(lián)英文語義翻譯的相似度;表示兩組本體片段之間進(jìn)行跨語言信息檢索的語義關(guān)聯(lián)度,且系數(shù)。
2最關(guān)聯(lián)英文語義翻譯選取實(shí)現(xiàn)
2.1英文語義翻譯的上下文語義映射
在上述進(jìn)行了關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型構(gòu)建的語義本體相關(guān)度計(jì)算的基礎(chǔ)上,進(jìn)行跨語言信息檢索中的最關(guān)聯(lián)英文翻譯的選取。針對(duì)當(dāng)前方法存在的弊端,本文提出一種基于最關(guān)聯(lián)語義本體模型匹配的跨語言信息檢索英文翻譯選取方法,采用語義指向性信息索引方法進(jìn)行英文翻譯的上下文語義映射[8]。在一個(gè)概念詞語知識(shí)的英文語義本體模型中,語義詞典庫用一個(gè)三元組的形式K=(O,A,R)表示。其中,O是語義詞典庫的英文語義對(duì)象集合,A是跨語言檢索的屬性集合,R是O和A之間的詞語選擇語義用二元素表示。設(shè)本體模型的拓?fù)浣Y(jié)構(gòu)中英文翻譯的從句屬性總數(shù)為m,各個(gè)分詞的語義信息流在翻譯采樣信息時(shí)間間隔的自相關(guān)函數(shù)為:
式中:英文語義翻譯的上下文語義映射的提取率與的差別越來越大,則解釋信息與概念信息流與完全無關(guān);作為所包含的元素節(jié)點(diǎn)集合的自相關(guān)函數(shù),趨于0。通過英文語義翻譯的上下文語義映射模型構(gòu)建[9],得到英文語義翻譯的上下文語義映射的規(guī)則如下:
(1)將跨語言信息檢索中英文的連接詞和謂詞邏輯表示成概念上下文形式;
(2)將介詞,如“in”或者“of”,表示成相應(yīng)的邏輯公式;
(3)將帶有包含關(guān)系從句如“except”或者“butnot”表示成否定形式。
根據(jù)上述規(guī)則構(gòu)建英文語義翻譯的上下文語義映射,進(jìn)行最關(guān)聯(lián)英文語義翻譯選取。
2.2跨語言檢索最關(guān)聯(lián)英文語義翻譯選取
在本體模型O=中采用關(guān)鍵詞索引方法,給定邏輯公式W,通過上下文語義映射進(jìn)行詞頻信息X,Y特征提取,根據(jù)語義本體之間的詞語知識(shí)和本體片段映射方法進(jìn)行英文語義翻譯的特征提取,分別為:
式中:,是分別是語義標(biāo)識(shí)過程中英文實(shí)詞X,Y的語義修飾目標(biāo)集;是聯(lián)合訪問語義相似度詞頻信息,表示X,Y所得到的準(zhǔn)確的語義信息召回的聯(lián)合概率密度函數(shù)。
在進(jìn)行跨語言檢索最關(guān)聯(lián)英文語義翻譯選取中,假設(shè)V是形容詞,S是V的后置虛詞,O是V的最佳語義相關(guān)度,L是S,V,O中間的簡單子句,AB是前置定語,AA是跨語言信息檢索的后置謂語,PD是實(shí)詞的個(gè)數(shù),通過語義關(guān)聯(lián)度匹配,實(shí)現(xiàn)英文語義翻譯選取,步驟表述如下:
步驟1(數(shù)據(jù)預(yù)處理):根據(jù)詞匯語義進(jìn)行本體映射中英文從句的分詞選擇,并獲得其詞性,為進(jìn)行準(zhǔn)確的英文翻譯提供目標(biāo)從句;
步驟2(找到詞匯語義的子句):針對(duì)語句CS,對(duì)應(yīng)于n個(gè)詞匯所形成的概念樹,可以找出最佳語義相關(guān)度值,對(duì)簡單子句集合進(jìn)行從句范圍選擇;
步驟3:計(jì)算分段L的語義結(jié)構(gòu),選擇計(jì)算結(jié)果最佳的簡單子句CSi,乘以權(quán)重系數(shù)KS,進(jìn)行查準(zhǔn)率優(yōu)化,語義修飾CSi;
步驟4:選擇具有最佳語義相關(guān)度值的簡單句,如果滿足約束條件,則重復(fù)步驟2,3;否則,計(jì)算所有子句的最佳語義相關(guān)度;
步驟5:針對(duì)語法分析方案Ai,選擇前置虛詞,計(jì)算一次值,當(dāng)滿足英文語義翻譯的上下文語義映射的規(guī)則,算法結(jié)束。
3實(shí)驗(yàn)測(cè)試分析
在進(jìn)行跨語言信息檢索的最關(guān)聯(lián)英文語義翻譯選取的實(shí)驗(yàn)中,以KDDP2015跨語言數(shù)據(jù)庫作為詞匯語義資源,采用Matlab7編程軟件進(jìn)行英文語義翻譯選取的編程設(shè)計(jì)。測(cè)試英文翻譯問題來自于KDDP2015的CWT200G數(shù)據(jù)測(cè)試集,測(cè)試集中包含21個(gè)語義等價(jià)概念集、46個(gè)不同語言的從句屬性集和358個(gè)實(shí)例集。測(cè)試通過跨語言信息檢索實(shí)現(xiàn)最關(guān)聯(lián)英文語義翻譯的查全率、查準(zhǔn)率和最佳語義相關(guān)度值測(cè)試結(jié)果見表1。
分析表1中結(jié)果得知,采用本文模型進(jìn)行跨語言信息檢索的最關(guān)聯(lián)英文語義翻譯,能達(dá)到最佳語義相關(guān)度配準(zhǔn),提高英文語義翻譯的查全率和查準(zhǔn)率。圖4為不同方法進(jìn)行英文語義翻譯選取的查準(zhǔn)率對(duì)比結(jié)果,結(jié)果表明,采用本文方法進(jìn)行關(guān)聯(lián)英文語義翻譯的查準(zhǔn)率高于傳統(tǒng)模型,具有優(yōu)越性。
4結(jié)語
為了提高跨語言信息檢索中的英文語義翻譯準(zhǔn)確性,本文提出一種基于最關(guān)聯(lián)語義本體模型匹配的跨語言信息檢索英文翻譯選取方法。構(gòu)建跨語言信息檢索中最關(guān)聯(lián)英文語義本體結(jié)構(gòu)模型,采用語義指向性信息索引方法進(jìn)行英文翻譯的上下文語義映射,根據(jù)語義本體之間的詞語知識(shí)和本體片段映射方法進(jìn)行英文語義翻譯的特征提取,實(shí)現(xiàn)最關(guān)聯(lián)英文語義翻譯選取。仿真測(cè)試結(jié)果表明,采用本文方法進(jìn)行跨語言信息檢索,英文語義翻譯選取的召回性能較好,查全率、查準(zhǔn)率較高,在英文跨語言檢索和翻譯中具有較好的應(yīng)用價(jià)值。
本文來源:http://www.nvnqwx.com/shiyongwen/2473741.htm