英語詞語之間的語義相似度研究課題作為自然語言處理和計算機人工智能的基礎(chǔ)性研究[1?3],如選取、搜索、分類以及歧義消除等,需要依賴于包含現(xiàn)實世界概念的知識體系[4]。英語詞語的相似度是對英語詞語之間語義相似緊密程度的度量,在機器翻譯、數(shù)據(jù)信息檢索等方面具有重要的實用價值[5]。在不同的實際應(yīng)用場景中,英語詞語相似度具有不同的用途[6]。另外,在構(gòu)造統(tǒng)計英語詞語語言模型的過程中,由于數(shù)據(jù)分布稀疏導(dǎo)致未登錄英語詞語的統(tǒng)計信息無法計算的問題[7],需要進行高相似度英語詞語自主選取系統(tǒng)設(shè)計。在國內(nèi),隨著計算機人工智能的不斷發(fā)展,更準(zhǔn)確地進行高相似度英語詞語自主選取系統(tǒng)設(shè)計引起了很多國內(nèi)外專家與學(xué)者的重視。
文獻[8]提出基于樸素貝葉斯的高相似度英語詞語自主選取系統(tǒng)設(shè)計,首先介紹知網(wǎng)中的英語詞語相似度基本概念和體系結(jié)構(gòu),利用知網(wǎng)的義原層次體系結(jié)構(gòu)計算得到英語詞語的義原相似度,計算出英語詞語概念的相似度;然后通過支持向量機分類器完成自主選取系統(tǒng)設(shè)計。該方法較為簡單,但是存在英語詞語相似度計算不清的問題,導(dǎo)致在自主選取過程中準(zhǔn)確率不高。文獻[9]提出基于Corpus庫的高相似度英語詞語自主選取系統(tǒng)設(shè)計,首先構(gòu)建英語詞語語義關(guān)聯(lián)庫,利用該庫使英語詞語空間與關(guān)系空間結(jié)構(gòu)化,保存英語詞語與其上下文之間的總體信息,通過閱讀大量的英語詞語語料數(shù)據(jù)來訓(xùn)練相似度英語詞語的相關(guān)數(shù)據(jù),并對訓(xùn)練過程中涌現(xiàn)的大量英語詞語關(guān)系進行剪裁,利用樸素貝葉斯分類器完成對高相似度英語詞語的自主選取。該方法存在對高相似度英語詞語的自主選取時間過長,且英語詞語的相似度計算準(zhǔn)確率較低的問題。
針對上述問題,本文提出一種基于數(shù)據(jù)挖掘的高相似度英語詞語自主選取系統(tǒng)設(shè)計方法,所提系統(tǒng)設(shè)計方法可以精確地選取出高相似度英語詞語,且選取時間較短,實用性廣泛。
本文來源:http://www.nvnqwx.com/zuowen/ciyu/514920.htm