英語詞語之間的語義相似度研究課題作為自然語言處理和計算機人工智能的基礎性研究[1?3],如選取、搜索、分類以及歧義消除等,需要依賴于包含現實世界概念的知識體系[4]。英語詞語的相似度是對英語詞語之間語義相似緊密程度的度量,在機器翻譯、數據信息檢索等方面具有重要的實用價值[5]。在不同的實際應用場景中,英語詞語相似度具有不同的用途[6]。另外,在構造統計英語詞語語言模型的過程中,由于數據分布稀疏導致未登錄英語詞語的統計信息無法計算的問題[7],需要進行高相似度英語詞語自主選取系統設計。在國內,隨著計算機人工智能的不斷發展,更準確地進行高相似度英語詞語自主選取系統設計引起了很多國內外專家與學者的重視。
文獻[8]提出基于樸素貝葉斯的高相似度英語詞語自主選取系統設計,首先介紹知網中的英語詞語相似度基本概念和體系結構,利用知網的義原層次體系結構計算得到英語詞語的義原相似度,計算出英語詞語概念的相似度;然后通過支持向量機分類器完成自主選取系統設計。該方法較為簡單,但是存在英語詞語相似度計算不清的問題,導致在自主選取過程中準確率不高。文獻[9]提出基于Corpus庫的高相似度英語詞語自主選取系統設計,首先構建英語詞語語義關聯庫,利用該庫使英語詞語空間與關系空間結構化,保存英語詞語與其上下文之間的總體信息,通過閱讀大量的英語詞語語料數據來訓練相似度英語詞語的相關數據,并對訓練過程中涌現的大量英語詞語關系進行剪裁,利用樸素貝葉斯分類器完成對高相似度英語詞語的自主選取。該方法存在對高相似度英語詞語的自主選取時間過長,且英語詞語的相似度計算準確率較低的問題。
針對上述問題,本文提出一種基于數據挖掘的高相似度英語詞語自主選取系統設計方法,所提系統設計方法可以精確地選取出高相似度英語詞語,且選取時間較短,實用性廣泛。
本文來源:http://www.nvnqwx.com/zuowen/ciyu/514920.htm