關(guān)于搜索引擎的研究論文
摘要:搜索引擎的出現(xiàn), 把互聯(lián)網(wǎng)產(chǎn)品的技術(shù)水平提高到了一個(gè)新的高度。本文首先介紹搜索引擎技術(shù)的發(fā)展歷程, 其次簡(jiǎn)要介紹了搜索引擎關(guān)鍵技術(shù)和產(chǎn)品;隨著移動(dòng)終端智能化和互聯(lián)網(wǎng)用戶個(gè)性化以及社交化為中心的融合趨勢(shì)下的發(fā)展, 催生了很多新型應(yīng)用。結(jié)合目前管理信息系統(tǒng)互聯(lián)網(wǎng)化的發(fā)展方向, 詳細(xì)介紹了搜索引擎在管理信息系統(tǒng)中的一整套應(yīng)用案例。

關(guān)鍵詞:搜索引擎; 搜索引擎技術(shù); 搜索引擎產(chǎn)品; 搜索引擎在管理信息系統(tǒng)中案例; 搜索引擎發(fā)展趨勢(shì);
Discussion on search engine
Abstract:The emergence of search engine takes the Internet product technology to a new level. This article first introduces the development of search engine technology, then introduces search engine's key technologies and products.With the intelligent mobile terminals, services users personalized services, and social network integration as the center of the trend, a lot of new applications have emerged. Combined with the development direction of the current management MIS system, this article introduces the application case of search engine in MIS system.
Keyword:search engine; search engine technology; search engine product; search engine in management information system case; search engine development trend;

1、引言
搜索引擎的誕生源自互聯(lián)網(wǎng)最根本的用途之一:信息獲取。
在搜索引擎出現(xiàn)之前, 互聯(lián)網(wǎng)缺少入口, 用戶往往需要自己記住有用的網(wǎng)站和網(wǎng)頁(yè)。為了滿足這種需求, 最早的“搜索引擎”, 即分類(lèi)目錄瀏覽式的引擎便出現(xiàn)了, Yahoo就是其中的代表。最初只是采用把一些有用的網(wǎng)站通過(guò)分類(lèi)的方式手工組織起來(lái), 便于用戶找到有用的信息。能夠手工組織也是基于早年整個(gè)互聯(lián)網(wǎng)的網(wǎng)站數(shù)量也非常少, 可以通過(guò)人工方式實(shí)現(xiàn)組織。
隨著互聯(lián)網(wǎng)的壯大, 網(wǎng)頁(yè)網(wǎng)站數(shù)量越來(lái)越多, 手工組織的方式變?yōu)椴豢尚校?于是由機(jī)器實(shí)現(xiàn)的全文檢索引擎便出現(xiàn)了。用戶可以通過(guò)關(guān)鍵字查詢來(lái)獲取相關(guān)的網(wǎng)頁(yè)。又隨著網(wǎng)頁(yè)數(shù)量的不斷增多, 任何關(guān)鍵字查詢都會(huì)返回大量的相關(guān)網(wǎng)頁(yè), 如果對(duì)網(wǎng)頁(yè)進(jìn)行評(píng)分和排序, 返回給用戶真正有價(jià)值的網(wǎng)頁(yè)便成為重點(diǎn)。基于網(wǎng)頁(yè)之間的鏈接關(guān)系為網(wǎng)頁(yè)進(jìn)行評(píng)分, 成為很多搜索引擎的網(wǎng)頁(yè)排序算法基礎(chǔ), Google的Page Rank算法便是其中的代表者。
Google也以此為基礎(chǔ)成為搜索引擎產(chǎn)品中的領(lǐng)先者, 為用戶提供了更好的搜索結(jié)果相關(guān)性。現(xiàn)代搜索引擎基本上也由此基本成型, 雖然后來(lái)的技術(shù)創(chuàng)新和改進(jìn)很多, 但主要的思路基本上沒(méi)有變。
搜索引擎發(fā)展到今天, 基礎(chǔ)架構(gòu)和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息, 在對(duì)信息進(jìn)行組織和處理后, 為用戶提供檢索服務(wù), 將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。
2、搜索引擎技術(shù)
搜索引擎所涉及和涵蓋的技術(shù)范圍非常廣, 涉及到了系統(tǒng)架構(gòu)和算法設(shè)計(jì)等許多方面。可以說(shuō)由于搜索引擎的出現(xiàn), 把互聯(lián)網(wǎng)產(chǎn)品的技術(shù)水平提高到了一個(gè)新的高度;搜索引擎無(wú)論是在數(shù)據(jù)和系統(tǒng)規(guī)模, 還是在算法技術(shù)的研究應(yīng)用深度上, 都遠(yuǎn)超之前簡(jiǎn)單的互聯(lián)網(wǎng)產(chǎn)品。
搜索引擎涉及的關(guān)鍵技術(shù)點(diǎn)包含:爬蟲(chóng) (Crawling) 、索引結(jié)構(gòu) (Inverted Index) 、檢索模型 (VSM&TF-IDF) 、搜索排序 (Relevance Ranking&Evaluation) 、鏈接分析 (Link Analysis) 、分類(lèi) (Document&Query Classification) 、自然語(yǔ)言處理 (NLP:Tokenization, Lemmatization, POS Tagging, NER, etc.) 、分布式系統(tǒng) (Distributed Processing&Storage) .
雖然搜索引擎涉及的技術(shù)方方面面, 但歸結(jié)起來(lái)最關(guān)鍵的幾點(diǎn)在于:
●系統(tǒng):大規(guī)模分布式系統(tǒng), 支撐大規(guī)模的數(shù)據(jù)處理容量和在線查詢負(fù)載。
●數(shù)據(jù):數(shù)據(jù)處理和挖掘能力。
●算法:搜索相關(guān)性排序、查詢分析、分類(lèi)等。
由此可見(jiàn)搜索引擎系統(tǒng)是一個(gè)由許多模塊組成的復(fù)雜系統(tǒng), 核心模塊通常包括爬蟲(chóng)、索引、檢索和排序, 除了必需的核心模塊之外, 通常還需要一些支持輔助模塊, 常見(jiàn)的有鏈接分析、去重、反垃圾、查詢分析等。搜索引擎中各關(guān)鍵功能模塊功能簡(jiǎn)介如下:
(1) 爬蟲(chóng):從互聯(lián)網(wǎng)爬取原始網(wǎng)頁(yè)數(shù)據(jù), 存儲(chǔ)于文檔知識(shí)庫(kù)服務(wù)器。
(2) 文檔知識(shí)庫(kù)服務(wù)器:存儲(chǔ)原始網(wǎng)頁(yè)數(shù)據(jù), 通常是分布式Key-Value數(shù)據(jù)庫(kù), 能根據(jù)URL/UID快速獲取網(wǎng)頁(yè)內(nèi)容。
(3) 索引:讀取原始網(wǎng)頁(yè)數(shù)據(jù), 解析網(wǎng)頁(yè), 抽取有效字段, 生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的, 分塊/分片的, 并會(huì)進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括:字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲(chǔ)于索引服務(wù)器。
(4) 索引服務(wù)器:存儲(chǔ)索引數(shù)據(jù), 主要是倒排表, 通常是分塊、分片存儲(chǔ), 并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時(shí), 還根據(jù)類(lèi)別、主題、時(shí)間、網(wǎng)頁(yè)質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布, 更好地服務(wù)在線查詢。
(5) 檢索:讀取倒排表索引, 響應(yīng)前端查詢請(qǐng)求, 返回相關(guān)文檔列表數(shù)據(jù)。
(6) 排序:對(duì)檢索器返回的文檔列表進(jìn)行排序, 基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。
(7) 鏈接分析:收集各網(wǎng)頁(yè)的鏈接數(shù)據(jù)和錨文本 (Anchor Text) , 以此計(jì)算各網(wǎng)頁(yè)鏈接評(píng)分, 最終會(huì)作為網(wǎng)頁(yè)屬性參與返回結(jié)果排序。
(8) 網(wǎng)頁(yè)去重:提取各網(wǎng)頁(yè)的相關(guān)特征屬性, 計(jì)算相似網(wǎng)頁(yè)組, 提供離線索引和在線查詢的去重服務(wù)。
(9) 網(wǎng)頁(yè)反垃圾:收集各網(wǎng)頁(yè)和網(wǎng)站歷史信息, 提取垃圾網(wǎng)頁(yè)特征, 從而對(duì)在線索引中的網(wǎng)頁(yè)進(jìn)行判定, 去除垃圾網(wǎng)頁(yè)。
(10) 查詢分析:分析用戶查詢, 生成結(jié)構(gòu)化查詢請(qǐng)求, 指派到相應(yīng)的類(lèi)別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。
(11) 頁(yè)面描述/摘要:為檢索和排序完成的網(wǎng)頁(yè)列表提供相應(yīng)的描述和摘要。
(12) 前端:接受用戶請(qǐng)求, 分發(fā)至相應(yīng)服務(wù)器, 返回查詢結(jié)果。
本文來(lái)源:http://www.nvnqwx.com/shiyongwen/2648029.htm