一、人類社會(huì)三大要素
人類社會(huì)三大要素(能源 材料和信息)中,信息愈來愈顯示出其重要性和支配力,它將人類社會(huì)由工業(yè)化時(shí)代推向信息化時(shí)代,使現(xiàn)代社會(huì)所有大的機(jī)構(gòu)都卷入到以數(shù)據(jù)及其處理(數(shù)據(jù)搜集 存儲(chǔ) 檢索 傳送 分析和表示)的浪潮中。而隨著人類活動(dòng)范圍擴(kuò)展,節(jié)奏加快,以及技術(shù)的進(jìn)步,人們能以更快速較易而廉價(jià)的方式獲取和存儲(chǔ)數(shù)據(jù),這就使得數(shù)據(jù)和信息量以指數(shù)形式向上增長(zhǎng)。早在八十年代,人們粗略地估算到全球信息量,每隔20個(gè)月就增加班一倍。進(jìn)入九十年代,各類機(jī)構(gòu)所有數(shù)據(jù)庫數(shù)據(jù)量增長(zhǎng)更快。一個(gè)不大的企業(yè)每天要產(chǎn)生100MB以上來自各方面的營(yíng)業(yè)數(shù)據(jù)。美國政府部門的一個(gè)典型的大數(shù)據(jù)庫每天要接收約5TP數(shù)據(jù)量,在15秒到1分鐘時(shí)間里,要維持的數(shù)據(jù)量達(dá)到300TB,存檔數(shù)據(jù)達(dá)15-100PB。在科研方面,以美國宇航局的數(shù)據(jù)庫為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá)3-4TB之多,而為了研究的需要,這些數(shù)據(jù)要保存七年之久。九十年代因特網(wǎng)(Internet)的出現(xiàn)和發(fā)展,以及隨之而來的企業(yè)內(nèi)部網(wǎng)(Intranet)和企業(yè)外部網(wǎng)(Extranet)以及虛擬私有網(wǎng)(V P N--Virtual Private network)的產(chǎn)生和應(yīng)用,將整個(gè)世界聯(lián)成一個(gè)小小的地球村,人們可以跨越時(shí)空地在網(wǎng)上交換信息和協(xié)同工作。這樣,展現(xiàn)在人們面前的已不是局限于本部門,本單位和本行業(yè)的龐大數(shù)據(jù)庫,而是浩瀚無垠的信息海洋。據(jù)估計(jì),1993年面全球數(shù)據(jù)存貯容量約為二千TP,到達(dá)2000年會(huì)增加到三百萬TB,對(duì)這極度膨脹的數(shù)據(jù)信息量,人們受到“信息爆炸”“混沌信息空間”(Information Chaotic Spact)和“數(shù)據(jù)過剩”(Data glut)的巨大壓力。
然而,人類的各項(xiàng)活動(dòng)基于人類的智慧和知識(shí),即對(duì)外部世界的觀察和了解,正確的判斷和決策以及采取正確的行動(dòng),而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料,它本身沒有任何意義。從數(shù)據(jù)到智慧,要經(jīng)過分析加工處理精煉的過程。如圖1所示:數(shù)據(jù)是原材料,它只是描述發(fā)生了什么事情,它不提供判斷或解釋,和行動(dòng)的可靠基礎(chǔ)。人們對(duì)數(shù)據(jù)進(jìn)行分析找出其中關(guān)系,賦予數(shù)據(jù)以某種意義和關(guān)聯(lián),這就形成所謂信息。信息雖給出了數(shù)據(jù)中一些有一定意義的東西,但它往往和人們手上的任務(wù)沒有什么關(guān)聯(lián),還不能做為判斷 決策和行動(dòng)的依據(jù)。對(duì)信息進(jìn)行再加工,進(jìn)行深入洞察,才能獲得更有用可資利用的信息,即知識(shí).所謂知識(shí),可以定義為“信息塊中的一組邏輯聯(lián)系,其關(guān)系是通過上下文或過程的貼近度發(fā)現(xiàn)的。”從信息中理解其模式,即形成知識(shí)。在大量知識(shí)積累基礎(chǔ)上,總結(jié)成原理和法則,就形成所謂智慧(Wisdom).其實(shí),一部分人類文明發(fā)展史,就是在各種活動(dòng)中 知識(shí)的創(chuàng)造 交流 再創(chuàng)造不斷積累的螺旋式上升的歷史。另一方面,計(jì)算機(jī)與信息技術(shù)的發(fā)展,加速了這種過程,據(jù)德國世界報(bào)的資料分析,如果說19世紀(jì)時(shí)科學(xué)定律(包括新的化學(xué)分子式,新的物理關(guān)系和新的醫(yī)學(xué)認(rèn)識(shí))的認(rèn)識(shí)數(shù)量一百年增長(zhǎng)一倍,到本世紀(jì)60年代中期以后,每五年就增加一倍。這其中知識(shí)起著關(guān)鍵的作用。當(dāng)數(shù)據(jù)量極度增長(zhǎng)時(shí),如果沒有有效的方法,由計(jì)算機(jī)及信息技術(shù)來提取有用信息和知識(shí),也感到像大海撈針一樣束手無策。據(jù)估計(jì),一個(gè)大型企業(yè)數(shù)據(jù)庫中數(shù)據(jù),只有百分之七得到很好應(yīng)用.這樣,相對(duì)于“數(shù)據(jù)過剩” 和“信息爆炸”,人們又感到“信息貧乏”(Information poor)"數(shù)據(jù)關(guān)在牢籠中”(data in jail).
二 從數(shù)據(jù)到知識(shí)
早在八十年代,人們從“物競(jìng)天擇 適者生存”的大原則下,認(rèn)識(shí)到“誰最先從外部世界獲得有用信息并加以利用誰就是優(yōu)勝者”。現(xiàn)時(shí)當(dāng)市場(chǎng)經(jīng)濟(jì)面向全球性劇烈競(jìng)爭(zhēng)的環(huán)境下,一家廠商的優(yōu)勢(shì)不在于像產(chǎn)品 服務(wù) 地區(qū)等方面因素,而在于創(chuàng)新。用知識(shí)來作為創(chuàng)新的原動(dòng)力,就能使公司長(zhǎng)期持續(xù)保持競(jìng)爭(zhēng)優(yōu)勢(shì)。因此要能及時(shí)迅速從日積月累的龐大的數(shù)據(jù)庫及網(wǎng)絡(luò)上獲取有關(guān)經(jīng)營(yíng)決策有關(guān)知識(shí),這是應(yīng)付客戶需求易變性及市場(chǎng)快速變化引起競(jìng)爭(zhēng)激烈局面的唯一武器。
針對(duì)上述情況,如何對(duì)數(shù)據(jù)與信息快速有效地進(jìn)行分析加工提煉以獲取所需知識(shí)并發(fā)揮其作用,向計(jì)算機(jī)和信息技術(shù)領(lǐng)域提出了新的挑戰(zhàn)。其實(shí)計(jì)算機(jī)和信息技術(shù)發(fā)展的過程,也是數(shù)據(jù)和信息加工手段不斷更新和改善的過程。早年受技術(shù)條件限制,一般用人工方法進(jìn)行統(tǒng)計(jì)分析,和用批處理程序進(jìn)行匯總和提出報(bào)告.在當(dāng)時(shí)市場(chǎng)情況下,月度和季度報(bào)告已能滿足決策所需信息要求。隨著數(shù)據(jù)量的增長(zhǎng),多渠道數(shù)據(jù)源帶來各種數(shù)據(jù)格式的不相容性,為了便于獲得決策所需信息,就有必要將整個(gè)機(jī)構(gòu)內(nèi)的數(shù)據(jù)以統(tǒng)一形式集成存儲(chǔ)在一起,這就是所謂數(shù)據(jù)倉庫(data Warehousing).它不同于只適用于日常工作的數(shù)據(jù)庫.它是為了便于分析針對(duì)一定主
題(Subject-oriented)的集成化的 時(shí)變的(time-Variant即提供存貯5-10或更老的數(shù)據(jù),這些數(shù)據(jù)不再更新,供比較以求出趨向及預(yù)測(cè)用)非破壞性(即只容易輸入和訪問不容許更新和改變)的數(shù)據(jù)集中場(chǎng)所。數(shù)據(jù)倉庫的出現(xiàn),為更深入對(duì)數(shù)據(jù)進(jìn)行分析提供了條件,針對(duì)市場(chǎng)變化的加速人們提出了能實(shí)時(shí)分析和報(bào)表的在線分析手段OLAP(On Line Analytical Processing),它是一種友好而靈活的工具,它能允許用戶以交互方式瀏覽數(shù)據(jù)倉庫對(duì)其中數(shù)據(jù)進(jìn)行多維分析,能及時(shí)地從變化和不太完整的數(shù)據(jù)中提出與企業(yè)經(jīng)營(yíng)動(dòng)作有關(guān)的信息。例如能對(duì)數(shù)據(jù)中的異常和變化行為進(jìn)行了解,OLAP是數(shù)據(jù)分析手段的一大進(jìn)步,以往的分析工具所得到的報(bào)告結(jié)果能回答“什么”(What),而OLAP的分析結(jié)果能回答“為什么”(Why)。但上述分析手段是建立在用戶對(duì)深藏在數(shù)據(jù)中的某種知識(shí)有預(yù)感和假設(shè)的前提下。而由于數(shù)據(jù)倉庫(通常數(shù)據(jù)貯藏量以TB計(jì))及聯(lián)網(wǎng)界面上的數(shù)據(jù)來源于多種信息源,因此其中埋藏著豐富的不為用戶所知的有用信息和知識(shí),而要使企業(yè)能及時(shí)迅速準(zhǔn)確地作出經(jīng)營(yíng)動(dòng)作的決策,以適應(yīng)變化迅速的市場(chǎng)環(huán)境,就需要有一種基于計(jì)算機(jī)與信息技術(shù)的智能化自動(dòng)工具,來發(fā)掘埋藏在數(shù)據(jù)中的各類知識(shí)。這種手段不應(yīng)再基于用戶假設(shè),而應(yīng)能自身生成多種多種假設(shè),再用數(shù)據(jù)倉庫或聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行檢驗(yàn)和驗(yàn)證,然后返回對(duì)用戶 最有用的結(jié)果。同時(shí)這種工具還應(yīng)能適應(yīng)現(xiàn)實(shí)世界中數(shù)據(jù)的多種特性(即量大 含噪聲 不完整 動(dòng)態(tài) 稀疏性 異質(zhì) 非線性等)。要達(dá)到上述要求,只借助于一般數(shù)學(xué)分析和算法是無能為力的。多年來,數(shù)理統(tǒng)計(jì)技術(shù)以及人工智能和知識(shí)工程等領(lǐng)域的研究成果,諸如推理 歸納學(xué)習(xí) 機(jī)器學(xué)習(xí) 知識(shí)獲取 模糊理論 神經(jīng)元網(wǎng)絡(luò) 進(jìn)化算法 模式識(shí)別 粗糙集理論等等分支給開發(fā)上述工具提供了堅(jiān)實(shí)而豐富的理論和技術(shù)基礎(chǔ)。九十年代中期以來,許多軟件開發(fā)商,基于上述技術(shù)和市場(chǎng)需求,開發(fā)了名目繁多的數(shù)據(jù)發(fā)掘(DM--Data Mining)和知識(shí)發(fā)現(xiàn)(KDD--Discovery from Data)工具和軟件,DM和KDD形成了近年來軟件開發(fā)市場(chǎng)的熱點(diǎn),并且已不斷出現(xiàn)成套軟件和系統(tǒng),并開始朝智能化整體解決方案發(fā)展,這是從數(shù)據(jù)到知識(shí)前進(jìn)過程中又一個(gè)里程碑。
從數(shù)據(jù)中獲取有用信息或知識(shí),是一個(gè)完整的對(duì)數(shù)據(jù)進(jìn)行加工 處理的過程。如圖3所示,其中DM是關(guān)鍵的一步。挑選:按一定的標(biāo)準(zhǔn)從數(shù)據(jù)源中挑選或切取一組數(shù)據(jù),形成目標(biāo)數(shù)據(jù)。凈化和預(yù)處理:將不必要或影響分析進(jìn)程的部分?jǐn)?shù)據(jù)刪去。轉(zhuǎn)換:將預(yù)處理后的數(shù)據(jù)進(jìn)行某些轉(zhuǎn)換使之成為可用和可導(dǎo)引的數(shù)據(jù)。數(shù)據(jù)發(fā)掘:這是關(guān)鍵的階段,從數(shù)據(jù)中抽取出信息的模式。所謂模式,可以作如下定義:給定一組事實(shí)(數(shù)據(jù))F,一種語言L,和某種可信度測(cè)量C,模式就是一種用L的描述方式S,它以可信度C對(duì)F的一個(gè)子集Fs各事實(shí)間的關(guān)系進(jìn)行描述,這種描述在某種意義上比枚舉Fs中所有事實(shí)上要簡(jiǎn)單得多。解釋賦義或可視化:將模式解釋為可以支持決策的知識(shí),例如預(yù)測(cè) 分類 匯總數(shù)據(jù)內(nèi)容和解釋所觀察到的.現(xiàn)象等。上述階段之間也許還需要某種迭代分析.(見圖3)從上述過程可以看出,從數(shù)據(jù)中獲取知識(shí)是涉及多個(gè)領(lǐng)域內(nèi)技術(shù)融合的綜合應(yīng)用(見圖4)
數(shù)據(jù)庫 模式識(shí)別
技術(shù)
機(jī)器學(xué) 可視化
習(xí)技術(shù) 技術(shù)
AI技術(shù) 統(tǒng)計(jì)學(xué)
圖4 DM(KDD)與相關(guān)技術(shù)
本文來源:http://www.nvnqwx.com/shiyongwen/2279485.htm