近年來伴隨著不少國家的寬帶化戰略的實施、云計算服務的起步、物聯網應用的鋪開和移動互聯網的崛起,數據量與時俱增,數據處理能力也發展迅速,數據量積累到一定程度其資源屬性越加明晰,顯示出開發的價值。同時,社會的節奏越來越快,要求快速的反應和精細的管理,急需借助對數據的分析來科學決策,催生了對大數據開發的需求,大數據被稱為將引發生活、工作和思維變革的一次革命。
大數據是相對于一般數據而言的,目前對大數據尚缺權威的嚴格定義,但較普遍的解釋是指“難以用常規的軟件工具在容許的時間內對其內容進行抓取、管理和處理的數據集合”。規模大是大數據的標志之一,但大數據之所以難處理不僅在于規模大,更大的挑戰是其隨時間的變化快和類型的多樣性,根據可否用表格或關系數據庫的表和視圖來表示而區分為結構型和非結構型數據,照片和視頻等就是典型的非結構數據。隨時間和類型的變化增加了大數據的復雜性但也同時豐富了大敷據的內涵。通常用4V( Volume、Velocity、Variety、Value)來反映大數據的特征,即量大、增長快、多樣性和高價值。從這一點來看,對大數據僅僅冠以“大”這一形容詞是不全面的,只不過在大數據的4V中,規模相對于變化和類型這兩個特征容易定量,而且即便是單一類型的數據集(例如文本文件),只要有足夠的規模也能稱得上大數據。數據的規模越大,通常對數據挖掘所得到的事物演變規律越可信,數據分析的結果也越有代表性,因此對大數據這一詞匯突出其規模大這一特征也是可理解的。
大數據不僅是一種資源,也是一種方法,伴隨大數據產生數據密集型科學,有人將它稱為是繼實驗科學、理論科學和計算科學之后的第四種科學研究模式,這一研究模式的特點表象為不在意數據的雜亂,但強調數據的量;不要求數據精準,但看重其代表性;不刻意追求因果關系,但重視規律總結。這一模式不僅用于科學研究,更多的會用到各行各業,成為從復雜現象中透視本質的有用工具。有人擔心從大數據中發現事物發展規律并預測未來的做法強調了有章可循,可能會妨礙創新。事實上檢驗技術創新、商業模式創新還是管理創新,不是看是否使用新的模式或顛覆性技術,而是看應用領域酌開拓和市場上的引領,成功的重要因素正是符合客觀規律。蘋果公司的iPhone用觸摸屏代替鍵盤并開發了AppStore應用商店,完善了移動互聯網的產業鏈,開創了移動智能終端時代,方便了用戶的使用,順應并引導移動互聯網的發展,這是大數據思維與創新文化結合的范例。
大數據還是一個新學科,大數據技術是指設計用于高速收集、發現和分析從多種類型的大規模數據中提取經濟價值的新一代技術和體系,涉及數據存儲、合并壓縮、清洗過濾、格式轉換、統計分析、知識發現、可視呈現、關聯規則、分類聚類、序列路徑和決策支持等技術。大數據將帶動起大數據產業和市場,包括服務器、存儲器、聯網設備、軟件與服務??傊髷祿諛I屬性大于制造業,對其他產業的影響大于對直接產業的影響,社會效益大于直接經濟效益。大數據影響之大和受到廣泛重視也正是因其溢出效應明顯。
(作者:鄔賀銓。摘自《科學與社會》2014年第1期有改動)
本文來源:http://www.nvnqwx.com/yuwen/yuedudaan/504052.htm