在深度學習興起之前,“數(shù)據(jù)”大多是結(jié)構(gòu)化數(shù)據(jù)(表格);而到了大數(shù)據(jù)時代,“數(shù)據(jù)”不只是結(jié)構(gòu)化數(shù)據(jù),更多的是非結(jié)構(gòu)化數(shù)據(jù)(圖片,聲音,視頻)。一、大數(shù)據(jù)發(fā)展現(xiàn)狀1.什么是大數(shù)據(jù)大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
1、大數(shù)據(jù)是什么?
采集記錄足夠多的數(shù)據(jù),使工作更加針對化和精準化,這是大數(shù)據(jù)嗎?這不是大數(shù)據(jù)而只是數(shù)據(jù)化。什么是大數(shù)據(jù)呢?例如洛杉磯警方曾對以往的刑事案件做了統(tǒng)計,通過算法得出了第二天的高概率犯罪地點,然后有針對性的派警察去該處巡邏,從而使得當?shù)氐姆缸铿F(xiàn)象下降20%,這是大數(shù)據(jù)。再比如,經(jīng)濟學家都認為股票無法預測,而一位劍橋大學畢業(yè)的博士搞了個公司,對有史以來幾乎所有的證券交易的數(shù)據(jù)進行記錄,然后通過算法進行分析,
他對什么國家政策、公司業(yè)績、行業(yè)走向等等一眼都不看,100%地排除主觀意志的,只根據(jù)計算結(jié)果來進行投資,最后賺了大錢。這是大數(shù)據(jù),大數(shù)據(jù)的精髓并不在于數(shù)據(jù)的精準和數(shù)量,而在于對內(nèi)在規(guī)律的挖掘和對未來趨勢的預測。其思路是:一個結(jié)果是有很多原因的,原因作用的強度可能是隨機的,我們對其中作用的機理并不清楚,
我們難以找出規(guī)律性,但知道規(guī)律性就蘊含在結(jié)果數(shù)據(jù)之中,如果我們能建設合適的模型,寫出好的算法,就有可能把這個規(guī)律性提煉出來,從而能科學地發(fā)現(xiàn)真相和預測未來。今天上午在貴州省大數(shù)據(jù)中心看到了大數(shù)據(jù)應用的事例,金潤建設和鵬潤達這兩家企業(yè)分別投標200多次,一次也沒中過,依然積極地投。投標是要成本的,這兩家公司那里來的動力?通過大數(shù)據(jù)的知識挖掘技術(shù),發(fā)現(xiàn)了它們總是陪著固定的一家公司一同招標,最后總是那家公司中標,
2、大數(shù)據(jù)時代,數(shù)據(jù)的核心價值體現(xiàn)在哪里?掌握大數(shù)據(jù)技術(shù)的高端人才,發(fā)展機遇有多大?
一、大數(shù)據(jù)發(fā)展現(xiàn)狀1.什么是大數(shù)據(jù)大數(shù)據(jù)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征,
大數(shù)據(jù)是一種需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。2.大數(shù)據(jù)戰(zhàn)略意義大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理,換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分,大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。3.大數(shù)據(jù)發(fā)展現(xiàn)狀大數(shù)據(jù)相關(guān)技術(shù)、產(chǎn)品、應用和標準不斷發(fā)展,逐漸形成了包括數(shù)據(jù)資源與API、開源平臺與工具、數(shù)據(jù)基礎設施、數(shù)據(jù)分析、數(shù)據(jù)應用等板塊構(gòu)成的大數(shù)據(jù)生態(tài)系統(tǒng),并持續(xù)發(fā)展和不斷完善,其發(fā)展熱點呈現(xiàn)了從技術(shù)向應用、再向治理的逐漸遷移,
經(jīng)過多年來的發(fā)展和沉淀,人們對大數(shù)據(jù)已經(jīng)形成基本共識:大數(shù)據(jù)現(xiàn)象源于互聯(lián)網(wǎng)及其延伸所帶來的無處不在的信息技術(shù)應用以及信息技術(shù)的不斷低成本化。大數(shù)據(jù)泛指無法在可容忍的時間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對其進行獲取、管理和處理的巨量數(shù)據(jù)集合,具有海量性、多樣性、時效性及可變性等特征,需要可伸縮的計算體系結(jié)構(gòu)以支持其存儲、處理和分析,
當互聯(lián)網(wǎng)技術(shù)發(fā)展到今天,大數(shù)據(jù)和云計算早已滲透我們生活。大數(shù)據(jù)以“降低信息不對稱和提高決策有效性”為目標,可廣泛作用于幾乎所有行業(yè),必將掀起一場新的革命,目前,大數(shù)據(jù)已經(jīng)迎來了高速發(fā)展的黃金成長期,作用正在日漸也凸顯,我們看好其發(fā)展趨勢,推薦投資者提高對其中孕育機會的關(guān)注度,從源到流看,大數(shù)據(jù)涵蓋數(shù)據(jù)入口、數(shù)據(jù)融合處理、數(shù)據(jù)應用三個過程;按照物理分層,大數(shù)據(jù)又可以分為硬件、基礎軟件、應用軟件和信息服務四個維度。