數據量大 就是大數據,這個說法對嗎?
數據量大 就是大數據,這個說法對嗎?
幕布斯7119047
2018-07-30 09:17:57
TA貢獻1757條經驗 獲得超8個贊
數據量大是大數據的必要而非充分條件。所謂的大數據
,是一種技術高度發展下衍生的概念,指原本沒有能力處理也被認為沒有價值的大量非結構化的數據,比如用戶的訪問記錄、聊天記錄、購買記錄等等,由于谷歌三駕馬車
論文發表后分布式計算技術被普及而變得可以方便地存儲和處理,而另一方面通過原有只能運用在小數據樣本上的統計學習方法,反而得到了一些傳統的數據分析方法(強調因果)不能獲得或與人類直覺相反(比如典型的啤酒與尿布
問題)的知識。
引用Coursera數據科學專項課程的一個定義:
Big data = now possible to collect data cheap, but not necessarily all useful (need the right data)
TA貢獻1799條經驗 獲得超6個贊
?-?"大數據"首先是指數據體量大,指代大型數據集,一般在10TB?規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;?-?其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。?-?接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。?-?最后一個特點是指數據真實性(Veracity)高,隨著社交數據、企業內容、交易與應用數據等新數據源的興趣,傳統數據源的局限被打破,企業愈發需要有效的信息之力以確保其真實性及安全性。
要理解大數據這一概念,首先要從"大"入手,"大"是指數據規模,大數據一般指在10TB(1TB=1024GB)規模以上的數據量。 大數據同過去的海量數據有所區別,其基本特征可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。 ?-?1、?數據體量巨大。從TB級別,躍升到PB級別。 ?-?2、?數據類型繁多,如前文提到的網絡日志、視頻、圖片、地理位置信息,等等。? ?-?3、價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。? ?-?4、處理速度快。1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。 大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。 解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規模,也包括采集數據的工具、平臺和數據分析系統。 大數據研發目的是發展大數據技術并將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發展。 因此,大數據時代帶來的挑戰不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發,搶占時代發展的前沿。
舉報