文章目錄
概念:
大數據很火熱,但實際上能準確說出的概念的人很少。
為了為之后學習Hadoop打下概念基礎以便更容易掌握學習框架,先來看看維基百科和百度百科介紹大數據:
維基百科中文:大數據(英語:Big data),又稱為巨量資料,指的是在傳統數據處理應用軟件不足以處理的大或復雜的數據集的術語。
大數據也可以定義為來自各種來源的大量非結構化或結構化數據。從學術角度而言,大數據的出現促成廣泛主題的新穎研究。這也導致各種大數據統計方法的發展。大數據并沒有統計學的抽樣方法;它只是觀察和追蹤發生的事情。因此,大數據通常包含的數據大小超出傳統軟件在可接受的時間內處理的能力。由于近期的技術進步,發布新數據的便捷性以及全球大多數政府對高透明度的要求,大數據分析在現代研究中越來越突出。[1]^{[1]}[1]
百度百科:大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據的5V特點(IBM提出):Volume(大量)、(高速)、Variety(多樣)、Value(低價值密度)、(真實性)。[2]^{[2]}[2]
也許有人搜索一下百科就以為這是大數據的定義,但沒人說這就是大數據的定義,這兩段是簡要地概括一下大數據的概念、結構、特性等。事實上,個人感覺大數據的概念不是一兩句話就能講清的。不然的話,林子雨老師就不會用一整整一章的內容來講解大數據的概念。[3]^{[3]}[3]
如果多搜集資料你就會發現,每個人對大數據大數據的講解都有些許不同,也許一千個讀者眼里的哈姆雷特是一樣的,但每個讀者或多或少表達的傾向不一樣。同理,大數據的概念我說是說不清的了,這輩子都說不清的了,但請記住大數據的幾點特點:數據量大、數據類型繁多、處理速度快、價值密度低。
應用
大數據無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務、醫療、體育、娛樂等在內的社會各行各業都已經融入了大數據的印跡。具體案例在此不詳細介紹啦,有興趣可以看知乎問題:基于大數據的成功應用有哪些?
大數據技術的不同層面及其功能
數據采集:利用ETL工具將分布的、異構數據源中的數據如關系數據、平面數據文件等,抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎;或者也可以把實時采集的數據作為流計算系統的輸入,進行實時處理分析。
數據存儲和管理: 利用分布式文件系統、數據倉庫、關系數據庫、NoSQL數據庫、云數據庫等,實現對結構化、半結構化和非結構化海量數據的存儲和管理。
數據處理與分析: 利用分布式并行編程模型和計算框架,結合機器學習和數據挖掘算法,實現對海量數據的處理和分析;對分析結果進行可視化呈現,幫助人們更好地理解數據、分析數據。
數據隱私和安全:在從大數據中挖掘潛在的巨大商業價值和學術價值的同時,構建隱私數據保護體系和數據安全體系,有效保護個人隱私和數據安全。
數據計算模式及產業
上述大數據產品中有不少就是后續的篇章里將介紹如何使用的,、hive等,在此引用某一案例來了解下批處理和流計算。
大數據處理系統通常采用并行化的策略進行數據處理,每個階段由與分區數相同個數的任務組成,一個任務負責處理一個分區,各個任務之間相互獨立執行,不會發生數據交換。
在批處理引擎中,一個物理數據流圖通常被劃分為多個階段,階段之間根據依賴關系按序執行,一個階段只有等其依賴的所有階段都執行結束后才能開始執行。
例如,在基于批處理引擎的Spark系統中,將每個邏輯數據流圖根據給定的并行度轉換為物理數據流圖后,系統會根據數據交換將該物理數據流圖劃分為多個階段按序執行。如圖3所示,因為在按鍵值分組頂點處發生數據交換,所以整個物理數據流圖在此處被切分,形成階段0和階段1兩個階段。其中,階段1中的數據處理依賴于階段0處理后的中間結果,即2個階段的執行存在先后順序,階段1只有在階段0的處理全部完成后才能開始執行。在階段0中,系統啟動3個線程分別處理相互獨立的3個分區中的數據,并將得到的中間結果存儲在3個線程各自的本地磁盤上。等到階段0中的3個線程都完成處理后,系統開始進行階段1的處理,階段1中啟動2個線程分別負責2個分區的數據,每個線程通過網絡從階段0的中間結果處獲取屬于自己的數據進行后續處理。
在流計算引擎中,物理數據流圖不會被劃分為多個階段。任務之間的數據交換不需要將中間結果數據先寫入磁盤再發送給下游任務,而是在處理完一條數據后立即將其發送給下游任務。
大數據產業
大數據產品市場調查
大數據平臺市場分布對就業等或許有些影響(也許、可能、大概),畢竟供求決定價格。上面已經介紹了一些大數據計算模式和產品,那么現在就來看看調查報告吧。
大數據技術應用場景相對單一 企業構建大數據平臺的主要方式
隨著分布式計算和云平臺的逐步成熟,目前大部分公司都有能力搭建自己的大數據平臺。調研數據顯示,81% 企業在進行大數據相關的開發和應用,50% 的企業選擇私有云解決方案來部署大數據應用,28% 的企業選擇自主研發。私有云部署解決方案是企業構建大數據平臺的主要方式。
企業使用 Hadoop 版本搭建數據平臺情況
調查報告發現,有 30% 以上的企業并沒有使用相對成熟的 Hadoop 技術搭建數據平臺,這些企業的算法性能會很大程度上受限于低效的平臺,更不可能開發出更高效的數據分析算法。但幸運的是大部分企業都基于商業版或者社區版 Hadoop 搭建了數據平臺,這些公司的側重點主要在應用發現和算法的設計層面,更有可能在不久的將來實現大數據的價值。
企業大數據平臺的普遍組件
Apache Spark 是一個處理大規模數據的快速通用引擎,它可以獨立運行,也可以在 Hadoop、Mesos、云端運行,它可以訪問各種數據源包括 HDFS、、HBase 和 S3,可以提升 Hadoop 集群中的應用在內存和磁盤上的運行速度。Spark 生態系統中除了核心 API 之外,還包括其他附加庫,可以為大數據分析和機器學習領域提供更多的能力。本次調研中,Spark 是使用最普遍的大數據平臺組件,使用率達到44%,而使用率僅為21%。
分布式文件系統 HDFS 作為核心組件之一,使用率也達到了 39%。企業對大數據平臺應用最多的場景是統計分析、報表生成及數據可視化,38% 企業使用ELK( + + Kibana)實時日志分析平臺。
綜上所述,目前大數據的發展熱潮令人歡欣鼓舞。一個優秀的大數據團隊,需要有對產品開發具有高敏感性同時對技術有一定理解的人才,同時需要理論基礎極其扎實,能對實際問題進行抽象建模和算法設計的人才。只有雙管齊下,在產品和技術方面進行深層次探索,才能真正實現大數據產業的繁榮。
大數據與云計算、物聯網
云計算、大數據和物聯網相輔相成,既有聯系又有區別。
云計算
概念:云計算實現了通過網絡提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。
關鍵技術: 虛擬化、分布式存儲、分布式計算、多租戶等。
數據中心:
應用:
產業: 云計算產業作為戰略性新興產業,近些年得到了迅速發展,形成了成熟的產業鏈結構,產業涵蓋硬件與設備制造、基礎設施運營、軟件與解決方案供應商、基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)、終端設備、云安全、云計算交付/咨詢/認證等環節。
物聯網
概念:物聯網是物物相連的互聯網,是互聯網的延伸,它利用局部網絡或互聯網等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯在一起,形成人與物、物與物相聯,實現信息化和遠程管理控制。
關鍵技術: 物聯網中的關鍵技術包括識別和感知技術(二維碼、RFID、傳感器等)、網絡與通信技術、數據挖掘與融合技術等。
應用: 物聯網已經廣泛應用于智能交通、智慧醫療、智能家居、環保監測、智能安防、智能物流、智能電網、智慧農業、智能工業等領域,對國民經濟與社會發展起到了重要的推動作用。
產業: 完整的物聯網產業鏈主要包括核心感應器件提供商、感知層末端設備提供商、網絡提供商、軟件與行業解決方案提供商、系統集成商、運營及服務提供商等六大環節。
參考資料
[1] 大數據——維基百科中文
[2] 大數據——百度百科
[3] 《大數據技術基礎》:林子雨
[4] 《大數據技術原理與應用》第二版:林子雨
[5] 大數據存儲、計算、應用、可視化的基本概述:迅宜捷科技
[6] 兩成開發者月薪超 1.7 萬、算法工程師最緊缺:CSDN
[7] 2018-2019中國開發者調查報告簡報(一文了解全貌):柴神
[8]畢倪飛,丁光耀,陳啟航,徐辰,周傲英. 數據流計算模型及其在大數據處理中的應用[J]. 大數據,:1-19.
[9]袁旭初,付國,畢繼澤,張巖峰,聶鐵錚,谷峪,鮑玉斌,于戈. 分布式數據流計算系統的數據緩存技術綜述[J]. 大數據,:1-22.
*請認真填寫需求信息,我們會在24小時內與您取得聯系。