整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          2019最全大數據學習資源整理(值得收藏)

          2019最全大數據學習資源整理(值得收藏)

          系數據庫管理系統(RDBMS)

          MySQL:世界最流行的開源數據庫;

          PostgreSQL:世界最先進的開源數據庫;

          Oracle 數據庫:對象-關系型數據庫管理系統。

          框架

          Apache Hadoop:分布式處理架構,結合了 MapReduce(并行處理)、YARN(作業調度)和HDFS(分布式文件系統);

          Tigon:高吞吐量實時流處理框架。

          分布式編程

          AddThis Hydra :最初在AddThis上開發的分布式數據處理和存儲系統;

          AMPLab SIMR:用在Hadoop MapReduce v1上運行Spark;

          Apache Beam:為統一的模型以及一套用于定義和執行數據處理工作流的特定SDK語言;

          Apache Crunch:一個簡單的Java API,用于執行在普通的MapReduce實現時比較單調的連接、數據聚合等任務;

          Apache DataFu:由LinkedIn開發的針對Hadoop and 和Pig的用戶定義的函數集合;

          Apache Flink:具有高性能的執行時間和自動程序優化;

          Apache Gora:內存中的數據模型和持久性框架;

          Apache Hama:BSP(整體同步并行)計算框架;

          Apache MapReduce :在集群上使用并行、分布式算法處理大數據集的編程模型;

          Apache Pig :Hadoop中,用于處理數據分析程序的高級查詢語言;

          Apache REEF :用來簡化和統一低層大數據系統的保留性評估執行框架;

          Apache S4 :S4中流處理與實現的框架;

          Apache Spark :內存集群計算框架;

          Apache Spark Streaming :流處理框架,同時是Spark的一部分;

          Apache Storm :Twitter流處理框架,也可用于YARN;

          Apache Samza :基于Kafka和YARN的流處理框架;

          Apache Tez :基于YARN,用于執行任務中的復雜DAG(有向無環圖);

          Apache Twill :基于YARN的抽象概念,用于減少開發分布式應用程序的復雜度;

          Cascalog:數據處理和查詢庫;

          Cheetah :在MapReduce之上的高性能、自定義數據倉庫;

          Concurrent Cascading :在Hadoop上的數據管理/分析框架;

          Damballa Parkour :用于Clojure的MapReduce庫;

          Datasalt Pangool :可選擇的MapReduce范例;

          DataTorrent StrAM :為實時引擎,用于以盡可能暢通的方式、最小的開支和對性能最小的影響,實現分布式、異步、實時的內存大數據計算;

          Facebook Corona :為Hadoop做優化處理,從而消除單點故障;

          Facebook Peregrine :MapReduce框架;

          Facebook Scuba :分布式內存數據存儲;

          Google Dataflow :創建數據管道,以幫助其分析框架;

          Netflix PigPen :為MapReduce,用于編譯成Apache Pig;

          Nokia Disco :由Nokia開發的MapReduc獲取、轉換和分析數據;

          Google MapReduce :MapReduce框架;

          Google MillWheel :容錯流處理框架;

          JAQL :用于處理結構化、半結構化和非結構化數據工作的聲明性編程語言;

          Kite :為一組庫、工具、實例和文檔集,用于使在Hadoop的生態系統上建立系統更加容易;

          Metamarkets Druid :用于大數據集的實時e框架;

          Onyx :分布式云計算;

          Pinterest Pinlater :異步任務執行系統;

          Pydoop :用于Hadoop的Python MapReduce和HDFS API;

          Rackerlabs Blueflood :多租戶分布式測度處理系統;

          Stratosphere :通用集群計算框架;

          Streamdrill :用于計算基于不同時間窗口的事件流的活動,并找到最活躍的一個;

          Tuktu :易于使用的用于分批處理和流計算的平臺,通過Scala、 Akka和Play所建;

          Twitter Scalding:基于Cascading,用于Map Reduce工作的Scala庫;

          Twitter Summingbird :在Twitter上使用Scalding和Storm串流MapReduce;

          Twitter TSAR :Twitter上的時間序列聚合器。

          分布式文件系統

          Apache HDFS:在多臺機器上存儲大型文件的方式;

          BeeGFS:以前是FhGFS,并行分布式文件系統;

          Ceph Filesystem:設計的軟件存儲平臺;

          Disco DDFS:分布式文件系統;

          Facebook Haystack:對象存儲系統;

          Google Colossus:分布式文件系統(GFS2);

          Google GFS:分布式文件系統;

          Google Megastore:可擴展的、高度可用的存儲;

          GridGain:兼容GGFS、Hadoop內存的文件系統;

          Lustre file system:高性能分布式文件系統;

          Quantcast File System QFS:開源分布式文件系統;

          Red Hat GlusterFS:向外擴展的附網存儲(Network-attached Storage)文件系統;

          Seaweed-FS:簡單的、高度可擴展的分布式文件系統;

          Alluxio:以可靠的存儲速率在跨集群框架上文件共享;

          Tahoe-LAFS:分布式云存儲系統;

          文件數據模型

          Actian Versant:商用的面向對象數據庫管理系統;

          Crate Data:是一個開源的大規模可擴展的數據存儲,需要零管理模式;

          Facebook Apollo:Facebook的Paxos算法,類似于NoSQL數據庫;

          jumboDB:基于Hadoop的面向文檔的數據存儲;

          LinkedIn Espresso:可橫向擴展的面向文檔的NoSQL數據存儲;

          MarkLogic:模式不可知的企業版NoSQL數據庫技術;

          MongoDB:面向文檔的數據庫系統;

          RavenDB:一個事務性的,開源文檔數據庫;

          RethinkDB:支持連接查詢和群組依據等查詢的文檔型數據庫。

          Key Map 數據模型

          注意:業內存在一些術語混亂,有兩個不同的東西都叫做“列式數據庫”。這里列出的有一些是圍繞“key-map”數據模型而建的分布式、持續型數據庫,其中所有的數據都有(可能綜合了)鍵,并與映射中的鍵-值對相關聯。在一些系統中,多個這樣的值映射可以與鍵相關聯,并且這些映射被稱為“列族”(具有映射值的鍵被稱為“列”)。

          另一組也可稱為“列式數據庫”的技術因其存儲數據的方式而有別于前一組,它在磁盤上或在存儲器中——而不是以傳統方式,即所有既定鍵的鍵值都相鄰著、逐行存儲。這些系統也彼此相鄰來存儲所有列值,但是要得到給定列的所有值卻不需要以前那么繁復的工作。

          前一組在這里被稱為“key map數據模型”,這兩者和Key-value 數據模型之間的界限是相當模糊的。后者對數據模型有更多的存儲格式,可在列式數據庫中列出。若想了解更多關于這兩種模型的區分,可閱讀Daniel Abadi的博客:Distinguishing two major types of Column Stores。

          Apache Accumulo:內置在Hadoop上的分布式鍵/值存儲;

          Apache Cassandra:由BigTable授權,面向列的分布式數據存儲;

          Apache HBase:由BigTable授權,面向列的分布式數據存儲;

          Facebook HydraBase:Facebook所開發的HBase的衍化品;

          Google BigTable:面向列的分布式數據存儲;

          Google Cloud Datastore:為完全管理型的無模式數據庫,用于存儲在BigTable上非關系型數據;

          Hypertable:由BigTable授權,面向列的分布式數據存儲;

          InfiniDB:通過MySQL的接口訪問,并使用大規模并行處理進行并行查詢;

          Tephra:用于HBase處理;

          Twitter Manhattan:Twitter的實時、多租戶分布式數據庫

          很多初學者,對大數據的概念都是模糊不清的,大數據是什么,能做什么,學的時候,該按照什么線路去學習,學完往哪方面發展,想深入了解加QQ群740041381,有大量干貨(零基礎以及進階的經典實戰)分享給大家,并且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系

          鍵-值數據模型

          Aerospike:支持NoSQL的閃存優化,數據存儲在內存。開源,“’C'(不是Java或Erlang)中的服務器代碼可精確地調整從而避免上下文切換和內存拷貝”。

          Amazon DynamoDB:分布式鍵/值存儲,Dynamo論文的實現;

          Edis:為替代Redis的協議兼容的服務器;

          ElephantDB:專門研究Hadoop中數據導出的分布式數據庫;

          EventStore:分布式時間序列數據庫;

          GridDB:適用于存儲在時間序列中的傳感器數據;

          LinkedIn Krati:簡單的持久性數據存儲,擁有低延遲和高吞吐量;

          Linkedin Voldemort:分布式鍵/值存儲系統;

          Oracle NoSQL Database:Oracle公司開發的分布式鍵值數據庫;

          Redis:內存中的鍵值數據存儲;

          Riak:分散式數據存儲;

          Storehaus:Twitter開發的異步鍵值存儲的庫;

          Tarantool:一個高效的NoSQL數據庫和Lua應用服務器;

          TiKV:由Google Spanner和HBase授權,Rust提供技術支持的分布式鍵值數據庫;

          TreodeDB:可復制、共享的鍵-值存儲,能提供多行原子寫入。

          圖形數據模型

          Apache Giraph:基于Hadoop的Pregel實現;

          Apache Spark Bagel:可實現Pregel,為Spark的一部分;

          ArangoDB:多層模型分布式數據庫;

          DGraph:一個可擴展的、分布式、低時延、高吞吐量的圖形數據庫,旨在為Google生產水平規模和吞吐量提供足夠的低延遲,用于TB級的結構化數據的實時用戶查詢;

          Facebook TAO:TAO是facebook廣泛用來存儲和服務于社交圖形的分布式數據存儲;

          GCHQ Gaffer:GCHQ中的Gaffer是一個易于存儲大規模圖形的框架,其中節點和邊緣都有統計數據;

          Google Cayley:開源圖形數據庫;

          Google Pregel :圖形處理框架;

          GraphLab PowerGraph:核心C ++ GraphLab API和建立在GraphLab API之上的高性能機器學習和數據挖掘工具包的集合;

          GraphX:Spark中的彈性分布式圖形系統;

          Gremlin:圖形追蹤語言;

          Infovore:以RDF為中心的Map / Reduce框架;

          Intel GraphBuilder:在Hadoop上構建大規模圖形的工具;

          MapGraph:用于在GPU上大規模并行圖形處理;

          Neo4j:完全用Java寫入的圖形數據庫;

          OrientDB:文檔和圖形數據庫;

          Phoebus:大型圖形處理框架;

          Titan:建于Cassandra的分布式圖形數據庫;

          Twitter FlockDB:分布式圖形數據庫。

          NewSQL數據庫

          Actian Ingres:由商業支持,開源的SQL關系數據庫管理系統;

          Amazon RedShift:基于PostgreSQL的數據倉庫服務;

          BayesDB:面向統計數值的SQL數據庫;

          CitusDB:通過分區和復制橫向擴展PostgreSQL;

          Cockroach:可擴展、地址可復制、交易型的數據庫;

          Datomic:旨在產生可擴展、靈活的智能應用的分布式數據庫;

          FoundationDB:由F1授意的分布式數據庫;

          Google F1:建立在Spanner上的分布式SQL數據庫;

          Google Spanner:全球性的分布式半關系型數據庫;

          H-Store:是一個實驗性主存并行數據庫管理系統,用于聯機事務處理(OLTP)應用的優化;

          Haeinsa:基于Percolator,HBase的線性可擴展多行多表交易庫;

          HandlerSocket:MySQL/MariaDB的NoSQL插件;

          InfiniSQL:無限可擴展的RDBMS;

          MemSQL:內存中的SQL數據庫,其中有優化的閃存列存儲;

          NuoDB:SQL / ACID兼容的分布式數據庫;

          Oracle TimesTen in-Memory Database:內存中具有持久性和可恢復性的關系型數據庫管理系統;

          Pivotal GemFire XD:內存中低延時的分布式SQL數據存儲,可為內存列表數據提供SQL接口,在HDFS中較持久化;

          SAP HANA:是在內存中面向列的關系型數據庫管理系統;

          SenseiDB:分布式實時半結構化的數據庫;

          Sky:用于行為數據的靈活、高性能分析的數據庫;

          SymmetricDS:用于文件和數據庫同步的開源軟件;

          Map-D:為GPU內存數據庫,也為大數據分析和可視化平臺;

          TiDB:TiDB是分布式SQL數據庫,基于谷歌F1的設計靈感;

          VoltDB:自稱為最快的內存數據庫。

          列式數據庫

          注意:請在鍵-值數據模型 閱讀相關注釋。

          Columnar Storage:解釋什么是列存儲以及何時會需要用到它;

          Actian Vector:面向列的分析型數據庫;

          C-Store:面向列的DBMS;

          MonetDB:列存儲數據庫;

          Parquet:Hadoop的列存儲格式;

          Pivotal Greenplum:專門設計的、專用的分析數據倉庫,類似于傳統的基于行的工具,提供了一個列式工具;

          Vertica:用來管理大規模、快速增長的大量數據,當用于數據倉庫時,能夠提供非常快的查詢性能;

          Google BigQuery :谷歌的云產品,由其在Dremel的創始工作提供支持;

          Amazon Redshift :亞馬遜的云產品,它也是基于柱狀數據存儲后端。

          時間序列數據庫

          Cube:使用MongoDB來存儲時間序列數據;

          Axibase Time Series Database:在HBase之上的分布式時間序列數據庫,它包括內置的Rule Engine、數據預測和可視化;

          Heroic:基于Cassandra和Elasticsearch的可擴展的時間序列數據庫;

          InfluxDB:分布式時間序列數據庫;

          Kairosdb:類似于OpenTSDB但會考慮到Cassandra;

          OpenTSDB:在HBase上的分布式時間序列數據庫;

          Prometheus:一種時間序列數據庫和服務監測系統;

          Newts:一種基于Apache Cassandra的時間序列數據庫。

          類SQL處理

          Actian SQL for Hadoop:高性能交互式的SQL,可訪問所有的Hadoop數據;

          Apache Drill:由Dremel授意的交互式分析框架;

          Apache HCatalog:Hadoop的表格和存儲管理層;

          Apache Hive:Hadoop的類SQL數據倉庫系統;

          Apache Optiq:一種框架,可允許高效的查詢翻譯,其中包括異構性及聯合性數據的查詢;

          Apache Phoenix:Apache Phoenix 是 HBase 的 SQL 驅動;

          Cloudera Impala:由Dremel授意的交互式分析框架;

          Concurrent Lingual:Cascading中的類SQL查詢語言;

          Datasalt Splout SQL:用于大數據集的完整的SQL查詢工具;

          Facebook PrestoDB:分布式SQL查詢工具;

          Google BigQuery:交互式分析框架,Dremel的實現;

          Pivotal HAWQ:Hadoop的類SQL的數據倉庫系統;

          RainstorDB:用于存儲大規模PB級結構化和半結構化數據的數據庫;

          Spark Catalyst:用于Spark和Shark的查詢優化框架;

          SparkSQL:使用Spark操作結構化數據;

          Splice Machine:一個全功能的Hadoop上的SQL RDBMS,并帶有ACID事務;

          Stinger:用于Hive的交互式查詢;

          Tajo:Hadoop的分布式數據倉庫系統;

          Trafodion:為企業級的SQL-on-HBase針對大數據的事務或業務工作負載的解決方案。

          數據攝取

          Amazon Kinesis:大規模數據流的實時處理;

          Apache Chukwa:數據采集系統;

          Apache Flume:管理大量日志數據的服務;

          Apache Kafka:分布式發布-訂閱消息系統;

          Apache Sqoop:在Hadoop和結構化的數據存儲區之間傳送數據的工具;

          Cloudera Morphlines:幫助 Solr、HBase和HDFS完成ETL的框架;

          Facebook Scribe:流日志數據聚合器;

          Fluentd:采集事件和日志的工具;

          Google Photon:實時連接多個數據流的分布式計算機系統,具有高可擴展性和低延遲性;

          Heka:開源流處理軟件系統;

          HIHO:用Hadoop連接不同數據源的框架;

          Kestrel:分布式消息隊列系統;

          LinkedIn Databus:對數據庫更改捕獲的事件流;

          LinkedIn Kamikaze:壓縮已分類整型數組的程序包;

          LinkedIn White Elephant:日志聚合器和儀表板;

          Logstash:用于管理事件和日志的工具;

          Netflix Suro:像基于Chukwa 的Storm和Samza一樣的日志聚合器;

          Pinterest Secor:是實現Kafka日志持久性的服務;

          Linkedin Gobblin:LinkedIn的通用數據攝取框架;

          Skizze:是一種數據存儲略圖,使用概率性數據結構來處理計數、略圖等相關的問題;

          StreamSets Data Collector:連續大數據采集的基礎設施,可簡單地使用IDE。

          服務編程

          Akka Toolkit:JVM中分布性、容錯事件驅動應用程序的運行時間;

          Apache Avro:數據序列化系統;

          Apache Curator:Apache ZooKeeper的Java庫;

          Apache Karaf:在任何OSGi框架之上運行的OSGi運行時間;

          Apache Thrift:構建二進制協議的框架;

          Apache Zookeeper:流程管理集中式服務;

          Google Chubby:一種松耦合分布式系統鎖服務;

          Linkedin Norbert:集群管理器;

          OpenMPI:消息傳遞框架;

          Serf:服務發現和協調的分散化解決方案;

          Spotify Luigi:一種構建批處理作業的復雜管道的Python包,它能夠處理依賴性解析、工作流管理、可視化、故障處理、命令行一體化等等問題;

          Spring XD:數據攝取、實時分析、批量處理和數據導出的分布式、可擴展系統;

          Twitter Elephant Bird:LZO壓縮數據的工作庫;

          Twitter Finagle:JVM的異步網絡堆棧。

          調度

          Apache Aurora:在Apache Mesos之上運行的服務調度程序;

          Apache Falcon:數據管理框架;

          Apache Oozie:工作流作業調度程序;

          Chronos:分布式容錯調度;

          Linkedin Azkaban:批處理工作流作業調度;

          Schedoscope:Hadoop作業敏捷調度的Scala DSL;

          Sparrow:調度平臺;

          Airflow:一個以編程方式編寫、調度和監控工作流的平臺。

          機器學習

          Apache Mahout:Hadoop的機器學習庫;

          brain:JavaScript中的神經網絡;

          Cloudera Oryx:實時大規模機器學習;

          Concurrent Pattern:Cascading的機器學習庫;

          convnetjs:Javascript中的機器學習,在瀏覽器中訓練卷積神經網絡(或普通網絡);

          Decider:Ruby中靈活、可擴展的機器學習;

          ENCOG:支持多種先進算法的機器學習框架,同時支持類的標準化和處理數據;

          etcML:機器學習文本分類;

          Etsy Conjecture:Scalding中可擴展的機器學習;

          Google Sibyl:Google中的大規模機器學習系統;

          GraphLab Create:Python的機器學習平臺,包括ML工具包、數據工程和部署工具的廣泛集合;

          很多初學者,對大數據的概念都是模糊不清的,大數據是什么,能做什么,學的時候,該按照什么線路去學習,學完往哪方面發展,想深入了解加QQ群740041381,有大量干貨(零基礎以及進階的經典實戰)分享給大家,并且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系

          H2O:Hadoop統計性的機器學習和數學運行時間;

          MLbase:用于BDAS堆棧的分布式機器學習庫;

          MLPNeuralNet:針對iOS和Mac OS X的快速多層感知神經網絡庫;

          MonkeyLearn:使文本挖掘更為容易,從文本中提取分類數據;

          nupic:智能計算的Numenta平臺,它是一個啟發大腦的機器智力平臺,基于皮質學習算法的精準的生物神經網絡;

          PredictionIO:建于Hadoop、Mahout和Cascading上的機器學習服務器;

          SAMOA:分布式流媒體機器學習框架;

          scikit-learn:scikit-learn為Python中的機器學習;

          Spark MLlib:Spark中一些常用的機器學習(ML)功能的實現;

          Vowpal Wabbit:微軟和雅虎發起的學習系統;

          WEKA:機器學習軟件套件;

          BidMach:CPU和加速GPU的機器學習庫。

          基準測試

          Apache Hadoop Benchmarking:測試Hadoop性能的微基準;

          Berkeley SWIM Benchmark:現實大數據工作負載基準測試;

          Intel HiBench:Hadoop基準測試套件;

          PUMA Benchmarking:MapReduce應用的基準測試套件;

          Yahoo Gridmix3:雅虎工程師團隊的Hadoop集群基準測試。

          安全性

          Apache Knox Gateway:Hadoop集群安全訪問的單點;

          Apache Sentry:存儲在Hadoop的數據安全模塊。

          系統部署

          Apache Ambari:Hadoop管理的運作框架;

          Apache Bigtop:Hadoop生態系統的部署框架;

          Apache Helix:集群管理框架;

          Apache Mesos:集群管理器;

          Apache Slider:一種YARN應用,用來部署YARN中現有的分布式應用程序;

          Apache Whirr:運行云服務的庫集;

          Apache YARN:集群管理器;

          Brooklyn:用于簡化應用程序部署和管理的庫;

          Buildoop:基于Groovy語言,和Apache BigTop類似;

          Cloudera HUE:和Hadoop進行交互的Web應用程序;

          Facebook Prism:多數據中心復制系統;

          Google Borg:作業調度和監控系統;

          Google Omega:作業調度和監控系統;

          Hortonworks HOYA:可在YARN上部署HBase集群的應用;

          Marathon:用于長期運行服務的Mesos框架。

          應用程序

          Adobe spindle:使用Scala、Spark和Parquet處理的下一代web分析;

          Apache Kiji:基于HBase,實時采集和分析數據的框架;

          Apache Nutch:開源網絡爬蟲;

          Apache OODT:用于NASA科學檔案中數據的捕獲、處理和共享;

          Apache Tika:內容分析工具包;

          Argus:時間序列監測和報警平臺;

          Countly:基于Node.js和MongoDB,開源的手機和網絡分析平臺;

          Domino:運行、規劃、共享和部署模型——沒有任何基礎設施;

          Eclipse BIRT:基于Eclipse的報告系統;

          Eventhub:開源的事件分析平臺;

          Hermes:建于Kafka上的異步消息代理;

          HIPI Library:在Hadoop’s MapReduce上執行圖像處理任務的API;

          Hunk:Hadoop的Splunk分析;

          Imhotep:大規模分析平臺;

          MADlib:RDBMS的用于數據分析的數據處理庫;

          Kylin:來自eBay的開源分布式分析工具;

          PivotalR:Pivotal HD / HAWQ和PostgreSQL中的R;

          Qubole:為自動縮放Hadoop集群,內置的數據連接器;

          Sense:用于數據科學和大數據分析的云平臺;

          SnappyData:用于實時運營分析的分布式內存數據存儲,提供建立在Spark單一集成集群中的數據流分析、OLTP(聯機事務處理)和OLAP(聯機分析處理);

          Snowplow:企業級網絡和事件分析,由Hadoop、Kinesis、Redshift 和Postgres提供技術支持;

          SparkR:Spark的R前端;

          Splunk:用于機器生成的數據的分析;

          Sumo Logic:基于云的分析儀,用于分析機器生成的數據;

          Talend:用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的統一開源環境;

          Warp:利用大數據(OS X app)的實例查詢工具。

          搜索引擎與框架

          Apache Lucene:搜索引擎庫;

          Apache Solr:用于Apache Lucene的搜索平臺;

          ElasticSearch:基于Apache Lucene的搜索和分析引擎;

          Enigma.io:為免費增值的健壯性web應用,用于探索、篩選、分析、搜索和導出來自網絡的大規模數據集;

          Facebook Unicorn:社交圖形搜索平臺;

          Google Caffeine:連續索引系統;

          Google Percolator:連續索引系統;

          TeraGoogle:大型搜索索引;

          HBase Coprocessor:為Percolator的實現,HBase的一部分;

          Lily HBase Indexer:快速、輕松地搜索存儲在HBase的任何內容;

          LinkedIn Bobo:完全由Java編寫的分面搜索的實現,為Apache Lucene的延伸;

          LinkedIn Cleo:為一個一個靈活的軟件庫,使得局部、無序、實時預輸入的搜索實現了快速發展;

          LinkedIn Galene:LinkedIn搜索架構;

          LinkedIn Zoie:是用Java編寫的實時搜索/索引系統;

          Sphinx Search Server:全文搜索引擎

          MySQL的分支和演化

          Amazon RDS:亞馬遜云的MySQL數據庫;

          Drizzle:MySQL的6.0的演化;

          Google Cloud SQL:谷歌云的MySQL數據庫;

          MariaDB:MySQL的增強版嵌入式替代品;

          MySQL Cluster:使用NDB集群存儲引擎的MySQL實現;

          Percona Server:MySQL的增強版嵌入式替代品;

          ProxySQL:MySQL的高性能代理;

          TokuDB:用于MySQL和 MariaDB的存儲引擎;

          WebScaleSQL:運行MySQL時面臨類似挑戰的幾家公司,它們的工程師之間的合作。

          PostgreSQL的分支和演化

          Yahoo Everest – multi-peta-byte database / MPP derived by PostgreSQL.

          HadoopDB:MapReduce和DBMS的混合體;

          IBM Netezza:高性能數據倉庫設備;

          Postgres-XL:基于PostgreSQL,可擴展的開源數據庫集群;

          RecDB:完全建立在PostgreSQL內部的開源推薦引擎;

          Stado:開源MPP數據庫系統,只針對數據倉庫和數據集市的應用程序;

          Yahoo Everest:PostgreSQL可以推導多字節P比特數據庫/MPP。

          Memcached的分支和演化

          Facebook McDipper:閃存的鍵/值緩存;

          Facebook Memcached:Memcache的分支;

          Twemproxy:Memcached和Redis的快速、輕型代理;

          Twitter Fatcache:閃存的鍵/值緩存;

          Twitter Twemcache:Memcache的分支。

          嵌入式數據庫

          Actian PSQL:Pervasive Software公司開發的ACID兼容的DBMS,在應用程序中嵌入了優化;

          BerkeleyDB:為鍵/值數據提供一個高性能的嵌入式數據庫的一個軟件庫;

          HanoiDB:Erlang LSM BTree存儲;

          LevelDB:谷歌寫的一個快速鍵-值存儲庫,它提供了從字符串鍵到字符串值的有序映射;

          LMDB:Symas開發的超快、超緊湊的鍵-值嵌入的式數據存儲;

          RocksDB:基于性LevelDB,用于快速存儲的嵌入式持續性鍵-值存儲。

          商業智能

          BIME Analytics:商業智能云平臺;

          Chartio:精益業務智能平臺,用于可視化和探索數據;

          datapine:基于云的自助服務商業智能工具;

          Jaspersoft:功能強大的商業智能套件;

          Jedox Palo:定制的商業智能平臺;

          Microsoft:商業智能軟件和平臺;

          Microstrategy:商業智能、移動智能和網絡應用軟件平臺;

          Pentaho:商業智能平臺;

          Qlik:商業智能和分析平臺;

          Saiku:開源的分析平臺;

          SpagoBI:開源商業智能平臺;

          Tableau:商業智能平臺;

          Zoomdata:大數據分析;

          Jethrodata:交互式大數據分析。

          數據可視化

          Airpal:用于PrestoDB的網頁UI;

          Arbor:利用網絡工作者和jQuery的圖形可視化庫;

          Banana:對存儲在Kibana中Solr. Port的日志和時戳數據進行可視化;

          Bokeh:一個功能強大的Python交互式可視化庫,它針對要展示的現代web瀏覽器,旨在為D3.js風格的新奇的圖形提供優雅簡潔的設計,同時在大規模數據或流數據集中,通過高性能交互性來表達這種能力;

          C3:基于D3可重復使用的圖表庫;

          CartoDB:開源或免費增值的虛擬主機,用于帶有強大的前端編輯功能和API的地理空間數據庫;

          chartd:只帶Img標簽的反應靈敏、兼容Retina的圖表;

          Chart.js:開源的HTML5圖表可視化效果;

          Chartist.js:另一個開源HTML5圖表可視化效果;

          Crossfilter:JavaScript庫,用于在瀏覽器中探索多元大數據集,用Dc.js和D3.js.效果很好;

          Cubism:用于時間序列可視化的JavaScript庫;

          Cytoscape:用于可視化復雜網絡的JavaScript庫;

          DC.js:維度圖表,和Crossfilter一起使用,通過D3.js呈現出來,它比較擅長連接圖表/附加的元數據,從而徘徊在D3的事件附近;

          D3:操作文件的JavaScript庫;

          D3.compose:從可重復使用的圖表和組件構成復雜的、數據驅動的可視化;

          D3Plus:一組相當強大的可重用的圖表,還有D3.js的樣式;

          Echarts:百度企業場景圖表;

          Envisionjs:動態HTML5可視化;

          FnordMetric:寫SQL查詢,返回SVG圖表,而不是表;

          Freeboard:針對IOT和其他Web混搭的開源實時儀表盤構建;

          Gephi:屢獲殊榮的開源平臺,可視化和操縱大型圖形和網絡連接,有點像Photoshop,但是針對于圖表,適用于Windows和Mac OS X;

          Google Charts:簡單的圖表API;

          Grafana:石墨儀表板前端、編輯器和圖形組合器;

          Graphite:可擴展的實時圖表;

          Highcharts:簡單而靈活的圖表API;

          IPython:為交互式計算提供豐富的架構;

          Kibana:可視化日志和時間標記數據;

          Matplotlib:Python繪圖;

          Metricsgraphic.js:建立在D3之上的庫,針對時間序列數據進行最優化;

          NVD3:d3.js的圖表組件;

          Peity:漸進式SVG條形圖,折線和餅圖;

          Plot.ly:易于使用的Web服務,它允許快速創建從熱圖到直方圖等復雜的圖表,使用圖表Plotly的在線電子表格上傳數據進行創建和設計;

          Plotly.js:支持plotly的開源JavaScript圖形庫;

          Recline:簡單但功能強大的庫,純粹利用JavaScript和HTML構建數據應用;

          Redash:查詢和可視化數據的開源平臺;

          Shiny:針對R的Web應用程序框架;

          Sigma.js:JavaScript庫,專門用于圖形繪制;

          Vega:一個可視化語法;

          Zeppelin:一個筆記本式的協作數據分析;

          Zing Charts:用于大數據的JavaScript圖表庫。

          物聯網和傳感器

          TempoIQ:基于云的傳感器分析;

          2lemetry:物聯網平臺;

          Pubnub:數據流網絡;

          ThingWorx:ThingWorx 是讓企業快速創建和運行互聯應用程序平臺;

          IFTTT:IFTTT 是一個被稱為 “網絡自動化神器” 的創新型互聯網服務,它的全稱是 If this then that,意思是“如果這樣,那么就那樣”;

          Evrythng:Evrythng則是一款真正意義上的大眾物聯網平臺,使得身邊的很多產品變得智能化。

          文章推薦

          NoSQL Comparison(NoSQL 比較)- Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison;

          Big Data Benchmark(大數據基準)- Redshift, Hive, Shark, Impala and Stiger/Tez的基準;

          The big data successor of the spreadsheet(電子表格的大數據繼承者) – 電子表格的繼承者應該是大數據。

          論文

          2015 – 2016

          2015 – Facebook – One Trillion Edges: Graph Processing at Facebook-Scale.(一兆邊:Facebook規模的圖像處理)

          2013 – 2014

          2014 – Stanford – Mining of Massive Datasets.(海量數據集挖掘)

          2013 – AMPLab – Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. (Presto:稀疏矩陣的分布式機器學習和圖像處理)

          2013 – AMPLab – MLbase: A Distributed Machine-learning System. (MLbase:分布式機器學習系統)

          2013 – AMPLab – Shark: SQL and Rich Analytics at Scale. (Shark: 大規模的SQL 和豐富的分析)

          2013 – AMPLab – GraphX: A Resilient Distributed Graph System on Spark. (GraphX:基于Spark的彈性分布式圖計算系統)

          2013 – Google – HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. (HyperLogLog實踐:一個藝術形態的基數估算算法)

          2013 – Microsoft – Scalable Progressive Analytics on Big Data in the Cloud.(云端大數據的可擴展性漸進分析)

          2013 – Metamarkets – Druid: A Real-time Analytical Data Store. (Druid:實時分析數據存儲)

          2013 – Google – Online, Asynchronous Schema Change in F1.(F1中在線、異步模式的轉變)

          2013 – Google – F1: A Distributed SQL Database That Scales. (F1: 分布式SQL數據庫)

          2013 – Google – MillWheel: Fault-Tolerant Stream Processing at Internet Scale.(MillWheel: 互聯網規模下的容錯流處理)

          2013 – Facebook – Scuba: Diving into Data at Facebook. (Scuba: 深入Facebook的數據世界)

          2013 – Facebook – Unicorn: A System for Searching the Social Graph. (Unicorn: 一種搜索社交圖的系統)

          2013 – Facebook – Scaling Memcache at Facebook. (Facebook 對 Memcache 伸縮性的增強)

          2011 – 2012

          2012 – Twitter – The Unified Logging Infrastructure for Data Analytics at Twitter. (Twitter數據分析的統一日志基礎結構)

          2012 – AMPLab –Blink and It’s Done: Interactive Queries on Very Large Data. (Blink及其完成:超大規模數據的交互式查詢)

          2012 – AMPLab –Fast and Interactive Analytics over Hadoop Data with Spark. (Spark上 Hadoop數據的快速交互式分析)

          2012 – AMPLab –Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. (Shark:使用粗粒度的分布式內存快速數據分析)

          2012 – Microsoft –Paxos Replicated State Machines as the Basis of a High-Performance Data Store. (Paxos的復制狀態機——高性能數據存儲的基礎)

          2012 – Microsoft –Paxos Made Parallel. (Paxos算法實現并行)

          2012 – AMPLab – BlinkDB:BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.(超大規模數據中有限誤差與有界響應時間的查詢)

          2012 – Google –Processing a trillion cells per mouse click.(每次點擊處理一兆個單元格)

          2012 – Google –Spanner: Google’s Globally-Distributed Database.(Spanner:谷歌的全球分布式數據庫)

          2011 – AMPLab –Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.(Scarlett:應對MapReduce集群中的偏向性內容)

          2011 – AMPLab –Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.(Mesos:數據中心中細粒度資源共享的平臺)

          2011 – Google –Megastore: Providing Scalable, Highly Available Storage for Interactive Services.(Megastore:為交互式服務提供可擴展,高度可用的存儲)

          2001 – 2010

          2010 – Facebook – Finding a needle in Haystack: Facebook’s photo storage.(探究Haystack中的細微之處:Facebook圖片存儲)

          2010 – AMPLab – Spark: Cluster Computing with Working Sets.(Spark:工作組上的集群計算)

          2010 – Google – Storage Architecture and Challenges.(存儲架構與挑戰)

          2010 – Google – Pregel: A System for Large-Scale Graph Processing.(Pregel: 一種大型圖形處理系統)

          2010 – Google – Large-scale Incremental Processing Using Distributed Transactions and Noti?cations base of Percolator and Caffeine.(使用基于Percolator 和 Caffeine平臺分布式事務和通知的大規模增量處理)

          2010 – Google – Dremel: Interactive Analysis of Web-Scale Datasets.(Dremel: Web規模數據集的交互分析)

          2010 – Yahoo – S4: Distributed Stream Computing Platform.(S4:分布式流計算平臺)

          2009 – HadoopDB:An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.(混合MapReduce和DBMS技術用于分析工作負載的的架構)

          2008 – AMPLab – Chukwa: A large-scale monitoring system.(Chukwa: 大型監控系統)

          2007 – Amazon – Dynamo: Amazon’s Highly Available Key-value Store.(Dynamo: 亞馬遜的高可用的關鍵價值存儲)

          2006 – Google – The Chubby lock service for loosely-coupled distributed systems.(面向松散耦合的分布式系統的鎖服務)

          2006 – Google – Bigtable: A Distributed Storage System for Structured Data.(Bigtable: 結構化數據的分布式存儲系統)

          2004 – Google – MapReduce: Simplied Data Processing on Large Clusters.(MapReduce: 大型集群上簡化數據處理)

          2003 – Google – The Google File System.(谷歌文件系統)

          視頻

          數據可視化

          數據可視化之美

          Noah Iliinsky的數據可視化設計

          Hans Rosling’s 200 Countries, 200 Years, 4 Minutes

          文重點關注如何充分利用HTML5和CSS讓web app運行更加流暢。

          Tip 1: 使用web storage代替cookie

          cookie最大的缺陷是在每一次HTTP請求中都會攜帶所有符合規則的cookie數據.這會增加請求響應時間,特別是XHR請求. 在HTML5中使用sessionStorage和localStorage代替cookie是更好的做法.

          這另種方法可以將數據永久或者以session時間存儲在用戶本地.數據不會隨著HTTP請求傳遞.所以我們優先使用web storage,僅僅使用cookie作為替代方案.

          // if localStorage is present, use that if (('localStorage' in window) && window.localStorage !==null) { // easy object property API localStorage.wishlist='["unicorn", "Narwhal", "deathbear"]'; } else { // without sessionStorage we'll have to use a far-future cookie // with document.cookie's awkward API var date=new Date; date.setTime(date.getTime + (365 * 24 * 60 * 60 * 1000)); var expires=date.toGMTString; var cookiestr='wishlist=["unicorn", "Narwhal", "deathbear"];' + ' expires=' + expires + '; path=/'; document.cookie=cookiestr; }

          Tip 2: 使用CSS Transition代替JavaScript動畫

          CSS Transition能帶來更高的性能,更少的代碼,更容易維護和理解.

          Tip 3: 使用客戶端數據庫代替服務器請求

          Web SQL Database和IndexedDB讓瀏覽器有了數據庫存儲能力.很多應用場景可以遷移到客戶端數據庫以減少服務器的請求次數.

          localStorage和sessionStorage在簡單數據存儲時比客戶端數據庫更快,可以用來實現一些簡單的狀態,進度保存.

          當一個組件需要管理上百條數據(如好友列表),同時支持用戶搜索, 過濾, 排序時, 客戶端數據庫存儲一份數據可以有效減少HTTP請求次數. 查看Web SQL Database tutorial獲取詳細指導.

          Tip 4: 使用JavaScript原生API

          隨著更高版本JavaScript的普及, 像Array prototype新增了很多API都可以在大多數瀏覽器中直接使用.例如:

          // give me a new array of all values multiplied by 10 [5, 6, 7, 8, 900].map(function (value) { return value * 10; }); // [50, 60, 70, 80, 9000] // create links to specs and drop them into #links. var linksList=document.querySelector('#links'); var links=; ['html5', 'css3', 'webgl'].forEach(function (value) { links.push(value.link('http://google.com/search?btnI=1&q=' + value + ' spec')); }); linksList.innerHTML=links.join(''); // return a new array of all mathematical constants under 2 [3.14, 2.718, 1.618].filter(function (number) { return number < 2; }); // you can also use these extras on other collections link nodeLists .forEach.call(document.querySelectorAll('section[data-bucket]'), function (elem, i) { localStorage['bucket' + i]=elem.getAttribute('data-bucket'); });

          通常情況下這些原生方法比手動編寫循環要快:

          • for (var i=0, len=arr.length; i < len; ++i) {}

          使用原生JSON.parse比json2.js更加高效,安全.

          原生的String.prototype.trim也是一個很好的例子, 這些功能不是HTML5中的,也應該得到廣泛的應用.

          Tip 5: 不僅僅為離線app使用cache manifest,在線網站網站也可以適當使用

          后臺管理系統這樣的站點使用緩存可以極大提高性能.

          cache manifest比設置Expires有一些優勢:明確地聲明需要緩存的文件,瀏覽器可以進行優化,可能在你使用之前就已經提前下載到本地了.

          可以將頁面基本結構看做模板, 顯示的內容隨著數據變化, 將可模板化的HTML結構通過cache.manifest進行緩存, 從服務器端獲取JSON數據之后更新內容.

          Tip 6: enable硬件加速來增強視覺體驗

          某些瀏覽器可能使用GPU加速讓高速動畫更加平滑.Firefox Minefield, IE9, Safari已經宣稱實現了硬件加速. Chromium也增加了window平臺的3D transform加速.各個瀏覽器對硬件加速的支持肯定會越來越好.

          在支持并啟動了硬件加速的情況下, 動畫, rotation, scaling, opacity肯定會更加平滑. 所有實際操作都發生在GPU而不需要內容的重繪. 然而需要注意的是,任何影響頁面布局的操作都會降低速度.

          Tip 7: 使用web worker執行需要大量CPU資源的操作

          web worker有兩個好處:

          1) 快速;

          2) 不阻塞瀏覽器響應。

          幾年來,電視行業有著翻天覆地的變化,技術井噴式的發展帶來了電視外觀、畫質、功能等方面均的突破,但是對消費者來說,不管你的外觀多漂亮,畫質多清晰,體驗才是最重要的,沒有好的體驗怎么能帶來樂趣呢?

          今年年初,三星電子推出的三星曲面SUHD傲世超高清系列電視除了出眾的外觀設計、超高清的畫質,在體驗上同樣有著不可比擬的優勢,他到底有哪些出眾的地方,現在,編輯就為你解讀。

          三星曲面SUHD傲世超高清系列電視出色體驗離不開其采用全新獨有的Tizen系統,該系統是三星搭建傳統家電和互聯網生態體系基礎,其開放性的系統平臺不僅在UI上表現的更為直觀、易用,還支持開發電視APP的web標準,并且可以和三星的生活家電乃至移動設備間橫跨,優化了SMART TV 界面,將手機、PAD內容推送到電視機上的過程也簡單化、自動化,一鍵便可輕松實現,更多人性化的功能設置以及簡單的操作,非常方便。

          而Tizen 系統和安卓一樣屬于基于 Linux 的開源系統,可以靈活使用,允許多種應用開發,支持應用運行 HTML5 以及類似的網頁技術,允許應用跨多設備類別使用,但相對安卓系統電視來說,三星曲面SUHD傲世超高清系列的Tizen 系統界面更簡潔、安全性更高,用戶體驗更好。

          三星獨有的Tizen 系統經過技術革新,和上一代的Smart Hub相比,操作更為簡單,UI界面更清晰,極致精簡的全新三星Tizen 系統用戶界面只有一級界面,在屏幕下方會顯示用戶最近使用的程序,并通過定制化內容建議為用戶提供更多娛樂選擇。

          而系統中的同步開機早報功能,讓我們的早晨起床變得更簡單,通過三星電視個性化的同步開機早報就能輕松查看時間、日期,新聞和天氣,還可以與智能手機設置同步工作,并會自動開機顯示一天的日程。

          電視能否得到市場的認可,成為消費者親睞的產品,離不開它的體驗,三星曲面SUHD傲世超高清系列電視在這方面表現卓越,全新的Tizen 系統讓電視成為時尚新鮮的生活元素,時刻吸引著人去探索、發現。

          了解更多,登陸三星官網:

          http://www.samsung.com/cn/consumer/tv-audio-video/televisions/filter/

          歡迎在新浪微博上關注我們

          掃一掃!獎品周周抽

          評論

          * 網友發言均非本站立場,本站不在評論欄推薦任何網店、經銷商,謹防上當受騙!


          主站蜘蛛池模板: 日本福利一区二区| 亚洲中文字幕一区精品自拍| 99久久精品日本一区二区免费| 无码人妻av一区二区三区蜜臀| 无码一区二区三区视频| 久久人妻内射无码一区三区| 久久久久人妻精品一区蜜桃| 无码丰满熟妇一区二区| 国产精品 视频一区 二区三区| 午夜DV内射一区二区| 蜜桃无码AV一区二区| 精品福利一区3d动漫| 日韩AV在线不卡一区二区三区 | 国精产品一区一区三区免费视频 | 亚洲日韩国产一区二区三区在线| 精品国产一区二区三区av片| 大伊香蕉精品一区视频在线| 无码人妻一区二区三区免费手机| 亚洲一区二区精品视频| 最美女人体内射精一区二区| 在线观看国产一区二三区| 精品一区二区三区水蜜桃| 天天视频一区二区三区| 在线精品亚洲一区二区三区| 亚洲AV成人一区二区三区在线看| 日韩精品久久一区二区三区| 国产成人精品日本亚洲专一区 | 一区二区三区四区精品| 中文字幕永久一区二区三区在线观看 | 国产视频一区在线播放| 亚洲AV日韩AV天堂一区二区三区| 国产精品视频一区二区猎奇| 无码国产精品一区二区免费虚拟VR| 国产在线精品一区在线观看| 国产精品夜色一区二区三区| 亚洲国产成人一区二区三区 | 成人欧美一区二区三区在线视频| 日韩一区二区三区无码影院| 亚洲av乱码一区二区三区按摩| 国产一区二区在线视频| 亚洲av成人一区二区三区在线观看 |