常見的大數(shù)據(jù)存儲工具
大數(shù)據(jù)需要大存儲
大數(shù)據(jù)是一個包羅萬象的術(shù)語,是傳統(tǒng)數(shù)據(jù)處理軟件無法處理的大量復雜的非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)集。這些數(shù)據(jù)集是從大量資源中生成的,例如大型電子商務、醫(yī)療記錄、圖像和視頻檔案以及購買交易記錄。
大數(shù)據(jù)分析可以揭示關(guān)聯(lián)、趨勢和模式,尤其是與人類互動和行為相關(guān)的。當前有許多專業(yè)設計的硬件和軟件工具可用于大數(shù)據(jù)分析。
從大數(shù)據(jù)中提取有意義的洞察,有助于做出關(guān)鍵的業(yè)務增長決策。因此,大量IT投資用于維護和管理大數(shù)據(jù)。預計到2023年,大數(shù)據(jù)行業(yè)的價值將達到770億美元。不過,要理解大數(shù)據(jù),第一步需要了解的是主流的大數(shù)據(jù)存儲工具。
為什么需要大數(shù)據(jù)存儲工具
到2025年,將需要分析超過150ZB的數(shù)據(jù)。只有擁有能夠大規(guī)模擴展以應對大數(shù)據(jù)挑戰(zhàn)的安全存儲解決方案,組織才能利用大數(shù)據(jù)的力量。大數(shù)據(jù)存儲工具收集和管理大數(shù)據(jù)并實現(xiàn)實時數(shù)據(jù)分析。
一般來說,大數(shù)據(jù)存儲架構(gòu)分為以下幾類:
地理分布的服務器節(jié)點,例如ApacheHadoop模型
數(shù)據(jù)庫框架,例如SQL(NoSQL)
橫向擴展網(wǎng)絡附加存儲(NAS)
存儲區(qū)域網(wǎng)絡(SAN)
固態(tài)硬盤(SSD)陣列
對象存儲
數(shù)據(jù)湖(以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng))
數(shù)據(jù)倉庫
常見的大數(shù)據(jù)存儲工具
ApacheHadoop
ApacheHadoop是一個開源軟件庫,可以使用簡單的編程模型跨計算機集群(稱為節(jié)點)對大型復雜數(shù)據(jù)集進行分布式處理。該框架旨在擴展到數(shù)千個節(jié)點,每個節(jié)點都提供本地計算和存儲。ApacheHadoop旨在檢測和處理應用層的故障,從而在計算機集群之上提供高度可用的服務,每個集群都可能容易出現(xiàn)故障。
ApacheHadoop包括以下模塊:HadoopCommon、Hadoop分布式文件系統(tǒng)(HDFS)、HadoopYetAnotherResourceNegotiator(YARN)和HadoopMapReduce。HadoopCommon是指支持其他Hadoop模塊的通用實用程序和庫。
HDFS提供對在商用硬件上運行的大型復雜數(shù)據(jù)集的高吞吐量訪問。HDFS用于將單個節(jié)點擴展到數(shù)千個節(jié)點。HDFS的目標包括從硬件故障中快速恢復、訪問流數(shù)據(jù)、容納大型復雜數(shù)據(jù)集以及可移植性。
HadoopYARN是一個用于作業(yè)調(diào)度/監(jiān)控和集群資源管理的并行處理框架。
HadoopMapReduce是基于YARN的系統(tǒng),用于并行處理大型復雜數(shù)據(jù)集。
Apache的Hadoop相關(guān)項目包括ZooKeeper、Tez、Submarine、Spark、Pig、Ozone、Mahout、Hive、HBase、Chukwa、Cassandra、Avro和Ambari。
ApacheHBase?
ApacheHBase是一個開源、分布式、版本化的NoSQL數(shù)據(jù)庫,它以Google的Bigtable為模型。它在ApacheHadoop和HDFS之上提供類似于Bigtable的功能。
ApacheHBase的目標是在商用硬件集群上托管大型復雜表(數(shù)十億行和數(shù)百萬列)。HBase提供模塊化和線性可擴展性,提供嚴格統(tǒng)一的讀寫。
NetApp橫向擴展NAS?
NetApp是NAS行業(yè)的先驅(qū)。NetApp橫向擴展NAS可簡化數(shù)據(jù)管理,在降低成本的同時跟上增長的步伐。大數(shù)據(jù)工具在統(tǒng)一架構(gòu)內(nèi)為組織提供無縫的可擴展性、效率提升和無中斷操作。
NetApp橫向擴展NAS由NetAppONTAP企業(yè)數(shù)據(jù)管理軟件提供支持。用戶可以使用StorageGrid自動將冷數(shù)據(jù)分層到私有云或公共云,以最大限度地提高性能層的容量。云層和性能可以合并到一個數(shù)據(jù)池中,從而降低總擁有成本(TCO)。
數(shù)據(jù)可以在邊緣訪問,并且可以跨多個數(shù)據(jù)中心和所有具有集成緩存功能的主要公共云訪問。
ActiveIQ使用人工智能進行IT運營(AIOps)來自動執(zhí)行NetApp環(huán)境的主動優(yōu)化和維護。用戶可以在不影響性能的情況下對存儲進行重復數(shù)據(jù)刪除和壓縮。借助內(nèi)置的數(shù)據(jù)安全性,用戶可以保護敏感的客戶和公司信息,可以在卷級別加密傳輸中的數(shù)據(jù)和數(shù)據(jù),以及安全地清除文件。
用于數(shù)據(jù)湖分析的Snowflake
Snowflake的跨云平臺提供對所有數(shù)據(jù)的快速、可靠和安全的訪問。SnowflakeforDataLakeAnalytics結(jié)合了任何格式的非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù);提供快速可靠的處理和查詢;并實現(xiàn)安全協(xié)作。
大型和復雜的數(shù)據(jù)集可以存儲在Snowflake管理的存儲中,并具有靜態(tài)和傳輸中的加密、自動微分區(qū)和高效壓縮??梢栽趩蝹€平臺上使用所選擇的語言(Scala、Python或Java)支持非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)上的大量工作負載。借助Snowflake的彈性處理引擎,可以運行管道以實現(xiàn)低維護、節(jié)省成本和可靠的性能。
可以使用選擇的語言(SQL、Scala、Python或Java)和Snowpark來簡化管道開發(fā)——無需管理數(shù)據(jù)、服務或集群的額外副本。幾乎無限的專用計算資源可以支持無限數(shù)量的并發(fā)查詢和用戶。使用內(nèi)置的訪問歷史記錄,可以知道誰在訪問哪些數(shù)據(jù)。Snowflake支持利益相關(guān)者之間的協(xié)作,并通過安全、實時的數(shù)據(jù)共享豐富企業(yè)的數(shù)據(jù)湖。借助可擴展的基于行的訪問策略,企業(yè)可以跨云實施行和列級別的安全性。
DatabricksLakehouse平臺?
DatabricksLakehousePlatform結(jié)合了最佳的數(shù)據(jù)湖和數(shù)據(jù)倉庫。大數(shù)據(jù)存儲工具提供數(shù)據(jù)倉庫的性能、強大的治理和可靠性,以及數(shù)據(jù)湖的機器學習(ML)支持、靈活性和開放性。
DatabricksLakehousePlatform來自Koalas、MLflow、DeltaLake和ApacheSpark的原始創(chuàng)建者。企業(yè)可以在一個平臺上統(tǒng)一數(shù)據(jù)倉庫和AI用例。統(tǒng)一的方法消除了傳統(tǒng)上將ML、數(shù)據(jù)科學、商業(yè)智能(BI)和分析分開的孤島。大數(shù)據(jù)工具建立在開源和開放標準之上,以最大限度地提高靈活性。DatabricksLakehousePlatform的通用數(shù)據(jù)治理、安全性和管理方法可幫助企業(yè)更快地進行創(chuàng)新并提高運營效率。
對于大數(shù)據(jù)存儲工具的選擇
大數(shù)據(jù)行業(yè)不斷發(fā)展,并為眾多面向業(yè)務的應用程序提供動力。例如,谷歌和Facebook等科技巨頭利用大數(shù)據(jù)的潛力為用戶提供有針對性的廣告和內(nèi)容。分析大數(shù)據(jù)的第一步是安全存儲。文中僅作為參考,企業(yè)需找到針對自身業(yè)務,能滿足自身需求的大數(shù)據(jù)存儲解決方案。
來源:DOIT傳媒