初探Azure Synapse
Azure之類的超大規(guī)模云服務(wù)旨在處理大量數(shù)據(jù),在購買存儲硬件時會利用其規(guī)模經(jīng)濟(jì)優(yōu)勢。 他們與Bing和Google等搜索引擎的密切關(guān)系使他們可以基于為分析公共互聯(lián)網(wǎng)而開發(fā)的算法和工具。 兩者的結(jié)合使它們成為構(gòu)建需要處理海量數(shù)據(jù)集的應(yīng)用程序的理想平臺,而這在您自己的數(shù)據(jù)中心中是無法實現(xiàn)的。
自成立之初,Microsoft就在Azure上提供了一系列數(shù)據(jù)和分析服務(wù),從其自己的SQL數(shù)據(jù)庫(該數(shù)據(jù)庫很快成為了熟悉的SQL Server的云托管版本)開始,添加了HDInsight for Hadoop和其他Apache數(shù)據(jù)服務(wù),以及提供了一個大型數(shù)據(jù)湖,可讓您混合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。 直到最近,這些服務(wù)中的大多數(shù)還是獨(dú)立的,并且如果您想將它們組合在一起,則需要構(gòu)建自己的分析工具。 在Ignite 2019上 ,Microsoft將Azure現(xiàn)有的SQL數(shù)據(jù)倉庫作為Azure Synapse進(jìn)行了發(fā)布 ,重新組織和重新命名,從而增加了對Apache Spark及其自己的Studio開發(fā)和分析工具的支持。
引入Azure Synapse
Azure Synapse 不僅僅是對現(xiàn)有產(chǎn)品的品牌重塑 ,其重點是將Azure的許多數(shù)據(jù)分析功能集成到單個服務(wù)中。 與傳統(tǒng)的數(shù)據(jù)倉庫不同,它支持混合的關(guān)系數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),同時仍然允許您使用現(xiàn)有的SQL技能來建立和測試分析模型,并基于Azure SQL的PolyBase大數(shù)據(jù)查詢引擎。 由于它使用內(nèi)存中的列存儲,因此它快速高效,這是使用云服務(wù)使用模型時的重要功能。
Synapse與其他數(shù)據(jù)倉庫產(chǎn)品的不同之處在于其源于Azure SQL的hyperscale選項 。 它使用Microsoft稱為“數(shù)據(jù)倉庫單元”的群集,而不是由單個計算節(jié)點處理所有查詢。 這些獨(dú)立于基礎(chǔ)存儲的查詢計算,使Synapse可以采用海量數(shù)據(jù)并行方法來處理您的查詢。 每個數(shù)據(jù)倉庫單元都具有計算和自定義應(yīng)用程序,即數(shù)據(jù)移動服務(wù),該應(yīng)用程序跨節(jié)點并與Azure存儲一起使用,以確保在正確的節(jié)點中可獲得正確的數(shù)據(jù)。 肯定很快。 Ignite的一個演示將其與30 PB數(shù)據(jù)集上的Google Big Query進(jìn)行了比較,并顯示Synapse的速度提高了75倍。
這種架構(gòu)也有價格優(yōu)勢。 與Azure的Paas功能一樣,它基本上是無服務(wù)器的,可以按需旋轉(zhuǎn),并在不再需要時暫停。 這樣,您只需為用于運(yùn)行查詢和基礎(chǔ)存儲的計算付費(fèi),并根據(jù)需要添加更多計算以進(jìn)行更復(fù)雜的分析。
Azure Synapse SQL池入門
為Azure Synapse創(chuàng)建新的SQL池遵循與Azure數(shù)據(jù)倉庫相同的路徑。 首先在Azure門戶中創(chuàng)建新的SQL數(shù)據(jù)倉庫資源。 這使您可以創(chuàng)建具有登錄名和密碼的新服務(wù)器。 選擇性能級別將選擇默認(rèn)服務(wù)器類型,該服務(wù)器類型將設(shè)置池的計算成本。 一旦配置好并設(shè)置了適當(dāng)?shù)姆阑饓σ?guī)則,您就可以通過選擇SQL Server管理工具開始對其進(jìn)行管理。 查詢是使用熟悉的T-SQL方言構(gòu)建的。 您可以使用PolyBase 將Azure blob存儲中的數(shù)據(jù)加載到臨時表中,該臨時表用于構(gòu)建生產(chǎn)表,然后將這些表用于查詢。
如果您更喜歡使用Apache Spark分析數(shù)據(jù),則該平臺將與Apache Spark而不是SQL一起使用。 這種方法為您提供了額外的靈活性,使您可以為問題選擇合適的工具。
如果您有現(xiàn)有的Azure SQL數(shù)據(jù)倉庫實例,則可以在Azure Synapse中運(yùn)行它,從而為使用關(guān)系數(shù)據(jù)和非關(guān)系數(shù)據(jù)的復(fù)雜數(shù)據(jù)集提供了更多選擇。 有趣的是,Microsoft承諾與Open Data Initiative源進(jìn)行集成,其中應(yīng)包括對Adobe的Marketing Cloud,SAP以及Microsoft自己的Dynamics平臺中數(shù)據(jù)的支持。 Microsoft正在計劃用于其他數(shù)據(jù)源(包括第三方)的連接器。
在Synapse Studio中構(gòu)建查詢
Synapse Studio是新的組合分析平臺的關(guān)鍵元素。 它充當(dāng)一個單一的窗格,用于構(gòu)建,測試和查看查詢結(jié)果。 您可以將其與代碼一起使用,也可以不與代碼一起使用,在運(yùn)行查詢和構(gòu)建報告之前選擇并選擇不同的表和源。 可以將同一工具與一次性查詢一起使用,以幫助解決特定問題,也可以構(gòu)建重復(fù)查詢,這些重復(fù)查詢可以使用Azure Data Factory進(jìn)行自動化 ,在其中您需要獲取各種數(shù)據(jù)源的常規(guī)報告。
一個有用的功能是Azure Synapse與Power BI的集成。 數(shù)據(jù)分析師可以使用Azure Synapse構(gòu)建可以移交給業(yè)務(wù)分析師的模型,后者可以使用Power BI的可視化分析工具來構(gòu)建和運(yùn)行自己的查詢,以尋找與自己的興趣相關(guān)的結(jié)果。 這種方法減少了找到特定業(yè)務(wù)問題答案的時間,因為數(shù)據(jù)團(tuán)隊無需在業(yè)務(wù)分析師完善其查詢的同時不斷重建模型并運(yùn)行昂貴的分析流程。 Power BI集成將確保可以將使用機(jī)器學(xué)習(xí)和其他Azure服務(wù)的預(yù)建查詢內(nèi)置到執(zhí)行人員儀表板中,以近乎實時地訪問關(guān)鍵業(yè)務(wù)指標(biāo)。
從分析到機(jī)器學(xué)習(xí)
訪問諸如Azure Synapse中的大型數(shù)據(jù)存儲可以幫助訓(xùn)練您自己的機(jī)器學(xué)習(xí)模型。 Synapse的Studio開發(fā)工具包括一個類似于Jupyter Notebook的草圖板,用于在Azure機(jī)器學(xué)習(xí)管道中使用新模型之前對其進(jìn)行構(gòu)建和測試。 支持R統(tǒng)計數(shù)據(jù)探索語言以及機(jī)器學(xué)習(xí)的主要工具Python。
Microsoft將Azure Synapse描述為“ PB級”平臺。 我們中的大多數(shù)人都不需要以這種規(guī)模工作,但是以這種規(guī)模提供結(jié)果的工具可以與較小的數(shù)據(jù)集以及來自IoT設(shè)備的流數(shù)據(jù)同樣有效地工作。 Microsoft建議使用Azure Synapse處理超過1TB的數(shù)據(jù),最小數(shù)據(jù)集大小為250GB。
借助Azure Synapse能夠以相對較小的規(guī)模啟動并快速擴(kuò)展,以及與數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師以及數(shù)據(jù)庫倉庫專家共享數(shù)據(jù)倉庫中的數(shù)據(jù)的能力,使其成為其他內(nèi)部部署和內(nèi)部部署的有吸引力的替代方案。云分析工具-特別是可以選擇在相同的基礎(chǔ)數(shù)據(jù)集上使用特定于角色的工具。
From: https://www.infoworld.com/article/3489176/a-look-at-azure-synapse.html
總結(jié)
以上是生活随笔為你收集整理的初探Azure Synapse的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GeneXus
- 下一篇: [Android] 隐藏头顶状态栏