地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:[email protected]
當(dāng)數(shù)據(jù)倉庫可以處理非結(jié)構(gòu)化數(shù)據(jù),,而數(shù)據(jù)湖可以運行分析時,組織如何決定使用哪種方法?這取決于其需要采用數(shù)據(jù)回答新問題的頻率。
傳統(tǒng)上,,數(shù)據(jù)倉庫收集來自組織業(yè)務(wù)的所有結(jié)構(gòu)化數(shù)據(jù),因此組織可以將其集成到單個數(shù)據(jù)模型中,,運行分析并獲取商業(yè)智能,,無論是用于開發(fā)新產(chǎn)品還是向客戶營銷現(xiàn)有服務(wù)。這曾經(jīng)被稱為"大數(shù)據(jù)",,但現(xiàn)在所有組織都擁有來自電子商務(wù)網(wǎng)站,、物聯(lián)網(wǎng)設(shè)備和傳感器等來源的大量數(shù)據(jù),因此現(xiàn)代數(shù)據(jù)倉庫需要處理結(jié)構(gòu)化,、非結(jié)構(gòu)化和流媒體數(shù)據(jù),,并提供實時數(shù)據(jù)分析以及商業(yè)智能和報告。
越來越多的組織在云中實現(xiàn)這一目標(biāo),,以實現(xiàn)更高的速度和更低的成本,。微軟Azure公司副總裁Julia White指出,越來越多的數(shù)據(jù)可能已經(jīng)存在于云中,,以及組織想要使用這些數(shù)據(jù)的服務(wù),。White說,"隨著數(shù)據(jù)越來越多地遷移到云端,,無論是來自SaaS應(yīng)用程序還是只遷移到云端的應(yīng)用程序;運營數(shù)據(jù)就在云端,,客戶在詢問'為什么我要將運營數(shù)據(jù)從云端遷回到內(nèi)部部署數(shù)據(jù)中心進(jìn)行分析?它沒有意義。'"他指出,盡管組織內(nèi)部仍然有大量的數(shù)據(jù),,而且隨著邊緣計算的發(fā)展,,還會有更多的數(shù)據(jù),但許多客戶還是會將部分或全部數(shù)據(jù)轉(zhuǎn)移到云平臺上,,這取決于法規(guī)遵從性問題,。
White指出,"每個企業(yè)都在研究人工智能,。他們很快意識到分析是其基礎(chǔ),,他們開始問'我的分析和我的數(shù)據(jù)倉庫的狀態(tài)是什么?',而且往往不夠好,。" Power BI的普及也推動了更多的微軟客戶進(jìn)行云計算分析,。White說,"當(dāng)他們有了這些強大的數(shù)據(jù)可視化功能后,,他們開始質(zhì)疑自己的分析能力——'我想知道數(shù)據(jù)可視化背后發(fā)生了什么:我喜歡Power BI,,我希望我的分析更有趣。"
更復(fù)雜的客戶希望分析他們自己的Office Graph數(shù)據(jù)(組織可以使用Azure Data Factory將其復(fù)制到Azure Data Lake)或利用Microsoft,、Adobe和SAP(基于Azure Data構(gòu)建的)之間的開放數(shù)據(jù)計劃(ODI)數(shù)據(jù)湖并將最終整合來自更多軟件供應(yīng)商的數(shù)據(jù),。White說,"Azure Data Lake與Azure數(shù)據(jù)倉庫緊密結(jié)合,,客戶正在使用Azure數(shù)據(jù)倉庫獲取更多見解,,并在其上構(gòu)建現(xiàn)代數(shù)據(jù)倉庫。"
采用哪種數(shù)據(jù)服務(wù)? 微軟公司擁有一系列看起來有點像數(shù)據(jù)倉庫的云計算服務(wù),,最明顯的是Azure SQL數(shù)據(jù)倉庫或微軟經(jīng)常稱之為的"DW",,但也有Azure數(shù)據(jù)工廠、Azure數(shù)據(jù)湖,、Azure數(shù)據(jù)庫,、Power BI和Azure機器學(xué)習(xí),以及更多打包服務(wù),,如Dynamics 365中的人工智能銷售工具,。
理解它們的方法不僅僅是關(guān)注它們提供的工具,還要關(guān)注它們所服務(wù)的用戶以及它們?nèi)绾螀f(xié)同工作,。這是因為企業(yè)通常擁有的數(shù)據(jù)在多個數(shù)據(jù)存儲中分散,,創(chuàng)建現(xiàn)代數(shù)據(jù)倉庫的第一步是整合所有這些孤島。微軟Azure上的這些不同數(shù)據(jù)存儲越多,,連接就越容易——這也是微軟Azure提供如此多不同數(shù)據(jù)服務(wù)的原因之一,。White表示,"另一方面,,客戶并不是在尋找可以做任何事情的單一工具,,有一系列細(xì)微差別的選擇,,如果真的要挑選,并優(yōu)化自己的場景使用的工具,。" Azure DW適用于處理策劃數(shù)據(jù)的數(shù)據(jù)工程師,。這可能是來自SQL Server數(shù)據(jù)庫的數(shù)據(jù),但它也可能是來自這些數(shù)據(jù)工程師使用Databricks或Spark和.NET從Azure HDInsight等源準(zhǔn)備數(shù)據(jù)的管道構(gòu)建的數(shù)據(jù),。
Azure數(shù)據(jù)工廠是數(shù)據(jù)工程師進(jìn)行數(shù)據(jù)ETL(提取,、轉(zhuǎn)換、加載)的另一項服務(wù),。組織可以將其視為云計算層級ETL工具,,組織可以通過拖放界面(實際上是Logic Apps)或使用Python、Java或.NET SDK(如果組織更喜歡編寫代碼來執(zhí)行)來使用數(shù)據(jù)轉(zhuǎn)換和管理數(shù)據(jù)管道的不同步驟,,通過Databricks或HDInsight,、Azure Data Lake或Power BI。
Power BI還可以使用Dataflows(也是免代碼)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,,但這是為業(yè)務(wù)分析師提供的自助服務(wù)功能,。數(shù)據(jù)工程師或全職商業(yè)智能分析師可能會使業(yè)務(wù)用戶使用這些語義模型,而微軟公司正在將更多與Azure DW的集成添加到Power BI中,。
Power BI用戶可以在其可視化和報告中添加人工智能,。其中一些可能是使用微軟公司預(yù)先構(gòu)建的認(rèn)知服務(wù)來進(jìn)行圖像識別和情感分析。但他們也可能正在使用數(shù)據(jù)工程師在Azure機器學(xué)習(xí)服務(wù)中為他們構(gòu)建的自定義人工智能模型,,并使用所有企業(yè)數(shù)據(jù),。
現(xiàn)代數(shù)據(jù)倉庫匯集了任何規(guī)模的數(shù)據(jù),通過分析儀表板,、運營報告或高級分析提供洞察力,。
數(shù)據(jù)湖附近的倉庫 這些場景的復(fù)雜性就是數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的界限開始在云中看起來有些混亂的原因。傳統(tǒng)的數(shù)據(jù)倉庫允許企業(yè)從多個來源獲取數(shù)據(jù),,并使用ETL轉(zhuǎn)換將該數(shù)據(jù)放入單個模式和單個數(shù)據(jù)模型中,該軟件旨在回答組織計劃一遍又一遍地提出的問題,。
這些來源不必是結(jié)構(gòu)化的關(guān)系數(shù)據(jù):SQL Server和Azure DW中的PolyBase和JSON支持意味著組織可以連接來自非關(guān)系存儲的數(shù)據(jù),,如HDFS、Cosmos DB,、MySQL,、MongoDB以及Oracle、Teradata,、PostgreSQL,。這意味著數(shù)據(jù)倉庫(甚至SQL Server)看起來更像數(shù)據(jù)湖。
通過數(shù)據(jù)湖,,組織可以獲取多個數(shù)據(jù)存儲,,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲,,并以其本機格式或接近該格式的方式存儲它們,因此組織可以擁有多個數(shù)據(jù)模型和多個數(shù)據(jù)模式,,并且能夠靈活地從同一數(shù)據(jù)中問出新問題(用于Azure Data Lake查詢的SQL變體稱為U-SQL,,不僅僅因為它是T-SQL之后的下一個版本,而且因為組織可能需要一個U-boat進(jìn)入數(shù)據(jù)湖,,并找出隱藏在黑暗深處的東西,。) 如果組織有問題需要反復(fù)詢問(例如銷售分析或監(jiān)控儀表板的交付時間),組織可以從數(shù)據(jù)的相關(guān)部分創(chuàng)建數(shù)據(jù)倉庫,。但如果問題隨著時間的推移而發(fā)生變化,,或者組織需要提出新問題,可以返回數(shù)據(jù)湖,,在那里保存原始數(shù)據(jù),,并創(chuàng)建另一個數(shù)據(jù)倉庫來回答這些問題。
這兩者的結(jié)合是微軟公司通過現(xiàn)代數(shù)據(jù)倉庫基礎(chǔ)設(shè)施的意義,。組織可以從不同的地方獲取各種數(shù)據(jù),,在數(shù)據(jù)湖中使用它來進(jìn)行實時分析,或者使用機器學(xué)習(xí)來發(fā)現(xiàn)模式,,告訴組織可以從數(shù)據(jù)中獲得哪些見解,,并將其與熟悉的數(shù)據(jù)相結(jié)合數(shù)據(jù)倉庫工具有效地回答這些問題。
微軟公司沒有為所有這些服務(wù)提供單一服務(wù),。組織可以使用各種Azure服務(wù)執(zhí)行不同的部分,,這意味著組織可以選擇所需的部分,但這也意味著組織需要擁有數(shù)據(jù)專業(yè)知識來構(gòu)建自己的特定系統(tǒng),。
來源:精密空調(diào) http://kugq.cn