地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:[email protected]
新的工具捆綁了數(shù)據(jù)清理,,拖放式編程以及云計算,,可以幫助任何熟悉電子表格的人充分利用數(shù)據(jù)科學(xué)的力量,。
數(shù)據(jù)科學(xué)可能從來都不是那么容易的,,但它正變得越來越容易深入,。像"機器學(xué)習(xí)",、"回歸"和"降維"這樣的術(shù)語雖然依然和以往一樣難以理解,,但是人們正普遍希望能夠從這些技術(shù)中獲得好處,,這導(dǎo)致產(chǎn)生了一些很好的工具,,它們可以方便的為數(shù)據(jù)創(chuàng)建生產(chǎn)線,為我們想要尋找的答案提供支持,。
這個秘密就類似于制造業(yè)的革命,。正如標準化的部件幫助啟動了工業(yè)革命一樣,各種工具供應(yīng)商的數(shù)據(jù)科學(xué)家已經(jīng)開發(fā)了一系列非常強大,、擁有廣泛適應(yīng)性的分析例程,。他們標準化了接口,,使得使用這些可互換的數(shù)據(jù)科學(xué)工具來構(gòu)建自定義管道變得更加簡單了。
數(shù)據(jù)科學(xué)家過去常常需要絞盡腦汁,,因為80%的工作都是通過用Python,,Java或他們喜歡的語言來制作自定義例程并準備分析數(shù)據(jù)的,所以R或SASS中那些復(fù)雜的統(tǒng)計工具都可以完成它們的工作,。而現(xiàn)在市場上充斥著各種復(fù)雜的工具,,它們將數(shù)百個經(jīng)過良好設(shè)計的例程捆綁到了一個包中,以便為你完成大量重復(fù)且令人不快的數(shù)據(jù)清理和標準化工作,。
這些新工具也為熟悉電子表格的人提供了機會,。它們不會讓所有的準備工作都消失,但它們會讓事情變得更加容易,。無需對數(shù)據(jù)格式大驚小怪,,因為這些工具足夠聰明,可以做正確的事情,。通常你只要打開文件就可以開始學(xué)習(xí)了,。
這些工具還為云計算節(jié)省了大量成本。過去,,數(shù)據(jù)科學(xué)家往往需要更強大的計算機來處理大數(shù)據(jù)集,。而現(xiàn)在我們可以在云中租用更大、更快的機器,,在提高處理速度的同時在每月報表完成時將硬件返回到池中,,從而節(jié)省成本。
對于只需要訓(xùn)練算法來預(yù)測明年趨勢的核心數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師來說,,這些工具都是一個福音,。所有用戶都可以享受使用復(fù)雜工具來正確處理數(shù)據(jù)的樂趣。不過,,標準化也為全新的研究團隊深入研究數(shù)據(jù)科學(xué)提供了可能?,F(xiàn)在,你不需要掌握R語言或Python編程就可以開始了,。
當(dāng)然,,我們?nèi)匀恍枰钊胨伎冀y(tǒng)計學(xué)和機器學(xué)習(xí)。這些工具雖然還不能回答關(guān)于什么情況下使用神經(jīng)網(wǎng)絡(luò)或聚類算法能夠獲得更好結(jié)果的策略性問題,,但是它們可以使獲取所有數(shù)據(jù)變得簡單,,并快速嘗試這兩種方法。當(dāng)每個人能夠更容易的參與工業(yè)革命時,,正如標準化消除了長期學(xué)徒和熟練工匠的需求一樣,,這些數(shù)據(jù)工具也釋放出了越來越多的企業(yè)人員轉(zhuǎn)向復(fù)雜的數(shù)據(jù)分析以尋求進一步指導(dǎo)的潛力。
以下是有助于使數(shù)據(jù)科學(xué)實現(xiàn)民主化的六種工具,。
Alteryx Alteryx平臺的核心是它的設(shè)計工具,,一個可視化編程IDE,,允許用戶拖放圖標,而不是輸入文本程序,。Alteryx平臺的目標用戶既包括數(shù)據(jù)科學(xué)家,,也包括了普通的"公民用戶",很好的迎合了那些不想在清理數(shù)據(jù)和修改數(shù)據(jù)以進行分析的細節(jié)方面遇到麻煩的人,。該平臺試圖通過使用其可視化的編程模型來簡化準備工作以"顛覆數(shù)據(jù)準備中的80/20法則",。你只要將圖標拖放到數(shù)據(jù)管道中的正確位置,它就可以應(yīng)用許多標準化的任務(wù),,比如按客戶編號來實現(xiàn)分組或連接兩個文件,。
Alteryx還提供了許多用于分析數(shù)據(jù)和繪圖推斷的預(yù)定義預(yù)測模型。這些看起來像是用于數(shù)據(jù)處理的圖標,,實際上都是相應(yīng)的R或Python程序,,Alteryx為你省去了處理它們的復(fù)雜性和基于文本編碼的麻煩。在設(shè)計工具中,,數(shù)據(jù)會自己沿著圖標之間的直線流動,,你不需要擔(dān)心逗號、方括號或其他的編碼問題,。
現(xiàn)在,,Alteryx平臺正朝著一個更多的以服務(wù)器驅(qū)動的模式發(fā)展,在這個模型中,,你構(gòu)建的代碼將駐留在一個可以擴展到更大數(shù)據(jù)集的服務(wù)器上,。如果你的數(shù)據(jù)需要增強,Alteryx也已經(jīng)從Dun & Bradstreet或DigitalGlob等公司獲得了商業(yè)數(shù)據(jù)集授權(quán),,可以幫你自動填寫表格。
當(dāng)你在個人PC上完成模型的設(shè)計時,,Alteryx也提供了將模型發(fā)布到中央服務(wù)器的基礎(chǔ)設(shè)施,,然后將圖形化摘要分發(fā)給業(yè)務(wù)中的每一個人。Promote工具會負責(zé)將日常生產(chǎn)數(shù)據(jù)分發(fā)給企業(yè)中合適的人員,,以便他們能夠使用預(yù)測建模的結(jié)果,。
這款設(shè)計工具的標價是每位用戶每年5195美元,但是如果想要使用附加的功能,,比如包含人口統(tǒng)計數(shù)據(jù)或空間數(shù)據(jù)的數(shù)據(jù)集,,則可能會增加33,800美元,。中央服務(wù)器的起價為58,,500美元,此外,,Promote還提供了用于協(xié)作和連接的額外功能,。
Domino Domino也是圍繞實驗室開始的一個可視化集成開發(fā)環(huán)境(IDE),,能夠通過將圖標和管道連接在一起來構(gòu)建模型。不同之處在于Domino也對其他工具開放,。所有主要的和不太重要的基于Web的IDE都受到了支持,,因為系統(tǒng)設(shè)計為所有這些IDE都進行了開放。大多數(shù)人可能會使用Jupyter或R-Studio,,但其他工具,,如Apache Zeppelin或SAS的工具也都得到了很好的支持。
Domino大部分的功能都致力于將數(shù)據(jù)轉(zhuǎn)換為模型所需的所有基礎(chǔ)設(shè)施,。Domino的后端會仔細跟蹤各種版本的數(shù)據(jù)以及在此過程中的所有修訂和實驗,。所有這些變更都會被無情地保存并鏈接到結(jié)果當(dāng)中,以確保你可以隨時重新運行和復(fù)制結(jié)果,。它非常強調(diào)存儲查詢的準確再現(xiàn),,以便其他人可以在稍后發(fā)現(xiàn)并重用該工作。
與單一平臺相比,,Domino更像是一個基于Web的云網(wǎng)絡(luò)操作系統(tǒng),。該平臺的開放性依賴于一種相對標準的機制,用于將數(shù)據(jù)存儲在文件中并保持修訂的一致性,。幸運的是,,磁盤存儲比以往任何時候都要更加便宜。
Domino的主要賣點之一是它的云集成,。你的實驗將運行在與他人共享的強大機器池中,。如果你碰巧希望將自己的代碼部署到堆棧中,那么底層體系結(jié)構(gòu)將完全圍繞Docker來進行封裝和構(gòu)建,。你可以為你的作業(yè)配置最佳大小,,并從池中借用硬件,這對于數(shù)據(jù)科學(xué)工作來說是一個很好的解決方案,,這些工作通常是斷斷續(xù)續(xù)的,,并且在代碼準備好時以塊的形式進行分派。這是一個很好的解決方案,,特別適用于那些在每周,、每月或每季度數(shù)據(jù)準備就緒時才會進行批量處理大部分計算的情況。
Domino的定價是"根據(jù)Domino所運行的位置(我們的托管基礎(chǔ)設(shè)施,、你的私有云或內(nèi)部環(huán)境)而定的年度訂閱",。云選項將根據(jù)所消耗的資源對你進行收費。
RapidMiner RapidMiner是一個將數(shù)據(jù)轉(zhuǎn)換為可操作模型的自動化程度更高的工具,。它的IDE允許用戶將數(shù)據(jù)轉(zhuǎn)換構(gòu)建為由線來連接的圖標集合的可視化描述,。最有用的部分可能是其AutoModel功能,它可以根據(jù)你的數(shù)據(jù)和目標為你組裝許多這樣的圖標,。完成之后,,你就可以打開模型并調(diào)整各個部分了,。
有大量的擴展可以用來幫助你處理許多更奇特的挑戰(zhàn),比如理解從網(wǎng)站上下載下來的非結(jié)構(gòu)化文本,。還有許多用于處理時間序列數(shù)據(jù)的工具,,例如用于重建丟失的數(shù)據(jù)元素以及形成(和測試)對未來的預(yù)測的工具。
如果你的數(shù)據(jù)集較大,,RapidMiner也可以滿足你的需求,。那些擁有并行解決方案的人可以使用RapidMiner的擁有Hadoop和Hive集成的版本"Radoop"。還有一個基于服務(wù)器的解決方案,,可以從AWS,,Azure或您自己的本地服務(wù)器配置云計算機?;诜?wù)器的生態(tài)系統(tǒng)促進了與集中的數(shù)據(jù)和分析存儲庫的協(xié)作,,這些數(shù)據(jù)和分析可以安排在生產(chǎn)中交付報告和見解。
每種產(chǎn)品的定價模型都是獨立的,。桌面版有一個免費的社區(qū)版,,但它缺少兩個最吸引人的特性:用于清理數(shù)據(jù)的TurboPrep和用于生成結(jié)果的AutoModel。一個初級版本的價格為每位用戶每年2,,500美元起,,該版本的數(shù)據(jù)行數(shù)限制為100,000行,。更大的數(shù)據(jù)集和部署更多處理器的能力則需要更高的成本,。在辦公場所安裝自己版本的服務(wù)器工具起價為15,000美元,,但你也可以在RapidMiner的云版本上購買使用時間,,起價為每小時6.75美元。
Knime Knime是一個開源的數(shù)據(jù)分析平臺,,具有一個可視化的IDE,,可以將各種數(shù)據(jù)處理和分析例程鏈接在一起。其核心軟件是免費發(fā)布的,,但是一些插件和擴展也有相應(yīng)的商業(yè)版本,,并且費用主要用于支持開發(fā),。你還可以使用在云中或你自己的計算機上運行的服務(wù)器版本,。
該軟件的基礎(chǔ)是用Java編寫的,所以Knime的許多集成都依賴于Java生態(tài)系統(tǒng),。用戶也許會注意到Knime IDE是構(gòu)建在Eclipse之上的,,這使得Java開發(fā)人員可能會更加熟悉它。該平臺可以處理所有主要的數(shù)據(jù)庫(MySQL,,PostgreSQL)和云服務(wù)Amazon Athena,,Redshift)中的數(shù)據(jù)以及任何其他具有JDBC兼容連接器的數(shù)據(jù),。Knime提供了一個與"數(shù)據(jù)庫內(nèi)處理"特別緊密的集成,這可以加速你的工作,。它還集成了下一代的分布式數(shù)據(jù)工具,,如Apache Spark。
它擁有一個強大的開源社區(qū)以支持大量的擴展和工作流程,,可以自由使用,,修改和定制,其大多數(shù)代碼托管在GitHub或Bitbucket上,。此外,,它還有大量的商業(yè)擴展,并提供集成支持,。
那些嚴重依賴Google Web應(yīng)用程序的公司也可能會喜歡更深層次的集成,。Knime可以讀取和寫入Google表格中的數(shù)據(jù),這也是一種將數(shù)據(jù)分析引入經(jīng)常使用Google電子表格的辦公室的潛在有效方式,。
其企業(yè)服務(wù)器產(chǎn)品有三種規(guī)格,,包括了不同的額外功能。初級版本支持5個用戶和8個核心,,每年8500美元起,,主要針對分析團隊。而高級版本則允許你將結(jié)果分發(fā)給組織內(nèi)的其他人,。
Talend Talend提供了一系列可以在桌面,、本地數(shù)據(jù)中心或云中運行的應(yīng)用程序。該公司的多層工具可以在轉(zhuǎn)換數(shù)據(jù)并進行分析之前使用,,它會從各個倉庫和數(shù)據(jù)庫中收集數(shù)據(jù),。例如,管道設(shè)計器提供了一個可視化設(shè)計工具,,用于從各種數(shù)據(jù)源提取數(shù)據(jù),,然后可以使用標準工具或Python擴展對其進行分析。
其開源版本可以在幾個包中免費獲得,,比如open Studio for Data Quality和Stitch數(shù)據(jù)加載器,。云計算版本的起售價為每位用戶每月1,170美元,,年度用戶和規(guī)模更大的團隊也可享受折扣,。價格是按人數(shù)計算的,而不是基于消耗的計算資源,。而Data Fabric的定價則是通過報價來完成的,。
Looker Looker瞄準的是那些常因太多數(shù)據(jù)源和太多數(shù)據(jù)版本而引起混亂的用戶。它的產(chǎn)品創(chuàng)建了一個可靠精確的、受版本控制的數(shù)據(jù)來源,,可以由下游的任何用戶操縱和繪制圖表,。從業(yè)務(wù)用戶到后端開發(fā)人員,每個人都可以創(chuàng)建自己的儀表板,,其中可以包含根據(jù)個人喜好配置的數(shù)據(jù)和圖表,。 該平臺是圍繞著開源世界的許多標準而構(gòu)建的。數(shù)據(jù)和代碼可以在Git的控制下發(fā)展,。儀表板可視化則來自D3,。你可以使用LookML來從SQL數(shù)據(jù)庫中收集數(shù)據(jù),LookML是一種類似于常規(guī)命令式編程語言的自定義查詢語言,。
谷歌最近宣布將收購Looker并將其集成到谷歌云中,。這次收購將如何影響該平臺還有待觀察。其價格可按要求進行提供,。
其他能夠使數(shù)據(jù)更容易訪問的工具 上述工具并不是改變我們處理數(shù)據(jù)方式的唯一選擇,。一些其他的工具和平臺也在集成類似的想法。主要的云計算公司也都提供了分析存儲系統(tǒng)中數(shù)據(jù)的工具,。例如,,Azure的Databricks提供了用于配置Apache Spark的靈活用戶界面,而Data Factory則提供了一個用于提取,,轉(zhuǎn)換和加載所有數(shù)據(jù)的可視化工具,。
一些工具會更側(cè)重于機器學(xué)習(xí)和其他形式的人工智能。亞馬遜的SageMaker簡化了構(gòu)建,、培訓(xùn)和部署機器學(xué)習(xí)流程的工作,,在一個開放的市場上提供了100多種算法和模型。H20.ai則提供了他們所謂的"無人駕駛AI",,這是一個使用Apache Spark構(gòu)建的開源平臺,,可以用來簡化模型創(chuàng)建和分析。
以上這些都集中在了一組工具集上,,這些工具可以提升我們探索數(shù)據(jù)的能力,,讓我們更清楚地理解所有數(shù)字的含義。
來源:精密空調(diào) http://kugq.cn