国产精品va无码电影_日本真人吸乳视频免费观看_日本欧美亚洲_91视频网络,无码老熟妇乱子伦在线播放,国产毛片网站,一级毛片女人高潮喷水,亚洲美女鲁,鲁,亚洲第一黄色大片,国产第一草草影院,成在人线av无码A片

產(chǎn)品推薦

海瑞思Preciset機房空調
海瑞思Precise系列專為中小型機房設計的機房專用空調Precise...【詳細】
MPS 10-100 kVA UPS
MPS系列UPS設備確保任何類型的負載,,最大限度的保護和電能質...【詳細】

聯(lián)系我們

服務熱線
010-62104284

地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:[email protected]

首頁 > 新聞中心 > 能夠簡化數(shù)據(jù)科學的6種工具

能夠簡化數(shù)據(jù)科學的6種工具

雙擊自動滾屏 發(fā)布者:精密空調 發(fā)布時間:2019-07-03 08:45:32 閱讀:次【字體:

新的工具捆綁了數(shù)據(jù)清理,,拖放式編程以及云計算,,可以幫助任何熟悉電子表格的人充分利用數(shù)據(jù)科學的力量,。

數(shù)據(jù)科學可能從來都不是那么容易的,,但它正變得越來越容易深入,。像"機器學習",、"回歸"和"降維"這樣的術語雖然依然和以往一樣難以理解,,但是人們正普遍希望能夠從這些技術中獲得好處,,這導致產(chǎn)生了一些很好的工具,,它們可以方便的為數(shù)據(jù)創(chuàng)建生產(chǎn)線,為我們想要尋找的答案提供支持,。

這個秘密就類似于制造業(yè)的革命,。正如標準化的部件幫助啟動了工業(yè)革命一樣,,各種工具供應商的數(shù)據(jù)科學家已經(jīng)開發(fā)了一系列非常強大、擁有廣泛適應性的分析例程,。他們標準化了接口,,使得使用這些可互換的數(shù)據(jù)科學工具來構建自定義管道變得更加簡單了。

數(shù)據(jù)科學家過去常常需要絞盡腦汁,,因為80%的工作都是通過用Python,,Java或他們喜歡的語言來制作自定義例程并準備分析數(shù)據(jù)的,所以R或SASS中那些復雜的統(tǒng)計工具都可以完成它們的工作,。而現(xiàn)在市場上充斥著各種復雜的工具,,它們將數(shù)百個經(jīng)過良好設計的例程捆綁到了一個包中,以便為你完成大量重復且令人不快的數(shù)據(jù)清理和標準化工作,。

這些新工具也為熟悉電子表格的人提供了機會,。它們不會讓所有的準備工作都消失,但它們會讓事情變得更加容易,。無需對數(shù)據(jù)格式大驚小怪,,因為這些工具足夠聰明,可以做正確的事情,。通常你只要打開文件就可以開始學習了,。

這些工具還為云計算節(jié)省了大量成本。過去,,數(shù)據(jù)科學家往往需要更強大的計算機來處理大數(shù)據(jù)集,。而現(xiàn)在我們可以在云中租用更大、更快的機器,,在提高處理速度的同時在每月報表完成時將硬件返回到池中,,從而節(jié)省成本。

對于只需要訓練算法來預測明年趨勢的核心數(shù)據(jù)科學家和數(shù)據(jù)分析師來說,,這些工具都是一個福音,。所有用戶都可以享受使用復雜工具來正確處理數(shù)據(jù)的樂趣。不過,,標準化也為全新的研究團隊深入研究數(shù)據(jù)科學提供了可能?,F(xiàn)在,你不需要掌握R語言或Python編程就可以開始了,。

當然,,我們仍然需要深入思考統(tǒng)計學和機器學習。這些工具雖然還不能回答關于什么情況下使用神經(jīng)網(wǎng)絡或聚類算法能夠獲得更好結果的策略性問題,,但是它們可以使獲取所有數(shù)據(jù)變得簡單,,并快速嘗試這兩種方法。當每個人能夠更容易的參與工業(yè)革命時,,正如標準化消除了長期學徒和熟練工匠的需求一樣,,這些數(shù)據(jù)工具也釋放出了越來越多的企業(yè)人員轉向復雜的數(shù)據(jù)分析以尋求進一步指導的潛力,。

以下是有助于使數(shù)據(jù)科學實現(xiàn)民主化的六種工具。

Alteryx Alteryx平臺的核心是它的設計工具,,一個可視化編程IDE,,允許用戶拖放圖標,而不是輸入文本程序,。Alteryx平臺的目標用戶既包括數(shù)據(jù)科學家,,也包括了普通的"公民用戶",很好的迎合了那些不想在清理數(shù)據(jù)和修改數(shù)據(jù)以進行分析的細節(jié)方面遇到麻煩的人,。該平臺試圖通過使用其可視化的編程模型來簡化準備工作以"顛覆數(shù)據(jù)準備中的80/20法則",。你只要將圖標拖放到數(shù)據(jù)管道中的正確位置,它就可以應用許多標準化的任務,,比如按客戶編號來實現(xiàn)分組或連接兩個文件,。

Alteryx還提供了許多用于分析數(shù)據(jù)和繪圖推斷的預定義預測模型。這些看起來像是用于數(shù)據(jù)處理的圖標,,實際上都是相應的R或Python程序,Alteryx為你省去了處理它們的復雜性和基于文本編碼的麻煩,。在設計工具中,,數(shù)據(jù)會自己沿著圖標之間的直線流動,你不需要擔心逗號,、方括號或其他的編碼問題,。

現(xiàn)在,Alteryx平臺正朝著一個更多的以服務器驅動的模式發(fā)展,,在這個模型中,,你構建的代碼將駐留在一個可以擴展到更大數(shù)據(jù)集的服務器上。如果你的數(shù)據(jù)需要增強,,Alteryx也已經(jīng)從Dun & Bradstreet或DigitalGlob等公司獲得了商業(yè)數(shù)據(jù)集授權,,可以幫你自動填寫表格。

當你在個人PC上完成模型的設計時,,Alteryx也提供了將模型發(fā)布到中央服務器的基礎設施,,然后將圖形化摘要分發(fā)給業(yè)務中的每一個人。Promote工具會負責將日常生產(chǎn)數(shù)據(jù)分發(fā)給企業(yè)中合適的人員,,以便他們能夠使用預測建模的結果,。

這款設計工具的標價是每位用戶每年5195美元,但是如果想要使用附加的功能,,比如包含人口統(tǒng)計數(shù)據(jù)或空間數(shù)據(jù)的數(shù)據(jù)集,,則可能會增加33,800美元,。中央服務器的起價為58,,500美元,,此外,Promote還提供了用于協(xié)作和連接的額外功能,。

Domino Domino也是圍繞實驗室開始的一個可視化集成開發(fā)環(huán)境(IDE),,能夠通過將圖標和管道連接在一起來構建模型。不同之處在于Domino也對其他工具開放,。所有主要的和不太重要的基于Web的IDE都受到了支持,,因為系統(tǒng)設計為所有這些IDE都進行了開放。大多數(shù)人可能會使用Jupyter或R-Studio,,但其他工具,,如Apache Zeppelin或SAS的工具也都得到了很好的支持。

Domino大部分的功能都致力于將數(shù)據(jù)轉換為模型所需的所有基礎設施,。Domino的后端會仔細跟蹤各種版本的數(shù)據(jù)以及在此過程中的所有修訂和實驗,。所有這些變更都會被無情地保存并鏈接到結果當中,以確保你可以隨時重新運行和復制結果,。它非常強調存儲查詢的準確再現(xiàn),,以便其他人可以在稍后發(fā)現(xiàn)并重用該工作。

與單一平臺相比,,Domino更像是一個基于Web的云網(wǎng)絡操作系統(tǒng),。該平臺的開放性依賴于一種相對標準的機制,用于將數(shù)據(jù)存儲在文件中并保持修訂的一致性,。幸運的是,,磁盤存儲比以往任何時候都要更加便宜。

Domino的主要賣點之一是它的云集成,。你的實驗將運行在與他人共享的強大機器池中,。如果你碰巧希望將自己的代碼部署到堆棧中,那么底層體系結構將完全圍繞Docker來進行封裝和構建,。你可以為你的作業(yè)配置最佳大小,,并從池中借用硬件,這對于數(shù)據(jù)科學工作來說是一個很好的解決方案,,這些工作通常是斷斷續(xù)續(xù)的,,并且在代碼準備好時以塊的形式進行分派。這是一個很好的解決方案,,特別適用于那些在每周,、每月或每季度數(shù)據(jù)準備就緒時才會進行批量處理大部分計算的情況。

Domino的定價是"根據(jù)Domino所運行的位置(我們的托管基礎設施,、你的私有云或內部環(huán)境)而定的年度訂閱",。云選項將根據(jù)所消耗的資源對你進行收費。

RapidMiner RapidMiner是一個將數(shù)據(jù)轉換為可操作模型的自動化程度更高的工具。它的IDE允許用戶將數(shù)據(jù)轉換構建為由線來連接的圖標集合的可視化描述,。最有用的部分可能是其AutoModel功能,,它可以根據(jù)你的數(shù)據(jù)和目標為你組裝許多這樣的圖標。完成之后,,你就可以打開模型并調整各個部分了,。

有大量的擴展可以用來幫助你處理許多更奇特的挑戰(zhàn),比如理解從網(wǎng)站上下載下來的非結構化文本,。還有許多用于處理時間序列數(shù)據(jù)的工具,,例如用于重建丟失的數(shù)據(jù)元素以及形成(和測試)對未來的預測的工具。

如果你的數(shù)據(jù)集較大,,RapidMiner也可以滿足你的需求,。那些擁有并行解決方案的人可以使用RapidMiner的擁有Hadoop和Hive集成的版本"Radoop"。還有一個基于服務器的解決方案,,可以從AWS,,Azure或您自己的本地服務器配置云計算機?;诜掌鞯纳鷳B(tài)系統(tǒng)促進了與集中的數(shù)據(jù)和分析存儲庫的協(xié)作,,這些數(shù)據(jù)和分析可以安排在生產(chǎn)中交付報告和見解。

每種產(chǎn)品的定價模型都是獨立的,。桌面版有一個免費的社區(qū)版,,但它缺少兩個最吸引人的特性:用于清理數(shù)據(jù)的TurboPrep和用于生成結果的AutoModel。一個初級版本的價格為每位用戶每年2,,500美元起,該版本的數(shù)據(jù)行數(shù)限制為100,,000行,。更大的數(shù)據(jù)集和部署更多處理器的能力則需要更高的成本。在辦公場所安裝自己版本的服務器工具起價為15,,000美元,,但你也可以在RapidMiner的云版本上購買使用時間,起價為每小時6.75美元,。

Knime Knime是一個開源的數(shù)據(jù)分析平臺,,具有一個可視化的IDE,可以將各種數(shù)據(jù)處理和分析例程鏈接在一起,。其核心軟件是免費發(fā)布的,,但是一些插件和擴展也有相應的商業(yè)版本,并且費用主要用于支持開發(fā),。你還可以使用在云中或你自己的計算機上運行的服務器版本,。

該軟件的基礎是用Java編寫的,所以Knime的許多集成都依賴于Java生態(tài)系統(tǒng)。用戶也許會注意到Knime IDE是構建在Eclipse之上的,,這使得Java開發(fā)人員可能會更加熟悉它,。該平臺可以處理所有主要的數(shù)據(jù)庫(MySQL,PostgreSQL)和云服務Amazon Athena,,Redshift)中的數(shù)據(jù)以及任何其他具有JDBC兼容連接器的數(shù)據(jù),。Knime提供了一個與"數(shù)據(jù)庫內處理"特別緊密的集成,這可以加速你的工作,。它還集成了下一代的分布式數(shù)據(jù)工具,,如Apache Spark。

它擁有一個強大的開源社區(qū)以支持大量的擴展和工作流程,,可以自由使用,,修改和定制,其大多數(shù)代碼托管在GitHub或Bitbucket上,。此外,,它還有大量的商業(yè)擴展,并提供集成支持,。

那些嚴重依賴Google Web應用程序的公司也可能會喜歡更深層次的集成,。Knime可以讀取和寫入Google表格中的數(shù)據(jù),這也是一種將數(shù)據(jù)分析引入經(jīng)常使用Google電子表格的辦公室的潛在有效方式,。

其企業(yè)服務器產(chǎn)品有三種規(guī)格,,包括了不同的額外功能。初級版本支持5個用戶和8個核心,,每年8500美元起,,主要針對分析團隊。而高級版本則允許你將結果分發(fā)給組織內的其他人,。

Talend Talend提供了一系列可以在桌面,、本地數(shù)據(jù)中心或云中運行的應用程序。該公司的多層工具可以在轉換數(shù)據(jù)并進行分析之前使用,,它會從各個倉庫和數(shù)據(jù)庫中收集數(shù)據(jù),。例如,管道設計器提供了一個可視化設計工具,,用于從各種數(shù)據(jù)源提取數(shù)據(jù),,然后可以使用標準工具或Python擴展對其進行分析。

其開源版本可以在幾個包中免費獲得,,比如open Studio for Data Quality和Stitch數(shù)據(jù)加載器,。云計算版本的起售價為每位用戶每月1,170美元,,年度用戶和規(guī)模更大的團隊也可享受折扣,。價格是按人數(shù)計算的,,而不是基于消耗的計算資源。而Data Fabric的定價則是通過報價來完成的,。

Looker Looker瞄準的是那些常因太多數(shù)據(jù)源和太多數(shù)據(jù)版本而引起混亂的用戶,。它的產(chǎn)品創(chuàng)建了一個可靠精確的、受版本控制的數(shù)據(jù)來源,,可以由下游的任何用戶操縱和繪制圖表,。從業(yè)務用戶到后端開發(fā)人員,每個人都可以創(chuàng)建自己的儀表板,,其中可以包含根據(jù)個人喜好配置的數(shù)據(jù)和圖表,。 該平臺是圍繞著開源世界的許多標準而構建的。數(shù)據(jù)和代碼可以在Git的控制下發(fā)展,。儀表板可視化則來自D3,。你可以使用LookML來從SQL數(shù)據(jù)庫中收集數(shù)據(jù),LookML是一種類似于常規(guī)命令式編程語言的自定義查詢語言,。

谷歌最近宣布將收購Looker并將其集成到谷歌云中,。這次收購將如何影響該平臺還有待觀察。其價格可按要求進行提供,。

其他能夠使數(shù)據(jù)更容易訪問的工具 上述工具并不是改變我們處理數(shù)據(jù)方式的唯一選擇,。一些其他的工具和平臺也在集成類似的想法。主要的云計算公司也都提供了分析存儲系統(tǒng)中數(shù)據(jù)的工具,。例如,,Azure的Databricks提供了用于配置Apache Spark的靈活用戶界面,而Data Factory則提供了一個用于提取,,轉換和加載所有數(shù)據(jù)的可視化工具,。

一些工具會更側重于機器學習和其他形式的人工智能。亞馬遜的SageMaker簡化了構建,、培訓和部署機器學習流程的工作,,在一個開放的市場上提供了100多種算法和模型。H20.ai則提供了他們所謂的"無人駕駛AI",,這是一個使用Apache Spark構建的開源平臺,可以用來簡化模型創(chuàng)建和分析,。

以上這些都集中在了一組工具集上,,這些工具可以提升我們探索數(shù)據(jù)的能力,讓我們更清楚地理解所有數(shù)字的含義,。

來源:精密空調 http://kugq.cn

?
在線咨詢 電話咨詢