开源大数据周刊-2018年08月10日 第96期
資訊
- 阿里云E-MapReduce新版工作流管理正式上線
新版E-MapReduce工作流管理功能正式發(fā)布上線,工作流調(diào)度和編排是大數(shù)據(jù)開發(fā)的重要場景。此次升級(jí)新增作業(yè)DAG執(zhí)行,作業(yè)臨時(shí)查詢等功能,拖拽編輯工作流節(jié)點(diǎn)等功能,在作業(yè)并行化縮短執(zhí)行時(shí)間,提升了易用性。歡迎了解更多E-MapReduce產(chǎn)品詳情。
- 2018 Gartner全球云存儲(chǔ)魔力象限解讀:阿里云躍升至挑戰(zhàn)者 云存儲(chǔ)催熱數(shù)據(jù)湖
7月外媒披露了最新的Gartner全球云存儲(chǔ)魔力象限,全球前四依然是亞馬遜AWS、微軟Azure、谷歌GCP和阿里云,與去年相比最大變化是,谷歌和阿里云各自躍升了一個(gè)象限,分別躋身領(lǐng)導(dǎo)者和挑戰(zhàn)者象限,這是中國云計(jì)算廠商首次進(jìn)入Gartner云存儲(chǔ)挑戰(zhàn)者象限。
- TensorFlow 版本 1.10.0 發(fā)布
TensorFlow 1.10 預(yù)構(gòu)建二進(jìn)制文件是針對(duì) NCCL 2.2 構(gòu)建的,并且在二進(jìn)制安裝中不再包含 NCCL。使用多個(gè) GPU 和 NCCL 的需要將 NCCL 升級(jí)到 2.2。
技術(shù)
- Flink 在餓了么的應(yīng)用與實(shí)戰(zhàn)
餓了么每天處理的數(shù)據(jù)量60TB數(shù)據(jù),400個(gè)計(jì)算節(jié)點(diǎn)。文章詳細(xì)介紹了Storm,SparkStreaming,Flink 3種流式計(jì)算框架在餓了么的應(yīng)用優(yōu)劣勢(shì)。
- 一種堆外內(nèi)存緩存策略加速數(shù)據(jù)寫OSS
EMR集群中作業(yè)寫數(shù)據(jù)到OSS時(shí),需要先將數(shù)據(jù)緩存在本地,然后再一次性上傳到OSS中。本文介紹了堆外內(nèi)存緩存策略加速數(shù)據(jù)寫OSS的方法。
- 斯坦福開源Weld:高效實(shí)現(xiàn)數(shù)據(jù)分析的端到端優(yōu)化
Weld 是斯坦福大學(xué) DAWN 實(shí)驗(yàn)室的一個(gè)開源項(xiàng)目,在 CIDR 2017 論文中描述了它的初始原型。Weld 用于對(duì)結(jié)合了數(shù)據(jù)科學(xué)庫和函數(shù)的現(xiàn)有工作負(fù)載進(jìn)行優(yōu)化,而無需用戶修改代碼。我們?cè)?VLDB 2018 論文中提出了 Weld 的自適應(yīng)優(yōu)化器,并得出了一些可喜的結(jié)果:通過在 Weld IR 上自動(dòng)應(yīng)用轉(zhuǎn)換可以實(shí)現(xiàn)工作負(fù)載數(shù)量級(jí)的加速。消融研究表明,循環(huán)融合等優(yōu)化具有非常大的影響。本文主要介紹如何使用 Weld 的自適應(yīng)優(yōu)化器進(jìn)行數(shù)據(jù)分析的端到端優(yōu)化。
- NVIDIA研究人員采用128塊Tesla V100 4小時(shí)完成40G文本訓(xùn)練
近日,英偉達(dá)發(fā)表了一篇大規(guī)模語言建模的論文,他們使用 128 塊 GPU 在 4 小時(shí)內(nèi)使得 mLSTM 可以收斂,值得注意的是,他們使用的 Amazon Reviews 數(shù)據(jù)集包含 40GB 的文本,這在以前通常需要花費(fèi)數(shù)周的時(shí)間進(jìn)行訓(xùn)練。這樣的大規(guī)模語言模型能作為一種預(yù)訓(xùn)練模型遷移大量的語言知識(shí),也就是說如果將其應(yīng)用到機(jī)器翻譯、機(jī)器閱讀理解和情感分析等 NLP 任務(wù),數(shù)據(jù)需求量和計(jì)算量都能得到大幅度的降低。
總結(jié)
以上是生活随笔為你收集整理的开源大数据周刊-2018年08月10日 第96期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【星云测试】开发者测试-采用精准测试工具
- 下一篇: js中内置对象Math()常用方法笔记