亚马逊一口气发布了9款机器学习产品
AI前線導讀: 今天,在拉斯維加斯舉行的AWS re:invent進行到第三個日程,大會上,AWS CEO Andy Jassy在主題演講上一口氣做了二十個新發布,其中包括9款機器學習產品!
更多干貨內容請關注微信公眾號“AI前線”(ID:ai-front)
在這9款機器學習產品中,最重磅和引人關注的是將于明年下半年發布的云端機器學習推理芯片Inferentia。此外,其他的機器系學習產品還包括Amazon Elastic Inference、Amazon SageMaker Ground Truth等。下面,AI前線將對這些產品做詳細的介紹。
AWS Inferentia(預告)
本次的機器學習發布之一,專門擅長做推理的芯片,計劃在明年年底發布。
Inferentia旨在降低成本,提高性能,將支持TensorFlow、Apache MXNet和 PyTorch深度學習框架,以及使用ONNX模式的模型,并可用于Amazon SageMaker、Amazon EC2和Amazon Elastic Inference。
使用Amazon Elastic Inference,開發人員可以通過將GPU驅動的推理加速功能附加到Amazon EC2和Amazon SageMaker實例,將推理成本降低75%。據介紹,Inferentia芯片的推理能力達數百個TOPS(每秒tera操作),可以讓復雜的模型進行快速預測,使用多個AWS Inferentia芯片,性能可以提高數千TOPS。
在這里(https://pages.awscloud.com/AWSInferentia-preview.html) 注冊,當Inferentia可用時用戶將接到通知。
Amazon Elastic Inference
本次的機器學習發布之二,GPU深度學習推理加速,可以按需使用GPU資源,號稱能夠節省75%的推理成本。
在大規模模型訓練推理過程中,RAM和CPU的分配可能比推理速度對于一個應用來說更加重要。Elastic Inference 服務可以讓Amazon EC2、SageMaker notebook用例和端點合理配置所需的GPU推理加速能力,加速內置算法和深度學習環境。
Elastic Inference支持主流機器學習框架TensorFlow、Apache MXNet和ONNX (通過MXNet)。用戶無需過多調整代碼,但需要使用AWS優化的構建,這些構建會自動檢測附加到實例的加速器,確保僅允許授權訪問,并在本地CPU資源和連接的加速器之間合理分配計算。這些構建在Amazon S3上的AWS深度學習AMI中可用,因此你可以將其構建到自己的圖像或容器中。
Amazon Elastic Inference有三種類型可供選擇,適用于各種推理模型,包括計算機視覺、自然語言處理和語音識別。
- eia1.medium:混合精度性能達8 TeraFLOP。
- eia1.large:混合精度性能達16 TeraFLOP。
- eia1.xlarge:混合精度性能達32 TeraFLOP。
這樣,用戶可以為自己的應用選擇最具性價比的服務。例如,使用eia1.medium加速配置的c5.large實例每小時費用為0.22美元(us-east-1),僅比p2.xlarge實例慢10-15%。后者使用專用的NVIDIA K80 GPU,每小時費用需要0.90美元(us-east-1)。結論:選擇最適合你的應用實例的同時,可以降低75%的成本,獲得相同的GPU性能。
Amazon SageMaker Ground Truth
本次的機器學習發布之三,為不知道怎么做數據集、或者覺得做數據集太麻煩的開發者而設計,大意是,你可以讓SageMaker幫你自動標記數據,或者委托SageMaker找第三方幫你標記數據,創建高精度數據機,標記成本降低70%。
現在,開發者和數據科學家可以使用大量現成的算法和推理數據集。深度學習讓圖像數據集,如?MNIST,?CIFAR-10?和?ImageNet大受歡迎,更多用于機器翻譯和文本分類任務的數據集也不斷出現。但是,創建數據集是一個復雜的問題,尤其是規模巨大的數據集需要花費大量的時間在數據標記上。
為此,Amazon SageMaker Ground Truth讓用戶可以更精準、高效地標記機器學習系統數據集,包括創建:
- 文本分類。
- 圖像分類,即對特定類別的圖像進行分類。
- 對象檢測,即在具有邊界框的圖像中定位對象。
- 語義分割,即以像素級精度定位圖像中的對象。
- 用戶自定義任務。
Amazon SageMaker Ground Truth可以選擇使用主動學習來自動標記輸入數據。主動學習是一種機器學習技術,可識別需要由人類標記的數據和可由機器標記的數據。自動數據標記會產生Amazon SageMaker訓練和推理成本,但相比手動標記,可以降低成本(高達70%)和標記數據集所需的時間。
當需要手動操作時,你可以選擇雇用擁有超過500,000名員工的亞馬遜土耳其機器人(?Amazon Mechanical Turk?)眾包服務,自己的專業人員,或AWS Marketplace上列出的第三方供應商。
標記數據集需要:
- 將數據存儲在Amazon S3中,
- 組建標記人員團隊
- 創建標簽作業
- 開始工作
- 效果可視化
AWS 機器學習Marketplace
本次的機器學習發布之四。最近年年都有機器學習新算法,哪個好用哪個不好用,一個一個找起來挺費功夫。于是AWS把算法也做成商品放市場里面賣,用戶找起來方便,算法研發人員也有錢賺。
亞馬遜Marketplace上將會提供Machine Learning category商品,包括150+算法和模型包,而且每天會增加新品。
AWS Marketplace為垂直行業提供定制化選擇,如零售(35種產品),媒體(19種產品),制造業(17種產品),HCLS(15種產品)等。客戶可以找到關鍵用例的解決方案,如乳腺癌預測,淋巴瘤分類,再入院,貸款風險預測,車輛識別,零售定位器,僵尸網絡攻擊檢測,汽車遠程信息處理,運動檢測,需求預測和語音識別。
客戶可以在AWS Marketplace中搜索、瀏覽算法和模型包列表。客戶訂購機器學習解決方案后可以直接從SageMaker控制臺,Jupyter筆記本電腦,SageMaker SDK或AWS CLI進行部署。 Amazon SageMaker通過采用靜態掃描,網絡隔離和運行時監控等安全措施來保護買方數據。
算法和模型包工件在傳輸和靜態時受加密保護,以保障AWS Marketplace上的賣方知識產權安全,并使用安全(SSL)連接進行通信,確保基于角色訪問部署工件。AWS為賣家提供了一種安全的方式,可以通過無障礙的自助服務流程發布他們的算法和模型包,將成果變現。
(產品示例)使用和定價
為使用算法或模型包,用戶需要支付訂閱費和AWS資源費。AWS Marketplace將為所有購買的訂閱用戶提供月度帳單。
推出時,AWS 機器學習Marketplace的產品將包括來自Deep Vision AI Inc,Knowledgent,RocketML,Sensifai,Cloudwick Technologies,Persistent Systems,Modjoul,H2Oai Inc,Intel,AWS Gluon Model Zoos和更多定期添加的賣家的產品。如果你有興趣銷售機器學習算法和模型包,請聯系aws-mp-bd-ml@amazon.com。
Amazon SageMaker RL
本次的機器學習發布之五。在監督學習和無監督學習之外,強化學習(reinforcement learning)最近很多人在搞,于是AWS把增強學習的能力也放進了SageMaker。
在2017年的AWS re:Invent?上,亞馬遜發布Amazon SageMaker,幫助用戶快速創建、訓練和部署AI模型。今天,Amazon SageMaker RL 發布,將強化學習拓展到?Amazon SageMaker中,讓沒有機器學習經驗的開發者和數據科學家也可以使用。
Amazon SageMaker RL構建于Amazon SageMaker之上,添加了預先打包的RL工具包,可以輕松集成任何模擬環境。如你所想,訓練和預測基礎架構是完全托管的,因此用戶可以不用管理服務器,專注于RL問題。
現在,用戶可以使用SageMaker為Apache MXNet和Tensorflow提供的容器,包括Open AI Gym,Intel Coach和Berkeley Ray RLLib。與Amazon SageMaker一樣,用戶可以使用其他RL庫(如TensorForce或StableBaselines)輕松創建自己的自定義環境。
在模擬環境中,Amazon SageMaker RL支持以下選項:
- 適用于AWS RoboMaker和Amazon Sumerian的第一方模擬器。
- 使用Gym界面開發的開源AI Gym環境和模擬環境,如Roboschool或EnergyPlus。
- 客戶開發的、使用Gym界面的模擬環境。
- 商業模擬器,如MATLAB和Simulink(客戶需要自行管理許可證)。
亞馬遜SageMaker RL還附帶了一系列Jupyter notebook,和Amazon SageMaker一樣可以在Github上獲得,包括簡單的例子和各種領域的最新用例,如機器人,運算學,金融等。用戶可以擴展這些notebook,并根據自己的業務問題進行自定義。
此外,還有說明如何使用同構或異構縮放來縮放RL的示例。后者對許多RL應用尤其重要,因為在這些應用中,模擬和訓練在CPU上進行。模擬環境可以在不同網絡中在本地或遠程運行,SageMaker將設置好一切。
AWS DeepRacer \u0026amp; DeepRacer League
本次的機器學習發布之六。DeepRacer是一款自動駕駛賽車,尺寸是真車的1/18。把你的增強學習的模型搞到DeepRacer里面,讓它去跑賽道參加比賽,贏了可以獲獎。
DeepRacer搭載IntelAtom?處理器,一臺400萬像素、1080p分辨率的攝像頭,快速(802.11ac)WiFi,以及多個USB端口,電池電量續航約2小時。Atom處理器運行Ubuntu 16.04 LTS,ROS(機器人操作系統)和Intel OpenVino?計算機視覺工具包。
AWS DeepRacer包含一個完全配置的云環境,可以用來訓練強化學習模型。它可以使用Amazon SageMaker中新增的強化學習功能,還包括由AWS RoboMaker提供支持的3D仿真環境。使用模擬器中預定義的賽道集合,用戶可以訓練自動駕駛模型并進行虛擬評估,或將其下載到AWS DeepRacer,在現實世界中驗證其性能。
現在,AWS DeepRacer可接受預訂,預訂地址:https://amazonaws-china.com/cn/deepracer/
而且,此次大會的參會者還有機會加入DeepRacer workshop,學習如何創建DeepRacer自動駕駛模型。與此同時,AWS還宣布舉行全球第一場自動駕駛賽事,并成立了全球第一個自動駕駛聯盟DeepRacer League。賽事規定,此次比賽的Top3開發者將晉級2018年總決賽,爭奪AWS DeepRacer 2018冠軍。總決賽將會在會議期間的周四(當地時間),全球所有人都可以參加。
Amazon Textract(預覽)
本次的機器學習發布之七,簡單來說是一種自動從掃描文檔中提取文本和數據的服務,不僅包括簡單的光學字符識別(OCR),還能識別表格中存儲的表格和信息中的字段內容。
通過機器學習,Amazon Textract可以即時“讀取”幾乎所有類型的文檔來,準確提取文本和數據,而無需任何手動操作或自定義代碼;可以快速自動化文檔工作流程,使用戶能夠在數小時內處理數百萬個文檔頁面;可以通過標記可能需要編輯的數據來創建智能搜索索引,構建自動批準工作流,更好地整理文檔。
Amazon Personalize
本次的機器學習發布之八,簡單來說是實時個性化推薦引擎,不需要任何機器學習的知識就能使用,號稱與Amazon.com使用的是同一套技術。
Amazon Personalize支持存儲在Amazon S3中的數據集和流數據集,如從JavaScript跟蹤器或服務器端實時發送的事件。過程如下所示:
- 創建描述數據集的模式,使用個性化關鍵字作為用戶ID,項目ID等。
- 創建一個數據集組,其中包含用于構建模型和預測的數據集:用戶項交互(也就是“誰喜歡什么”),用戶和項目。最后兩個是可選的。
- 將數據發送到Personalize。
- 創建解決方案,即選擇個性化推薦并在數據集組上進行訓練。
- 預測新樣本。
使用存儲在Amazon S3中的數據,將數據發送到Personalize會將數據文件添加到數據集組,并自動觸發提取。
Amazon Forecast
本次的機器學習發布之九,可以根據歷史數據進行預測,比如銷售量預測、網站流量預測等。
現在,大多數時間序列預測工具主要通過查詢時間序列數據進行預測,但是對于預測具有不規則趨勢的大型數據集預測準確度不夠,而且結合隨時間變化的數據序列時很容易失敗。
Amazon Forecast可以解決眾多領域,包括零售、供應鏈、服務器存在了二十多年的挑戰,這個完全管理深度學習時間序列預測服務可以根據時間序列數據生成預測評估,包括:
- 運營指標,如服務器的Web流量,AWS使用情況或IoT傳感器指標。
- 業務指標,如銷售額,利潤和費用。
- 資源需求,如滿足特定需求所需的電量或帶寬量。
- 制造過程所需的原材料、服務或其他投入的數量。
- 考慮到價格折扣,市場促銷和其他活動的影響下的零售需求。
亞馬遜預測主要有以下三個優點:
- 準確性,使用深度神經網絡和傳統的統計方法進行預測。亞馬遜預測可以自動從數據中學習,并選擇最佳算法來訓練定制化模型。當涉及多個相關的時間序列時,使用亞馬遜預測深度學習算法(如DeepAR和MQ-RNN)進行的預測往往比使用傳統方法(如指數平滑)所做的預測更準確。
- 端到端管理,自動化整個預測工作流程,從數據上傳到數據處理,模型訓練,數據集更新和預測。企業系統可以直接將預測作為API使用。
- 可用性,用戶可以在控制臺中查找并對任何時間序列預測進行不同粒度的可視化,還可以查看預測變量準確性的指標。沒有機器學習專業知識的開發人員也可以使用Amazon Forecast API,AWS命令行界面(CLI)或控制臺,將訓練數據導入一個或多個Amazon Forecast數據集,訓練并部署模型以生成預測。
使用亞馬遜預測
在Amazon Forecast中創建預測項目時,用戶主要會用到以下資源:
- 數據集,用于上傳用戶數據。Amazon Forecast算法使用數據集來訓練模型。
- 數據集組是一個或多個數據集的容器,可以使用多個數據集進行模型訓練。
- 預測器,訓練模型的結果。創建預測器需要提供數據集組和算法,或讓Amazon Forecast確定哪種預測模型效果最佳。該算法使用數據集中的數據訓練模型。
- 預測器,運行推理來生成預測。
用戶可以將Amazon Forecast與AWS控制臺,CLI和SDK一起使用。例如,使用AWS SDK for Python在Jupyter notebook中訓練模型或獲取預測,或使用AWS SDK for Java將預測功能添加到現有業務應用程序。
定價和供貨
用戶需要支付三類費用:
- 生成的預測:對任意時間范圍內單個變量的未來值的預測。按每1,000單位收費(四舍五入到最接近的千位)。
- 數據存儲:存儲和用于訓練模型,按GB收費。
- 訓練時間:基于客戶提供的數據定制模型,按小時收費。
作為AWS免費套餐的一部分,在首次使用亞馬遜預測的前兩個月,用戶無需支付以下費用:
- 生成的預測:每月10K時間序列預測封頂
- 數據存儲:每月最多10GB
- 訓練時間:每月最多10個小時
Amazon Forecast在這些地區已有預覽版:US東部(北維吉尼亞州),US西部(俄勒岡州)。
鏈接:http://t.cn/E28YBT9
總結
以上是生活随笔為你收集整理的亚马逊一口气发布了9款机器学习产品的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Alpha 冲刺 (9/10)
- 下一篇: 函数返回值案例