sklearn快速入门教程:(一)准备工作
sklearn快速入門教程 – 準備工作
1. 前言
sklearn全稱 scikit-learn,它是一個集成了目前市面上最常用的機器學習模型的庫,使用起來非常輕松簡單,因此獲得了廣泛的應用。
從官網顯示數據來看,這個項目始于2007年,工具箱在2011年正式發布,并且在機器學習頂級雜志 Journal of Machine Learning Research 發表了對應的論文。能在JMLR上發文章就已經能說明該工具箱的水平不一般。論文全文可以直接在官網免費下載。不過論文本身并不是很重要,重要的是要了解sklearn究竟能用來做什么,以及它如何用。
目前市面上的教程也是一層出不窮,但許多同學仍然表示不好懂。這里我個人覺得不好懂的原因有這么幾點:
- 從教程本身而言,講太多的理論,看得云里霧里。
- 從自身而言,基礎不扎實,尤其python本身不熟悉,學起來頭疼
因此,本系列打算從更為直接的方面來講解sklearn的使用方法,讓新手能夠快速上手,在學會使用工具的同時再慢慢去補充理論。
2. 準備工作
首先要明確一點,任何一個工具箱都不是獨立存在的,要使用這些工具箱就必然要掌握一些其它的輔助技能,否則根本無法運用這些工具箱。作為一個以數據模型為主的工具箱,那么基本的處理數據的技能就是最為重要的,因此在此之前我們需要做一些準備工作。當然要全面地理解一套工具箱其實也并不是一朝一夕的,但我們可以在最開始適當降低要求,針對這些工具箱的特性做出一些取舍。這樣可以明顯地提高學習的速度,尤其是能增大初學時的自信心。在掌握了基本的框架的時候,再去慢慢補回相應的深層次的知識,也能夠讓自己的認識逐漸深入。
- Python的基本語法和Python中的面向對象的概念與操作。既然sklearn是python的庫,那么會用python自然是學習這個庫的基本前提。當然Python作為一門系統的程序語言內容的確也有點太多,因此我們可以先重點學習一些直接相關,也就是直接會用到的一些知識和技能。針對這個庫我們需要掌握的Python基本知識與技能有:
- 學會1-2種IDE的使用。這里我們強力推薦pycharm。雖然它的功能可能90%我們都用不到,但一旦需要用到某些高級功能的時候,其它的工具就顯得更浪費時間。比如pycharm的智能提示功能,雖然在notebook里面也能實現,但還得單獨去配置,配置完了可能還會出問題,一不小心可能大半天就過去了。與其糾結這些問題,不如直接一步到位,適應個幾天也就會了。
- Python基本語法。這個不用多說,肯定要會寫點簡單的pyhon程序,比如for循環怎么用,如何導入庫,怎樣處理數組等等。
- Python中的面向對象的概念與操作。這個說法本身其實不是很嚴謹,因為面向對象是通用的,與程序語言無關。但這樣說的目的主要是想強調Python中面向對象的操作,因為它還是與其它許多語言的特性是不太一樣的,也得單獨去看一看。如果實在一開始弄不懂,那么最起碼的如何初始化一個class,如何對它進行實例化,如何使用它的方法,理解一下什么叫靜態方法、動態方法等這些問題也應該事先掌握。
- Numpy的基本數據結構和操作方法。Numpy實際上是現在Python直接自帶的一個庫,基本上Python在處理數據的時候幾乎就是調用Numpy中的類型和方法。我們在做機器學習的時候必然會涉及到數據的整理、簡單預處理、格式化等等問題,因此這些內容也得事先有所了解。當然,我們是快速入門教程,肯定不用一下子把Numpy的教程看完。但最起碼的,Numpy中有哪些數據結構,這些數據結構的基本操作(加減乘除、排序、查找、矩陣的計算等)得要事先熟悉一遍。
- Pandas - 讀寫數據的利器。當然也要強調一點Pandas并不是讀寫數據唯一的方法。只不過直接用Python自帶的方法來做太過繁瑣,而其它的庫雖然也有,但目前能像Pandas一樣既完整又好用的也不是太多。舉個例子,比如我們要讀一個csv文件中的數據,用Pandas也就一句data = pandas.read_csv('data.csv')就行了。查詢整理數據更是有類似SQL一樣的機制。那么這個工具很顯然能給我們提供極大的便利。
- Matplotlib - 繪圖工具。 繪圖這件事在任何數據處理中其實都有非常重要的作用,因為它能最直觀地給我們反饋各種結果,從而加深我們對結果的理解。Matplotlib基本上能夠滿足我們對基本的數據結果的各種展示需求。其中的pyplot模塊用法也基本和其它一些常用的語言差不多,基本上只要用過類似R、Matlab等語言畫過圖的,看幾分鐘文檔就能弄明白怎么畫曲線圖了。
至此,一個極簡的準備工作就算完成一半了。還有一半就是裝好sklearn。然后收藏好它的官方網站,我們在后面會經常使用。
千里之行,始于足下!
希望大家都能堅持下去,盡快地掌握sklearn的使用。
- klearn快速入門教程:(二)線性回歸
- sklearn快速入門教程:(三)機器學習的通用模式及實現方法
- sklearn快速入門教程:(四)模型自動調參
- sklearn快速入門教程:(五)集成學習
總結
以上是生活随笔為你收集整理的sklearn快速入门教程:(一)准备工作的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分数阶累加的Python实现
- 下一篇: sklearn快速入门教程:(二)线性回