當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

斯坦福大学机器学习第五课正则化“

發布時間：2023/12/20 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了斯坦福大学机器学习第五课正则化“ 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

斯坦福大學機器學習第五課"正則化“

本次課程主要包括4部分：

1)??The Problem of Overfitting(過擬合問題)

2)? Cost Function(成本函數)

3)? Regularized Linear Regression(線性回歸的正則化)

4)? Regularized Logistic Regression(邏輯回歸的正則化)

以下是每一部分的詳細解讀。

1)??The Problem of Overfitting(過擬合問題)

擬合問題舉例-線性回歸之房價問題：

a) 欠擬合(underfit, 也稱High-bias)

b) 合適的擬合：

c) 過擬合(overfit,也稱High variance)

什么是過擬合(Overfitting):

如果我們有非常多的特征，那么所學的Hypothesis有可能對訓練集擬合的非常好，但是對于新數據預測的很差。

過擬合例子2：邏輯回歸：

與上一個例子相似，依次是欠擬合，合適的擬合以及過擬合：

a) 欠擬合

b) 合適的擬合

c) 過擬合

如何解決過擬合問題：

首先，過擬合問題往往源自過多的特征，例如房價問題，如果我們定義了如下的特征：

那么對于訓練集，擬合的會非常完美：

所以針對過擬合問題，通常會考慮兩種途徑來解決：

a) 減少特征的數量：

-人工的選擇保留哪些特征；

-模型選擇算法（之后的課程會介紹）

b) 正則化

-保留所有的特征，但是降低參數theta(j)的值；

-正則化的好處是當特征很多時，每一個特征都會對預測y貢獻一份合適的力量；

2)? Cost Function(成本函數)

依然從房價預測問題開始，這次采用的是多項式回歸：

a) 合適的擬合：

b) 過擬合

直觀來看，如果我們想解決這個例子中的過擬合問題，最好能將(x^3, x^4)的影響消除，也就是讓(theta3 接近于0, 同時theta4也接近于0).

假設我們對theta3, theta4進行懲罰，并且令其很小，一個簡單的辦法就是給原有的Cost function加上兩個略大懲罰項，例如：

這樣在最小化Cost function的時候，就可以使得theta3 接近于0, 同時theta4也接近于0.

正則化：

參數(theta0, theta1, ...,)取小一點的值，這樣的優點：

-“簡化”的hypothesis；

-不容易過擬合；

對于房價問題：

-特征包括：(x1, x2, ... , x100)

-參數包括：(theta_0, theta_1, ..., theta_n)

我們對除(theta_0)之外的參數進行懲罰，也就是正則化：

正式的定義：經過正則化的Cost Function有如下的形式：

其中lambda稱為正則化參數，我們的目標依然是最小化J(theta)

例如，對于正則化的線性回歸模型來說，我們選擇theta來最小化如下的正則化成本函數：

將 lambda 設置為一個極大的值（例如對于我們的問題，設lambda = 10^10）如果

-算法依然會正常的工作, 將 lambda設置的很大不會影響算法本身；

-算法在去除過擬合問題上會失敗；

-算法的結構將是欠擬合（underfitting),即使訓練數據非常好也會失敗；

-梯度下降算法不一定會收斂；

這樣的話，除了theta0，其他的參數都約等于0, h_theta(x) = theta0, 將得到類似如下的欠擬合圖形：

關于正則化，以下引自李航博士《統計學習方法》1.5節關于正則化的一些描述：

模型選擇的典型方法是正則化。正則化是結構風險最小化策略的實現，是在經驗風險上加一個正則化項(regularizer)或罰項(penalty term)。正則化項一般是模型復雜度的單調遞增函數，模型越復雜，正則化值就越大。比如，正則化項可以是模型參數向量的范數。

正則化符合奧卡姆剃刀(Occam's razor)原理。奧卡姆剃刀原理應用于模型選擇時變為以下想法：在所有可能選擇的模型中，能夠很好地解釋已知數據并且十分簡單才是最好的模型，也就是應該選擇的模型。從貝葉斯估計的角度來看，正則化項對應于模型的先驗概率。可以假設復雜的模型有較大的先驗概率，簡單的模型有較小的先驗概率。

3)? Regularized Linear Regression(線性回歸的正則化)

線性回歸包括成本函數，梯度下降算法及正規方程解法等幾個部分，不清楚的讀者可以回顧第二課及第三課的筆記，這里將分別介紹正則化后的線性回歸的成本函數，梯度下降算法及正規方程等。

首先來看一下線性回歸正則化后的Cost function:

我們的目標依然是最小化J(theta)，從而得到相應的參數theta. 梯度下降算法是其中的一種優化算法，由于正則化后的線性回歸Cost function有了改變，因此梯度下降算法也需要相應的改變：

注意，對于參數theta，梯度下降算法需要區分theta0和theta1, theta2, ... ,theta_n。

同樣的正規方程的表達式也需要改變，對于：

X 是m * (n+1)矩陣

y是m維向量：

正則化后的線性回歸的Normal Equation的公式為：

假設樣本數m小于等于特征數x, 如果沒有正則化，線性回歸Normal eqation如下：

[theta = (X^T X)^{-1}X^T y]

如果(X^T X)不可逆怎么辦？之前的辦法是刪掉一些冗余的特征，但是線性回歸正則化后，如果\(\lambda > 0\)，之前的公式依然有效：

其中括號中的矩陣可逆。

4)? Regularized Logistic Regression(邏輯回歸的正則化)

和線性回歸相似，邏輯回歸的Cost Function也需要加上一個正則化項（懲罰項），梯度下降算法也需要區別對待參數(theta).

再次回顧一些邏輯回歸過擬合的情況，形容下面這個例子：

其中Hypothesis是這樣的：

邏輯回歸正則化后的Cost Function如下：

梯度下降算法如下：

其中h_theta(x) = \frac{1}{1+e^{-\theta^Tx}}\).

參考資料：

第七課“正則化”的課件資料下載鏈接，視頻可以在Coursera機器學習課程上觀看或下載：https://class.coursera.org/ml PPT???PDF

李航博士《統計學習方法》

http://en.wikipedia.org/wiki/Regularization_%28mathematics%29

http://en.wikipedia.org/wiki/Overfitting

總結

以上是生活随笔為你收集整理的斯坦福大学机器学习第五课正则化“的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python对象类型
下一篇：斯坦福大学机器学习第六课“神经网络的表示

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

编程问答

斯坦福大学机器学习第五课正则化“

總結

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操