<i id="yupd0"></i>
  • <i id="yupd0"></i>
  • <thead id="yupd0"></thead>
    <blockquote id="yupd0"></blockquote>
    <i id="yupd0"></i>
  • 碼迷,www.greeshyz.com
    首頁 > 其他好文 > 詳細

    感知機(perceptron)原理總結

    時間:2020-07-21 23:19:19      閱讀:59      評論:0      收藏:0      [點我收藏+]

    標簽:load   alpha   基礎   其他   方便   圖形   表示   它的   end   

    1. 感知機原理

    感知機是二分類的線性分類模型,本質上想找到一條直線或者分離超平面對數據進行線性劃分

    • 適用于線性可分的數據集,否則感知機不會收斂

    假設有一個數據集\(D = {(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)}\),其中\(x_i \in R^n\),即\(x_i = (x_i^{(1)}, x_i^{(2)}, ...x_i^{(n)})\)

    • 模型的輸入為實例的特征向量\(x_i\),輸出為實例的類別,取值為+1(正例)或者-1(負例)
    • 我們希望找到一個分離超平面\(w^Tx + b = 0,其中w \in R^n\),使得有滿足\(w^Tx + b > 0\)的實例所對應的類別為正例。而使得滿足\(w^Tx + b < 0\)的實例所對應的類別為負例。

    于是我們可以構建出感知機模型為:\(f(x) = sign(w^Tx + b)\)

    2. 損失函數

    定義損失函數一個很自然的想法是建立在誤分類點的個數上,但是使用誤分類點的個數來構造損失函數并不容易優化

    • 因此使用誤分類點到分離超平面的總距離來構造損失函數

    記M為誤分類點的集合,誤分類點到分離超平面的總距離為:

    \[L(w, b) = \sum_{x_i \in M}\frac{| w^Tx_i + b |}{\parallel w \parallel} \]

    不考慮\(\frac{1}{\parallel w \parallel}\)(因為上式中,分子和分母有固定倍數的關系),并且去掉絕對值,就可以得到感知機的損失函數為:

    \[L(w, b) = \sum_{x_i \in M} -y_i (w^Tx_i + b) \]

    此時對于誤分類點,\(-y_i (w^Tx_i + b) > 0\)成立

    3. 優化方法

    此時感知機算法就轉變為,求解參數\(w, b\),使得損失函數極小化,即

    \[\underset {w, b}{\arg \min L(w, b)} = \underset {w, b}{\arg \min} \sum_{x_i \in M} -y_i (w^Tx_i + b) \]

    因為只有對誤分類點才會對損失函數進行優化,因此感知機的優化采用隨機梯度下降法(SGD),而非使用所有樣本的批量隨機梯度下降法(BGD)

    損失函數\(L(w, b)\)的梯度為:

    \[\frac{\partial L(w, b)}{\partial w} = -\sum_{x_i \in M} y_i x_i \]

    \[\frac{\partial L(w, b)}{\partial b} = -\sum_{x_i \in M} y_i \]

    對于SGD,選取一個誤分類點進行更新,即有:

    \[w_{t+1} = w_t + \alpha y_ix_i \]

    \[b_{t+1} = b_t + \alpha y_i \]

    4. 感知機的原始算法

    訓練集包括N個樣例,樣本中包含n個特征,標記為二分類取值為-1或者+1

    • 輸入的樣例:\({(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)}\),學習率:\(\alpha\)
    • 輸出分離超平面的系數w, b

    算法執行步驟如下:

    1. 初始化w, b以及學習率\(\alpha\)
    2. 在訓練集選取數據\((x_i, y_i)\)
    3. 如果滿足\(-y_i(sign(w^Tx_i + b)) > 0\),則

    \[w_{t+1} = w_t + \alpha y_i x_i \]

    \[b_{t+1} = b_t + \alpha y_i \]

    1. 轉至2,直到訓練集中沒有誤分類點

    5. 感知機的對偶算法

    對偶形式的基本想法是,將\(w\)\(b\)表示為實例\(x_i\)和標記\(y_i\)的線性組合的形式,通過求解它的系數來求解\(w\)\(b\)

    假設初始值\(w_0\)\(b_0\)都為0,因此\(w\)\(b\)可以表示成\(x_iy_i\)\(y_i\)的增量形式,即原始形式可以化成:

    \[w_{t+1} = \sum_{i=1}^{N}\beta_i y_i x_i \]

    \[b_{t+1} = \sum_{i=1}^N \beta_i y_i \]

    其中,\(\beta_i = n_i \alpha\)\(n_i\)表示第\(i\)個實例\(x_i\)更新的次數

    此時,模型轉變為

    \[f(x) = sign(\sum_{j=1}^N \beta_j x_j y_j x + b) \]

    訓練集包括N個樣例,樣本中包含n個特征,標記為二分類取值為-1或者+1

    • 輸入的樣例:\({(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)}\),學習率:\(\alpha\)
    • 輸出分離超平面的系數\(\beta\), b

    算法執行步驟如下:

    1. 初始化\(\beta\), b以及學習率\(\alpha\)
    2. 在訓練集選取數據\((x_i, y_i)\)
    3. 如果滿足\(y_i(sign(\sum_{j=1}^N \beta_j y_j x_j x_i + b)) <= 0\),則

    \[\beta_j(t+1) = \beta_j(t) + \alpha \]

    \[b_{t+1} = b_t + \alpha y_i \]

    1. 轉至2,直到訓練集中沒有誤分類點

    其中,訓練實例可以通過計算Gram矩陣(即\(x_i\)\(x_j\)的內積組成的矩陣)的形式來存儲

    6. 從圖形中理解感知機的原始算法

    為了方便說明,記\(\hat w = (w, b)\)\(\hat x = (x, 1)\),則感知機模型可以變為:

    \[f(x) = sign(\hat w^T \hat x) \]

    之前我們說明了,只有誤分類點才會對\(\hat w\)進行更新。因此,考慮以下兩種情況:

    1. 真實類別為y=+1, 但是模型的輸出為-1

      • 考慮到\(\hat w^T \hat x = |\hat w||\hat x|cos\theta\)
      • 對于真實類別,我們希望說明\(\hat w^T \hat x > 0\),即\(\hat w\)\(\hat x\)的夾角越小越好,而模型的輸出有\(\hat w^T \hat x < 0\),則說明\(\hat w\)\(\hat x\)的夾角過大
      • 因此,我們可以通過減少\(\hat w\)\(\hat x\)的夾角來達到目的,即有\(\hat w(t+1) = \hat w(t) + \hat x(t)\)(對應著\(w_{t+1} = w_t + \alpha y_i x_i\),且\(\alpha = 1\)的情況)
      • \(y_i \hat w_{t+1}^T \hat x_i = y_i \hat w_t^T \hat x_i + y_i \parallel \hat x_i \parallel \geq y_i \hat w_t^T \hat x_i\)
        技術圖片
    2. 真實類別為y=-1, 但是模型的輸出為+1

      • 考慮到\(\hat w^T \hat x = |\hat w||\hat x|cos\theta\)
      • 對于真實類別,我們希望說明\(\hat w^T \hat x < 0\),即\(\hat w\)\(\hat x\)的夾角越大越好,而模型的輸出有\(\hat w^T \hat x > 0\),則說明\(\hat w\)\(\hat x\)的夾角過小
      • 因此,我們可以通過增大\(\hat w\)\(\hat x\)的夾角來達到目的,即有\(\hat w(t+1) = \hat w(t) - \hat x(t)\)(對應著\(w_{t+1} = w_t - \alpha y_i x_i\),且\(\alpha\) = 1的情況)
      • \(y_i \hat w_{t+1}^T \hat x_i = y_i \hat w_t^T \hat x_i - y_i \parallel \hat x_i \parallel = y_i \hat w_t^T \hat x_i + \parallel \hat x_i \parallel \geq y_i \hat w_t^T \hat x_i\)
        技術圖片

    其實,無論對于誤分類的情況1還是情況2,總有\(y_i \hat w_{t+1}^T \hat x_i = \geq y_i \hat w_t^T \hat x_i\),因為\(y_i \hat w_t^T \hat x_i\)的符號代表是否分類正確,大小代表分類超平面是否將其“分得很開”,上面的不等式說明了,對于某個誤分類點來說,更新后要比更新前要好,算法PLA對該誤分類點“學習”了。

    7. 感知機算法(PLA)的收斂性

    對于線性可分的數據集,總能找到一個或者多個分類超平面能將該數據集劃分,這表明了PLA的收斂性。

    • 這部分主要參考林軒田的《機器學習基石》,個人覺得講得要比李航的《統計學習方法》要清晰,雖然證明本質上是一樣的

    說明兩個向量的相似性有很多方法,其中計算兩個向量的內積是一種方法。當內積越大,表明兩個向量越相似。當然,這需要考慮向量的長度,當模長越大時,向量的內積也會越來越大。

    • 符號說明:\(w_f\)代表真實的w,\(w_t\)代表我們找到的w,這里為了符號簡潔些,不記成\(\hat w\),但是含義一樣,即\(w_f\)\(w_t\)里面包含\(b\),記學習率\(\alpha = 1\)
    1. 先討論\(w_f\)\(w_t\)的內積,\(w_0\)為0向量
      \begin{equation}
      \begin{split}
      w_f^T w_t & = w_f^T(w_{t-1} + y_ix_i) \\
      & = w_f^T w_{t-1} + y_i w_f^T x_i \\
      & \geq w_f w_{t-1} + \underset {i} {min} (y_i w_f^T x_i) \\
      & \geq w_f w_0 + t \underset {i} {min} (y_i w_f^T x_i) \\
      & = t \underset {i} {min} (y_i w_f^T x_i)
      \end{split}
      \end{equation}

    2. 討論\(w_f\)\(w_t\)的模長,由于只有誤分類點才更新,所以有\(y_i w_{t}^T x_i \leq 0\)
      \begin{equation}
      \begin{split}
      \parallel w_t \parallel^2 & = \parallel w_{t-1} + y_ix_i \parallel^2 \\
      &= \parallel w_{t-1} \parallel^2 + 2y_i w_{t_1}^T x_i + \parallel y_ix_i \parallel^2 \\
      & \leq \parallel w_{t-1} \parallel^2 + \parallel x_i \parallel^2 \\
      & \leq \parallel w_{t-1} \parallel^2 + \underset {i} {max} \parallel x_i \parallel^2 \\
      & \leq \parallel w_{0} \parallel^2 + t \underset {i} {max} \parallel x_i \parallel^2 \\
      & = t \underset {i} {max} \parallel x_i \parallel^2
      \end{split}
      \end{equation}

    3. 討論\(w_f\)\(w_t\)的角度
      \begin{equation}
      \begin{split}
      1 \geq cos \theta = \frac{w_f^T w_t}{\parallel w_f \parallel \parallel w_t \parallel} &
      \geq \frac{t \underset {i} {min} (y_i w_f^T x_i)}{\parallel w_f \parallel \sqrt{t \underset {i} {max} \parallel x_i \parallel^2}} \\
      & = \frac{\sqrt{t} \underset {i} {min} (y_i w_f^T x_i)}{\parallel w_f \parallel \sqrt{\underset {i} {max} \parallel x_i \parallel^2}}
      \end{split}
      \end{equation}

    4. 化解得到t的關系式

    \[t \leq \frac{\parallel w_f \parallel^2 \underset {i} {max} \parallel x_i \parallel^2}{\underset {i} {min} (y_i w_f^T x_i)^2} = \frac{R^2}{\rho^2} \]

    其中,$$R^2 = \underset {i} {max} \parallel x_i \parallel^2, \rho = \frac{\underset {i} {min} (y_i w_f^T x_i)}{\parallel w_f \parallel}$$

    由上述不等式說明了,更新次數是有上限的,這也就證明了收斂性

    8. 應用場景與缺陷

    • 感知機僅限于數據線性可分的情況,對于線性不可分的情況,該算法不收斂。
    • 感知機的收斂步數受兩類別之間間隔的影響。間隔越小,收斂的步數越大。

    9. 其他

    從感知機的分類原理中,可以看出滿足條件的超平面并不止一個,不同的超平面依賴于參數的初始值。也就是說感知機模型可以有多個解。

    • 泛化能力最好的決策超平面
      • 能夠將兩個類型的樣本分開
      • 能夠最大化決策邊界附近的兩類型之間的距離

    當然,感知機也是神經網絡的重要基礎,因此也可以從神經網絡的角度來說明

    10. 參考資料

    • 李航《統計學習方法》
    • 林軒田《機器學習基石》

    感知機(perceptron)原理總結

    標簽:load   alpha   基礎   其他   方便   圖形   表示   它的   end   

    原文地址:https://www.cnblogs.com/liangjianli/p/13357057.html

    (0)
    (0)
       
    舉報
    評論 一句話評論(0
    登錄后才能評論!
    迷上了代碼!
    91色国产论坛,久草99福利资源,青青草在线华人,99热在线视频观看免费,青青草a片免费看,青青草av视频导航,香蕉网站伊人大香蕉 青青碰人青青草免费 国产自拍偷拍在线播放 青青草华人在线av 伊人影院在线大香 无码大香蕉网伊人色 久久大香蕉视频网 青草精品资源在线 伊人大香蕉在线精品 97资源总站久久爱视频 自拍中文字幕 青青草手机在线视频 青青草久久爱大香蕉 国产青青草自拍 伊人大香蕉在线精品 97资源总站久久爱视频 自拍中文字幕 av图片在线看 久草视频福利免费资源站 自拍国产视频在线 www.琪琪色 爱色影爱色搞搞 97资源库 大香萑a久草视频 久草在线福利资站 青青草成人在线免费视频 久久精品国can视频在热 99热国产情侣偷拍 国产自拍 在线 凹凸分类视频97免费 av啪啪中文网站 青青草91自拍视频 奇米影视第四色 国产无限制自拍 大香蕉伊人精品在线 久久手机看片国产免费 无码大香蕉网伊人色 亚洲激情色 久草99福利资源 狼人色终合网站 91色国产色去色 2019奇米777奇米网 久久草妹妹色 米奇影院888奇米色 青青青草成人免费现看 超碰自拍 在线99热这里精品 色琪琪永久无码 伊人大香蕉成人视频综合 国产自拍视频在线 大香蕉伊人久操在线 青青草久草热久久草 偷拍自拍第四色 奇米网电影网 超碰99久久天天拍日日操 天天拍天天拍久草片 激情图片,激情小说 超碰碰av大香蕉伊人 久草97大香蕉伊人 美女伊人色情香蕉网站 青青草华人免费视频在线 大香蕉伊人久草视频 奇米网在线手机在线 青草七次郞视频观看 青青草公开在线观看 狠狠夜夜干大香蕉伊人 777奇米网 日逼视频网站 欧美人和动物XXX 大香蕉色 欧美 国产 奇米影院首页 大香蕉伊人久久爱在线 青青青草免费手机播放 国产青青草 欧美一级黑寡妇夜夜干 啪啪 国产精品 东方aⅴ在线看 手机看A片 777米奇色狠狠俺去啦 香蕉网站伊人中文字幕 久操在线新免费视频 伊人影院在线大香 大香蕉成人伊人在线视频 青青草成人在线视频观看 91国产自拍偷拍视频 青青草色爱久久 精品国产自拍 小色狗 琪琪热热色无码 影音先锋大香蕉久草资源 小明视频看看成人免费 俺去了色网婷婷色 久久色情片 超碰在线青青草 超碰视频起碰视频 国产偷拍自拍影音先锋 小明视频看看成人免费 俺去了色网婷婷色 久久色情片 超碰在线青青草 超碰视频起碰视频 国产偷拍自拍影音先锋 老鸭窝在线视频 www.奇米在线四色 老版本日本怡春院 强奸乱伦在线观看 青青草在观视频 色琪琪在线视频原网 欧美色色大香焦 欧美色热图 亚洲香蕉手机在线观看视频 偷拍偷窥自拍网站 超91在线观看 最新奇米奇色777在线 婷婷网站 微拍秒拍福利视频 自拍在线 精品视频 欧美情色无码在线 久草激情视频 午夜高清影院在线观看 第四色青娱乐奇米影视 青青草在线综合 99热这里有精品 自拍偷拍影音先锋 国产自拍 先锋影音 成人在线视频97 久草在线免费观看大香蕉 99er久久国产精品在线 精品国产在线偷拍 啪啪青青草视频 国内偷拍 亚洲 大香蕉成人手机在线 在线伊人大香蕉手机版 久草伊人久草视频 伊人久久青青草综合网 青青草手机在线视频 青青草久久爱大香蕉 国产青青草自拍 伊人大香蕉在线精品 97资源总站久久爱视频 自拍中文字幕 av图片在线看 久草视频福利免费资源站 自拍国产视频在线 www.琪琪色 爱色影爱色搞搞 97资源库 大香蕉在线视频免费观看 a片直播妹子在线视频 a.v在线视频 开心五月色婷婷免费 香蕉福利视频在线观 青青草成人+激情偷拍 青青草视频大香蕉伊人网 av啪啪中文网站 青青草91自拍视频 奇米影视第四色 国产无限制自拍 大香蕉伊人精品在线 久久手机看片国产免费 无码大香蕉网伊人色 亚洲激情色 久草99福利资源 狼人色终合网站 91色国产色去色 2019奇米777奇米网 久久草妹妹色 米奇影院888奇米色 青青青草成人免费现看 超碰自拍 在线99热这里精品 色琪琪永久无码 伊人大香蕉成人视频综合 国产自拍视频在线 大香蕉伊人久操在线 青青草久草热久久草 偷拍自拍第四色 奇米网电影网 超碰99久久天天拍日日操 天天拍天天拍久草片 激情图片,激情小说 青青草久草热久久草 偷拍自拍第四色 奇米网电影网 超碰99久久天天拍日日操 天天拍天天拍久草片 操好屌色 米奇先锋 久草 偷拍 亚洲,偷拍,自拍,精品 伊人大香蕉综合色 大香蕉久久久 成人色啪啪 大香蕉色看片 欧美自拍在线 久久色综合网站xoxo 久热草大香蕉在线视频 久久大香蕉视频网 肏逼免费视频在线 网友自拍偷拍 欧美 国产 奇米影院首页 大香蕉伊人久久爱在线 青青青草免费手机播放 国产青青草 欧美一级黑寡妇夜夜干 啪啪 国产精品 东方aⅴ在线看 手机看A片 777米奇色狠狠俺去啦 香蕉网站伊人中文字幕 久操在线新免费视频 伊人影院在线大香 大香蕉成人伊人在线视频 青青草成人在线视频观看 91国产自拍偷拍视频 青青草色爱久久 精品国产自拍 小色狗 琪琪热热色无码 影音先锋大香蕉久草资源 小明视频看看成人免费 俺去了色网婷婷色 久久色情片 超碰在线青青草 欧美激情图片 自拍超碰 久草视频在线 天天 综合色伊人网 大香蕉视频成人中文网 大香蕉伊人欧美色 久热在线播放中文字幕 青青草久草福利 欧美色色大香焦 欧美色热图 亚洲香蕉手机在线观看视频 偷拍偷窥自拍网站 超91在线观看 最新奇米奇色777在线 婷婷网站 微拍秒拍福利视频 自拍在线 精品视频 欧美情色无码在线 久草激情视频 午夜高清影院在线观看 第四色青娱乐奇米影视 青青草在线综合 99热这里有精品 自拍偷拍影音先锋 国产自拍 先锋影音 成人在线视频97 久草在线免费观看大香蕉 99er久久国产精品在线
    久久草2019在线观看 99这里有精品 大香蕉免费公开青青草 狠狠色丁香婷婷综合 国产久草福利手机在线 青青草黄色三级网站 大香蕉他也啪 青青草视频大香蕉伊人网 久久爱大香焦在线视频 日本有码视频 成人视屏 国产精品91在线 91国产自拍小视频 伊人狼人香蕉网小说 青青草香蕉草久在线 av青青操 亚洲自拍欧美 91 国产 在线 97超碰资源共享 青青草伊人大香蕉 奇米四色网 国産偷拍91 精品国产在线自拍 伊人大香蕉色琪琪影院 caoprom超碰 青青视频在线视频 开心五月婷婷色婷在线 第四色色 Caoprom超碰视频 亚洲图片欧美图色姐 天天干情色网 操妹妹干妹妹 丁香五月婷婷伊人大香蕉 国产精品自拍偷拍在线 青青青成人社区 成人av在线 碰碰视频在线免费播放 影音先锋 小说色 久久草大香蕉 亚洲情色狼人网 思思久久re热线播放 久久草超碰 播播影院私人影院 大香蕉他也啪 米奇影视 成人国产老鸭窝 伊人大香蕉久久天天啪 男人的天堂 国产精品自偷拍 很很鲁在线97