機器學習中,鉸鏈損失是一個用於訓練分類器的損失函數。鉸鏈損失被用於「最大間格分類」,因此非常適合用於支持向量機 (SVM)。[1] 對於一個預期輸出 ,分類結果 的鉸鏈損失定義為

t = 1 時變量 y(水平方向)的鉸鏈損失(藍色,垂直方向)與0/1損失(垂直方向;綠色為 y < 0 ,即分類錯誤)。注意鉸接損失在 abs(y) < 1 時也會給出懲罰,對應於支持向量機中間隔的概念。

特別注意:以上式子的應該使用分類器的「原始輸出」,而非預測標籤。例如,在線性支持向量機當中,,其中 超平面參數,是輸入資料點。

同號(意即分類器的輸出是正確的分類),且 時,鉸鏈損失 。但是,當它們異號(意即分類器的輸出是錯誤的分類)時, 線性增長。套用相似的想法,如果 ,即使 同號(意即分類器的分類正確,但是間隔不足),此時仍然會有損失。

擴展

編輯

二元支持向量機經常通過一對多(winner-takes-all strategy,WTA SVM)或一對一(max-wins voting,MWV SVM)策略來擴展為多元分類[2] 鉸接損失也可以做出類似的擴展,已有數個不同的多元分類鉸接損失的變體被提出。[3] 例如,Crammer 和 Singer [4] 將一個多元線性分類的鉸鏈損失定義為[5]

 

其中   為目的標籤,    該模型的參數。

Weston 和 Watkins 提出了一個類似的定義,但使用求和代替了最大值:[6][3]

 

在結構預測中,鉸接損失可以進一步擴展到結構化輸出空間。支持間隔調整的結構化支持向量機 可以使用如下所示的鉸鏈損失變體,其中 w 表示SVM的參數, y 為SVM的預測結果,φ 為聯合特徵函數,Δ漢明損失:

 

優化算法

編輯

鉸鏈損失是一種凸函數,因此許多機器學習中常用的凸優化器均可用於優化鉸鏈損失。 它不是可微函數,但擁有一個關於線性 SVM 模型參數 w次導數

 

評分函數 

 
三個鉸鏈損失的變體 z = ty:「普通變體」(藍色),平方變體(綠色),以及 Rennie 和 Srebro 提出的分段平滑變體(紅色)。

然而,由於鉸接損失在  處不可導, Zhang 建議在優化時可使用平滑的變體建議,[7] 如Rennie 和 Srebro 提出的分段平滑[8]

 

或平方平滑。

 

Modified Huber loss   時損失函數的特例,此時  中。

參考文獻

編輯
  1. ^ Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. Are Loss Functions All the Same? (PDF). Neural Computation. 2004, 16 (5): 1063–1076 [2019-06-04]. PMID 15070510. doi:10.1162/089976604773135104. (原始內容存檔 (PDF)於2020-01-11). 
  2. ^ Duan, K. B.; Keerthi, S. S. Which Is the Best Multiclass SVM Method? An Empirical Study (PDF). Multiple Classifier Systems. LNCS 3541. 2005: 278–285 [2019-06-04]. ISBN 978-3-540-26306-7. doi:10.1007/11494683_28. (原始內容存檔 (PDF)於2017-08-08). 
  3. ^ 3.0 3.1 Doğan, Ürün; Glasmachers, Tobias; Igel, Christian. A Unified View on Multi-class Support Vector Classification (PDF). Journal of Machine Learning Research. 2016, 17: 1–32 [2019-06-04]. (原始內容存檔 (PDF)於2018-05-05).  引用錯誤:帶有name屬性「unifiedview」的<ref>標籤用不同內容定義了多次
  4. ^ Crammer, Koby; Singer, Yoram. On the algorithmic implementation of multiclass kernel-based vector machines (PDF). Journal of Machine Learning Research. 2001, 2: 265–292 [2019-06-04]. (原始內容存檔 (PDF)於2015-08-29). 
  5. ^ Moore, Robert C.; DeNero, John. L1 and L2 regularization for multiclass hinge loss models (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing. 2011 [2019-06-04]. (原始內容存檔 (PDF)於2017-08-28). 
  6. ^ Weston, Jason; Watkins, Chris. Support Vector Machines for Multi-Class Pattern Recognition (PDF). European Symposium on Artificial Neural Networks. 1999 [2019-06-04]. (原始內容存檔 (PDF)於2018-05-05). 
  7. ^ Zhang, Tong. Solving large scale linear prediction problems using stochastic gradient descent algorithms (PDF). ICML. 2004 [2019-06-04]. (原始內容存檔 (PDF)於2019-06-04). 
  8. ^ Rennie, Jason D. M.; Srebro, Nathan. Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling. 2005 [2019-06-04]. (原始內容存檔 (PDF)於2015-11-06).