Funcions de pèrdua per a la classificació

(Vermell) estàndard Pèrdua logística ( γ = 1 , μ = 2 {\displaystyle \gamma =1,\mu =2} ) i (Blau) augment del marge Pèrdua logística ( γ = 0.2 {\displaystyle \gamma =0.2}

En l'aprenentatge automàtic i l'optimització matemàtica, les funcions de pèrdua per a la classificació són funcions de pèrdua computacionalment factibles que representen el preu pagat per la imprecisió de les prediccions en problemes de classificació (problemes per identificar a quina categoria pertany una observació particular).[1] Donat X {\displaystyle {\mathcal {X}}} com l'espai de totes les entrades possibles (normalment X R d {\displaystyle {\mathcal {X}}\subset \mathbb {R} ^{d}} ), i Y = { 1 , 1 } {\displaystyle {\mathcal {Y}}=\{-1,1\}} com el conjunt d'etiquetes (sortides possibles), un objectiu típic dels algorismes de classificació és trobar una funció f : X Y {\displaystyle f:{\mathcal {X}}\to {\mathcal {Y}}} que prediu millor una etiqueta y {\displaystyle y} per a una entrada determinada x {\displaystyle {\vec {x}}} .[2] Tanmateix, a causa de la informació incompleta, el soroll en la mesura o els components probabilístics en el procés subjacent, és possible que el mateix x {\displaystyle {\vec {x}}} per generar diferents y {\displaystyle y} .[3] Com a resultat, l'objectiu del problema d'aprenentatge és minimitzar la pèrdua esperada (també coneguda com a risc), definida com:

I [ f ] = X × Y V ( f ( x ) , y ) p ( x , y ) d x d y {\displaystyle I[f]=\displaystyle \int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy}

on V ( f ( x ) , y ) {\displaystyle V(f({\vec {x}}),y)} és una funció de pèrdua donada, i p ( x , y ) {\displaystyle p({\vec {x}},y)} és la funció de densitat de probabilitat del procés que ha generat les dades, que de manera equivalent es pot escriure com:

p ( x , y ) = p ( y x ) p ( x ) . {\displaystyle p({\vec {x}},y)=p(y\mid {\vec {x}})p({\vec {x}}).}

Dins de la classificació, diverses funcions de pèrdua d'ús habitual s'escriuen únicament en termes del producte de l'etiqueta veritable y {\displaystyle y} i l'etiqueta prevista f ( x ) {\displaystyle f({\vec {x}})} . Per tant, es poden definir com a funcions d'una sola variable υ = y f ( x ) {\displaystyle \upsilon =yf({\vec {x}})} , i que V ( f ( x ) , y ) = ϕ ( y f ( x ) ) = ϕ ( υ ) {\displaystyle V(f({\vec {x}}),y)=\phi (yf({\vec {x}}))=\phi (\upsilon )} amb una funció adequadament escollida ϕ : R R {\displaystyle \phi :\mathbb {R} \to \mathbb {R} } . Aquestes s'anomenen funcions de pèrdua basades en marges. Escollir una funció de pèrdua basada en el marge equival a triar ϕ {\displaystyle \phi } . La selecció d'una funció de pèrdua en aquest marc afecta l'òptima f ϕ {\displaystyle f_{\phi }^{*}} que minimitza el risc esperat.

Exemples: [4]

Nom de la pèrdua ϕ ( v ) {\displaystyle \phi (v)} C ( η ) {\displaystyle C(\eta )} f 1 ( v ) {\displaystyle f^{-1}(v)}
Exponencial e v {\displaystyle e^{-v}} 2 η ( 1 η ) {\displaystyle 2{\sqrt {\eta (1-\eta )}}} e 2 v 1 + e 2 v {\displaystyle {\frac {e^{2v}}{1+e^{2v}}}}
Logística 1 log ( 2 ) log ( 1 + e v ) {\displaystyle {\frac {1}{\log(2)}}\log(1+e^{-v})} 1 log ( 2 ) [ η log ( η ) ( 1 η ) log ( 1 η ) ] {\displaystyle {\frac {1}{\log(2)}}[-\eta \log(\eta )-(1-\eta )\log(1-\eta )]} e v 1 + e v {\displaystyle {\frac {e^{v}}{1+e^{v}}}}
Quadrat ( 1 v ) 2 {\displaystyle (1-v)^{2}} 4 η ( 1 η ) {\displaystyle 4\eta (1-\eta )} 1 2 ( v + 1 ) {\displaystyle {\frac {1}{2}}(v+1)}
Salvatge 1 ( 1 + e v ) 2 {\displaystyle {\frac {1}{(1+e^{v})^{2}}}} η ( 1 η ) {\displaystyle \eta (1-\eta )} e v 1 + e v {\displaystyle {\frac {e^{v}}{1+e^{v}}}}
Tangent ( 2 arctan ( v ) 1 ) 2 {\displaystyle (2\arctan(v)-1)^{2}} 4 η ( 1 η ) {\displaystyle 4\eta (1-\eta )} arctan ( v ) + 1 2 {\displaystyle \arctan(v)+{\frac {1}{2}}}

Referències

  1. Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. Neural Computation, 16, 5, 2004, pàg. 1063–1076. DOI: 10.1162/089976604773135104. PMID: 15070510.
  2. Shen, Yi (2005), Loss Functions For Binary Classification and Class Probability Estimation, <http://stat.wharton.upenn.edu/~buja/PAPERS/yi-shen-dissertation.pdf>. Consulta: 6 December 2014
  3. Rosasco, Lorenzo & Poggio, Tomaso (2014), A Regularization Tour of Machine Learning, vol. Manuscript
  4. Brownlee, Jason. «How to Choose Loss Functions When Training Deep Learning Neural Networks» (en anglès). https://machinelearningmastery.com,+29-01-2019.+[Consulta: 3 novembre 2022].