Funcions de pèrdua per a la classificació

(Vermell) estàndard Pèrdua logística ( $\gamma =1,\mu =2$ ) i (Blau) augment del marge Pèrdua logística ( $\gamma =0.2$

{\displaystyle \gamma =1,\mu =2} — (Vermell) estàndard Pèrdua logística ( $\gamma =1,\mu =2$ ) i (Blau) augment del marge Pèrdua logística ( $\gamma =0.2$

En l'aprenentatge automàtic i l'optimització matemàtica, les funcions de pèrdua per a la classificació són funcions de pèrdua computacionalment factibles que representen el preu pagat per la imprecisió de les prediccions en problemes de classificació (problemes per identificar a quina categoria pertany una observació particular).^[1] Donat ${\mathcal {X}}$ com l'espai de totes les entrades possibles (normalment ${\mathcal {X}}\subset \mathbb {R} ^{d}$ ), i ${\mathcal {Y}}=\{-1,1\}$ com el conjunt d'etiquetes (sortides possibles), un objectiu típic dels algorismes de classificació és trobar una funció $f:{\mathcal {X}}\to {\mathcal {Y}}$ que prediu millor una etiqueta $y$ per a una entrada determinada ${\vec {x}}$ .^[2] Tanmateix, a causa de la informació incompleta, el soroll en la mesura o els components probabilístics en el procés subjacent, és possible que el mateix ${\vec {x}}$ per generar diferents $y$ .^[3] Com a resultat, l'objectiu del problema d'aprenentatge és minimitzar la pèrdua esperada (també coneguda com a risc), definida com:

$I[f]=\displaystyle \int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)p({\vec {x}},y)\,d{\vec {x}}\,dy$

on $V(f({\vec {x}}),y)$ és una funció de pèrdua donada, i $p({\vec {x}},y)$ és la funció de densitat de probabilitat del procés que ha generat les dades, que de manera equivalent es pot escriure com:

$p({\vec {x}},y)=p(y\mid {\vec {x}})p({\vec {x}}).$

Dins de la classificació, diverses funcions de pèrdua d'ús habitual s'escriuen únicament en termes del producte de l'etiqueta veritable $y$ i l'etiqueta prevista $f({\vec {x}})$ . Per tant, es poden definir com a funcions d'una sola variable $\upsilon =yf({\vec {x}})$ , i que $V(f({\vec {x}}),y)=\phi (yf({\vec {x}}))=\phi (\upsilon )$ amb una funció adequadament escollida $\phi :\mathbb {R} \to \mathbb {R}$ . Aquestes s'anomenen funcions de pèrdua basades en marges. Escollir una funció de pèrdua basada en el marge equival a triar $\phi$ . La selecció d'una funció de pèrdua en aquest marc afecta l'òptima $f_{\phi }^{*}$ que minimitza el risc esperat.

Exemples: ^[4]

Nom de la pèrdua	$\phi (v)$	$C(\eta )$	$f^{-1}(v)$
Exponencial	$e^{-v}$	$2{\sqrt {\eta (1-\eta )}}$	${\frac {e^{2v}}{1+e^{2v}}}$
Logística	${\frac {1}{\log(2)}}\log(1+e^{-v})$	${\frac {1}{\log(2)}}[-\eta \log(\eta )-(1-\eta )\log(1-\eta )]$	${\frac {e^{v}}{1+e^{v}}}$
Quadrat	$(1-v)^{2}$	$4\eta (1-\eta )$	${\frac {1}{2}}(v+1)$
Salvatge	${\frac {1}{(1+e^{v})^{2}}}$	$\eta (1-\eta )$	${\frac {e^{v}}{1+e^{v}}}$
Tangent	$(2\arctan(v)-1)^{2}$	$4\eta (1-\eta )$	$\arctan(v)+{\frac {1}{2}}$

Referències

↑ Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. Neural Computation, 16, 5, 2004, pàg. 1063–1076. DOI: 10.1162/089976604773135104. PMID: 15070510.
↑ Shen, Yi (2005), Loss Functions For Binary Classification and Class Probability Estimation, <http://stat.wharton.upenn.edu/~buja/PAPERS/yi-shen-dissertation.pdf>. Consulta: 6 December 2014
↑ Rosasco, Lorenzo & Poggio, Tomaso (2014), A Regularization Tour of Machine Learning, vol. Manuscript
↑ Brownlee, Jason. «How to Choose Loss Functions When Training Deep Learning Neural Networks» (en anglès). https://machinelearningmastery.com,+29-01-2019.+[Consulta: 3 novembre 2022].

Funcions de pèrdua per a la classificació

Referències

ToC

Trending

Recent Change