Hi ha diferència entre lot i mini-batch en l'aprenentatge profund?


Resposta 1:

El processament per lots s’utilitza en l’algoritme de descens de gradients.

Els tres sabors principals del descens en gradients són el lot, l’estocàstic i el mini-batch.

El descens de gradient per lots calcula l'error de cada exemple del conjunt de dades d'entrenament, però només actualitza el model un cop avaluats tots els exemples de formació. Això es tradueix en el menor error, però és molt costós per computació.

El descens de gradients estocàstics calcula l'error i actualitza el model de cada exemple del conjunt de dades d'entrenament. Això dóna un error més gran, però és molt fàcil computacional. La SGD a vegades s’utilitza en sistemes que s’han d’actualitzar en temps real.

La diferència entre aquests dos algoritmes és Mini-Batch, on s'utilitza una petita part de les dades com a lot, típica amb una potència de dues mostres, per exemple, 256, 512. El descens de gradient Mini-batch és el recomanat per a la majoria d'aplicacions, especialment en l'aprenentatge profund.

Hi ha un bon article a Internet, on es detallen aquests mètodes: una introducció suau al descens de gradients Mini-Batch i com es pot configurar la mida de lots: domini d'aprenentatge automàtic