@TentationeM
Evo, izvrtio sam 2 epohe, može se i 3. (treba uputa koji je prag za kraj treninga). Stopa učenja je 1. Gradijenti se akumuliraju kao aritmetička suma.
EDIT: Isto tako, bez akumulacije gradijenata se može koristiti onaj loss koji minimizira L2 normu vektora pogreške. Međutim gradijent toga ima sjebaniju formulaciju, takav tip lossa je striktno regresijski i u praksi se to ne radi (već se radi akumulacija gradijenta, kao što sam ja napravio). Oni također spominju minimiziranje zbroja kvadrata, ovo se u praksi ne radi jer gradijenti eksplodiraju za veće datasetove, već se koristi uprosječivanje da su gradijenti neovisni o broju primjeraka u grupi.