Ovu stranicu je najbolje pregledavati u modernom internet pregledniku s omogućenim JavaScriptom.

[DUBUCE1] 3. laboratorijska vježba - 2021/2022

sheriffHorsey

indythedog probao sam, kaze da je sve popunjeno u cetvrtak


micho

branimir1999 Što misliš da je tu problem? Očekuješ oko 80% accuracy


branimir1999

M̵̧̩͑̀͝î̶͍̉ć̴̝̾́̀o̶̺̟̣͂̽ Njihova preciznost krece od niske pa prelazi moju pa zbog toga naslucujem da mi je mozda nesto krivo. Dakle, moj baseline model i sve tri vrste celije imaju skoro pa iste performance. Ne znam je li tako treba biti, ali cini mi se cudno


Zero

Jel možemo koristiti pandas u prvom zadatku?


bodilyfluids

branimir1999 dobro je sve


micho

branimir1999 Meni je isto ispalo da imaju slične performanse, tako vjv i treba biti

Ima tu razloga zašto je to tako, najelementarniji je taj da povratni modeli ne mogu baš najbolje modelirati distribucije čistog teksta, a ovo da ti je već bolje na početku se može i objasniti boljom inicijalizacijom i slabom mogućnosti učenja tih modela. Isto tako glove embeddinzi su već odradili većinu posla u smislu reprezentacije riječi, što onda mreža ne treba učiti. Kod CNN-ova treba za te stvari dulje jer niste koristili nikakve predtrenirane značajke kao npr. iz Resnetova, s kojim bi vam isto MNIST i CIFAR bili riješeni u par epoha.

Ako sumnjaš uvijek možeš izvrtiti evaluaciju nekoliko puta za nanovo inicijalizirani model, a ako dobiješ visoki perf nakon 1. epohe, to nije ništa previše zabrinjavajuće - ja npr. u svojim rezultatima vidim 70-75% acc nakon 1. epohe. Meni je razlog za to prilično očit - koristio sam lr=3e-4, koji će brže konvergirati od njihovog lr=1e-4. Ne znam jel je i tako kod tebe.


Jaster111

Jel netko imao problem da mu se tokom treniranja u drugom zadatku loss ne smanjuje konzistentno? Cijelo vrijeme mi divergira i skače.


yurnero

Jaster111 Možda nije vezano al jel učiš gradijente embedding matrice, tj. jel ti freeze=False? Meni je valid accuracy plesa gore-dole dok nisam to stavia, nakon čega dobijam nekakav steady rast kroz epohe. Opet možda sam u krivu pa nek me iskusniji kolege isprave 🙂


micho

Jaster111 Nije nužno krivo da loss ide gore dolje, provjeri val accuracy. Loss je samo aproksimacija performansi, ne nužno i prava slika


at5611

Koliko detaljno gledaju rezultate testiranja hiperparametara iz 4. zadatka pri usmenom ispitivanju?


bodilyfluids

at5611 nisam radio 4. zadatak ni u pola detaljno kako je trebalo i asistent mi nije skidao bodove


Ryder

Može li netko ako je imao napisati pitanja sa blica


Jaster111

Labos danas u 9

Blic:
Generano ja sam dobio 5 pitanja direktno vezanih na labos tako da ako ste napravili sve, bit ce vam jednostavno. Ostatak pitanja se svodio na poznavanje RNN arhitektura. Nabrojat cu par ovako iz glave

  1. Koji smo optimizer koristili u labosu (adam)
  2. Koji od navedenih tokena se pojavljuju u labosu (pad i unk)
  3. Koju smo funkciju pogreske koristili u labosu (cross entropy)
  4. Kolko parametara ima rnn celija ako nam je poznato bla bla bla
  5. Formula za rnn (to je ono tanh(Whh * h[t-1] … ))
    Note: kolega pokraj mene pak nije dobio skoro nista od pitanja vezanih na labos.

Uglavnom prođite malo teoriju iza RNNova.

Što se odgovaranja tiče, asistent me odmah pitao za zakljucke iz 4. Zadatka. Nakon toga me pitao šta smo radili u 3. i postavio pitanje o tome koja je razlika izmedu npr LSTMa i RNNa ili GRUa. Za 2. Zadatak me pitao samo da mu pokazem kakve su performanse baseline modela, i što se 1. Tiče, pitao je samo zašto uopće koristimo one predtrenirane embeddingse.


garica

blic cega se sjecam:

koji se optimizator koristio u vjezbi
koja je derivacija tangensa hiperbolnog
koliko parametara ima sljedeca mreza…
koja se nelinearnost koristi u obicnoj povratnoj mrezi
jedno ili dva pitanja s izrazima za gradijente
o kojoj matrici ovisi hoce li eksplodirati gradijenti


Sinusan

Blic:
Formula za RNN: h(t)=tanh(…)
Formula za LSTM: c(t)=…
Broj parametara ako je poznato…
Koji parametar utječe na eksploziju gradijenata?
Jel moguće ostvarit gubitak 0?
Derivacija od tanh (zapisana preko numpya)?
Koji parametar zauzima najviše memorijskog prostora?
Koju funkciju gubitka smo koristili?

Pitanja:
Prošao kroz zadatke i mjerenja
Pitao formulu za RNN.
Pitao koji modeli će raditi lošije bez naučenih vektorskih reprezentacija.


ppooww

Koji modeli će raditi lošije (RNN ili potpuno povezani) bez naučenih vektorskih reprezentacija (u odnosu kad imaju vektorske reprezentacije)? Pretpostavljam RNN modeli, ali koji je točan razlog?


angello2

pp meni je ispalo jednako pogorsanje za oba, i to sam reko danas na labosu i rekla je da je to okej


indythedog

pp Ja sam danas imao to pitanje i asistent mi je rekao onaj average pool model - jer fora je u tome što on uzima prosjek vektora, a ako nemaš naučene vektorske reprezentacije, onda su ti vektori slučajni, a prosjek slučajnih vektora je opet slučajni vektor koji nema neko značenje, pa je kao zaključak da baseline modelu više šteti kad nema naučene vektorske reprezentacije


ppooww

angello2 Meni je osnovni model ostao jednak (izgubio oko 0.1%), a RNN model mi je izgubio oko 2%. Moguće da je ovisno o inicijalizacijama.


sheriffHorsey

pitanja s blica kojih se sjećam:
1) koji parametar uzrokuje eksplodirajući gradijent - ovdje pazite jer je među odgovorima W_{hh}, W_{hy} i samo W_{hh}
2) koji je raspon slike tangensa hiperbolnog
3) zadani su veličina vokabulara, dimenzija ulaza i skrivena dimenzija, koja matrica ima najviše parametara
4) može li se pri treniranju pojaviti <UNK> simbol
5) računanje broja parametara za RNN, ne sjećam se točnih dimenzija
6) koji gubitak je korišten u laboratorijskoj vježbi
7) koji je izraz za ažuriranje skrivenog stanja u RNN
8) koja je derivacija tangensa hiperbolnog


« Prethodna stranica Sljedeća stranica »