[DUBUCE] Gradivo

Ovu stranicu je najbolje pregledavati u modernom internet pregledniku s omogućenim JavaScriptom.

Koalalica

MI 2017./2018. 3. e) zna netko?

micho

zaba Micanje softmaxa jedino ne utječe na kapacitet po meni, i to samo zato što je klasifikacijski zadatak.

ako makneš ReLU, ubila si jedan sloj kapaciteta jer sad imaš ekspresivnost jednog linearnog sloja
ako zamijeniš ReLU s npr. tanh, povećat ćeš kapacitet modela
ako makneš ijednu matricu ili pomak smanjila si ekspresivnost modela
- micanjem matrice si praktički ubila sloj jer se ne može preslikati u (jako) različiti hiperprostor
- micanjem pomaka si se pobrinula da ti je sad sve centrirano oko nule u tom sloju

Kad zadatak ne bi bio klasifikacijski, onda bi ti i micanje softmaxa utjecalo na kapacitet, povećalo bi ga. To jest, točnije bi bilo reći da bi ga potencijalno povećalo, a potencijalno smanjilo, ovisno o tome nad kakvim brojkama radiš regresiju. Kapacitet bi ostao isti jedino ako bi radila mapiranje \vec{x} \in R^n \rightarrow \vec{y} \in R^m gdje \sum{\vec{y}} = 1, jer je to upravo ono što softmax radi, pa bi ti se težine samo namještale da se prilagode eksponencijalnoj funkciji.

[obrisani korisnik]

zaba Slažem se s kolegom M̵̧̩͑̀͝î̶͍̉ć̴̝̾́̀o̶̺̟̣͂̽ . Micanjem softmax-a ćeš na izlazu dobiti nenormalizirane vjerojatnosti, odnosno klasifikacijske mjere. Primjeti, to si imala u prvoj laboratorijskoj vježbi gdje se na ulaz u CELoss očekuje upravo nenormalizirane klasifikacijske mjere. Softmax nam samo omogućava da to interpretiramo kao vjerojatnosti i da, budući da imamo one-hot encodirane ispravne klase, iskoristimo cross entropy kao usporedbu dobivene i očekivane distribucije.

InCogNiTo124

M̵̧̩͑̀͝î̶͍̉ć̴̝̾́̀o̶̺̟̣͂̽ ako zamijeniš ReLU s npr. tanh, povećat ćeš kapacitet modela

Otkud ovo? Po meni je isti kapacitet s obje

micho

InCogNiTo124 ReLU ubija informaciju u negativnim značajkama, tanh ne

U praksi ćeš imati slične performanse mreže, tanh obično bolje (ali sporiji trening i inference), ali kod tanh jednostavno nemaš mrtve neurone koji ti smanjuju ekspresivnost, sam trebaš paziti na numeričku stabilnost i nestajuće gradijente, što nije vezano uz ekspresivnost.

Ovo nije slučaj kod samoregujućih relu varijanti, koje ne uništavaju info u negativi, one su čak po nekim eksperimentima veće ekspresivnosti, al iskreno znam premalo matematike da bih mogao reći jel to istina il ne.

[obrisani korisnik]

InCogNiTo124 Možda zato što ReLU ima problem dying neurona pa služi kao regularizator. Čime efektirvno smanjuješ kapacitet modela

moji_prsti_prsti_klize_po_njoj

https://docs.google.com/document/d/1hwdYDL7MHhEIACwH3Mac0fxOlgMYcnWSRawWVvxVBBc/edit#
ovaj fajl je od prosle godine sakupljeno sve sto se moglo od meduispita i zavrsnih s rjesenjima
mislin da njegovo postojanje nije toliko javno koliko bi tribalo bit hahahaha pa da cisto zato repostan u slucaju da neko ne zna 💀♥

BigD

Je li moramo uopće predavati laboratorijske vježbe ako smo već zadovoljili onaj osnovni prag?

pushPop

Rješavao sam zadatke s ispita iz RNN-a za pripremu za petak. Samo neki od njih su rijeseni u Google docs dokumentu, a ovdje sam rijesio sve koje sam nasao na materijalama i na stranici predmeta. Zamolio bih ako netko moze provjeriti i objasniti mi ako je nesta krivo jer nisam skroz siguran, bio bih zahvalan. I mozda odgovoriti na stvari koje nisam siguran. Hvala!

ZI 17.: [http://www.zemris.fer.hr/~ssegvic/du/exams/zi2017.pdf]
5.) W_hh = [[1, 0, 0], [0, 1, 0], [0, 0, 1]]
W_hy = [[1, 1, 1]]
b_h = 0
b_o = -2

ZI 18.: [http://www.zemris.fer.hr/~ssegvic/du/exams/zi2018.pdf]
4.) h_max = 6
dim(W_hh) = h x h
dim(W_xh) = h x V (dimenzija ulaza x = velicina vokabulara V - ovo nisam bas siguran?)
dim(W_hy) = h x h (dimenzija izlaza y = dimenzija skrivenog sloja h - ovo nisam bas siguran?)

5.) W_xh = 4
W_hh = 0.5
b_h = -4

ZIM. ROK 16/17 (materijali dubuce/ispiti/rokovi):
4.) dim(W_hh) = 200 × 200
dim(W_xh) = 200 × 80 (-> isto kao gore - je li dim(x) = V (velicina vokabulara)?)
dim(W_hy) = 200 × 200 (-> isto kao gore - je li dim(y) = h?)
dim(b_h) = 200
dim(b_o) = 200 (-> je li dim(y) = h?)

5.) W_xh = [[-1, 0], [0, -1]]
W_hy = [[-1, 0], [0, -1]]
b_h = 0
b_o = 0

ZI 20: [http://www.zemris.fer.hr/~ssegvic/du/exams/zi2020.pdf]
4.) broj parametara = 5 204 000

je li dim(x) = 300?
je li y = h?

5.) h(2) = [0.745, 0.558]
medjukorak: h(1) = [⅘, ⅓]

pushPop

pushPop
Sam sebi odgovaram jer sam neke stvari ispravio (ne vidim vise opciju editiranja prethodnog posta). Jos nisam siguran oko boldanih stvari. Hvala.

ZIM. ROK 16/17 (materijali dubuce/ispiti/rokovi):
4.) dim(W_hh) = 200 × 200
dim(W_xh) = 200 × 80
dim(W_hy) = 80 × 200
dim(b_h) = 200
dim(b_o) = 80

5.) W_xh = [[-1, 0], [0, -1]]
W_hy = [[-1, 0], [0, -1]]
b_h = 0
b_o = 0

ZI 20: [http://www.zemris.fer.hr/~ssegvic/du/exams/zi2020.pdf]
4.) broj parametara = 3 604 000

5.) h(2) = [0.745, 0.558]
medjukorak: h(1) = [⅘, ⅓]

ZI 17.: [http://www.zemris.fer.hr/~ssegvic/du/exams/zi2017.pdf]
5.) W_hh = [[1, 0, 0], [0, 1, 0], [0, 0, 1]]
W_hy = [[1, 1, 1]]
b_h = 0
b_o = -2
f_activ = min(x, 1)

ZI 18.: [http://www.zemris.fer.hr/~ssegvic/du/exams/zi2018.pdf]
4.) h_max = 6
dim(W_hh) = h x h
dim(W_xh) = h x V = h x 10
dim(W_hy) = V x h = 10 x h

5.) W_xh = 4
W_hh = 0.5
b_h = -4

MJ3

pushPop ZIM. ROK 16/17 zadatak 4 - zar nije dim(W_xh) = 200×1 i dim(W_hy)=1×200 pa onda i b_o=1? u zadatku piše “iz laboratorijske vježbe”, pa mislim da je to binarna klasifikacija. a i parametri su dijeljeni pa ne znam kako bi išta ovisilo o veličini vokabulara

member

pushPop Kako si došao do br. param = 3604000 , ZI 20?

cotfuse

MJ3 Kaze ti da je problem jezicnog modeliranja, sto znaci da imas seq2seq model, odnosno i ulaz ti je sekvenca rijeci i izlaz ti je sekvenca rijeci, sto znaci da se predvidja koja rijec iz vokabulara je izlaz, pa su tezine za izlazni dio 80×200

login

Ekipa od prosle godine, jel ima kakva dobra alternativa za predavanje o generativnim modelima? Ova sluzbena predavanja mi ne sjedaju najbolje pa me zanima jel ima nes a da pokriva sve sto moramo znati

InCogNiTo124

Ganove mozes tu dobro naucit http://d2l.ai/chapter_generative-adversarial-networks/gan.html ili cak iz originalnog papera

Autoencoderi i VAE mozes nac videe online ili, opet, originalni paper

A sa boltzmannovim strojem neka ti bog pomogne xD

member

ZI 19/20: “Razmatramo dvoslojni LSTM s dimenzijom skrivenog stanja500te dimenzijom ulaznih repre-zentacija prvog sloja300. Odredite ukupan broj parametara navedene mreže.”

Jel (500 * 500 + 300 * 500 + 500) * 4?
(4 zbog f, i, c kapa, o)

MJ3

member ja mislim ovako: 4*(300 * 500 + 500 + (500 * 500+500) * 2), gdje se zadnja zagrada odnosi na dva sloja koji imaju različite parametre

« Prethodna stranica Sljedeća stranica »