Ovu stranicu je najbolje pregledavati u modernom internet pregledniku s omogućenim JavaScriptom.

[DUBUCE] Gradivo

tonkec

MJ3 Kod učenja se koriste pojedini batchevi za izračun srednje vrijednosti i std. devijacije, a kod eksploatacije cijela populacija. Ova notacija iz slajda znači da se prođe kroz sve batcheve i onda izračuna očekivanje srednje vrijednosti i std. devijacije na temelju pojedinih batcheva.
Poledaj u https://arxiv.org/abs/1502.03167.


MJ3

tonkec meni ovo i dalje znači da se srednja vrijednost i stdev za eksploataciju trebaju računat pomoću srednjih vrijednosti svih pojedinih batcheva i njihovih stdev-a (izračunatih prilikom učenja)


tonkec

L = ...
s = w^Th
Treba izračunati \frac{\partial L}{\partial w} što je \frac{\partial L}{\partial s} \cdot \frac{\partial s}{\partial w}
Ima neki jednostavan način da se skuži kada treba transponirati ako se derivira s po w ili h ili da samo pripašem pa da dimenzije odgovaraju prethodnoj parcijalnoj derivaciji ovisno o tome što treba izračunati?


[obrisani korisnik]

tonkec U matematici je sve dobro definirano, samo su oni pretpostavili da mi to znamo, odnosno da se sjećamo s Matematike 2 (tamo smo bili upoznati s Jakobijanom …) .

Uglavnom, stvar je definirana ovako. Ako imaš funkciju f : \mathbb{R^n} \to \mathbb{R}^m, onda je \nabla_xf \in \mathbb{R}^{m \times n}, gdje je x \in \mathbb{R}^n. Što ti govori funkcija f? Funkciju f možeš gledati kao m skalarnih funkcija vektorske varijable (što u stvari ona i je upravo to), gdje je tvoja vektorska varijabla upravo iz \mathbb{R}^n.

Što onda možemo pročitati iz toga da je \nabla_xf \in \mathbb{R}^{m \times n}. To nam govori da je redak matrice jednak sljedećem vektoru: [\frac{df_i}{x_1} \ldots \frac{df_i}{x_n}] i tako za m redaka, odnosno i \in \{1, \ldots, m \}.

Što to govori za tvoj slučaj (rekao bi da se radi o binarnoj logističkoj regresiji). Iz izraza se vidi da je s \in \mathbb{R}, naravno, funkcija gubitka je isto skalarna funkcija, dakle L \in \mathbb{R}, a w \in \mathbb{R}^d. Stoga je \frac{dL}{ds} \in \mathbb{R}, a \frac{dL}{dw} \in \mathbb{R}^{1 \times d}.

Sada kada to znaš odrediti - dimenzije gradijenata … - sve ostalo slijedi iz toga.

Za više si pročitaj 5.2 i 5.3. iz Mathematics for Machine Learning. Ima 10 stranica i lagano se čita.


Joji

tonkec Osim ovog što je [obrisani korisnik] naveo, preporučam i ovaj dokument. Spominju se slične stvari, samo što tu imaš i konkretan primjer.


narval13068

Jel ima itko link na ispit MI 2019 s konzultacija



peaceko

Bono

Nisam mogao bit na tim konzultacijama gdje se rjesavao MI 2019, ima li itko mozda rjesenja tog ispita?


Yasuke

peaceko Ima u temi o predmetu link na snimku auditornih.


member


Jel bi mogao netko pokazat kako doć do p jer ne razumijem zašto je WA = [[-1,1]] tako prikazana? Zašto W nije dimenzija 2xhidden?


micho

member Mislim parametri su ti doslovno napisani, samo ih pobrojiš na papiru 😅


Yasuke

Iz MI 2016, jel izracunao neko dimenzije slike? Meni ispadne 8×12, al nisam baš siguran da je dobro?


micho

Bono
Po meni:

  • spljošteni tenzor ima 8 značajki, vidljivo iz W
  • 2×2 max pool reducira 4 značajke u jednu, dakle prije maxpoola je bilo 8*4 = 32 značajke
  • 2 jezgre znači 2 kanala, što znači da su 32 značajke zapravo 16 + 16 značajki, tj. da jedna jezgra obavlja 16 operacija hadamardovog množenja
  • e sad, tu je problem, 16 operacija hadamardovog množenja može biti 1×16, 2×8, 4×4, 8×2 ili 16×1, tak da ima 5 rješenja:
    • 3 x (3 + 15) = 3 × 18
    • (3 + 1) x (3 + 7) = 4 × 10
    • (3 + 3) x (3 + 3) = 6 × 6
    • (3 + 7) x (3 + 1) = 10 × 4
    • (3 + 15) x 3 = 18 × 3

Iz ovog b) dijela bi se dalo zaključiti da je riješenje 2., 3., ili 4. ponuđeno, jer 1. i 5. ne može biti zbog dimenzija.


antesha

M̵̧̩͑̀͝î̶͍̉ć̴̝̾́̀o̶̺̟̣͂̽
Napisano je da su jezgre 3×3 dimenzija, i kako su ih dvije to znači da je svaka od njih proizvela mapu 4×4
što bi dalje značilo da je je izvorna slika bila 6×6 dimenzije


micho

antesha Ne mora biti nužno 4×4 feature mapa, spljošćivanje ti je ubilo informaciju o omjerima visine i širine, može konvolucija proizvesti i 1×16, 2×8, 8×2 i 1×16 feature mape

Iako vidim da sam sjebao, 1×16 i 16×1 ne može biti zbog 2×2 maxpoola, al opet, to su ti 3 rješenja.

EDIT: S tim da ak je ovaj max pool s pomakom 1, onda bi dobio da je slika bila sačinjena od 8 značajki po jezgri pa bi praktički moralo biti 2×4 ili 4×2 množenje, tj. 4×6 ili 6×4 slika. Tak da ima puno pitanja za šetače u ovom zadatku.


BigD

Što radi konvolucijski sloj ako ima više kanala izlaza nego ulaza? Konkretno MI 2017 zad 4 drugi conv ima 2 ulazna kanala i 1 izlazni i ima 2 jezgre. Ako konvoluira jednu jezgru s jednim ulazom onda nam još uvijek preostaju 2 izlaza. Kako ih pretvoriti u 1 kanal?


micho

BigD Niš posebno, obično matrično množenje

Težine su ti oblika (out_channels, in_channels, kernel_size, kernel_size)

Ak misliš kak se dogodi in_channels -> out_channels transformacija, pa za svaki out_channel se feature mape in_channela sumiraju.

Znači u slučaju gdje ti imaš Conv2D(2 in, 1 out, 3×3), imat ćeš 2 jezgre (tj. imat ćeš 1 grupu koja ima 2 kernela). Svaka ta jezgra ide na zaseban kanal ulaza i daje zasebnu mapu značajki. I onda se te mape značajki sumiraju i dobiješ mapu istih dimenzija samo s 1 kanalom, i to ide na izlaz.

EDIT: Tu ti je to malo slikovitije opisano


« Prethodna stranica Sljedeća stranica »