Ovu stranicu je najbolje pregledavati u modernom internet pregledniku s omogućenim JavaScriptom.

[STRUCE1] Gradivo

micho

[obrisani korisnik] Na engleskom se zove “range” ili “column space”

EDIT: Na engleskom se zove “rank”. Vezano je uz “range” ali nije ista stvar, pardon.


[obrisani korisnik]


moze netko objasniti ovaj?



bodilyfluids

[obrisani korisnik] Ja sam ovako shvatio.

Šum nije relevantan za zadatak jer piše da ga je malo. Želiš minimizirat funkciju pogreške koja se računa
(y+h(x))2. E sad, tvoje oznake već približno leže na pravcu (jer je šum malen), pa je pitanje možeš li smislit drugi pravac koji daje vrijednosti koje će minimizirat fju pogreške? E to će biti pravac koji simetričan s orginalnim pravcem (tj oznakama) u odnosu na x os.

tj (h(x) + y) = 1-2x -1+2x = 0



[obrisani korisnik]

Dragi prijatelj strojnog učenja možeš li još pojasniti zašto nam to točno treba biti = 0 kad zelimo minimizirati? pošto to ipak nije derivacija


steker


Mi u ovom zadatku ne mozemo zakljucit nis o tome koji model bi bolje generaliziro od kojeg zbog velikog suma? Ako sam dobro skuzila


micho

steker Ja bih prije rekao da ti šum govori da će model s većim kapacitetom imati manju pogrešku, a da mogu jednako loše generalizirati zato što su neodgovarajuće aproksimacije (2 je premalo, 5 je previše). Ovisno o uzorcima može ti se underfittati na H_{2,0} i overfittati na H_{5,0}, ali bez uvida u uzorke ne možeš reći koji će otići dalje od odgovarajuće stupnja 3. Nije nužno stupanj 5 jer je za 2 udaljen od stupnja 3, dok je stupanj 2 udaljen za 1 od stupnja 3. Nit možeš predviđati da će šum bit takav da će to srediti ekstra 2 stupnja polinoma stupnja 5 bolje nego regularizacija koju pruža polinom stupnja 2.



angello2

[obrisani korisnik] zelis minimizirat pogresku, pogreska ne moze bit negativna tako da je najmanje sta moze bit = 0


InCogNiTo124

angello2 pogreska ne moze bit negativna tako da je najmanje sta moze bit = 0

Pazi samo, pogreska opcenito moze biti manja od 0.

evo recimo jedan cest primjer: ucis vector embedding recimo slike, i zelis da ti model vrati slicne vektore za slicne slike, a razlicite vektore za razlicite slike. Slicnost vektora mjeris cosinusnom slicnoscu tako da MAKSIMIZIRAS cosine_similarity(model(x), y), odnosno MINIMIZIRAS -cosine_similarity(model(x), y). Ugl dogodit ce ti se da je minimum jednak -1.

Vecina loseva u strojnom, poput square loss iz labosa ali i l1, hinge, logistic i Mnogi Drugi imaju minimum u 0, al to nije nuzno, pa treba pazit


Artemis

Riješio netko 1.zad s ispita (linearni diskriminativni modeli)?


micho

Artemis Kojeg



micho

Artemis Koji je to ispit mislim


steker

Artemis jel tu w0 =0, w1=5, w2=-5


tomekbeli420

Sulejman da bi podaci koji nisu bili linearni (odnosno nisu bili linearno odvojivi kod klasifikacije) u originalnom ulaznom prostoru postali linearni u tom preslikanom prostoru. Na taj način ne moramo mijenjati linearan model (model je i dalje linearan u težinama \mathbf{w}), nego potencijalnu nelinearnost možemo postići sa nelinearnim preslikavanjem \boldsymbol{\phi}.

Skripta Regresija II, paragraf 1.2

Artemis

Znamo da su težine takve da je maksimizirana udaljenost. Za predznačenu udaljenost primjera od hiperravnine granice modela znamo da se računa prema izrazu d = \frac{h \left(\mathbf{x}\right)}{\left\| \mathbf{w} \right\|} gdje je \mathbf{w} vektor težina ali sa isključenim w_0, dakle u našem slučaju \mathbf{w} = \left(w_1, w_2\right). E ali kod nas je induktivna pristranost takva da se maksimizira udaljenost ali da se ne gleda predznak, dakle onda moramo gledati apsolutnu vrijednost: d = \left| \frac{h \left(\mathbf{x}\right)}{\left\| \mathbf{w} \right\|} \right|
dakle potrebno je maksimizirati izraz (označio sam ga sa D reda radi)
D = \sum_{i=1}^{N} \left| \frac{h \left(\mathbf{x}^{(i)}\right)}{\left\| \mathbf{w} \right\|} \right|
E sad mi znamo da za oba primjera vrijedi y \cdot h \left(\mathbf{x}\right) = 5, pa prema tome odmah možemo saznati koliko iznose vrijednosti hipoteze (linearnog modela prije nego se uplete klasifikacija) za svaki primjer ako uvrstimo vrijednosti njihovih oznaka y (možemo uvrstiti i vrijednosti njihovih značajki):
h \left(\mathbf{x}^{(1)}\right) = w_1 x_1^{(1)} + w_2 x_2^{(1)} + w_0 = w_1 \cdot 1 + w_2 \cdot 0 + w_0 = w_1 + w_0 = 5 \\ h \left(\mathbf{x}^{(2)}\right) = w_1 x_1^{(2)} + w_2 x_2^{(2)} + w_0 = w_1 \cdot 0 + w_2 \cdot 1 + w_0 = w_2 + w_0 = -5

Samo iz dobivenih linearnih jednadžbi sa nepoznanicama w_0, w_1, w_2 ne možemo odrediti jedinstveno rješenje, no moramo iskoristiti činjenicu da rješenje maksimizira udaljenosti (izraz D) hiperravnine od primjera. E sad uvrstimo podatke (iznose hipoteza za svaka 2 primjera) u izraz D:
D = \frac{5}{\left\| \mathbf{w} \right\|} + \frac{5}{\left\| \mathbf{w} \right\|} = \frac{10}{\sqrt{{w_1}^2 + {w_2}^2}}
I to je potrebno maksimizirati uz uvjete da vrijede one 2 linearne jednadžbe gore. Pa jasno je da maksimizacija D se svodi na minimizaciju zbroja kvadrata dvaju težina (minimizacija jer se zbroj kvadrata nalazi u nazivniku, a minimizacija korijena se svodi na minimizaciju onog unutar korijena pod uvjetom da je to unutar korijena pozitivno, što naravno jest slučaj jer se radi o zbroju kvadrata).
Inače bismo morali minimizirati funkciju dviju varijabli w_1 i w_2, ali one linearno ovise o w_0 (iz onih linearnih jednadžbi) pa ih možemo tako zapisati. Dakle onda se zadatak svodi na minimiziranje izraza \left(5 - w_0\right)^2 + \left(-5 - w_0\right)^2 što je dost trivijalno
Izraz se svede na (kad se kvadriraju zagrade) 2 {w_0}^2 + 50 što je parabola sa tjemenom u w_0 = 0. Dakle onda je rješenje w_2 = -5 - w_0 = -5 - 0 = -5.


[obrisani korisnik]

M̵̧̩͑̀͝î̶͍̉ć̴̝̾́̀o̶̺̟̣͂̽ to su skupljeni zadaci s intraneta, sekcija se zove ‘zadaci s ispita’


Sulejman

Zašto koristimo preslikavanje iz skupa primjera u skup oznaka?


Artemis

steker
Ne znam za w0 i w1, ali w2=-5 što je i točno rješenje zadatka.
Kako doći do toga?


« Prethodna stranica Sljedeća stranica »