Ovu stranicu je najbolje pregledavati u modernom internet pregledniku s omogućenim JavaScriptom.

[STRUCE1] Gradivo

tomekbeli420

Sulejman da bi podaci koji nisu bili linearni (odnosno nisu bili linearno odvojivi kod klasifikacije) u originalnom ulaznom prostoru postali linearni u tom preslikanom prostoru. Na taj način ne moramo mijenjati linearan model (model je i dalje linearan u težinama \mathbf{w}), nego potencijalnu nelinearnost možemo postići sa nelinearnim preslikavanjem \boldsymbol{\phi}.

Skripta Regresija II, paragraf 1.2

Artemis

Znamo da su težine takve da je maksimizirana udaljenost. Za predznačenu udaljenost primjera od hiperravnine granice modela znamo da se računa prema izrazu d = \frac{h \left(\mathbf{x}\right)}{\left\| \mathbf{w} \right\|} gdje je \mathbf{w} vektor težina ali sa isključenim w_0, dakle u našem slučaju \mathbf{w} = \left(w_1, w_2\right). E ali kod nas je induktivna pristranost takva da se maksimizira udaljenost ali da se ne gleda predznak, dakle onda moramo gledati apsolutnu vrijednost: d = \left| \frac{h \left(\mathbf{x}\right)}{\left\| \mathbf{w} \right\|} \right|
dakle potrebno je maksimizirati izraz (označio sam ga sa D reda radi)
D = \sum_{i=1}^{N} \left| \frac{h \left(\mathbf{x}^{(i)}\right)}{\left\| \mathbf{w} \right\|} \right|
E sad mi znamo da za oba primjera vrijedi y \cdot h \left(\mathbf{x}\right) = 5, pa prema tome odmah možemo saznati koliko iznose vrijednosti hipoteze (linearnog modela prije nego se uplete klasifikacija) za svaki primjer ako uvrstimo vrijednosti njihovih oznaka y (možemo uvrstiti i vrijednosti njihovih značajki):
h \left(\mathbf{x}^{(1)}\right) = w_1 x_1^{(1)} + w_2 x_2^{(1)} + w_0 = w_1 \cdot 1 + w_2 \cdot 0 + w_0 = w_1 + w_0 = 5 \\ h \left(\mathbf{x}^{(2)}\right) = w_1 x_1^{(2)} + w_2 x_2^{(2)} + w_0 = w_1 \cdot 0 + w_2 \cdot 1 + w_0 = w_2 + w_0 = -5

Samo iz dobivenih linearnih jednadžbi sa nepoznanicama w_0, w_1, w_2 ne možemo odrediti jedinstveno rješenje, no moramo iskoristiti činjenicu da rješenje maksimizira udaljenosti (izraz D) hiperravnine od primjera. E sad uvrstimo podatke (iznose hipoteza za svaka 2 primjera) u izraz D:
D = \frac{5}{\left\| \mathbf{w} \right\|} + \frac{5}{\left\| \mathbf{w} \right\|} = \frac{10}{\sqrt{{w_1}^2 + {w_2}^2}}
I to je potrebno maksimizirati uz uvjete da vrijede one 2 linearne jednadžbe gore. Pa jasno je da maksimizacija D se svodi na minimizaciju zbroja kvadrata dvaju težina (minimizacija jer se zbroj kvadrata nalazi u nazivniku, a minimizacija korijena se svodi na minimizaciju onog unutar korijena pod uvjetom da je to unutar korijena pozitivno, što naravno jest slučaj jer se radi o zbroju kvadrata).
Inače bismo morali minimizirati funkciju dviju varijabli w_1 i w_2, ali one linearno ovise o w_0 (iz onih linearnih jednadžbi) pa ih možemo tako zapisati. Dakle onda se zadatak svodi na minimiziranje izraza \left(5 - w_0\right)^2 + \left(-5 - w_0\right)^2 što je dost trivijalno
Izraz se svede na (kad se kvadriraju zagrade) 2 {w_0}^2 + 50 što je parabola sa tjemenom u w_0 = 0. Dakle onda je rješenje w_2 = -5 - w_0 = -5 - 0 = -5.


steker

tomekbeli420 jel se moze w0=0 zakljucit iz toga da bi mozda(?) ravnina trebala prolaziti kroz ishodiste kako bi se ostvario taj maksimum udaljenosti jednog i drugog primjera


lucylu

tomekbeli420
zašto se gleda suma d-ova kod maksimizacije?


viliml

tomekbeli420 tomekbeli420 Ovo što računaš nije udaljenost primjera od hiperravnine, nego udaljenost između projekcija dva primjera na pravac okomit na hiperravninu.
Ono što se treba maksimizirati je minimalna udaljenost od bilo kojeg primjera do hiperravnine, dakle u našem slučaju pravac mora biti simetrala naša dva primjera.
To nam odmah daje w_0=0, w_1+w_2=0, i onda dalje lako.

EDIT: ok, shvatio sam što ti je bila ideja. Ti si shvatio da se maksimizira suma udaljenosti primjera od hiperravnine. Ali zadatak nije tako zadan. Definicija udaljenosti između dva skupa točaka je minimum udaljenosti između bilo koje točke u prvom i bilo koje točke u drugom skupu.
Bespotrebno si si zakomplicirao život, ali ipak si dobio isto rješenje pa bravo.


tomekbeli420

steker Ne. Recimo da zadatak nije specificirao da mora za oba primjera vrijediti y \cdot h \left(\mathbf{x}\right) = 5 (odnosno da ne znamo da to vrijedi). Maksimum udaljenosti se onda može postići neovisno o tome koliki je w_0. Zašto?
Pa ako raspišeš opet onaj izraz za D uzimajući u obzir da je jedan primjer pozitivan drugi negativan, dobiješ
D = \frac{h \left(\mathbf{x}^{(1)}\right) - h \left(\mathbf{x}^{(2)}\right)}{\| \mathbf{w} \|} = \frac{w_1 + w_0 - \left(w_2 + w_0\right)}{\sqrt{{w_1}^2 + {w_2}^2}} = \frac{w_1 - w_2}{\sqrt{{w_1}^2 + {w_2}^2}}

Što ne ovisi o w_0 (jasno, ne smije se dogoditi da su težine takve da se netočno klasificiraju primjeri). Maksimizatora ovog izraza ima beskonačno, konkretno rješenje su sve težine za koje vrijedi w_2 = -w_1, što ima smisla i geometrijski ako nacrtaš primjere u prostoru primjera, pa onda da bi se maksimizirale udaljenosti, pravac granice mora biti okomit na spojnicu između dva primjera iz skupa primjera. E sad kroz koji dio spojnice prolazi je nebitno, maksimizirana udaljenost (zbroj) će biti \sqrt{2}, pa je stoga nebitno koliki je w_0. No ako uz to uključiš informaciju da mora vrijediti y \cdot h \left(\mathbf{x}\right) = 5, tek onda možeš sa sigurnošću reći da je w_0 = 0.


tomekbeli420

lucylu jer zadatak kaže da model ima induktivnu pristranost tako da maksimizira udaljenost primjera od hiperravnine. Jedino što malo nije skroz jasno jest što točno se maksimizira između udaljenosti, nije eksplicitno rečeno da je zbroj.


Bananaking

Linearni Diskriminativni Modeli, zadaća, 4. zadatak, “Pozivajući se na skicu, odgovorite za koje će modele očekivanje gubitka biti veće od udjela pogrešnih klasifikacija”. Ne razumijem baš pitanje, jel odgovor isto što me pita zadnja 3 podzadatka kv gubitak jer kažnjava i točne?


tomekbeli420

viliml aha vidi stvarno, a bilo bi super kad bi u zadatku eksplicitno rekli da je minimum


boogie_woogie

Zna netko ovaj?

Pretpostavljam da se a i b mogu eliminirati jer primjeri nisu linearno odvojivi, ali zašto je baš d, a ne c?


viliml

nika_1999 To se meni čini kao greška u zadatku, osim ako je neka kvaka s time da empirijska pogreška konvergira na neku veliku vrijednost dok još uvijek krivo klasificira.
Ovaj mi se isto čini kao greška. Topologija mreže je 10×4×3, Parametara je 40+12=52.


viliml

nika_1999 viliml
Može drugo mišljenje?
Da netko ili potvrditi da su zadatci krivo zadani ili objasni službeno rješenje?
Uskoro će rok za predaju.


[obrisani korisnik]


može li netko dodatno pojasniti ovaj dio? ni nakon njihovog objašnjenja mi nije jasno zašto se ovo događa samo za linearno odvojive probleme


Rene

[obrisani korisnik] Ako su primjeri linearno odvojivi, onda će se sigmoida stezati i praktički težiti prema obliku step funkcije jer možeš samo biti jako blizu nule za jednu klasu, a jako blizu jedinice za drugu klasu i strmi prelazak između njih (slika lijevo).
Ako nisu linearno odvojivi onda ne taj strmi prijelaz nije dobar jer će greška biti veća, pa sigmoida postaje “blažeg” prijelaza (slika desno)

Možda se nisam najbolje izrazio, ali mislim da je o tome Šnajder govorio na predavanju Logistička regresija 2 pred kraj.


bodilyfluids

[obrisani korisnik]

Evo wall of text struje svijesti, nadam se da pomogne.

Prije svega, važno je shvatiti što se događa sa sigmoidom ako množiš njen ulaz sa faktorom alpha. Što više raste faktor alpha, to sigmoida postaje strmija ( 6. cjeline, str 2).

Sljedeće, potrebno je razumjeti da kada koristiš sigmoidu u logističkoj regresiji
\sigma(w^Tx)
wT je ista stvar kao faktor alpha. Kako je on veći, to je sigmoida strmija.

Dalje je potrebno razumjeti gubitak unakrsne entropije. On kažnjava i ispravno i neispravno klasificirane primjere i raste proporcionalno s razlikom izlaza modela i stvarne oznake primjera, tj. |y - h \left(\mathbf{x}\right)|
(vidi cjelinu 6, str 7.)

Ajmo sada pogledati što se događa s modelom koji već ispravno klasificira sve primjere. Dakle, primjeri su linearno odvojivi. Zašto on u daljnjoj optimizaciji nastavlja za neki faktor povećavati težine? Zato jer time ne mjenja granicu klasifikacije, a sigmoida postaje strmija. A kad sigmoida postane strmija, izlaz modela za sve pozitivne primjere pomakne se bliže 1, a za negativne bliže 0. Time se smanjuje gubitak, odnosno pogreška, a to je upravo ono što algoritam i želi.

E sad, ako primjeri nisu linearno odvojivi, logička regresija neke primjere neće moći ispravno klasificirati. I sad zamisli da kreneš povećavati težine isto kao i gore. Opet bi sigmoida postala strma i davala vrijednosti blizu ili 0 ili 1. I sad recimo da postoji pozitivno označen primjer na pogrešnoj strani klasifikacijske granice. Za njega bi model dao h \left(\mathbf{x}\right) \approx 0 , što je potpuno krivo klasificirano i gubitak je velik, odnosno gubitak netočno klasificiranih primjera raste što je sigmoida strmija. U drugu ruku, pogreška za sve ispravno klasificirane primjere bi padala. Dakle kako mjenjaš strminu sigmoide, ispravno klasificiranim primjerima gubitak se smanjuje, a neispravnim se povećava.

Poanta cijele priče je da kod linearno odvojih primjera funkciju pogreške uvijek možeš natjerati da teži u nula, a to postižeš jako strmom sigmoidom. Kod primjera koji nisu linearno odvojivi to ne možeš jer minimum funkcije pogreške nije 0 i težine nikad neće rasti nekontrolirano.


bodilyfluids

[obrisani korisnik] Zapravo, mislim da će ti biti najjasnije ako probaš debuggat algoritam za najjednostavniji mogući linearno odvojiv i neodvojiv primjer, pa pogledaš kako se stvari ažuriraju.


bodilyfluids

BillIK Tako nekako. Model sa strmom sigmoidom teži k tome da daje vrijednosti jako blizu ili 0 ili 1, pa je teško interetirati točnost klasifikacije. Dodatno, mozda ti ovo pomogne,
Dragi prijatelj strojnog učenja


Rene

viliml Ne bih rekao da je greška.
A i B neće konvergirati jer primjeri nisu linearno odvojivi a koristi se perceptron.
C ne konvergira jer logistička regresija (neregularizirana) ne konvergira za linearno odvojive primjere. Detaljnije objašnjenje:
https://stats.stackexchange.com/questions/224863/understanding-complete-separation-for-logistic-regression
D konvergira jer su primjeri linearno neodvovjivi.

Ovaj drugi zadatak ne dobijam ni tvoje ni njihovo rješenje, pa nisam siguran


Rene

Rene Evo, mislim da sam uspio i taj.
Iz modela vidimo da postoje 4 bazne funkcije \phi_j s tim da je \phi_0(\vec{x})=1 pa ona nema parametara.
Ostale 3 su definirane kao \phi_j(\vec{x})=w_{j0} + w_{j1} x_1 + ... + w_{j10}x_{10} dakle svaka ima 11 parametara.
Svaka od 3 klase još ima svoj vektor \vec{w_k} = (w_{k0}, w_{k1}, w_{k2}, w_{k3}) .
Ukupno je to onda 3 * 11 + 3 * 4 = 45 parametara.


viliml

Rene C ne konvergira jer logistička regresija (neregularizirana) ne konvergira za linearno odvojive primjere.

Težine ne konvergiraju (teže beskonačnosti), ali empirijska pogreška i dalje konvergira prema nuli.
Ali istina da D također konvergira.

Rene
U zadatku piše da su bazne funkcije definirane kao “skalarni produkt vektora značajki i vektora primjera”. Ako ignoriramo to što su vjerojatno htjeli reći “vektora značajki i vektora težina”, to nalaže da imaju 10 parametara. Nije pisalo “afina funkcija”. Ali ne bi me čudilo da je to isto njihova greška.
Također nigdje nije rečeno da je nulta bazna funkcija konstanta, ali ok, recimo da je to zdravi razum kojeg ja nemam.


[obrisani korisnik]

Rene možda sam ja omašio ceo fudbal, al zašto primjeri nisu linearno odvojivi? jel ih ne bi mogla odvojiti ploha y=0 npr.?


bodNaUvidima

Rene Gdje piše da se uzima da je nulta bazna funkcija konstantno preslikavanje značajki u 1? Ne mogu naći to u literaturi na intranetu niti se sjećam da je to naglašeno u videopredavanju.


micho

viliml E ali uzmi u obzir da će ti se tih 10 značajki potencijalno proširiti dummy značajkom, takva je i praksa na predmetu. Trebalo bi urediti zadatak da ne piše ovo “kao i na predavanju”, nego da piše konkretno o čemu se radi.


« Prethodna stranica Sljedeća stranica »