[MAP] 1. laboratorijska vježba - 2021/2022
Ryder
Što ste napravili sa nedostajućim vrijednostima u prvom zadatku i sa onom jednom vrijednosti 18 u stupcu MI_2?
Ducky
Pepper izbriso sam tog studenta sa 18, imaš još jednog šta je ispod 0 na ZI_1
matt
Pepper
Settao sam mu 18
-> 8
(max broj bodova) jer se vjerojatno radi o grešci prilikom upisa. -3
sam settao na 3
vodeći se istom logikom (plus ne postoje negativni bodovi). Overkill: napraviti multivarijatnu imputaciju za ta 2 podatka
Ducky
Pronađi neku od statističkih udaljenosti (mahalanobis-ovu) za sve primjere. S tim udaljenostima provedi chi kvadrat test i pronađi primjere čija je udaljenost od drugih primjera statistički značajna (npr. za alpha = 0.01)
kako bi ja onda trebao micat NA podatke na razini cijelog dataseta? vise mi smisla ima filtrirat u kasnijim podzadacima kad me se pita da radim samo na podacima s roka/kontinuirano
komentar na ovo što je Dragi prijatelj strojnog učenja rekao; nije bitno s kojom vrijednošću zamjeniš NA-ove za IR_{1,2,3,4,5}
dokle god kasnije filtiriraš studente koji su uistinu išli na IR (npr. sa varijablom otisao_na_ir
0/1) kad radiš analizu koje sadrže varijable IR_{1,2,3,4,5}
. NA-ovi kod IR_{1,2,3,4,5}
mogu se zamjeniti sa 0
, mean
, multivarijatnom imputacijom (ovo je možda fora ako želiš brzo vidjeti kakve bi bodove dobili studenti na IR-u a da nisu išli na IR)
Ducky
Što je upareni graf?
“Na dijagonalama prikažite empirijsku distribuciju podataka, a na elementima izvan dijagonala prikažite grafove raspršenja za parove varijabli”
Jel tu opisuju taj upareni graf ili moramo i jedno i drugo?
Ryder
Ducky Imaš ggpairs naredbu sa kojojom se postavljaju posebno grafovi na dijagonali i posebno sa gornje i donje strane dijagonale, slično su koristili u 1. auditornoj vježbi.
Jedino ne znam kako da dobijemo empirijsku distribuciju na dijagonali.
Ryder
Jesu li rekli možda na predavanju kako će labos izgledati ili neke detalje vezano za to?
Ducky
“Ispitajte postoje li stršeće vrijednosti koje su statistički značajne.”
Kako znamo jesu li statistički značajne?
Misle li značajne za pojedinačne zadatke ili za sve zadatke zajedno (za vektor tipa [IR_1 IR_2 IR_3 IR_4 IR_5] )?
sheriffHorsey
Što je ovdje pjesnik htio reći:
- Provjerite zadovoljavaju li bodovi gore opisane uvjete predmeta,
- Za nedostajuće podatke ispitajte jesu li opravdani te odaberite i primijenite tehniku upravljanja nedostajućim podatcima.
Čini mi se da sam ovo prvo pitanje već riješio s provjerom raspona vrijednosti, a za ovo drugo ne kužim jel bi ih trebao micati pošto ima smisla da su NA.
bodilyfluids
npr jel bodovi pojedinog zadatka imaju vrijednost van raspona, jesu li spremljeni ko numercka vrijednost itd.
opravdane su NA vrijednosti u IR stupcima ali moras ih se rjesit kako bi mogao vrsit statisticku analizu
sheriffHorsey
Dragi prijatelj strojnog učenja
npr jel bodovi pojedinog zadatka imaju vrijednost van raspona, jesu li spremljeni ko numercka vrijednost itd.
jesam li ja lud ili se doslovno to radi u prva dva podzadatka?
- Provjerite jesu li sve varijable očekivanog tipa,
- Provjerite jesu li vrijednosti unutar zadanog raspona (s obzirom na gore opisano bodovanje),
opravdane su NA vrijednosti u IR stupcima ali moras ih se rjesit kako bi mogao vrsit statisticku analizu
kako bi ja onda trebao micat NA podatke na razini cijelog dataseta? vise mi smisla ima filtrirat u kasnijim podzadacima kad me se pita da radim samo na podacima s roka/kontinuirano
bodilyfluids
jesam li ja lud ili se doslovno to radi u prva dva podzadatka?
asistenti su pisali vjezbu, dont think about it, whatever
NA vrijednosti u IR stupcima sam se rjesio tako da sam dodao novi stupac indikatorskih varijabli koji oznacava je li student izasao na rok, nakon toga sam IR_n NA vrijednosti zamjenio s nulama.
I nakon toga tek rjesavam ostale na vrijednosti, ak ih ima
Disclaimer nisam imao sap, mozes ovo sve shvatit kao schizo ramblings
wesley
Mogu vrijednost van raspona postavit na NA? ili moram zamijenit s nekim brojem
wesley
možda pod “zadovoljeni uvjeti predmeta” misle da se ne može desit da netko ima bodove iz ispitnog roka ako nije bio na jednom od labosa -> zato što je uvjet za polaganje roka izlazak na oba labosa
wesley
wesley ali ne piše eksplicitno da ne možeš zbog toga ići pisat ispit tako da nisam sigurna
Rene
“Prikažite upareni graf za zadatke s ispitnog roka. Na dijagonalama prikažite empirijsku distribuciju podataka, a na elementima izvan dijagonala prikažite grafove raspršenja za parove varijabli. Razmislite o karakteristikama grafova i razmislite postoje li primjeri koji odskaču od ostalih.”
Jel’ dobijate ista korisno u ovom zadatku? Koliko vidim sve je isti kurac, tj. nisu povezani zadatci medusobno
Eventualno su 1 i 2 malo bolje rješeni?
garica
Rene Jel plottas samo studente koji su izasli na rok? Meni ovako izgleda:
Rene
garica Da, ako nisam nesto sjebao sa selectanjem redaka. Probam ispocetka, hvala
EDIT: ove rezultate kao ti dobijem kad graf crtam za sve studente, sto mi nije bas jasno jer ostali imaju NA za sve bodove s roka?
garica
Rene Mozda ggpairs zanemari te NA rokove ovih koji nisu izasli pa se dobije isti rezultat, ja crtam samo za one koji jesu izasli.
Rene
garica nisi me skuzio/la, kad izdvojim ove s roka dobijem svoju sliku, kad pustim ggpairs da ih zanemari dobijem tvoju
Nije mi bas jasno u cemu je razlika ali nema veze