[SAP] Gradivo
InCogNiTo124
branimir1999 kod se najmanje ispituje, ak se dobro sjecam, najvise se ispituju vasi zakljucci i teorija predmeta primjenjena na vas projekt, tipa ak ste koristili lin.reg. pitat ce vas koje su assumptions, ak ste koristili chi2 test, pitat ce vas iz koje distribucije moraju doc podaci i tako
Joji
branimir1999 Ne pitaju ništa izvan projekta, ali sve što imate u projektu morate znat objasnit. Znači trebate razumjet za svaki test koji ste koristili kako funkcionira, je li parametarski ili neparametraski, znat interpretirat sve rezultate, pogotovo linearnu regresiju ako je imate itd. Nama je npr. asistent prošle ak. godine na checkpointu rekao ako mislimo imati density plotove u projektu da moramo razumjeti kako se oni dobivaju ili da ih maknemo. Mi smo prihvatili izazov i na kraju nas je stvarno pitao par pitanja o tome iako se to nije radilo na predavanjima ni na vježbama.
Dootz
Jel itko ima snimku 4. vjezba? Kad stisnem download teams mi da video od minute i pol na kojem je samo pocetak sastanka prije vjezbe.
Rene
Ako su mi u modelu visestruke linearne regresije svi regresori medusobno dosta korelirani (0.7 do 0.8), ali kad fittam model ispadnu svi znacajni i podigne se R2, jel to onda okej model ili ne smije bit te koreliranosti?
InCogNiTo124
Rene obicni R² ce ti se uvijek dic, provjeri onaj adjusted R², ako ti i on raste onda je okej.
A ako te bas bas muci ta koreliranost, onda rastavi podatke sa SVD
Rene
InCogNiTo124 da da, na adjusted sam i mislio..ma ostalo mi je u glavi da ta korelacija nije dobra al sam pogledao primjer s vjezbi gdje su to radili i tamo je korelacija bila 0.99 pa je jedna varijabla ispala neznacajna..skroz druga stvar. Hvala svakako
Kaladonter
Jel bi mi prije svakog t-testa u projektu trebali provjeravat jel nam podatci imaju normalnu distribuciju (ako da kako), ili je dovoljno da se npr iz histograma vidi da je razdioba relativno normalna?
InCogNiTo124
Kaladonter histogram je okej, ali je vrlo subjektivan, na sapu vas uce da vam trebaju numericki podaci.
Prouci q-q plot ili k-s test https://en.m.wikipedia.org/wiki/Normality_test#Frequentist_tests a mozes i poseban chi² za test na normalnu
Kaladonter
InCogNiTo124 da razmisljao sam koristit qq-plot, jeli onda npr dovoljno da ako je samo iz histograma ocito da su podatci normalni da njih koristimo, a ako ne onda qqplot ili ks ili lilliefors ili nesto od tog?
EDIT: I također, kolko se ja sjećam asistent je rekao da makar ks ili lilliefors ne potvde normalnost, i dalje mozemo koristit podatke ako je dovoljno blizu normalnoj jer je t-test robustan na normalnost?
InCogNiTo124
Kaladonter najbolje je q-q plotom jer se dobro vidi ako nije pravac ili je blizu pravcu
A ovo za robustnost, da, al jos uvijek ne zelis da je prerazlicita distribucija haha
Kaladonter
InCogNiTo124 ok hvala, al nebi trebali imat problema jer nam podatci nikad ne odstupaju previse od normalne distribucije.
Jaster111
Koji bi bio dobar odabir testa kod testiranja pojavljuje li se jedna kategorija češće od druge?
Na projektu imam pitanje: “Je li učestalost krada veća od učestalosti kriminala vezanih uz narkotike?”
Poznat nam je ukupan broj počinjenih zločina i ukupan broj krađa te ukupan broj kriminala vezanih uz narkotike. Prva ideja mi je bila koristiti test o dvije proporcije, no ne znam ima li to smisla s obzirom da nisu nasumični uzorci?
InCogNiTo124
Jaster111 meni na prvu zvuci textbook test o proporcijama. Zasto mislis da nisu nasumicni?
Jaster111
InCogNiTo124
Možda sam se krivo izrazio. Dilema mi je primarno oko činjenice da u većini primjera bi npr učitelj plivanja 1 imao 30 učenika, a učitelj plivanja 2 imao 70 učenika. I onda se testira sposobnost učenika tako da se uzme 12 učenika prvog učitelja i 25 drugog. To meni zvuči kao da ti učenici dolaze iz dvije različite populacije, dok mi se ovdje čini da nam je populacija jednaka, tj. jednaka ukupnom broju svih zločina. Pretpostavljam da imam neke logičke greške u shvaćanju populacije i uzorka u ovom slučaju pa bi definitivno volio shvatit srž problema.
InCogNiTo124
Jaster111 pa nisu jednake populacije, ni ne moraju bit, postoje testovi na proporcije koji uzimaju velicinu populacije u obzir i naravno sto su populacije vise razlicite (po broju) snaga pada
InCogNiTo124
Jaster111 ono sto te mozda muci je pretpostavka testa otkud dolaze populacije
“prostor dogadaja” (ne znam kak bih rekao) ti je “skup svih ucenika plivanja” i izvlacis dvije populacije iz tog prostora, i svaku pridjelis drugom profesoru. pretpostavka je da su svi ti ucenici isti i onda svaka razlika na koju naides je samo i jedino zbog ucitelja plivanja
tako u primjeru sa zlocinom, pretpostavljas da su ljudi koji cine zlocine u biti u pozadini isti, samo eto, mozda se ljudi vise vole pikat ili pusiti nego otuditi imovinu.
to sto je razlicit broj, to ne znaci da su razlicite populacije, vec da je razlicit sampling. Npr mozda je ucitelj 1 imao vise godina iskustva, mozda jednostavno ima vise slucajeva droge po prirodi stvari, i tako.
Rene
U prezentacijama piše da je za test homogenosti nužno da zbrojevi stupaca ili redaka budu unaprijed zadani.
Znači li to da ako imam 3 države s različitim brojem stanovnika, izvučem slučajni uzorak npr. veličine 100 000 za svaku i onda na osnovu toga radim test? I kako odabrati veličinu uzorka?
Dootz
Jel ovo dovoljno blizu normalnosti? Radim linearnu regresiju, neznam sam procijeniti
gladiator
Dootz provjeri ks testom
Tompa007
jel neko mozda ovo zna raspisat u matricu ?
gladiator
𝐓𝐇𝐄 𝐒𝐄𝐂𝐑𝐄𝐓 - 𝐂𝐋𝐔𝐁 http://www.sthda.com/english/wiki/two-way-anova-test-in-r
ovo bi trebalo biti to, dvofaktorska anova
Tompa007
𝐓𝐇𝐄 𝐒𝐄𝐂𝐑𝐄𝐓 - 𝐂𝐋𝐔𝐁 kak bi se ovo raspisalo u matricu za dobi koeficijente ?