Ovu stranicu je najbolje pregledavati u modernom internet pregledniku s omogućenim JavaScriptom.

[DAP] 1. laboratorijska vježba - 2021/2022

Valentino

Još uvijek mi nije jasno kako izgledaju ovi labosi, tj. bilježnice. Imamo li neku bilježnicu za popuniti ili odgovaramo na ova pitanja u slobodnoj formi ?

  • dimensionality of the dataset
  • features distributions - How many different types of distributions are there? Do some distributions suggest the feature is useless? If yes, explain why is that the case.
  • missing values - Are there any? If yes, what will you do about it? Why?
  • outliers - Do any features contain outliers? If yes, what will you do about it? Why?
  • visualizations - Data visualizations in relation to the target variable (match outcome). Be sure to visualize the correct and accurate data for a particular match
  • reference classifier - prepare the data for the first classification. No need for any feature engineering or hyperparameter optimization at this point. Just create any successful and meaningful classifier.

sheriffHorsey

Valentino Ako sam ja dobro shvatio ti radis svoju biljeznicu gdje napises kod koji se odnosi na zadane zadatke i eventualno odgovoris na pitanja ili prokomentiras. Po nositelju i glavnom asistentu bih rekao da ce bit kao projekt na uvodu u znanost o podacima. Tamo su isto bila takva open ended pitanja ali ti ih je zadavao asistent koji ti je bio dodijeljen, a ocjenjivanje je bilo relativno blago pa nebi trebalo bit nista prezahtjevno.


Tompa007

Valentino
Jesi mozda nasao/ucio po točnom primjeru neke od ovih natuknica? Ima tolko tih značajki da me ovo sve samo zbunilo

  1. Dimenzionalnost mi je jasna pronać, pogleda se broj redaka i stupaca skupa podataka
  2. Ova distribucija podataka, nije mi skroz jasno pitanje, većinom su distribucije normalna razdioba, neka beta distribucija i tu i tamo neka uniformna (mislim da nekih kategoričkih nema ak se ne varam?) Ovo za beskorisnost jel to gledamo ako imamo znacajku koje je konstanta onda je beskorisna ? (standardna devijacija je 0)
  3. Kod mene je jedno 4,5 znacajka potpuno prazno, jel tako i kod vas? Rjesenje za to je potpuno maknut te znacajke ako se ne varam?
  4. Moram priznat da ih nisam našao (nisam previše ni tražio jer s utolko zbunjujući ti podatci, barem meni) ako je neko našao neke slobodno podjeli haha 😃 , i da kad ih se nađe onda se to popravi sa nekom metodom (normalizirat ga, uklonit …)
  5. Šta se točno ovdje traži ? jer za ovo bi trebalo naći i izabrati neke značajke i onda vizualno prikazati njihovu ovisnost jednu o drugoj? npr broj Assista HOME ekipe ovisi o tome dal je HOME ekipa dobila utakmicu (bubam bzvz)) Ili se ovdje misli na nešto drugo ?
  6. Ovo zadnje bi trebali izabrat X značajki koje mislimo da bi bile dobre za prvi klasifikator ?

Moram priznat da sam malo zbunjen sa svime ovime, ako neko zna više, volio bih kad bi me uputio u pravom smjeru sa svime ovim, hvala vam


BaboTrojka

Jesam ja dobro shvatio da mi trebamo predvidjeti rezultat iduće utakmice na temelju trenutne? To mi nema baš smisla jer nema bas prevelike korelacije izmedu dvije nasumicne utakmice. I doslovno je u istoj tablici, samo u drugom retku prikazan rezultat te utakmice.


Ryder


Nije mi jasno, recimo da gledamo prvi redak, mi imamo svu statistiku Pacers i Magic, a mi trebamo predvidjeti ishod Miami i Chicago na temelju te statistike? Trebamo li grupirat nekako podatke možda ili nešto jer ne vidim baš kako bi to funkcioniralo


Tompa007

Pepper u istom problemu sam, ne vidim kak bi se na temelju neke utakmice(jednog retka) moglo predvidjet ishod druge dvije momcadi


Jaster111

Jel ima netko ideju što sa podzadatkom za outliere? Probao sam svaku značajku provuć kroz Z-score tako da mi prikaže sve one podatke koji imaju Z-score > 3, ali čini mi se da tu postoji par problema:

  1. previše redaka bi bilo izbačeno (1114)

  2. čini mi se da to nije baš ni najbolji pristup jer vjerojatno bi svaka značajka zahtjevala neki osobni pristup, al s druge strane ima ih 230…

Ako netko tko je riješio ima savjete, dobro će doći.


Tompa007

Jaster111 Radio istu stvar, izbacio sam oko 800 redaka, sa 3700 na 2900, to mi je relativno okej, mozes onaj neki postupak koristit da zamjenis outlier sa srednjom vrijednoscu stupca


sheriffHorsey

Jaster111 tu mozes uzet neki outlier detection algoritam i plottat kolko ces podataka odrezat u ovisnost s hiperparametrima pa onda lako maknes kolko hoces

garica ja sam napravio tako da sam uzeo 10-15 znacajki, plottao histograme i utvrdio kakve su distribucije ali sam ciljano uzimao znacajke za koje sam mislio da bi mogle imat razlicite distrobucije


garica

Ovo pitanje sa distribucijama, jel bi mi trebali provodit neke testove za provjeru distribucija? Pretp da ne jer nismo to radili? Ako ne, sto bi onda trebali plottat 200 histograma?


Tompa007

A kojom logikom trebamo nać korelaciju u retku kad su timovi poptuno nezavisni od onih za koje predviđamo ?


snowman

𝐓𝐇𝐄 𝐒𝐄𝐂𝐑𝐄𝐓 - 𝐂𝐋𝐔𝐁 pa nema korelacija bas veze s ciljnom varijablom
imas npr. plus_minus_home i plus_minus_away i vrijedi plus_minus_home = - plus_minus_away te su one visoko korelirane
ali koliko sam skuzio ne trebamo korelaciju za ovu biljeznicu


Jaster111

Jel ima itko kakve informacije o tome kako je danas labos izgledao? Koja pitanja se pitaju i slično.


Valentino

Jaster111 Ulazni test je bio napisati u natuknicama jasno i koncizno korake pripreme podataka. Tu su rekle da nas je dosta izostavilo korak transformacije podatka. Onda ide po redu i ide po pitanjima iz zadace, pita samo sto si radio. Za bodove nemam pojma kako daju jer pise sa strane na neki papir nes 0.5,1.5…