Ovu stranicu je najbolje pregledavati u modernom internet pregledniku s omogućenim JavaScriptom.

[PUS] 2. laboratorijska vježba - 2021/2022

chuuya

Dobiva li netko možda ovakav exception kod pipeline.fit(training):

21/12/28 11:39:21 ERROR TaskSetManager: Task 4 in stage 0.0 failed 1 times; aborting job
21/12/28 11:39:21 ERROR Instrumentation: org.apache.spark.SparkException: Job aborted due to stage 
failure: Task 4 instage 0.0 failed 1 times, most recent failure: Lost task 4.0 in stage 0.0 (TID 4) 
(192.168.1.14 executor driver): java.net.SocketException: Connection reset

U čemu bi mogao bit problem? Nakon tog izgubi i sve ostale taskove, a u jupyter bilježnici dobivam Py4JJavaError.


Noname

temari Ja dobijem isto to, kako si rijesio problem?


Noname

temari Ne znam jesi li uspio popraviti, ja sam dobijala java.net.SocketTimeoutException: Accept timed out error. Deinstalirala sam pyspark i instalirala ga sa uputa sa ovog clanka https://inblog.in/Install-Spark-PySpark-to-run-in-Jupyter-Notebook-on-Windows-p2eZ2qQPmO


carantena

je li dobijate ovakav rezultat kod izvođenja njihovog primjera iz uputa:
(4, spark i j k) –> prob=[0.6292098489668488,0.37079015103315116], prediction=0.000000
(5, l m n) –> prob=[0.9847700067623042,0.015229993237695805], prediction=0.000000
(6, spark hadoop spark) –> prob=[0.13412348342566116,0.8658765165743388], prediction=1.000000
(7, apache hadoop) –> prob=[0.9955732114398529,0.00442678856014711], prediction=0.000000


Smolaa

carantena Ja dobijem isto.


tito

samo da provjerim je li je obavezan ovaj labos, ako smo ostvarili sve bodove na 1. labosu?


Amon

tito Nope, ako si na prvom skupio sve bodove onda imaš 50% iz labosa i to ti je prag


Noname

Kako se sprema istrenirani model ?


vuk172

Jel i vama u 5. zadatku postane sve jaaaaaaaako sporo? Pretpostavljam da je to zbog vector assemblera.
I jel onda u 6. trebamo ponovo koristiti s vector assemblera ili samo običan count vectorizer bez Ngrama kao što je u 2. zadatku?


chuuya

vuk172 Meni je možda malo sporije al ne toliko. A za 6. ja ne koristim vector assembler nego onako kako je u 2., to mi nekak ima više smisla? A i manje je zahtjevno lol

prx_xD

sc = SparkContext.getOrCreate()
rdd_train = sc.parallelize(train)
rdd_test = sc.parallelize(test) -> train i test su meni liste at this point

Smolaa Obradiš liniju po liniju i u neku listu spremiš (id, text, label) i onda tu listu predaš u parallelize ovako kako sam gore napisala

Disklejmer ovo je sve onak kak sam ja radila, ne mora nužno bit 100% točno al eto meni daje convincing metrike pa


prx_xD

ima netko neki guide kak se radi paralelizacija?


Smolaa

Kako ucitavate ove txt fileove u rdd ?


vuk172

temari Možda sam onda nešto krivo. Jel bi mogla staviti možda kako ti izgleda pipeline za 5.?


MJ3

koliku veličinu vokabulara bi trebalo koristit?


Amon

MJ3 Ne postoji krivi odgovor na to, koristi onliko koliko možeš
Počni od 1000 i povećaj 10 puta sve dok ti ne pukne program zbog nedostatka rama ili dok mu ne treba 5 min da izračuna


Smolaa

Koliko su vam ispadali false-positive i false-negative za linearnu reg, bayes i svc ?


Noname

vuk172pipeline_ngrams_vec = Pipeline(stages=[tokenizer_ngrams_vec,remover_ngrams_vec,ngram_vec, cv_ngrams_vec_1,cv_ngrams_vec_2,vecAssembler, lr_ngrams_vec]) , s tim da cv_ngrams_vec_1 je CountVectorizer koji prima izlaz od StopWordsRemovera, a cv_ngrams_vec2 je CountVectorizer koji prima izlaz od ngrama, vecAssembler prima izlaze oba CountVectorizera


Noname

Jel netko dobije error py4j.Py4JException: Method falsePositiveRate([class java.lang.Integer]) does not exist kod izračunavanja false-postiva, za svaki label pozivam ovako methodu :
print("Class %s False positive = %s" % (label, metrics.falsePositiveRate(label)))


vuk172

Noname Meni je isto tako. Očito mi je samo jako spor laptop :')

Noname Ja nisam imala tu grešku, ali možda možeš staviti da ti samo cijelu konfuzijsku matricu vrati metrics.confusionMatrix().toArray()


Sljedeća stranica »