[PUS] 2. laboratorijska vježba - 2021/2022
chuuya
Dobiva li netko možda ovakav exception kod pipeline.fit(training)
:
21/12/28 11:39:21 ERROR TaskSetManager: Task 4 in stage 0.0 failed 1 times; aborting job
21/12/28 11:39:21 ERROR Instrumentation: org.apache.spark.SparkException: Job aborted due to stage
failure: Task 4 instage 0.0 failed 1 times, most recent failure: Lost task 4.0 in stage 0.0 (TID 4)
(192.168.1.14 executor driver): java.net.SocketException: Connection reset
U čemu bi mogao bit problem? Nakon tog izgubi i sve ostale taskove, a u jupyter bilježnici dobivam Py4JJavaError
.
Noname
temari Ja dobijem isto to, kako si rijesio problem?
Noname
temari Ne znam jesi li uspio popraviti, ja sam dobijala java.net.SocketTimeoutException: Accept timed out error. Deinstalirala sam pyspark i instalirala ga sa uputa sa ovog clanka https://inblog.in/Install-Spark-PySpark-to-run-in-Jupyter-Notebook-on-Windows-p2eZ2qQPmO
carantena
je li dobijate ovakav rezultat kod izvođenja njihovog primjera iz uputa:
(4, spark i j k) –> prob=[0.6292098489668488,0.37079015103315116], prediction=0.000000
(5, l m n) –> prob=[0.9847700067623042,0.015229993237695805], prediction=0.000000
(6, spark hadoop spark) –> prob=[0.13412348342566116,0.8658765165743388], prediction=1.000000
(7, apache hadoop) –> prob=[0.9955732114398529,0.00442678856014711], prediction=0.000000
Smolaa
carantena Ja dobijem isto.
tito
samo da provjerim je li je obavezan ovaj labos, ako smo ostvarili sve bodove na 1. labosu?
Amon
tito Nope, ako si na prvom skupio sve bodove onda imaš 50% iz labosa i to ti je prag
Noname
Kako se sprema istrenirani model ?
vuk172
Jel i vama u 5. zadatku postane sve jaaaaaaaako sporo? Pretpostavljam da je to zbog vector assemblera.
I jel onda u 6. trebamo ponovo koristiti s vector assemblera ili samo običan count vectorizer bez Ngrama kao što je u 2. zadatku?
chuuya
vuk172 Meni je možda malo sporije al ne toliko. A za 6. ja ne koristim vector assembler nego onako kako je u 2., to mi nekak ima više smisla? A i manje je zahtjevno lol
sc = SparkContext.getOrCreate()
rdd_train = sc.parallelize(train)
rdd_test = sc.parallelize(test) -> train i test su meni liste at this point
Smolaa Obradiš liniju po liniju i u neku listu spremiš (id, text, label) i onda tu listu predaš u parallelize ovako kako sam gore napisala
Disklejmer ovo je sve onak kak sam ja radila, ne mora nužno bit 100% točno al eto meni daje convincing metrike pa
prx_xD
ima netko neki guide kak se radi paralelizacija?
Smolaa
Kako ucitavate ove txt fileove u rdd ?
vuk172
temari Možda sam onda nešto krivo. Jel bi mogla staviti možda kako ti izgleda pipeline za 5.?
MJ3
koliku veličinu vokabulara bi trebalo koristit?
Amon
MJ3 Ne postoji krivi odgovor na to, koristi onliko koliko možeš
Počni od 1000 i povećaj 10 puta sve dok ti ne pukne program zbog nedostatka rama ili dok mu ne treba 5 min da izračuna
Smolaa
Koliko su vam ispadali false-positive i false-negative za linearnu reg, bayes i svc ?
Noname
vuk172pipeline_ngrams_vec = Pipeline(stages=[tokenizer_ngrams_vec,remover_ngrams_vec,ngram_vec, cv_ngrams_vec_1,cv_ngrams_vec_2,vecAssembler, lr_ngrams_vec])
, s tim da cv_ngrams_vec_1 je CountVectorizer koji prima izlaz od StopWordsRemovera, a cv_ngrams_vec2 je CountVectorizer koji prima izlaz od ngrama, vecAssembler prima izlaze oba CountVectorizera
Noname
Jel netko dobije error py4j.Py4JException: Method falsePositiveRate([class java.lang.Integer]) does not exist
kod izračunavanja false-postiva, za svaki label pozivam ovako methodu :
print("Class %s False positive = %s" % (label, metrics.falsePositiveRate(label)))