Završen sveučilišni preddiplomski studij Računarstva ili sveučilišni preddiplomski studij Elektrotehnika i informacijska tehnologija. Za praćenje kolegija potrebno je poznavanje engleskog jezika.
ciljevi predmeta
Osposobljavanje studenata za:
- dizajn i implementaciju računalnih programa za automatsku analizu, obradu i razumijevanje teksta,
- razlikovanje programskih zadataka semantičke i sintaktičke obrade i analize teksta,
- odabir i evaluacija optimalnih metoda za rješavanje određenih problema u području automatske obrade i analize teksta.
očekivani ishodi učenja
Studenti će nakon uspješno savladanog predmeta moći:
- dizajnirati i implementirati računalne programe za automatsku obradu, analizu i razumijevanje teksta,
- razumijeti razlike između automatske obrade i analize hrvatskog i engleskog jezika,
- razlikovati semantičku i sintaktičku analizu teksta,
- predlagati optimalne metode za rješavanje određenih problema automatske obrade i analize teksta,
- evaluirati metode za automatsku obradu i analizu teksta,
- razumijeti najnovija istraživanja u obradi prirodnog jezika te biti upoznati sa trenutnim izazovima i otvorenim problemima iz tog područja.
(1) Uvod u obradu prirodnog jezika i lingvistiku. Područja primjene sa konkretnim primjerima.
(2) Regularni izrazi.
(3) Uvod u normalizaciju teksta. Algoritam minimalne udaljenosti uređivanja.
(4) Statističke metode obrade prirodnog jezika. N-gram jezični modeli i njihova evaluacija.
(5) Detekcija emocija u obradi prirodnog jezika. Naivni Bayesov klasifikator.
(6) Logistička regresija u obradi prirodnog jezika.
(7) Semantička analiza teksta. TF-IDF (eng. Term Frequency - Inverse Document Frequency). Word2vec. BERT.
(8) Sintaktička analiza teksta: tokenizacija u obradi prirodnog jezika.
(9) Sintaktička analiza teksta: lematizacija u obradi prirodnog jezika.
(10) Sintaktička analiza teksta: označavanje vrsta riječi u rječniku (eng. Part-of-Speech tagging, POS tagging).
(11) Sintaktička analiza teksta: prepoznavanje imenovanih entiteta.
(12) Sintaktička analiza teksta: djelomično raščlanjivanje (eng. partial parsing, chunking) u obradi prirodnog jezika.
(13) Automatska kategorizacija teksta. Automatsko prevođenje teksta. Automatsko sažimanje teksta.
(14) Višeznačni smisao riječi. WordNet tezaurus.
(15) Trenutni izazovi i otvoreni problemi u obradi prirodnog jezika.
preporučena literatura
Daniel Jurafsky, James Martin: Speech and Language Processing, Prentice Hall, 2nd edition (May 16, 2008). (https://web.stanford.edu/~jurafsky/slp3/)
Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing, The MIT Press, 1st edition (June 18, 1999).
dopunska literatura
Hobson Lane, Hannes Hapke, Cole Howard. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python, Manning Publications; 1st edition (April 14, 2019).
Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit, O'Reilly Media; 1st edition (July 21, 2009).
Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems, O'Reilly Media; 1st edition (July 7, 2020).
jezik poduke
Hrvatski
način praćenja kvalitete i uspješnosti izvedbe svakog predmeta i/ili modula
Vođenje evidencije o prisutnosti na nastavi,
godišnja analiza uspješnosti polaganja ispita,
studentska anketa s ciljem evaluacije nastavnika,
samoevaluacija nastavnika,
povratna informacija od strane studenata koji su već diplomirali o relevantnosti sadržaja predmeta.
ispit (način polaganja, ispitni rokovi)
Tijekom semestra održati će se dva međuispita (kolokvija) i završni ispit. Međuispiti i završni ispit održavati će se prema kalendaru nastave.
Uvjet za pozitivnu ocjenu je najmanje 50% bodova na svakom međuispitu, odnosno najmanje 50% bodova na cjelovitom ispitu koji se može polagati na završnom ili popravnom roku. Nastavnik zadržava pravo usmene provjere gradiva riješenog na međuispitima i ispitima.
Prema Članku 65. Statuta Fakulteta elektrotehnike, strojarstva i brodogradnje, student je dužan sudjelovati u radu svih oblika nastave te prisustvovati: predavanjima najmanje 70% nastavnih sati te laboratorijskim vježbama 100% nastavnih sati. Ako ne ispuni navedene uvjete, student neće moći pristupiti ispitu.
Ocjena kontinuirane provjere znanja formira se u skladu s izrazom:
Ocjena (%) Ocjena
91%-100% izvrstan (5)
88%-90% -izvrstan (-5)
85%-87% + vrlo dobar (+4)
78%-84% vrlo dobar (4)
75%-77% -vrlo dobar (-4)
72%-74% + dobar (+3)
65%-71% dobar (3)
62%-64% -dobar (-3)
59%-61% + dovoljan (+2)
50%-58% dovoljan (2)
0%-49% nedovoljan (1)
Konačna ocjena utvrđuje se temeljem ocjene kontinuirane provjere znanja. Studenti s ocjenom s predznakom mogu pristupiti usmenom ispitu za višu ocjenu.
Završnom ispitu studenti mogu pristupiti na prva dva roka nakon završetka nastave u semestru u kojem su predmet upisali. Na završnom ispitu studenti polažu dio gradiva koje nisu položili putem međuispita, ili cjelovito gradivo u slučaju da nisu položili ni jedan međuispit.
Studenti koji ne polože ispit putem međuispita i završnog ispita, mogu pristupiti popravnom ispitu koji se održava u skladu s kalendarom nastave. Na popravnom ispitu student polaže cjelovito gradivo.
Nastavne jedinice za Predavanja
Broj sati
1.
Uvod u obradu prirodnog jezika i lingvistiku. Područja primjene sa konkretnim primjerima.
2 sata
2.
Regularni izrazi.
2 sata
3.
Uvod u normalizaciju teksta. Algoritam minimalne udaljenosti uređivanja.
2 sata
4.
Statističke metode obrade prirodnog jezika. N-gram jezični modeli i njihova evaluacija.
2 sata
5.
Detekcija emocija u obradi prirodnog jezika. Naivni Bayesov klasifikator.
2 sata
6.
Logistička regresija u obradi prirodnog jezika.
2 sata
7.
Semantička analiza teksta. TF-IDF (eng. Term Frequency - Inverse Document Frequency). Word2vec. BERT.
2 sata
8.
Sintaktička analiza teksta: tokenizacija u obradi prirodnog jezika.
2 sata
9.
Sintaktička analiza teksta: lematizacija u obradi prirodnog jezika.
2 sata
10.
Sintaktička analiza teksta: označavanje vrsta riječi u rječniku (eng. Part-of-Speech tagging, POS tagging).
Trenutni izazovi i otvoreni problemi u obradi prirodnog jezika.
2 sata
Nastavne jedinice za Laboratorijske vježbe
Broj sati
1.
Uvod u obradu prirodnog jezika u Pythonu. Pregled potrebnih biblioteka u Pythonu. Upute za spajanje na udaljeno računalo na kojemu će se odrađivati laboratorijske vježbe.
2 sata
2.
Konstrukcija regularnih izraza za automatsko prikupljanje podataka (eng. web scraping) u Pythonu. Izrada računalnog programa za automatsko pretraživanje Interneta (eng. web spider).
2 sata
3.
Normalizacija teksta. Algoritam minimalne udaljenosti uređivanja u Pythonu.
2 sata
4.
Statističke metode obrade i analize teksta. Konstrukcija algoritma vreće riječi (engl. Bag-of-Words) u Pythonu.
2 sata
5.
Naivni Bayesov klasifikator u obradi i analizi teksta.
2 sata
6.
Logistička regresija u obradi i analizi teksta.
2 sata
7.
Semantička analiza teksta: TF-IDF (eng. Term Frequency - Inverse Document Frequency).
2 sata
8.
Semantička analiza teksta: Word2vec.
2 sata
9.
Semantička analiza teksta: BERT.
2 sata
10.
Tokenizacija i lematizacija teksta pomoću SpaCy Python biblioteke.
2 sata
11.
Označavanje vrsta riječi u rječniku. Prepoznavanje imenovanih entiteta u automatskoj obradi i analizi teksta. Djelomično raščlanjivanje u obradi i analizi teksta.
2 sata
12.
Izrada programa u Pythonu za automatsku kategorizaciju teksta.
2 sata
13.
Izrada jednostavnog programa u Pythonu za automatsko prevođenje teksta.
2 sata
14.
WordNet tezaurus.
2 sata
15.
Uvod u umjetne razgovorne entitete (eng. artificial conversational entities, chatbots). Konstrukcija umjetnog razgovornog agenta u Pythonu sa specifičnom temeljnom funkcijom koji bi uključivao algoritme i funkcije naučene na prethodnim laboratorijskim vježbama.
2 sata
Niste više prijavljeni
Istekla vam je prethodna prijava te se morate ponovno prijaviti.
Nastao je problem u radu sustava
Informacije o problemu smo pohranili i nastojat ćemo ga riješiti. Ako vas ova greška sprječava da obavite nešto važno, možete nas odmah kontaktirati na helpdesk@fesb.hr.
Vaš preglednik nije podržan
Koristite web preglednik koji nije podržan. Za puno korisničko iskustvo, preuzmite najnoviju inačicu vašeg preglednika.