|
110 Elektrotehnika i informacijska tehnologija
112 Elektronika i računalno inženjerstvo
114 Komunikacijska i informacijska tehnologija
150 Industrijsko inženjerstvo
220 Elektronika i računalno inženjerstvo
222 Računalno inženjerstvo
231 Automatizacija i pogoni
232 Elektroenergetski sustavi
242 Telekomunikacije i informatika
261 Konstrukcijsko-energetsko strojarstvo
262 Računalno projektiranje i inženjerstvo
263 Proizvodno strojarstvo
270 Industrijsko inženjerstvo
271 Proizvodni management
272 Upravljanje životnim ciklusom proizvoda
310 Elektrotehnika i informacijska tehnologija
920 Elektronika i računalno inženjerstvo
940 Komunikacijska i informacijska tehnologija
|
|
Nema predmeta
Upit treba biti dulji od 1 znaka...
Nema rezultata
U polje za pretragu upišite naziv ili kôd predmeta koji želite pronaći
preduvjeti za upis
Završen sveučilišni preddiplomski studij Računarstva ili sveučilišni preddiplomski studij Elektrotehnika i informacijska tehnologija. Za praćenje kolegija potrebno je poznavanje engleskog jezika.
ciljevi predmeta
Osposobljavanje studenata za:
- dizajn i implementaciju računalnih programa za automatsku analizu, obradu i razumijevanje teksta,
- razlikovanje programskih zadataka semantičke i sintaktičke obrade i analize teksta,
- odabir i evaluacija optimalnih metoda za rješavanje određenih problema u području automatske obrade i analize teksta.
očekivani ishodi učenja
Studenti će nakon uspješno savladanog predmeta moći:
- dizajnirati i implementirati računalne programe za automatsku obradu, analizu i razumijevanje teksta,
- razumijeti razlike između automatske obrade i analize hrvatskog i engleskog jezika,
- razlikovati semantičku i sintaktičku analizu teksta,
- predlagati optimalne metode za rješavanje određenih problema automatske obrade i analize teksta,
- evaluirati metode za automatsku obradu i analizu teksta,
- razumijeti najnovija istraživanja u obradi prirodnog jezika te biti upoznati sa trenutnim izazovima i otvorenim problemima iz tog područja.
nastava i predavači
|
|
30 sati
2 sata tjedno × 15 tjedana
|
|
|
30 sati
2 sata tjedno × 15 tjedana
|
sadržaj
(1) Uvod u obradu prirodnog jezika i lingvistiku. Područja primjene sa konkretnim primjerima.
(2) Regularni izrazi.
(3) Uvod u normalizaciju teksta. Algoritam minimalne udaljenosti uređivanja.
(4) Statističke metode obrade prirodnog jezika. N-gram jezični modeli i njihova evaluacija.
(5) Detekcija emocija u obradi prirodnog jezika. Naivni Bayesov klasifikator.
(6) Logistička regresija u obradi prirodnog jezika.
(7) Semantička analiza teksta. TF-IDF (eng. Term Frequency - Inverse Document Frequency). Word2vec. BERT.
(8) Sintaktička analiza teksta: tokenizacija u obradi prirodnog jezika.
(9) Sintaktička analiza teksta: lematizacija u obradi prirodnog jezika.
(10) Sintaktička analiza teksta: označavanje vrsta riječi u rječniku (eng. Part-of-Speech tagging, POS tagging).
(11) Sintaktička analiza teksta: prepoznavanje imenovanih entiteta.
(12) Sintaktička analiza teksta: djelomično raščlanjivanje (eng. partial parsing, chunking) u obradi prirodnog jezika.
(13) Automatska kategorizacija teksta. Automatsko prevođenje teksta. Automatsko sažimanje teksta.
(14) Višeznačni smisao riječi. WordNet tezaurus.
(15) Trenutni izazovi i otvoreni problemi u obradi prirodnog jezika.
preporučena literatura
Daniel Jurafsky, James Martin: Speech and Language Processing, Prentice Hall, 2nd edition (May 16, 2008). (https://web.stanford.edu/~jurafsky/slp3/)
Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing, The MIT Press, 1st edition (June 18, 1999).
dopunska literatura
Hobson Lane, Hannes Hapke, Cole Howard. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python, Manning Publications; 1st edition (April 14, 2019).
Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit, O'Reilly Media; 1st edition (July 21, 2009).
Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems, O'Reilly Media; 1st edition (July 7, 2020).
način praćenja kvalitete i uspješnosti izvedbe svakog predmeta i/ili modula
Vođenje evidencije o prisutnosti na nastavi,
godišnja analiza uspješnosti polaganja ispita,
studentska anketa s ciljem evaluacije nastavnika,
samoevaluacija nastavnika,
povratna informacija od strane studenata koji su već diplomirali o relevantnosti sadržaja predmeta.
ispit (način polaganja, ispitni rokovi)
Tijekom semestra održati će se dva međuispita (kolokvija) i završni ispit. Međuispiti i završni ispit održavati će se prema kalendaru nastave FESB-a.
Uvjeti za pozitivnu ocjenu su:
a) Najmanje 50% bodova na svakom međuispitu (kolokviju), odnosno najmanje 50% bodova na cjelovitom ispitu. Cjeloviti ispit se sastoji od dva dijela: prvi dio uključuje gradivo prvog kolokvija a drugi dio uključuje gradivo drugog kolokvija. Ako student na završnom ispitu polaže oba dijela, mora iz svakoga imati barem 50% bodova. Ako je student već položio jedan dio gradiva, na ispitu polaže onaj dio koji nije položio.
b) Odrađivanje svih laboratorijskih vježbi.
Ocjena kontinuirane provjere znanja formira se u skladu s izrazom:
Ocjena (%) = 0,4 M1 + 0,4 M2 + 0,2 Z
-- M1 - ocjena 1. međuispita izražena u postotcima,
-- M2 - ocjena 2. međuispita izražena u postotcima,
-- Z - ocjena iz povremene provjere znanja u sklopu predavanja i laboratorijskih vježbi te iz zalaganja na laboratorijskim vježbama i predavanjima. Na zalaganje utječe kvaliteta izvještaja koji se mogu predati u okviru laboratorijskih vježbi, programiranje dodatnih zadataka iz laboratorijskih vježbi, i sl.
Ocjena (%) --- Ocjena
88%-100% --- izvrstan (5)
75%-87% --- vrlo dobar (4)
62%-74% --- dobar (3)
50%-61% --- dovoljan (2)
0%-49% --- nedovoljan (1)
Konačna ocjena utvrđuje se temeljem ocjene kontinuirane provjere znanja. Studenti mogu pristupiti usmenom ispitu za višu ocjenu.
|
Nastavne jedinice za Predavanja |
Broj sati |
1.
|
Uvod u obradu prirodnog jezika i lingvistiku. Područja primjene sa konkretnim primjerima.
|
2 sata |
2.
|
Regularni izrazi.
|
2 sata |
3.
|
Uvod u normalizaciju teksta. Algoritam minimalne udaljenosti uređivanja.
|
2 sata |
4.
|
Statističke metode obrade prirodnog jezika. N-gram jezični modeli i njihova evaluacija.
|
2 sata |
5.
|
Detekcija emocija u obradi prirodnog jezika. Naivni Bayesov klasifikator.
|
2 sata |
6.
|
Logistička regresija u obradi prirodnog jezika.
|
2 sata |
7.
|
Semantička analiza teksta. TF-IDF (eng. Term Frequency - Inverse Document Frequency). Word2vec. BERT.
|
2 sata |
8.
|
Sintaktička analiza teksta: tokenizacija u obradi prirodnog jezika.
|
2 sata |
9.
|
Sintaktička analiza teksta: lematizacija u obradi prirodnog jezika.
|
2 sata |
10.
|
Sintaktička analiza teksta: označavanje vrsta riječi u rječniku (eng. Part-of-Speech tagging, POS tagging).
|
2 sata |
11.
|
Sintaktička analiza teksta: prepoznavanje imenovanih entiteta.
|
2 sata |
12.
|
Sintaktička analiza teksta: djelomično raščlanjivanje (eng. partial parsing, chunking) u obradi prirodnog jezika.
|
2 sata |
13.
|
Automatska kategorizacija teksta. Automatsko prevođenje teksta. Automatsko sažimanje teksta.
|
2 sata |
14.
|
Višeznačni smisao riječi. WordNet tezaurus.
|
2 sata |
15.
|
Trenutni izazovi i otvoreni problemi u obradi prirodnog jezika.
|
2 sata |
|
Nastavne jedinice za Laboratorijske vježbe |
Broj sati |
1.
|
Uvod u obradu prirodnog jezika u Pythonu. Pregled potrebnih biblioteka u Pythonu. Upute za spajanje na udaljeno računalo na kojemu će se odrađivati laboratorijske vježbe.
|
2 sata |
2.
|
Konstrukcija regularnih izraza za automatsko prikupljanje podataka (eng. web scraping) u Pythonu. Izrada računalnog programa za automatsko pretraživanje Interneta (eng. web spider).
|
2 sata |
3.
|
Normalizacija teksta. Algoritam minimalne udaljenosti uređivanja u Pythonu.
|
2 sata |
4.
|
Statističke metode obrade i analize teksta. Konstrukcija algoritma vreće riječi (engl. Bag-of-Words) u Pythonu.
|
2 sata |
5.
|
Naivni Bayesov klasifikator u obradi i analizi teksta.
|
2 sata |
6.
|
Logistička regresija u obradi i analizi teksta.
|
2 sata |
7.
|
Semantička analiza teksta: TF-IDF (eng. Term Frequency - Inverse Document Frequency).
|
2 sata |
8.
|
Semantička analiza teksta: Word2vec.
|
2 sata |
9.
|
Semantička analiza teksta: BERT.
|
2 sata |
10.
|
Tokenizacija i lematizacija teksta pomoću SpaCy Python biblioteke.
|
2 sata |
11.
|
Označavanje vrsta riječi u rječniku. Prepoznavanje imenovanih entiteta u automatskoj obradi i analizi teksta. Djelomično raščlanjivanje u obradi i analizi teksta.
|
2 sata |
12.
|
Izrada programa u Pythonu za automatsku kategorizaciju teksta.
|
2 sata |
13.
|
Izrada jednostavnog programa u Pythonu za automatsko prevođenje teksta.
|
2 sata |
14.
|
WordNet tezaurus.
|
2 sata |
15.
|
Uvod u umjetne razgovorne entitete (eng. artificial conversational entities, chatbots). Konstrukcija umjetnog razgovornog agenta u Pythonu sa specifičnom temeljnom funkcijom koji bi uključivao algoritme i funkcije naučene na prethodnim laboratorijskim vježbama.
|
2 sata |
|