Osposobljavanje studenata za:
- razlikovanje problemskih zadataka sintaktičke i semantičke analize teksta na prirodnom jeziku,
- odabir primjerenih metoda u raznim zadacima obrade prirodnog jezika,
- samostalan rad sa programskim alatima i bibliotekama koje se koriste za implementaciju sustava za automatsku obradu prirodnog jezika,
- samostalno dizajniranje, implementaciju i vrednovanje metoda za automatsku obradu prirodnog jezika,
- prepoznavanje napretka u razvoju metoda umjetne inteligencije i strojnog učenja za automatsku obradu i analizu prirodnog jezika.
očekivani ishodi učenja
Studenti će nakon uspješno savladanog predmeta moći:
- razlikovati metode sintaktičke i semantičke obrade i analize prirodnog jezika,
- uočiti različitosti u obradi hvatskog i engleskog jezika,
- primijeniti metode umjetne inteligencije i strojnog učenja koje se koriste u automatskoj obradi prirodnog jezika,
- samostalno dizajnirati i implementirati sustave za automatsku obradu prirodnog jezika,
- samostalno koristiti programske alate i biblioteke za automatsku obradu prirodnog jezika,
- vrednovati metode automatske obrade prirodnog jezika,
- predložiti primjerenu metodu umjetne inteligencije i strojnog učenja za rješavanje određenog problema kod automatske obrade prirodnog jezika.
- Uvod u obradu prirodnog jezika. Područja primjene sa konkretnim primjerima. Razlika sintaktičke i semantičke analize prirodnog jezika. Izazovi obrade engleskog i hrvatskog jezika.
- Formalne gramatike u obradi prirodnog jezika. Regularne gramatike. Kontekstno-neovisne gramatike.
- Vrste rječnika (korpusa) u obradi prirodnog jezika.
- Tokenizacija i lematizacija u obradi prirodnog jezika.
- Označavanje vrsta riječi u rječniku (korpusu) (tzv. POS (eng. Part-of-Speech) označavanje). Gramatičko označavanje riječi..
- Prepoznavanje imenovanih entiteta.
- Vektorski prostori i redukcija dimenzionalnosti u obradi prirodnog jezika. Tehnike odstranjivanja šuma.
- Automatsko razumijevanje teksta pomoću WordNet metode, metode vreće riječi (eng. Bag of Words) i TF-IDF (eng. Term Frequency-Inverse Document Frequency) metode. Hrvatski WordNet (CroWN) i korištenje.
- Postupci i metode automatske detekcije emocija pomoću obrade prirodnog jezika (Naivni Bayesov klasifikator, logistička regresija).
- Metode umjetne inteligencije i strojnog učenja u obradi prirodnog jezika. Klasične metode. Metode utemeljene na dubokom učenju. Vrednovanje metoda za obradu prirodnog jezika.
- Word2vec modeli u obradi prirodnog jezika. N-gram jezični modeli. GPT-2 i GPT-3 modeli. BERT model jezika i primjena u hrvatskom jeziku.
preporučena literatura
Christopher D. Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing, The MIT Press; 1st edition (June 18, 1999).
Hobson Lane, Hannes Hapke, Cole Howard. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python, Manning Publications; 1st edition (April 14, 2019).
Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems, O'Reilly Media; 1st edition (July 7, 2020).
dopunska literatura
Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit, O'Reilly Media; 1st edition (July 21, 2009).
Emily M. Bender. Linguistic Fundamentals for Natural Language Processing: 100 Essentials from Morphology and Syntax (Synthesis Lectures on Human Language Technologies), Morgan & Claypool Publishers; Illustrated edition (June 1, 2013).
jezik poduke
hrvatski
način praćenja kvalitete i uspješnosti izvedbe svakog predmeta i/ili modula
prazno
ispit (način polaganja, ispitni rokovi)
Ocjena se utvrđuje na osnovu kvalitete i složenosti realiziranog seminarskog
rada te prezentacije istoga.
Nastavne jedinice za Predavanja
Broj sati
1.
Uvod u obradu prirodnog jezika. Područja primjene sa konkretnim primjerima. Razlika sintaktičke i semantičke analize prirodnog jezika. Izazovi obrade engleskog i hrvatskog jezika.
4 sata
2.
Formalne gramatike u obradi prirodnog jezika. Regularne gramatike. Kontekstno-neovisne gramatike.
4 sata
3.
Vrste rječnika (korpusa) u obradi prirodnog jezika.
2 sata
4.
Tokenizacija i lematizacija u obradi prirodnog jezika.
4 sata
5.
Označavanje vrsta riječi u rječniku (korpusu) (tzv. POS (eng. Part-of-Speech) označavanje). Gramatičko označavanje riječi..
4 sata
6.
Prepoznavanje imenovanih entiteta.
2 sata
7.
Vektorski prostori i redukcija dimenzionalnosti u obradi prirodnog jezika. Tehnike odstranjivanja šuma.
3 sata
8.
Automatsko razumijevanje teksta pomoću WordNet metode, metode vreće riječi (eng. Bag of Words) i TF-IDF (eng. Term Frequency-Inverse Document Frequency) metode. Hrvatski WordNet (CroWN) i korištenje.
6 sati
9.
Postupci i metode automatske detekcije emocija pomoću obrade prirodnog jezika (Naivni Bayesov klasifikator, logistička regresija).
6 sati
10.
Metode umjetne inteligencije i strojnog učenja u obradi prirodnog jezika. Klasične metode. Metode utemeljene na dubokom učenju. Vrednovanje metoda za obradu prirodnog jezika.
6 sati
11.
Word2vec modeli u obradi prirodnog jezika. N-gram jezični modeli. GPT-2 i GPT-3 modeli. BERT model jezika i primjena u hrvatskom jeziku.
4 sata
Niste više prijavljeni
Istekla vam je prethodna prijava te se morate ponovno prijaviti.
Nastao je problem u radu sustava
Informacije o problemu smo pohranili i nastojat ćemo ga riješiti. Ako vas ova greška sprječava da obavite nešto važno, možete nas odmah kontaktirati na helpdesk@fesb.hr.
Vaš preglednik nije podržan
Koristite web preglednik koji nije podržan. Za puno korisničko iskustvo, preuzmite najnoviju inačicu vašeg preglednika.