FESB NASTAVA
Loading...
    Diplomski
    250 Računarstvo
    2. semestar
    Nema predmeta

    Obrada prirodnog jezika

    (FEOK01)
    2024/25 godina
    preduvjeti za upis
    Završen sveučilišni preddiplomski studij Računarstva ili sveučilišni preddiplomski studij Elektrotehnika i informacijska tehnologija. Za praćenje kolegija potrebno je poznavanje engleskog jezika.
    ciljevi predmeta

    Osposobljavanje studenata za:
    - dizajn i implementaciju računalnih programa za automatsku analizu, obradu i razumijevanje teksta,
    - razlikovanje programskih zadataka semantičke i sintaktičke obrade i analize teksta,
    - odabir i evaluacija optimalnih metoda za rješavanje određenih problema u području automatske obrade i analize teksta.

    očekivani ishodi učenja

    Studenti će nakon uspješno savladanog predmeta moći:
    - dizajnirati i implementirati računalne programe za automatsku obradu, analizu i razumijevanje teksta,
    - razumijeti razlike između automatske obrade i analize hrvatskog i engleskog jezika,
    - razlikovati semantičku i sintaktičku analizu teksta,
    - predlagati optimalne metode za rješavanje određenih problema automatske obrade i analize teksta,
    - evaluirati metode za automatsku obradu i analizu teksta,
    - razumijeti najnovija istraživanja u obradi prirodnog jezika te biti upoznati sa trenutnim izazovima i otvorenim problemima iz tog područja.

    nositelji predmeta
    nastava i predavači
     
    Predavanja
    30 sati
    2 sata tjedno × 15 tjedana
     
    Laboratorijske vježbe
    30 sati
    2 sata tjedno × 15 tjedana
    sadržaj

    (1) Uvod u obradu prirodnog jezika i lingvistiku. Područja primjene sa konkretnim primjerima.
    (2) Regularni izrazi.
    (3) Uvod u normalizaciju teksta. Algoritam minimalne udaljenosti uređivanja.
    (4) Statističke metode obrade prirodnog jezika. N-gram jezični modeli i njihova evaluacija.
    (5) Detekcija emocija u obradi prirodnog jezika. Naivni Bayesov klasifikator.
    (6) Logistička regresija u obradi prirodnog jezika.
    (7) Semantička analiza teksta. TF-IDF (eng. Term Frequency - Inverse Document Frequency). Word2vec. BERT.
    (8) Sintaktička analiza teksta: tokenizacija u obradi prirodnog jezika.
    (9) Sintaktička analiza teksta: lematizacija u obradi prirodnog jezika.
    (10) Sintaktička analiza teksta: označavanje vrsta riječi u rječniku (eng. Part-of-Speech tagging, POS tagging).
    (11) Sintaktička analiza teksta: prepoznavanje imenovanih entiteta.
    (12) Sintaktička analiza teksta: djelomično raščlanjivanje (eng. partial parsing, chunking) u obradi prirodnog jezika.
    (13) Automatska kategorizacija teksta. Automatsko prevođenje teksta. Automatsko sažimanje teksta.
    (14) Višeznačni smisao riječi. WordNet tezaurus.
    (15) Trenutni izazovi i otvoreni problemi u obradi prirodnog jezika.

    preporučena literatura
    • Daniel Jurafsky, James Martin: Speech and Language Processing, Prentice Hall, 2nd edition (May 16, 2008). (https://web.stanford.edu/~jurafsky/slp3/)

    • Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing, The MIT Press, 1st edition (June 18, 1999).

    dopunska literatura
    • Hobson Lane, Hannes Hapke, Cole Howard. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python, Manning Publications; 1st edition (April 14, 2019).

    • Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit, O'Reilly Media; 1st edition (July 21, 2009).

    • Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems, O'Reilly Media; 1st edition (July 7, 2020).

    jezik poduke
    Hrvatski
    način praćenja kvalitete i uspješnosti izvedbe svakog predmeta i/ili modula

     Vođenje evidencije o prisutnosti na nastavi,
     godišnja analiza uspješnosti polaganja ispita,
     studentska anketa s ciljem evaluacije nastavnika,
     samoevaluacija nastavnika,
     povratna informacija od strane studenata koji su već diplomirali o relevantnosti sadržaja predmeta.

    ispit (način polaganja, ispitni rokovi)

    Tijekom semestra održati će se dva međuispita (kolokvija) i završni ispit. Međuispiti i završni ispit održavati će se prema kalendaru nastave FESB-a.

    Uvjeti za pozitivnu ocjenu su:
    a) Najmanje 50% bodova na svakom međuispitu (kolokviju), odnosno najmanje 50% bodova na cjelovitom ispitu. Cjeloviti ispit se sastoji od dva dijela: prvi dio uključuje gradivo prvog kolokvija a drugi dio uključuje gradivo drugog kolokvija. Ako student na završnom ispitu polaže oba dijela, mora iz svakoga imati barem 50% bodova. Ako je student već položio jedan dio gradiva, na ispitu polaže onaj dio koji nije položio.
    b) Odrađivanje svih laboratorijskih vježbi.

    Ocjena kontinuirane provjere znanja formira se u skladu s izrazom:

    Ocjena (%) = 0,4 M1 + 0,4 M2 + 0,2 Z
    -- M1 - ocjena 1. međuispita izražena u postotcima,
    -- M2 - ocjena 2. međuispita izražena u postotcima,
    -- Z - ocjena iz povremene provjere znanja u sklopu predavanja i laboratorijskih vježbi te iz zalaganja na laboratorijskim vježbama i predavanjima. Na zalaganje utječe kvaliteta izvještaja koji se mogu predati u okviru laboratorijskih vježbi, programiranje dodatnih zadataka iz laboratorijskih vježbi, i sl.

    Ocjena (%) --- Ocjena
    88%-100% --- izvrstan (5)
    75%-87% --- vrlo dobar (4)
    62%-74% --- dobar (3)
    50%-61% --- dovoljan (2)
    0%-49% --- nedovoljan (1)

    Konačna ocjena utvrđuje se temeljem ocjene kontinuirane provjere znanja. Studenti mogu pristupiti usmenom ispitu za višu ocjenu.

      Nastavne jedinice za Predavanja Broj sati
    1.

    Uvod u obradu prirodnog jezika i lingvistiku. Područja primjene sa konkretnim primjerima.

    2 sata
    2.

    Regularni izrazi.

    2 sata
    3.

    Uvod u normalizaciju teksta. Algoritam minimalne udaljenosti uređivanja.

    2 sata
    4.

    Statističke metode obrade prirodnog jezika. N-gram jezični modeli i njihova evaluacija.

    2 sata
    5.

    Detekcija emocija u obradi prirodnog jezika. Naivni Bayesov klasifikator.

    2 sata
    6.

    Logistička regresija u obradi prirodnog jezika.

    2 sata
    7.

    Semantička analiza teksta. TF-IDF (eng. Term Frequency - Inverse Document Frequency). Word2vec. BERT.

    2 sata
    8.

    Sintaktička analiza teksta: tokenizacija u obradi prirodnog jezika.

    2 sata
    9.

    Sintaktička analiza teksta: lematizacija u obradi prirodnog jezika.

    2 sata
    10.

    Sintaktička analiza teksta: označavanje vrsta riječi u rječniku (eng. Part-of-Speech tagging, POS tagging).

    2 sata
    11.

    Sintaktička analiza teksta: prepoznavanje imenovanih entiteta.

    2 sata
    12.

    Sintaktička analiza teksta: djelomično raščlanjivanje (eng. partial parsing, chunking) u obradi prirodnog jezika.

    2 sata
    13.

    Automatska kategorizacija teksta. Automatsko prevođenje teksta. Automatsko sažimanje teksta.

    2 sata
    14.

    Višeznačni smisao riječi. WordNet tezaurus.

    2 sata
    15.

    Trenutni izazovi i otvoreni problemi u obradi prirodnog jezika.

    2 sata
      Nastavne jedinice za Laboratorijske vježbe Broj sati
    1.

    Uvod u obradu prirodnog jezika u Pythonu. Pregled potrebnih biblioteka u Pythonu. Upute za spajanje na udaljeno računalo na kojemu će se odrađivati laboratorijske vježbe.

    2 sata
    2.

    Konstrukcija regularnih izraza za automatsko prikupljanje podataka (eng. web scraping) u Pythonu. Izrada računalnog programa za automatsko pretraživanje Interneta (eng. web spider).

    2 sata
    3.

    Normalizacija teksta. Algoritam minimalne udaljenosti uređivanja u Pythonu.

    2 sata
    4.

    Statističke metode obrade i analize teksta. Konstrukcija algoritma vreće riječi (engl. Bag-of-Words) u Pythonu.

    2 sata
    5.

    Naivni Bayesov klasifikator u obradi i analizi teksta.

    2 sata
    6.

    Logistička regresija u obradi i analizi teksta.

    2 sata
    7.

    Semantička analiza teksta: TF-IDF (eng. Term Frequency - Inverse Document Frequency).

    2 sata
    8.

    Semantička analiza teksta: Word2vec.

    2 sata
    9.

    Semantička analiza teksta: BERT.

    2 sata
    10.

    Tokenizacija i lematizacija teksta pomoću SpaCy Python biblioteke.

    2 sata
    11.

    Označavanje vrsta riječi u rječniku. Prepoznavanje imenovanih entiteta u automatskoj obradi i analizi teksta. Djelomično raščlanjivanje u obradi i analizi teksta.

    2 sata
    12.

    Izrada programa u Pythonu za automatsku kategorizaciju teksta.

    2 sata
    13.

    Izrada jednostavnog programa u Pythonu za automatsko prevođenje teksta.

    2 sata
    14.

    WordNet tezaurus.

    2 sata
    15.

    Uvod u umjetne razgovorne entitete (eng. artificial conversational entities, chatbots). Konstrukcija umjetnog razgovornog agenta u Pythonu sa specifičnom temeljnom funkcijom koji bi uključivao algoritme i funkcije naučene na prethodnim laboratorijskim vježbama.

    2 sata
    Niste više prijavljeni

    Istekla vam je prethodna prijava te se morate ponovno prijaviti.

    Nastao je problem u radu sustava

    Informacije o problemu smo pohranili i nastojat ćemo ga riješiti. Ako vas ova greška sprječava da obavite nešto važno, možete nas odmah kontaktirati na helpdesk@fesb.hr.

    Vaš preglednik nije podržan

    Koristite web preglednik koji nije podržan. Za puno korisničko iskustvo, preuzmite najnoviju inačicu vašeg preglednika.