TAU2016/Wykłady

Materiał na egzamin

  • funkcja urównoleglenia
  • IBM Model 1
  • GROW-DIAG-FINAL
  • ekstrakcja fraz
  • modele języka
  • ewaluacja tłumaczenia automatycznego
  • neuronowe tłumaczenie maszynowe (w zarysie)

Wykłady będą prowadzone (z wyjątkiem wykładu I) w trybie „odwróconego” wykładu (inverted lecture). Przed każdym wykładem dostają Państwo do poczytania i przyswojenia pewien materiał. Na wykładzie sprawdzamy, czy dobrze rozumiemy zadany materiał.

Zakładam, że Państwo przeczytali zadany materiał. Nie ma sensu przychodzić na zajęcia, nie przeczytawszy wcześniej zadanego materiału.

Korzystanie z urządzeń podczas wykładu

Proszę o niekorzystanie z komputerów, komórek, tabletów itp. podczas wykładu. Zachęcam do robienia pisemnych notatek.

Egzamin

Przedmiot kończy się pisemnym egzaminem. Z egzaminu można być zwolnionym poprzez systematyczne zaliczanie krótkich testów na początku wykładu (zob. niżej).

Punktacja za wykłady

Arkusz z punktami za Wykłady 2-13

Zaliczenie egzaminu przez testy na wykładach:

  • 5 — co najmniej 80% poprawnych odpowiedzi w co najmniej 75% testów
  • 4 — co najmniej 60% poprawnych odpowiedzi w co najmniej 75% testów
  • 3 — co najmniej 50% poprawnych odpowiedzi w co najmniej 69% testów

Wykład I

Wykład II

Na Wykład II (12 października) proszę przeczytać fragmenty rozdziału 2 książki Philippa Koehna Statistical Machine Translation, konkretnie: wnikliwie strony 33-38, pobieżnie strony 39-43.

Dostępność książki:

  • fragmenty książki dostępne na Google Books,
  • inne fragmenty można wyguglać wrzucając zapytanie np. “the maximization step we learn the model from the data”.

Inne ciekawe materiały do przeczytania lub obejrzenia:

Wykład III

Na Wykład III (21 października) proszę przeczytać: http://www.isi.edu/natural-language/mt/aimag97.pdf — rozdział 1 (za pierwszym razem pobieżnie), 2 (dokładnie, ze zrozumieniem), 3 i 4 (pobieżnie albo w ogóle pominąć).

Jeśli mają większy problem z językiem angielskim, można alternatywnie (lepiej: dodatkowo) przeczytać następujący tekst: http://www.staff.amu.edu.pl/~inveling/pdf/Marcin_Junczys-Dowmunt_inve16.pdf (strony 44-51).

Wykład IV

Na Wykład IV (26 października) proszę przeczytać rozdział 4 książki Philippa Koehna Statistical Machine Translation, strony 81-100.

Dostępność książki:

  • fragmenty książki dostępne na Google Books,
  • rozdział 4 można wyguglać wrzucając zapytanie np. “the maximization step we learn the model from the data”,
  • mogę wypożyczyć książkę w poniedziałek.

Co jeśli tekst wydaje się za trudny lub za długi:

  • strony 81-86 są „lajtowe”, nie powinny sprawić Państwu problemów,
  • można prześlizgnąć się nad wyprowadzeniem wzoru na s. 90,
  • ale algorytm 4.3 jest ważny! trzeba to rozumieć albo chociaż mieć intuicje,
  • warto przejrzeć prezentację autorstwa Philippa Koehna jeśli nie mogą Państwo przebrnąć przez bity tekst, warto chociaż z tym się zapoznać,
  • po polsku jest dostępny tekst dr. Junczys-Dowmunta, punkt 4, niestety jest cięższy matematycznie niż książka Koehna (chociaż przykład w p. 4.4 jest dość strawny).

Ciekawe filmy:

Wykład V

Na Wykład V (9 listopada) proszę:

  • odświeżyć sobie strony 81-100 rozdziału 4,
  • przeczytać cały podrozdział 4.5 („Word Alignment”), trzeba koniecznie rozumieć metodę GROW-DIAG-FINAL (zob. 4.5.3).

Wykład VII

Na Wykład VIII (23 listopada) proszę przeczytać rozdział 7 („Language Models”), punkty 7.1-7.3.

Materiały pomocnicze:

Wykład VIII

Na Wykład VIII (30 listopada) proszę ponownie przeczytać rozdział 7 („Language Models”), punkty 7.1-7.3, tym razem skupiając się na punktach 7.2 i 7.3.

Materiały pomocnicze:

Wykład X

Na Wykład X (7 grudnia) proszę przeczytać rozdział 8 („Evaluation”). To dość „lekki” materiał (w porównaniu z poprzednimi rozdziałami), dość szybko się czyta.