TAU2015/Wykłady

UWAGA! Dla przygotowujących się do egzaminu udostępniłem przykładowe pytania.

Wykłady będą prowadzone (z wyjątkiem wykładu I) w trybie „odwróconego” wykładu (inverted lecture). Przed każdym wykładem dostają Państwo do poczytania i przyswojenia pewien materiał. Na wykładzie sprawdzamy, czy dobrze rozumiemy zadany materiał.

Zakładam, że Państwo przeczytali zadany materiał. Nie ma sensu przychodzić na zajęcia nie przeczytawszy wcześniej zadanego materiału.

Korzystanie z urządzeń podczas wykładu

Proszę o niekorzystanie z komputerów, komórek, tabletów itp. podczas wykładu. Zachęcam do robienia pisemnych notatek.

Egzamin

Przedmiot kończy się pisemnym egzaminem. Z egzaminu można być zwolnionym poprzez systematyczne zaliczanie krótkich testów na początku wykładu (zob. niżej).

Punktacja za wykłady

Arkusz z punktami za Wykłady 2-11

Zaliczenie egzaminu przez testy na wykładach:

  • 5 — co najmniej 80% poprawnych odpowiedzi w co najmniej 75% testów
  • 4 — co najmniej 60% poprawnych odpowiedzi w co najmniej 75% testów
  • 3 — co najmniej 50% poprawnych odpowiedzi w co najmniej 69% testów

Wykład II

Na Wykład II (14 października) proszę przeczytać fragmenty rozdziału 2 książki Philippa Koehna Statistical Machine Translation, konkretnie: wnikliwie strony 33-38, pobieżnie strony 39-43.

Dostępność książki:

  • od poniedziałku jeden egzemplarz w bibliotece (do przeczytania na miejscu), kolejne egzemplarze w drodze,
  • fragmenty książki dostępne na Google Books,
  • inne fragmenty można wyguglać wrzucając zapytanie np. “the maximization step we learn the model from the data”.

Inne ciekawe materiały do przeczytania lub obejrzenia:

Wykład III

Na Wykład III (21 października) proszę przeczytać: http://www.isi.edu/natural-language/mt/aimag97.pdf — rozdział 1 (za pierwszym razem pobieżnie), 2 (dokładnie, ze zrozumieniem), 3 i 4 (pobieżnie albo w ogóle pominąć).

Jeśli mają większy problem z językiem angielskim, można alternatywnie (lepiej: dodatkowo) przeczytać następujący tekst: http://www.staff.amu.edu.pl/~inveling/pdf/Marcin_Junczys-Dowmunt_inve16.pdf (strony 44-51).

Wykład IV

Na Wykład 3 (22 października) proszę przeczytać początek rozdziału 4 książki Philippa Koehna Statistical Machine Translation, konkretnie strony 81-92 (łącznie z przykładem 4.4).

Dostępność książki:

  • fragmenty książki dostępne na Google Books,
  • rozdział 4 można wyguglać wrzucając zapytanie np. “the maximization step we learn the model from the data”,
  • mogę wypożyczyć książkę w poniedziałek.

Co jeśli tekst wydaje się za trudny lub za długi:

  • strony 81-86 są „lajtowe”, nie powinny sprawić Państwu problemów,
  • można prześlizgnąć się nad wyprowadzeniem wzoru na s. 90,
  • ale algorytm 4.3 jest ważny! trzeba to rozumieć albo chociaż mieć intuicje,
  • warto przejrzeć prezentację autorstwa Philippa Koehna jeśli nie mogą Państwo przebrnąć przez bity tekst, warto chociaż z tym się zapoznać,
  • po polsku jest dostępny tekst dr. Junczys-Dowmunta, punkt 4, niestety jest cięższy matematycznie niż książka Koehna (chociaż przykład w p. 4.4 jest dość strawny).

Wykład V

Na Wykład V (4 listopada) proszę ponownie przeczytać materiał z Wykładu IV (skupiając się teraz na algorytmie — proszę dokładnie przestudiować i zrozumieć pseudokod 4.3) plus strony 92-94.

Warto przerobić sobie na kartce papieru algorytm na jakimś prostym przykładzie.

Wykład VI

Na Wykład VI (18 listopada) proszę kontynuować lekturę rozdziału 4 książki „Statistical Machine Translation”, a dokładnie:

  • podrozdział 4.4 („Higher IBM Models”), strony 96-100 (ale algorytm 4.7 dla chętnych, niekoniecznie trzeba się wgryzać też w Model 3, ale trzeba mieć ogólne pojęcia — w szczególności co do fertility)
  • podrozdział 4.5 (“Word Alignment) — cały (trochę stron do przeczytania, ale to lżejszy materiał, mniej matematyki).

Wykład VII

Na Wykład VII (25 listopada) proszę przeczytać:

  • (ponownie) cały podrozdział 4.5 (“Word Alignment), trzeba rozumieć metodę GROW-DIAG-FINAL (zob. 4.5.3),
  • rozdział 5 (“Phrase-Based Models”), strony 127-135, zwłaszcza podrozdziały 5.2.1-5.2.4.

Rozdział 5 można znaleźć po wrzuceniu do Google’a (w cudzysłowie).

"we have only discussed how to collect a set of phrase pairs"

Materiały pomocnicze:

Wykład VIII

Na Wykład VIII (2 grudnia) proszę przeczytać rozdział 7 („Language Models”), punkty 7.1-7.3.

Materiały pomocnicze:

Wykład IX

Na Wykład IX (9 grudnia) proszę ponownie przeczytać rozdział 7 („Language Models”), punkty 7.1-7.3, tym razem skupiając się na punktach 7.2 i 7.3.

Materiały pomocnicze:

Wykład X

Na Wykład X (16 grudnia) proszę przeczytać:

  • (ponownie) podrozdziały 7.2 i 7.3
  • podrozdział 5.3 („Extensions to the Translation Model”; bez punktu 5.3.6).

Uwaga na błędy w książce — zob. erratę.

Materiały pomocnicze:

Wykład XI

Na Wykład XI (13 stycznia) proszę ponownie przeczytać materiał z Wykładu X oraz zacząć czytać rozdział 8 („Evaluation”), przynajmniej podrozdział 8.1.