TAU2014/Wykłady

Uwaga: Informacje o egzaminie

Wykłady będą prowadzone (z wyjątkiej wykładu I) w trybie „odwróconego” wykładu (inverted lecture). Przed każdym wykładem dostają Państwo do poczytania i przyswojenia pewien materiał. Na wykładzie sprawdzamy, czy dobrze rozumiemy zadany materiał.

Zakładam, że Państwo przeczytali zadany materiał. Nie ma sensu przychodzić na zajęcia nie przeczytawszy wcześniej zadanego materiału.

Punktacja za wykłady

Arkusz z punktami za Wykłady 3-15

Zaliczenie egzaminu przez testy na wykładach:

  • 5 — co najmniej 80% poprawnych odpowiedzi w co najmniej 75% testów
  • 4 — co najmniej 60% poprawnych odpowiedzi w co najmniej 75% testów
  • 3 — co najmniej 50% poprawnych odpowiedzi w co najmniej 69% testów

Wykład 14

Na Wykład 14 (21 stycznia 2015) proszę przeczytać rozdział 11 („Tree-Based Models”), strony 331-345.

Wykład 13

Na Wykład 13 (14 stycznia 2015) proszę przeczytać:

  • (ponownie) podrozdział 6.3 („Future Cost Estimation”),
  • wstęp do rozdziału 10 (strony 289-291), podrozdział 10.2 („Morphology”) i podrozdział 10.5 („Factored Translation Models”).

Wykład 12

Na Wykład 12 (7 stycznia 2015) proszę przeczytać rozdział cały rozdział 6 („Decoding”).

Wykład 11

Na Wykład 11 (17 grudnia) proszę przeczytać rozdział 8 („Evaluation”), strony 217-227.

Wykład 10

Na Wykład 10 (10 grudnia) proszę ponownie przeczytać materiał z Wykładu 9 oraz zacząć czytać rozdział 8 („Evaluation”), przynajmniej podrozdział 8.1.

Wykład 9

Na Wykład 9 (3 grudnia) proszę przeczytać rozdział 7 („Language Models”), punkty 7.1-7.3.

Materiały pomocnicze:

Wykład 8

Na Wykład 8 (26 listopada) proszę przeczytać:

  • (ponownie, ale uważniej) podrozdział 5.1,
  • podrozdział 5.3 (bez punktu 5.3.6).

Uwaga na błędy w książce - zob. erratę.

Materiały pomocnicze:

Wykład 7

Na Wykład 7 (19 listopada) proszę przeczytać:

  • (ponownie) cały podrozdział 4.5 (“Word Alignment), trzeba rozumieć metodę GROW-DIAG-FINAL,
  • rozdział 5 (“Phrase-Based Models”), strony 127-135, zwłaszcza podrozdziały 5.2.1-5.2.4.

Rozdział 5 można znaleźć po wrzuceniu do Google’a (w cudzysłowie).

"we have only discussed how to collect a set of phrase pairs"

Materiały pomocnicze:

Wykład 6

Na Wykład 6 (12 listopada) proszę ponownie przeczytać materiał z Wykładu 5 z pewnymi uzupełnieniami:

  • podrozdział 4.4 („Higher IBM Models”), strony 96-101 (czyli trochę też o Modelu 3),
  • cały podrozdział 4.5 (“Word Alignment), trzeba rozumieć metodę GROW-DIAG

Materiały pomocnicze:

Wykład 5

Na Wykład 5 (5 listopada) proszę kontynuować lekturę rozdziału 4 książki „Statistical Machine Translation”, a dokładnie:

  • podrozdział 4.4 („Higher IBM Models”), strony 96-100 (ale algorytm 4.7 dla chętnych, niekoniecznie trzeba się wgryzać też w Model 3, ale trzeba mieć ogólne pojęcia — w szczególności co do fertility)
  • podrozdział 4.5 (“Word Alignment) — cały (trochę stron do przeczytania, ale to lżejszy materiał, mniej matematyki).

Wykład 4

Na Wykład 4 (29 października) proszę ponownie przeczytać materiał z Wykładu 3 (skupiając się teraz na algorytmie — proszę dokładnie przestudiować i zrozumieć pseudokod 4.3) plus strony 92-94.

Warto przerobić sobie na kartce papieru algorytm na jakimś prostym przykładzie.

Wykład 3

Na Wykład 3 (22 października) proszę przeczytać początek rozdziału 4 książki Philippa Koehna Statistical Machine Translation, konkretnie strony 81-92 (łącznie z przykładem 4.4).

Dostępność książki:

  • od poniedziałku jeden egzemplarz w bibliotece (do przeczytania na miejscu), kolejne egzemplarze w drodze,
  • fragmenty książki dostępne na Google Books,
  • rozdział 4 można wyguglać wrzucając zapytanie np. “the maximization step we learn the model from the data”.

Co jeśli tekst wydaje się za trudny lub za długi:

  • strony 81-86 są „lajtowe”, nie powinny sprawić Państwu problemów,
  • można prześlizgnąć się nad wyprowadzeniem wzoru na s. 90,
  • ale algorytm 4.3 jest ważny! trzeba to rozumieć albo chociaż mieć intuicje,
  • warto przejrzeć prezentację autorstwa Philippa Koehna jeśli nie mogą Państwo przebrnąć przez bity tekst, warto chociaż z tym się zapoznać,
  • po polsku jest dostępny tekst dr. Junczys-Dowmunta, punkt 4, niestety jest cięższy matematycznie niż książka Koehna (chociaż przykład w p. 4.4 jest dość strawny).

Wykład 2

Na Wykład 2 (15 października) proszę przeczytać: http://www.isi.edu/natural-language/mt/aimag97.pdf — rozdział 1 (za pierwszym razem pobieżnie), 2 (dokładnie, ze zrozumieniem), 3 i 4 (pobieżnie albo w ogóle pominąć).

Jeśli mają większy problem z językiem angielskim, można alternatywnie (lepiej: dodatkowo) przeczytać następujący tekst: http://www.staff.amu.edu.pl/~inveling/pdf/Marcin_Junczys-Dowmunt_inve16.pdf (strony 44-51).