TAU2015/Ćwiczenia 1

Ćwiczenia 1

Jako korpusu równoległego używać będziemy angielskich i polskich protokołów posiedzeń Parlamentu Europejskiego (550 tys. par zdań).

Korpus jest ogólnie dostępny w repozytorium git://gonito.net/europarl-enpl, ale proszę skorzystać z ogólnej instrukcji dotyczącej repozytoriów, jako NAZWAREPO proszę wpisać europarl-enpl.

# zakładam, że jesteśmy w środku europarl-enpl, po sklonowaniu repozytorium
cd train
zcat train.tsv.gz | head -n 5 # wyświetli 5 pierwszych par zdań

Wyzwanie na platformie Gonito

Tłumaczenie protokołów posiedzeń Parlamentu Europejskiego jest dostępne jako wyzwanie na platformie Gonito.

Zadanie C101

Punkty: 15. Termin: zajęcia 14 października 2015.

Wymyślić jakiś prosty (być może „głupi”) sposób wygenerowania tłumaczenia (czy raczej pseudotłumaczenia), tak by uzyskać niezerowy wynik na platformie Gonito.

Jakie pliki należy zamieścić?

Należy do swojego repozytorium wypchnąć:

  • plik dev-0/out.tsv, czyli tłumaczenie na polski dev-setu (tj. pliku dev-0/in.tsv), dla dev-setu można sobie podejrzeć oczekiwane tłumaczenie (dev-0/expected.tsv),
  • plik test-A/out.tsv, czyli tłumaczenie na polski test-setu (tj. pliku test-A/in.tsv),
  • skrypty i inne pomocnicze pliki (jeśli w ogóle takie powstały), proszę je umieszczać w katalogu głównym albo w nowych podkatalogach (w każdym razie nie w train, dev-0 ani test-A).

Przykładowe zakomitowanie i wypchnięcie rozwiązania może wyglądać tak (ale najpierw sprawdź rozwiązanie!, zob. niżej):

git add dev-0/out.tsv test-A/out.tsv my-translator.py
git commit -m 'my translator'
git push origin master

Jak sprawdzić swoje rozwiązanie?

Przed zakomitowaniem i wypchnięciem swojego rozwiązania, proszę je najpierw sprawdzić lokalnie (na dev-secie).

Najpierw należy zainstalować narzędzie stack, na komputerach wydziałowych już jest ponoć zainstalowane (nie jestem w stanie tego teraz sprawdzić), natomiast nie widać go (na razie?) przy łączeniu się przez x2go. W razie potrzeby można samodzielnie pobrać program Stack na swoje konto dostępne przez x2go:

wget https://github.com/commercialhaskell/stack/releases/download/v0.1.5.0/stack-0.1.5.0-x86_64-linux.tar.gz
tar zvxf stack-0.1.5.0-x86_64-linux.tar.gz
mv stack-0.1.5.0-x86_64-linux/stack ~/bin/
chmod u+x ~/bin/stack
rm stack-0.1.5.0-x86_64-linux.tar.gz
# sprawdzamy, czy Stack działa — powinna zostać wyświetlona pomoc
stack --help

Następnie należy skompilować i zainstalować program geval mojego autorstwa:

git clone git://gonito.net/geval
cd geval
stack setup
stack install

Aby sprawdzić swoje rozwiązanie, należy teraz napisać:

cd europarl-enpl # trzeba być w środku katalogu
~/.local/bin/geval --test-name dev-0

Zgłoszenie rozwiązania na Gonito

  • wejść, używając Firefoxa, na http://gonito.net
  • zalogować się przy użyciu Persony (można podać dowolny adres mejlowy)
  • przejść do http://gonito.net/challenge/europarl-enpl
  • kliknąć Submit
  • wpisać Submission description (proszę podać krótki, ale sensowny opis swojego rozwiązania)
  • jako URL podać adres swojego repo, czyli ssh://gitolite@re-research.wmi.amu.edu.pl:1977/europarl-enpl-sNUMERINDEKSU.git
  • jako branch proszę podać master (chyba że Państwo świadomie użyli innej gałęzi)
  • proszę cierpliwie poczekać, aż Gonito wciągnie rozwiązanie
  • … w osobnym oknie otworzyć All Submissions i odświeżać, póki nie pojawi się Panśtwa rozwiązanie