Seminarium NLP 2011–2012 @ ZIL IPI PAN - Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR

AUTOR:     Piotr Pęzik
AFILIACJA: Uniwersytet Łódzki
TYTUŁ:     Polskie korpusy równoległe i zasoby wielojęzyczne
           w projekcie CESAR 

STRESZCZENIE:

Projekt CESAR jest częścią ogólnoeuropejskiej inicjatywy META-NET, w
ramach której opracowywane i udostępniane są elektroniczne zasoby i
narzędzia potrzebne do przetwarzania kilkudziesięciu języków. Jednym z
wymagań stawianych takim zasobom i narzędziom jest przydatność w
kontekście wielojęzycznego przetwarzania tekstów i mowy, a więc na
przykład w tłumaczeniu maszynowym, lub też w wielojęzycznych systemach
wyszukiwawczych.

Tematem referatu są udostępniane w projekcie CESAR/META-NET polskie
zasoby wielojęzyczne. Są to przede wszystkim zbiory tekstów
tłumaczonych, pozyskiwane z bardzo różnych formatów źródłowych a
następnie zrównoleglane na poziomie zdań i konwertowane do schematów
XLiFF i TEI P5. Autor omawia specyfikę tych formatów oraz ich
przydatność do tworzenia korpusów równoległych. Drugim rodzajem
zasobów są polskie i angielskie słowniki kolokacji leksykalnych i
gramatycznych, które zostały wygenerowane automatycznie z korpusów BNC
oraz NKJP. Referat wyjaśnia sposób kompilacji tych słowników oraz
planowane metody ich częściowego zrównoleglania na podstawie korpusów
paralelnych.