AUTOR: Piotr Pęzik AFILIACJA: Uniwersytet Łódzki TYTUŁ: Polskie korpusy równoległe i zasoby wielojęzyczne w projekcie CESAR STRESZCZENIE: Projekt CESAR jest częścią ogólnoeuropejskiej inicjatywy META-NET, w ramach której opracowywane i udostępniane są elektroniczne zasoby i narzędzia potrzebne do przetwarzania kilkudziesięciu języków. Jednym z wymagań stawianych takim zasobom i narzędziom jest przydatność w kontekście wielojęzycznego przetwarzania tekstów i mowy, a więc na przykład w tłumaczeniu maszynowym, lub też w wielojęzycznych systemach wyszukiwawczych. Tematem referatu są udostępniane w projekcie CESAR/META-NET polskie zasoby wielojęzyczne. Są to przede wszystkim zbiory tekstów tłumaczonych, pozyskiwane z bardzo różnych formatów źródłowych a następnie zrównoleglane na poziomie zdań i konwertowane do schematów XLiFF i TEI P5. Autor omawia specyfikę tych formatów oraz ich przydatność do tworzenia korpusów równoległych. Drugim rodzajem zasobów są polskie i angielskie słowniki kolokacji leksykalnych i gramatycznych, które zostały wygenerowane automatycznie z korpusów BNC oraz NKJP. Referat wyjaśnia sposób kompilacji tych słowników oraz planowane metody ich częściowego zrównoleglania na podstawie korpusów paralelnych.