AUTOR: Alina Wróblewska AFILIACJA: IPI PAN TYTUŁ: Automatyczna anotacja banku drzew zależnościowych STRESZCZENIE: W ostatnich latach coraz większą wagę przywiązuje się do parsowania zależnościowego, czyli do automatycznej analizy składniowo-semantycznej zdań. Dzieje się tak dlatego, że parsowanie wydobywa strukturę predykatywno-argumentową zdania, której można użyć do udoskonalenia systemów dialogowych, tłumaczenia maszynowego, czy ekstrakcji informacji. Większość współczesnych systemów parsowania zależnościowego opiera się na metodach statystycznych. Na podstawie danych treningowych parsery uczą się, jak należy analizować zdania w języku naturalnym i generować odpowiednie struktury zależnościowe dla tych zdań. Jak dotychczas najlepsze wyniki osiągają parsery trenowane za pomocą metod z nadzorem. Parsery zależnościowe trenowane na poprawnie zaanotowanych danych są bardzo skuteczne, nawet w odniesieniu do języków ze swobodnym szykiem zdania, takich jak czeski czy bułgarski. Niemniej jednak metody z nadzorem wymagają dużej liczby poprawnie zaanotowanych struktur zależnościowych, które powstają w wyniku bardzo czasochłonnego i kosztownego procesu anotacji ręcznej. Dla wielu języków nadal nie istnieją żadne banki struktur zależnosciowych, dlatego poszukuje się alternatywnych metod trenowania parserów albo pozyskiwania danych treningowych. Ponieważ uczenie bez nadzoru często nie jest najlepszym rozwiązaniem głównie za sprawa małej efektywności oraz bardzo dużej złożoności obliczeniowej, na seminarium zostaną przedstawione dwie alternatywne metody pozyskiwania struktur zależnościowych. Pierwsza metoda wykorzystuje idee konwersji drzew składnikowych do postaci drzew zależnościowych. Wykorzystanie metody konwersji było możliwe, ponieważ dla języka polskiego istnieje bank struktur składnikowych. W związku z tym, że relacje zależnościowe można stosunkowo łatwo wywieść ze struktur składnikowych z wyróżnionymi elementami głównymi, nacisk był położony przede wszystkim na dostosowanie przekonwertowanych struktur do schematu anotacji drzew zależnościowych oraz na przypisanie etykiet do krawędzi w przekonwertowanych drzewach. Drugi sposób automatycznego pozyskiwania drzew zależnościowych jest oparty na metodzie rzutowania ważonego. Główna idea metody rzutowania informacji lingwistycznych polega na odwzorowaniu anotacji lingwistycznych w zdaniach z części korpusu równoległego w jednym języku na odpowiednie zdania z części korpusu w drugim języku. Informacje lingwistyczne są rzutowane z wykorzystaniem automatycznie wygenerowanych przyporządkowań słownych (ang. `word alignment'). Te dwie metody doprowadziły do stworzenia dwóch banków struktur zależnościowych dla języka polskiego. W celu oceny jakości pozyskanych drzew zależnościowych została wykorzystana zewnętrzna metoda ewaluacji (ang. `extrinsic evaluation'). Metoda ta polega na wytrenowaniu parsera zależnościowego na pozyskanych drzewach, a następnie na ocenie wpływu danych treningowych na jakość parsowania. W ramach prezentacji zostaną przedstawione wyniki działania parserów zależnościowych dla języka polskiego.