AUTOR:     Alina Wróblewska
AFILIACJA: IPI PAN
TYTUŁ:     Automatyczna anotacja banku drzew zależnościowych

STRESZCZENIE:

W ostatnich latach coraz większą wagę przywiązuje się do parsowania
zależnościowego, czyli do automatycznej analizy
składniowo-semantycznej zdań. Dzieje się tak dlatego, że parsowanie
wydobywa strukturę predykatywno-argumentową zdania, której można użyć
do udoskonalenia systemów dialogowych, tłumaczenia maszynowego, czy
ekstrakcji informacji. Większość współczesnych systemów parsowania
zależnościowego opiera się na metodach statystycznych. Na podstawie
danych treningowych parsery uczą się, jak należy analizować zdania w
języku naturalnym i generować odpowiednie struktury zależnościowe dla
tych zdań. Jak dotychczas najlepsze wyniki osiągają parsery trenowane
za pomocą metod z nadzorem. Parsery zależnościowe trenowane na
poprawnie zaanotowanych danych są bardzo skuteczne, nawet w
odniesieniu do języków ze swobodnym szykiem zdania, takich jak czeski
czy bułgarski.

Niemniej jednak metody z nadzorem wymagają dużej liczby poprawnie
zaanotowanych struktur zależnościowych, które powstają w wyniku bardzo
czasochłonnego i kosztownego procesu anotacji ręcznej. Dla wielu
języków nadal nie istnieją żadne banki struktur zależnosciowych,
dlatego poszukuje się alternatywnych metod trenowania parserów albo
pozyskiwania danych treningowych. Ponieważ uczenie bez nadzoru często
nie jest najlepszym rozwiązaniem głównie za sprawa małej efektywności
oraz bardzo dużej złożoności obliczeniowej, na seminarium zostaną
przedstawione dwie alternatywne metody pozyskiwania struktur
zależnościowych.

Pierwsza metoda wykorzystuje idee konwersji drzew składnikowych do
postaci drzew zależnościowych. Wykorzystanie metody konwersji było
możliwe, ponieważ dla języka polskiego istnieje bank struktur
składnikowych. W związku z tym, że relacje zależnościowe można
stosunkowo łatwo wywieść ze struktur składnikowych z wyróżnionymi
elementami głównymi, nacisk był położony przede wszystkim na
dostosowanie przekonwertowanych struktur do schematu anotacji drzew
zależnościowych oraz na przypisanie etykiet do krawędzi w
przekonwertowanych drzewach.

Drugi sposób automatycznego pozyskiwania drzew zależnościowych jest
oparty na metodzie rzutowania ważonego. Główna idea metody rzutowania
informacji lingwistycznych polega na odwzorowaniu anotacji
lingwistycznych w zdaniach z części korpusu równoległego w jednym
języku na odpowiednie zdania z części korpusu w drugim
języku. Informacje lingwistyczne są rzutowane z wykorzystaniem
automatycznie wygenerowanych przyporządkowań słownych (ang. `word
alignment').

Te dwie metody doprowadziły do stworzenia dwóch banków struktur
zależnościowych dla języka polskiego. W celu oceny jakości pozyskanych
drzew zależnościowych została wykorzystana zewnętrzna metoda ewaluacji
(ang. `extrinsic evaluation'). Metoda ta polega na wytrenowaniu
parsera zależnościowego na pozyskanych drzewach, a następnie na ocenie
wpływu danych treningowych na jakość parsowania. W ramach prezentacji
zostaną przedstawione wyniki działania parserów zależnościowych dla
języka polskiego.