AUTOR: Łukasz Dębowski i Marcin Woliński
AFILIACJA: IPI PAN
TYTUŁ: Nowe metody ekstrakcji walencji czasowników z tekstów
w języku polskim
STRESZCZENIE
Przedstawimy nową metodę ekstracji walencji czasowników z
nieanotowanych tekstów. Metoda została opracowana dla języka, dla
którego nie istnieje zweryfikowany bank drzew, ale istnieje duża
gramatyka formalna oraz kilka słowników walencyjnych. Ekstrakcja
walencja następuje w dwóch krokach. Najpierw używamy parsera Świgra
oraz nowego prostego algorytmu typu EM (expectation-maximization), aby
uzyskać niedoskonały bank drzew o analizach zredukowanych do ram
walencyjnych czasowników. Następnie stosujemy prosty algorytm uczenia
pod nadzorem, aby uzyskać słownik walencyjny z banku drzew. Aby
otrzymany słownik cechowała wyższa dokładność (precision), stosujemy w
szczególności nowatorską procedurę naprawy macierzy współwystąpień
argumentów.