AUTOR: Adam Slaski
AFILIACJA: Uniwersytet Warszawaski i Instytut Podstaw Informatyki PAN
TYTUŁ: Zastosowanie metod statystycznych do zadania ujednoznaczniania
struktury zdania w języku polskim
STRESZCZENIE:
Rozważmy zdania "widziałem kobietę w kapeluszu" i "widziałem kobietę w
teatrze". Oba rzeczowniki 'kapelusz' i 'teatr' występują w miejscowniku,
więc powierzchniowa analiza nie jest w stanie w tych zdaniach poprawnie
przypisać nadrzędników frazom przyimkowym. Technicznie rzecz ujmując,
zadanie polega na dezambiguacji wyjścia parsera Spejd. Proponujemy
rozwiązanie tego problemu polegające na kilkustopniowej analizie
statystycznej, uwzględniającej:
(*) kolokacje, w tym frazeologizmy i stałe połączenia wyrazowe;
(*) relacje semantyczne, w szczególności hiponimię i hiperonimię;
(*) relacje syntaktyczne, na przykład rząd czasowników.
W czasie (trwających nadal) eksperymentów wypróbowano różne miary
statystyczne i różne kombinacje parametrów programu. Za materiały do badań
posłużyły teksty z ręcznie anotowanego podkorpusu NKJP, zaś źródłem
informacji semantycznej jest Słowosieć.