AUTOR: Maciej Piasecki
AFILIACJA: Politechnika Wrocławska
TYTUŁ: Półautomatyczna metoda rozszerzania wordnetu języka polskiego
Słowosieć 1.0 - wordnet języka polskiego zbudowany
w oparciu o metody półautomatyczne
STRESZCZENIE:
Większość systemów, które opisują semantykę dużych zbiorów jednostek leksykalnych
opiera się na relacjach semantycznych między jednostkami, np. hiperonimia
(nadklasa) i meronimia (część). WordNet z Uniwersytetu Princeton zawiera
najbardziej znany opis semantyki leksykalnej języka angielskiego, zorganizowany
w taki sposób. WordNet zastosowano w kilkudziesięciu typowych zadaniach
z dziedziny przetwarzania języka naturalnego, w tysiącach systemów badawczych
i komercyjnych. Konstrukcja dużego wordnetu, czyli tezaurusa zbudowanego
w sposób podobny do WordNetu, jest bardzo pracochłonna. Jednak intensywny
rozwój w ostatnim dziesięcioleciu metod wydobywania leksykalnych relacji
semantycznych z tekstu, wskazują na możliwość redukcji nakładu pracy dzięki
zastosowaniu metod automatycznych, które wspierają pracę lingwistów nad budową
wordnetu.
W ramach seminarium przedstawiona zostanie półautomatyczna metoda rozszerzania
wordnetu języka polskiego, która została opracowana i wdrożona na potrzeby
konstrukcji pierwszego publicznie dostępnego wordnetu języka polskiego
o nazwie Słowosieć 1.0. Metoda opiera się na bezpośredniej analizie wielkich
korpusów tekstu, łączy w sobie kilka różnych algorytmów analizy tekstu i nie
wymaga żadnych ręcznie konstruowanych źródeł wiedzy, takich jak słowniki
czy encyklopedie. Słowosieć i przykładowe wyniki działania metody są dostępne
na stronie projektu: http://www.plwordnet.pwr.wroc.pl
Mając na celu osiągnięcie wysokiej jakości jądro Słowosieci (międzynarodowa
nazwa: plWordNet), obejmujące około 15 tysięcy jednostek leksykalnych, zostało
zbudowane ręcznie. Później Słowosieć została rozszerzona ze wsparciem metod
automatycznych do wielkości około 27000 jednostek leksykalnych (około 17700
synsetów). Słowosieć jest publicznie dostępna na bezpłatnej licencji naukowej.
Planujemy udostępnienie systemów SuperMatrix oraz WordnetWeaver, które
implementują metody automatyczne.
Prace nad metodami automatycznymi szły w dwóch kierunkach: grupowanie jednostek
leksykalnych według podobieństwa wystąpień w korpusach i wyszukiwanie według
wzorców leksykalno-syntaktycznych. Na potrzeby eksperymentów skonstruowaliśmy
system SuperMatrix umożliwiający wydobywanie powiązań znaczeniowych pomiędzy
wyrażeniami języka naturalnego (obsługuje język polski i angielski) z wielkich
korpusów tekstu (rzędu terabajtów)
Dużo uwagi poświęciliśmy wydobywaniu miar powiązania znaczeniowego (MPZ),
które przypisują parom lematów wartość liczbową. Opracowaliśmy
oryginalną funkcję ważenia cech opisujących lematy poprzez rangi (FWR).
Wydobyta MPZ oparta na FWR w testach synonimii uzyskała wyniki dla wszystkich
części mowy (np. 88,14% dla polskich rzeczowników) i obu języków (polskiego
i angielskiego) znacząco lepsze od kilku miar znanych ze współczesnej
literatury (przykładowe wyniki:
http://plwordnet.pwr.wroc.pl/browser/automatic.jsp).
Skonstruowaliśmy i przebadali szereg wzorców do identyfikacji par
hiperonimicznych w korpusie oraz opracowaliśmy unikatowy algorytm
automatycznego wydobywania wzorców i par powiązanych określoną relacją
(41% dokładności przy 25361 wydobytych parach hiperonimicznych), rozwinięcie
algorytmu Espresso (Pennachiotti & Pantel, 2006).
Dla zapewnienia wysokiej jakości Słowosieci zastosowaliśmy półautomatyczny
model jej rozszerzania: lingwista potwierdza automatycznie generowane
propozycje nowych par (konkretyzacji danej relacji). Swoista ortogonalność
opracowanych różnorodnych metod wydobywania relacji, doprowadziła
do skonstruowania do hybrydowego algorytmu dołączania poprzez region aktywacji
(Activation-Area Attachment czyli AAA). Dodając nowe jednostki leksykalne
do wordnetu, algorytm AAA określa ich dopasowanie semantyczne do jednostek już
w wordnecie obecnych, a następnie do zawierających je
synsetów (grup jednostek bliskoznacznych). Dopasowanie nowej jednostki
do synsetu wynika z jej dopasowania do innych synsetów, powiązanych
z nim semantycznie. Obliczenie podobieństwa stosuje wyniki wymienionych
wcześniej metod w ogólnym schemacie głosowania ważonego. Test
rekonstrukcji (usunięcia i ponownego wprowadzenia) części rzeczownikowej
jądra Słowosieci wykazał, że algorytm AAA dopasowuje najlepszą
propozycję do właściwego synsetu z dokładnością 42,81%, a do synsetu
odległego nie więcej niż o 3 synsety od właściwego punktu z dokładnością
81,96%. Algorytm wykorzystaliśmy w systemie WordnetWeaver (WNW).
(przykładowe wyniki: http://plwordnet.pwr.wroc.pl/browser/graphs.jsp)
Wspomaga on pracę lingwisty poprzez wizualną prezentację wyników pracy
algorytmu dołączania.