AUTOR:     Maciej Piasecki
AFILIACJA: Politechnika Wrocławska
TYTUŁ:     Półautomatyczna metoda rozszerzania wordnetu języka polskiego
           Słowosieć 1.0 - wordnet języka polskiego zbudowany
           w oparciu o metody półautomatyczne

STRESZCZENIE:

Większość systemów, które opisują semantykę dużych zbiorów jednostek leksykalnych
opiera się na relacjach semantycznych między jednostkami, np. hiperonimia 
(nadklasa) i meronimia (część). WordNet z Uniwersytetu Princeton zawiera 
najbardziej znany opis semantyki leksykalnej języka angielskiego, zorganizowany 
w taki sposób. WordNet zastosowano w kilkudziesięciu typowych zadaniach 
z dziedziny przetwarzania języka naturalnego, w tysiącach systemów badawczych 
i komercyjnych. Konstrukcja dużego wordnetu, czyli tezaurusa zbudowanego 
w sposób podobny do WordNetu, jest bardzo pracochłonna. Jednak intensywny 
rozwój w ostatnim dziesięcioleciu metod wydobywania leksykalnych relacji 
semantycznych z tekstu, wskazują na możliwość redukcji nakładu pracy dzięki
zastosowaniu metod automatycznych, które wspierają pracę lingwistów nad budową 
wordnetu.

W ramach seminarium przedstawiona zostanie półautomatyczna metoda rozszerzania 
wordnetu języka polskiego, która została opracowana i wdrożona na potrzeby 
konstrukcji pierwszego publicznie dostępnego wordnetu języka polskiego 
o nazwie Słowosieć 1.0. Metoda opiera się na bezpośredniej analizie wielkich 
korpusów tekstu, łączy w sobie kilka różnych algorytmów analizy tekstu i nie 
wymaga żadnych ręcznie konstruowanych źródeł wiedzy, takich jak słowniki 
czy encyklopedie. Słowosieć i przykładowe wyniki działania metody są dostępne 
na stronie projektu: http://www.plwordnet.pwr.wroc.pl

Mając na celu osiągnięcie wysokiej jakości jądro Słowosieci (międzynarodowa 
nazwa: plWordNet), obejmujące około 15 tysięcy jednostek leksykalnych, zostało
zbudowane ręcznie. Później Słowosieć została rozszerzona ze wsparciem metod 
automatycznych do wielkości około 27000 jednostek leksykalnych (około 17700 
synsetów). Słowosieć jest publicznie dostępna na bezpłatnej licencji naukowej.
Planujemy udostępnienie systemów SuperMatrix oraz WordnetWeaver, które 
implementują metody automatyczne.

Prace nad metodami automatycznymi szły w dwóch kierunkach: grupowanie jednostek
leksykalnych według podobieństwa wystąpień w korpusach i wyszukiwanie według 
wzorców leksykalno-syntaktycznych. Na potrzeby eksperymentów skonstruowaliśmy 
system SuperMatrix umożliwiający wydobywanie powiązań znaczeniowych pomiędzy 
wyrażeniami języka naturalnego (obsługuje język polski i angielski) z wielkich 
korpusów tekstu (rzędu terabajtów)

Dużo uwagi poświęciliśmy wydobywaniu miar powiązania znaczeniowego (MPZ), 
które przypisują parom lematów wartość liczbową. Opracowaliśmy 
oryginalną funkcję ważenia cech opisujących lematy poprzez rangi (FWR). 
Wydobyta MPZ oparta na FWR w testach synonimii uzyskała wyniki dla wszystkich 
części mowy (np. 88,14% dla polskich rzeczowników) i obu języków (polskiego 
i angielskiego) znacząco lepsze od kilku miar znanych ze współczesnej 
literatury (przykładowe wyniki: 
http://plwordnet.pwr.wroc.pl/browser/automatic.jsp).

Skonstruowaliśmy i przebadali szereg wzorców do identyfikacji par 
hiperonimicznych w korpusie oraz opracowaliśmy unikatowy algorytm 
automatycznego wydobywania wzorców i par powiązanych określoną relacją 
(41% dokładności przy 25361 wydobytych parach hiperonimicznych), rozwinięcie 
algorytmu Espresso (Pennachiotti & Pantel, 2006).

Dla zapewnienia wysokiej jakości Słowosieci zastosowaliśmy półautomatyczny 
model jej rozszerzania: lingwista potwierdza automatycznie generowane 
propozycje nowych par (konkretyzacji danej relacji). Swoista ortogonalność 
opracowanych różnorodnych metod wydobywania relacji, doprowadziła 
do skonstruowania do hybrydowego algorytmu dołączania poprzez region aktywacji 
(Activation-Area Attachment czyli AAA). Dodając nowe jednostki leksykalne 
do wordnetu, algorytm AAA określa ich dopasowanie semantyczne do jednostek już 
w wordnecie obecnych, a następnie do zawierających je 
synsetów (grup jednostek bliskoznacznych). Dopasowanie nowej jednostki 
do synsetu wynika z jej dopasowania do innych synsetów, powiązanych 
z nim semantycznie. Obliczenie podobieństwa stosuje wyniki wymienionych 
wcześniej metod w ogólnym schemacie głosowania ważonego. Test 
rekonstrukcji (usunięcia i ponownego wprowadzenia) części rzeczownikowej 
jądra Słowosieci wykazał, że algorytm AAA dopasowuje najlepszą 
propozycję do właściwego synsetu z dokładnością 42,81%, a do synsetu 
odległego nie więcej niż o 3 synsety od właściwego punktu z dokładnością 
81,96%. Algorytm wykorzystaliśmy w systemie WordnetWeaver (WNW). 
(przykładowe wyniki: http://plwordnet.pwr.wroc.pl/browser/graphs.jsp)
Wspomaga on pracę lingwisty poprzez wizualną prezentację wyników pracy 
algorytmu dołączania.