AUTOR: Maciej Piasecki AFILIACJA: Politechnika Wrocławska TYTUŁ: Półautomatyczna metoda rozszerzania wordnetu języka polskiego Słowosieć 1.0 - wordnet języka polskiego zbudowany w oparciu o metody półautomatyczne STRESZCZENIE: Większość systemów, które opisują semantykę dużych zbiorów jednostek leksykalnych opiera się na relacjach semantycznych między jednostkami, np. hiperonimia (nadklasa) i meronimia (część). WordNet z Uniwersytetu Princeton zawiera najbardziej znany opis semantyki leksykalnej języka angielskiego, zorganizowany w taki sposób. WordNet zastosowano w kilkudziesięciu typowych zadaniach z dziedziny przetwarzania języka naturalnego, w tysiącach systemów badawczych i komercyjnych. Konstrukcja dużego wordnetu, czyli tezaurusa zbudowanego w sposób podobny do WordNetu, jest bardzo pracochłonna. Jednak intensywny rozwój w ostatnim dziesięcioleciu metod wydobywania leksykalnych relacji semantycznych z tekstu, wskazują na możliwość redukcji nakładu pracy dzięki zastosowaniu metod automatycznych, które wspierają pracę lingwistów nad budową wordnetu. W ramach seminarium przedstawiona zostanie półautomatyczna metoda rozszerzania wordnetu języka polskiego, która została opracowana i wdrożona na potrzeby konstrukcji pierwszego publicznie dostępnego wordnetu języka polskiego o nazwie Słowosieć 1.0. Metoda opiera się na bezpośredniej analizie wielkich korpusów tekstu, łączy w sobie kilka różnych algorytmów analizy tekstu i nie wymaga żadnych ręcznie konstruowanych źródeł wiedzy, takich jak słowniki czy encyklopedie. Słowosieć i przykładowe wyniki działania metody są dostępne na stronie projektu: http://www.plwordnet.pwr.wroc.pl Mając na celu osiągnięcie wysokiej jakości jądro Słowosieci (międzynarodowa nazwa: plWordNet), obejmujące około 15 tysięcy jednostek leksykalnych, zostało zbudowane ręcznie. Później Słowosieć została rozszerzona ze wsparciem metod automatycznych do wielkości około 27000 jednostek leksykalnych (około 17700 synsetów). Słowosieć jest publicznie dostępna na bezpłatnej licencji naukowej. Planujemy udostępnienie systemów SuperMatrix oraz WordnetWeaver, które implementują metody automatyczne. Prace nad metodami automatycznymi szły w dwóch kierunkach: grupowanie jednostek leksykalnych według podobieństwa wystąpień w korpusach i wyszukiwanie według wzorców leksykalno-syntaktycznych. Na potrzeby eksperymentów skonstruowaliśmy system SuperMatrix umożliwiający wydobywanie powiązań znaczeniowych pomiędzy wyrażeniami języka naturalnego (obsługuje język polski i angielski) z wielkich korpusów tekstu (rzędu terabajtów) Dużo uwagi poświęciliśmy wydobywaniu miar powiązania znaczeniowego (MPZ), które przypisują parom lematów wartość liczbową. Opracowaliśmy oryginalną funkcję ważenia cech opisujących lematy poprzez rangi (FWR). Wydobyta MPZ oparta na FWR w testach synonimii uzyskała wyniki dla wszystkich części mowy (np. 88,14% dla polskich rzeczowników) i obu języków (polskiego i angielskiego) znacząco lepsze od kilku miar znanych ze współczesnej literatury (przykładowe wyniki: http://plwordnet.pwr.wroc.pl/browser/automatic.jsp). Skonstruowaliśmy i przebadali szereg wzorców do identyfikacji par hiperonimicznych w korpusie oraz opracowaliśmy unikatowy algorytm automatycznego wydobywania wzorców i par powiązanych określoną relacją (41% dokładności przy 25361 wydobytych parach hiperonimicznych), rozwinięcie algorytmu Espresso (Pennachiotti & Pantel, 2006). Dla zapewnienia wysokiej jakości Słowosieci zastosowaliśmy półautomatyczny model jej rozszerzania: lingwista potwierdza automatycznie generowane propozycje nowych par (konkretyzacji danej relacji). Swoista ortogonalność opracowanych różnorodnych metod wydobywania relacji, doprowadziła do skonstruowania do hybrydowego algorytmu dołączania poprzez region aktywacji (Activation-Area Attachment czyli AAA). Dodając nowe jednostki leksykalne do wordnetu, algorytm AAA określa ich dopasowanie semantyczne do jednostek już w wordnecie obecnych, a następnie do zawierających je synsetów (grup jednostek bliskoznacznych). Dopasowanie nowej jednostki do synsetu wynika z jej dopasowania do innych synsetów, powiązanych z nim semantycznie. Obliczenie podobieństwa stosuje wyniki wymienionych wcześniej metod w ogólnym schemacie głosowania ważonego. Test rekonstrukcji (usunięcia i ponownego wprowadzenia) części rzeczownikowej jądra Słowosieci wykazał, że algorytm AAA dopasowuje najlepszą propozycję do właściwego synsetu z dokładnością 42,81%, a do synsetu odległego nie więcej niż o 3 synsety od właściwego punktu z dokładnością 81,96%. Algorytm wykorzystaliśmy w systemie WordnetWeaver (WNW). (przykładowe wyniki: http://plwordnet.pwr.wroc.pl/browser/graphs.jsp) Wspomaga on pracę lingwisty poprzez wizualną prezentację wyników pracy algorytmu dołączania.