Seminarium NLP 2011–2012 @ ZIL IPI PAN - Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych

AUTOR:     Maciej Piasecki
AFILIACJA: Politechnika Wrocławska
TYTUŁ:     Automatyczne rozpoznawanie polskich leksykalnych relacji
           derywacyjno-semantycznych 

STRESZCZENIE:

Relacje derywacyjne (słowotwórcze) wyrażają nie tylko formalne
powiązania pomiędzy formami wyrazowymi, ale również bardzo często
wyraźne i regularne związki semantyczne. Relacje derywacyjne są
szczególnie liczne w językach słowiańskich i stały się bardzo ważnym
składnikiem opisu systemu semantyki leksykalnej w ramach Słowosieci
(www.plwordnet.pwr.wroc.pl) - rodzaju wielkiego elektronicznego
tezaurusa języka polskiego.

Do struktury Słowosieci zostało włączonych 42 relacji derywacyjnych
(relacji głównych i podtypów), które mają jasno określoną semantykę,
są względnie regularne oraz częste, np. żeńskość (rzecz.-rzecz.),
deminutywność (rzecz.-rzecz.), rola agens/subiekt (rzecz.-czas.),
nosiciel stanu/cechy (rzecz.-przym.) i inne.

Konstrukcja tak dużej sieci leksykalnych relacji semantycznych jak
Słowosieć jest bardzo pracochłonna. Regularny charakter wielu relacji
derywacyjnych dał jednak szansę skonstruowania automatycznego
narzędzia - Derywatora - do wykrywania par należących do relacji
derywacyjnych.  Derywator został pomyślany jako narzędzie wspomagające
pracę lingwistów i jego zadaniem Derywatora jest rozpoznanie formy
wyrazowej jako derywatu, a następnie określenie jego bazy derywacyjnej
oraz typu i podtypu relacji, która wiąże je.

Konstrukcja Derywatora została oparta na maszynowym uczeniu się. Pary
derywacyjne opisane przez lingwistów w Słowosieci (początkowo
wyłącznie ręcznie) zostały wykorzystane jako dane uczące. Na ich
podstawie budowany jest rodzaj systemu automatów analizujących sufiksy
i prefiksy oraz rozpoznających wzorzec wymiany wewnątrztematowej.

Bardzo często analiza formy nie jest wystarczająca do odrzucenia
niewłaściwych powiązań, takich jak "pierwiastka" w relacji żeńskość do
"pierwiastek". Ponadto w Słowosieci opisujemy relacje pomiędzy
jednostkami znaczeniowymi (parami: lemat - znaczenie) a nie formami.

Dlatego w Derywatorze został wprowadzony również drugi stopień
filtrowania oparty na analizie wystąpień potencjalnego derywatu i jego
bazy w ramach korpusu języka polskiego. Na podstawie zebranych danych
statystycznych zbudowany został za pomocą metod maszynowego uczenia
się zespół klasyfikatorów do oceny powiązań generowanych przez system
automatów.
 
Planujemy wykorzystanie Derywatora jako narzędzia w procesie
półautomatycznego rozszerzania opisu relacji derywacyjnych w
Słowosieci. Proces będzie realizowany przyrostowo, tzn. dane
zatwierdzone i wprowadzone do struktury sieci przez lingwistów będą
wykorzystywane do douczania Derywatora.

Podczas seminarium zaprezentowane zostaną wyniki przeprowadzanych
eksperymentów na dużych zbiorach polskich form oraz zilustrowany
zostanie cały proces uczenia i działania Derywatora.