AUTOR: Maciej Piasecki AFILIACJA: Politechnika Wrocławska TYTUŁ: Automatyczne rozpoznawanie polskich leksykalnych relacji derywacyjno-semantycznych STRESZCZENIE: Relacje derywacyjne (słowotwórcze) wyrażają nie tylko formalne powiązania pomiędzy formami wyrazowymi, ale również bardzo często wyraźne i regularne związki semantyczne. Relacje derywacyjne są szczególnie liczne w językach słowiańskich i stały się bardzo ważnym składnikiem opisu systemu semantyki leksykalnej w ramach Słowosieci (www.plwordnet.pwr.wroc.pl) - rodzaju wielkiego elektronicznego tezaurusa języka polskiego. Do struktury Słowosieci zostało włączonych 42 relacji derywacyjnych (relacji głównych i podtypów), które mają jasno określoną semantykę, są względnie regularne oraz częste, np. żeńskość (rzecz.-rzecz.), deminutywność (rzecz.-rzecz.), rola agens/subiekt (rzecz.-czas.), nosiciel stanu/cechy (rzecz.-przym.) i inne. Konstrukcja tak dużej sieci leksykalnych relacji semantycznych jak Słowosieć jest bardzo pracochłonna. Regularny charakter wielu relacji derywacyjnych dał jednak szansę skonstruowania automatycznego narzędzia - Derywatora - do wykrywania par należących do relacji derywacyjnych. Derywator został pomyślany jako narzędzie wspomagające pracę lingwistów i jego zadaniem Derywatora jest rozpoznanie formy wyrazowej jako derywatu, a następnie określenie jego bazy derywacyjnej oraz typu i podtypu relacji, która wiąże je. Konstrukcja Derywatora została oparta na maszynowym uczeniu się. Pary derywacyjne opisane przez lingwistów w Słowosieci (początkowo wyłącznie ręcznie) zostały wykorzystane jako dane uczące. Na ich podstawie budowany jest rodzaj systemu automatów analizujących sufiksy i prefiksy oraz rozpoznających wzorzec wymiany wewnątrztematowej. Bardzo często analiza formy nie jest wystarczająca do odrzucenia niewłaściwych powiązań, takich jak "pierwiastka" w relacji żeńskość do "pierwiastek". Ponadto w Słowosieci opisujemy relacje pomiędzy jednostkami znaczeniowymi (parami: lemat - znaczenie) a nie formami. Dlatego w Derywatorze został wprowadzony również drugi stopień filtrowania oparty na analizie wystąpień potencjalnego derywatu i jego bazy w ramach korpusu języka polskiego. Na podstawie zebranych danych statystycznych zbudowany został za pomocą metod maszynowego uczenia się zespół klasyfikatorów do oceny powiązań generowanych przez system automatów. Planujemy wykorzystanie Derywatora jako narzędzia w procesie półautomatycznego rozszerzania opisu relacji derywacyjnych w Słowosieci. Proces będzie realizowany przyrostowo, tzn. dane zatwierdzone i wprowadzone do struktury sieci przez lingwistów będą wykorzystywane do douczania Derywatora. Podczas seminarium zaprezentowane zostaną wyniki przeprowadzanych eksperymentów na dużych zbiorach polskich form oraz zilustrowany zostanie cały proces uczenia i działania Derywatora.