AUTOR:     Rafał Młodzki
AFILIACJA: IPI PAN / NKJP
TYTUŁ:     Cechy kontekstu istotne dla ujednoznaczniania sensów słów
           w języku polskim

STRESZCZENIE

W referacie opowiem o pracach nad modułem WSD (ujednoznacznianie
sensów słów) dla NKJP. Zaprezentuję przyjęte założenia, zdam sprawę z
pojawiających się trudności, przedstawię ogólną architekturę systemu.

Właściwą część referatu stanowić będzie próba uchwycenia zależności
pomiędzy wyborem cech kontekstu, ustawieniami systemu uczenia
maszynowego i skutecznością dezambiguacji. Spróbujemy sobie
odpowiedzieć na pytania w rodzaju: ile przy WSD daje oznakowanie
częściami mowy, ile wnosi lematyzacja/stemming, jaki wpływ ma wielkość
okna bag-of-words, jak pomaga dodanie informacji o kolokacjach, czy
jakieś bardziej złożone cechy mają znaczący wpływ na skuteczność? A
także: ile cech wybrać? Jak je wybierać? Które algorytmy uczenia
maszynowego sprawują się najlepiej (i działają w sensownym czasie).
Ile potrzeba przykładów, żeby nauczyć algorytm? etc.

(ZASTRZEŻENIE: Z braku korpusu języka polskiego anotowanego sensami
słów z prawdziwego zdarzenia, wyniki uzyskano w oparciu o dwa korpusy
stworzone specjalnie do tego celu -- pseudosłów z Korpusu IPI PAN i
korpusu skonstruowanego w sposób automatyczny z polskiej Wikipedii.
Wszystkie obliczenia zostaną w przyszłości jeszcze raz przeprowadzone
na prawdziwym korpusie.)