AUTOR: Rafał Młodzki AFILIACJA: IPI PAN / NKJP TYTUŁ: Cechy kontekstu istotne dla ujednoznaczniania sensów słów w języku polskim STRESZCZENIE W referacie opowiem o pracach nad modułem WSD (ujednoznacznianie sensów słów) dla NKJP. Zaprezentuję przyjęte założenia, zdam sprawę z pojawiających się trudności, przedstawię ogólną architekturę systemu. Właściwą część referatu stanowić będzie próba uchwycenia zależności pomiędzy wyborem cech kontekstu, ustawieniami systemu uczenia maszynowego i skutecznością dezambiguacji. Spróbujemy sobie odpowiedzieć na pytania w rodzaju: ile przy WSD daje oznakowanie częściami mowy, ile wnosi lematyzacja/stemming, jaki wpływ ma wielkość okna bag-of-words, jak pomaga dodanie informacji o kolokacjach, czy jakieś bardziej złożone cechy mają znaczący wpływ na skuteczność? A także: ile cech wybrać? Jak je wybierać? Które algorytmy uczenia maszynowego sprawują się najlepiej (i działają w sensownym czasie). Ile potrzeba przykładów, żeby nauczyć algorytm? etc. (ZASTRZEŻENIE: Z braku korpusu języka polskiego anotowanego sensami słów z prawdziwego zdarzenia, wyniki uzyskano w oparciu o dwa korpusy stworzone specjalnie do tego celu -- pseudosłów z Korpusu IPI PAN i korpusu skonstruowanego w sposób automatyczny z polskiej Wikipedii. Wszystkie obliczenia zostaną w przyszłości jeszcze raz przeprowadzone na prawdziwym korpusie.)