AUTOR:     Łukasz Kobyliński
AFILIACJA: IPI PAN
TYTUŁ:     PoliTa – multitager morfosyntaktyczny dla języka polskiego

STRESZCZENIE:

W ostatnich latach zaproponowanych zostało wiele nowych tagerów
morfosyntaktycznych dla języka polskiego. Jakość automatycznego
tagowania tekstu znacząco się dzięki temu poprawiła, ale nadal nie
jest satysfakcjonująca. Testy przeprowadzone na ręcznie anotowanej
części Narodowego Korpusu Języka Polskiego wskazują, iż najlepsze
tagery osiągają obecnie dokładność dochodzącą do 93%, podczas gdy
tagery dostępne dla języka angielskiego pozwalają na osiągnięcie
dokładności rzędu 97%. Problem nadal jest zatem istotny.

Podejściem alternatywnym do tworzenia nowych tagerów jest próba
wykorzystania różnorodności i połączenia potencjału istniejących
metod. W trakcie referatu zaprezentowany zostanie tager, działający na
zasadzie łączenia wyników, pochodzących z czterech najlepszych obecnie
tagerów języka polskiego: Pantera, WMBT, WCRFT oraz
Concraft. Przedstawione zostaną oczekiwania teoretyczne
dot. dokładności działającego w ten sposób tagera oraz wyniki
eksperymentalne, które okazały się lepsze od któregokolwiek z tych
tagerów, analizowanych indywidualnie. Omówione zostaną poszczególne
metody wyboru najwłaściwszego tagera składowego w poszczególnych
kontekstach, które stanowią sedno zaproponowanego podejścia.