Projekt anotacji morfosyntaktycznej korpusu języka polskiego

Marcin Woliński and Adam Przepiórkowski

Report 938 of IPI PAN (Institute of Computer Science, Polish Academy of Sciences).


Electronically available format:


Abstract

This report presents a morphosyntactic tagset for Polish based solely on morphological and syntactic criteria. In particular, the notion of part-of-speech, often equated with the essentially semantic notion of lexeme, is defined in purely morphosyntactic terms. The report also contains general guidelines for text annotation using the proposed tagset, as well as a comparison with other tagsets proposed for Polish and other Slavic languages.


Streszczenie

Niniejszy raport zawiera propozycję zestawu znaczników morfosyntaktycznych do anotacji korpusu tekstów języka polskiego. Zestaw ten opiera się wyłącznie na kryteriach morfologicznych i składniowych, w tych terminach zdefiniowane zostało też pojęcie klasy gramatycznej, zwykle utożsamiane z semantycznym pojęciem leksemu. Raport zawiera także ogólne wskazówki praktyczne dotyczące anotowania korpusu z wykorzystaniem zaproponowanego tu zestawu znaczników, a także porównanie tego zestawu znaczników z innymi systemami znakowania morfosyntaktycznego zaproponowanymi dla języka polskiego i innych języków słowiańskich.


BibTeX entry:

@string{prace-ipi = "IPI PAN Research Report"}
@string{ipipan = "Institute of Computer Science, Polish Academy of Sciences"}

@TechReport{wol:prz:01,
  author =       "Marcin Woliński and Adam Przepiórkowski",
  title =        "Projekt anotacji morfosynktaktycznej korpusu języka
                  polskiego", 
  type =         prace-ipi,
  number =       938,
  institution =  ipipan,
  year =         2001}

Valid XHTML 1.0! Valid CSS!

Creation Date: Monday, October 21, 2002
Last Modified: Tue Jun 7 22:23:36 CEST 2005
AP