AUTOR:     Piotr Przybyła i Paweł Teisseyre
AFILIACJA: IPI PAN
TYTUŁ:     Analiza wypowiedzi w celu rozpoznawania własności mówcy
           na przykładzie przemówień sejmowych 

STRESZCZENIE:

Przedstawimy, jak można użyć stenogramów sejmowych, aby odgadnąć
własności autorów poszczególnych wypowiedzi: płeć, wykształcenie,
przynależność partyjną i rok urodzenia. Z każdej setki wypowiedzi tego
samego posła powstaje przypadek uczący, który opisujemy zbiorem cech
wykorzystujących wielopoziomowe znakowanie korpusu sejmowego. Cechy
można podzielić na leksykalne (unigramy i bigramy słów, lematów i
interpretacji morfoskładniowych) i tekstowe (na podstawie długości
zdań, słów czy grup składniowych). Następnie wykonujemy klasyfikację z
użyciem powszechnie dostępnych narzędzi, przy czym szczególną uwagę
trzeba zwrócić na zagadnienie wyboru istotnych cech, których liczba
wielokrotnie przekracza liczbę dostępnych przypadków
uczących. Wykonane eksperymenty wskazują, że wydajność poszczególnych
konfiguracji różni się znacząco, przy czym najlepsze osiągają
dokładność rzędu 97% dla płci, 95% dla wykształcenia i 76-88% dla
partii.