AUTOR: Piotr Przybyła i Paweł Teisseyre AFILIACJA: IPI PAN TYTUŁ: Analiza wypowiedzi w celu rozpoznawania własności mówcy na przykładzie przemówień sejmowych STRESZCZENIE: Przedstawimy, jak można użyć stenogramów sejmowych, aby odgadnąć własności autorów poszczególnych wypowiedzi: płeć, wykształcenie, przynależność partyjną i rok urodzenia. Z każdej setki wypowiedzi tego samego posła powstaje przypadek uczący, który opisujemy zbiorem cech wykorzystujących wielopoziomowe znakowanie korpusu sejmowego. Cechy można podzielić na leksykalne (unigramy i bigramy słów, lematów i interpretacji morfoskładniowych) i tekstowe (na podstawie długości zdań, słów czy grup składniowych). Następnie wykonujemy klasyfikację z użyciem powszechnie dostępnych narzędzi, przy czym szczególną uwagę trzeba zwrócić na zagadnienie wyboru istotnych cech, których liczba wielokrotnie przekracza liczbę dostępnych przypadków uczących. Wykonane eksperymenty wskazują, że wydajność poszczególnych konfiguracji różni się znacząco, przy czym najlepsze osiągają dokładność rzędu 97% dla płci, 95% dla wykształcenia i 76-88% dla partii.