AUTOR:     Krzysztof Marasek i Ryszard Gubrynowicz,
AFILIACJA: PJWSTK
TYTUŁ:     Budowa bazy dialogów telefonicznej mowy polskiej w ramach projektu EC LUNA

STRESZCZENIE:

W referacie będą przedstawione ogólne założenia wielojęzykowego
systemu dialogowego tworzonego w ramach projektu LUNA i rola polskiego
korpusu dialogów w budowie systemu rozumienia mowy, niezależnego od
cech osobniczych mówców, języka i domen aplikacji. Oczekuje się, że w
wyniku tego projektu powstaną uniwersalne moduły rozumienia mowy w
systemach dialogowych, które będą mogły być stosowane w telefonicznych
liniach informacyjnych, obsługujących rozmówców w dogodnym dla nich
języku.  Wybrana dla języka polskiego domena aplikacji objęła rozmowy
telefoniczne warszawskiej infolinii ZTM, obsługującej pasażerów
miejskiej sieci komunikacyjnej. Omówiona będzie struktura i rodzaje
informacji udzielanych przez operatorów, struktura
dialogów. Przedstawiona będzie zastosowana metoda transkrypcji i
anotacji dialogów, problemy związane z zakłóceniami, zniekształceniami
mowy, a zwłaszcza trudności wynikające ze spontanicznego charakteru
rejestrowanych rozmów. Wyniki transkrypcji i anotacji zarejestrowanego
sygnału mowy są zapisywane w postaci pliku tekstowego w formacie XML i
dane te stanowią podstawę do dalszej analizy semantycznej dialogu.