AUTOR: Krzysztof Marasek i Ryszard Gubrynowicz, AFILIACJA: PJWSTK TYTUŁ: Budowa bazy dialogów telefonicznej mowy polskiej w ramach projektu EC LUNA STRESZCZENIE: W referacie będą przedstawione ogólne założenia wielojęzykowego systemu dialogowego tworzonego w ramach projektu LUNA i rola polskiego korpusu dialogów w budowie systemu rozumienia mowy, niezależnego od cech osobniczych mówców, języka i domen aplikacji. Oczekuje się, że w wyniku tego projektu powstaną uniwersalne moduły rozumienia mowy w systemach dialogowych, które będą mogły być stosowane w telefonicznych liniach informacyjnych, obsługujących rozmówców w dogodnym dla nich języku. Wybrana dla języka polskiego domena aplikacji objęła rozmowy telefoniczne warszawskiej infolinii ZTM, obsługującej pasażerów miejskiej sieci komunikacyjnej. Omówiona będzie struktura i rodzaje informacji udzielanych przez operatorów, struktura dialogów. Przedstawiona będzie zastosowana metoda transkrypcji i anotacji dialogów, problemy związane z zakłóceniami, zniekształceniami mowy, a zwłaszcza trudności wynikające ze spontanicznego charakteru rejestrowanych rozmów. Wyniki transkrypcji i anotacji zarejestrowanego sygnału mowy są zapisywane w postaci pliku tekstowego w formacie XML i dane te stanowią podstawę do dalszej analizy semantycznej dialogu.