Kompozycyjne podejście do anafory i referencji na gruncie semantyki
                                dynamicznej.

Maciej Piasecki Wydziałowy Zakład Informatyki, Politechnika Wrocławska,
piasecki@ci.pwr.wroc.pl

                              Streszczenie

W pewnym uproszczeniu można stwierdzić, że u podstaw teorii DRT [10], która
stała się niemal standardowym formalizmem opisu znaczenia wielozdaniowej
wypowiedzi w języku naturalnym (nazywanej dalej tekstem), leżało dążenie do
stworzenia teorii interpretacji temporalnej i nominalnej anafory w tekście.
W działaniu reguł konstrukcyjnych DRT, budujących struktury reprezentacji
znaczenia (SRZ) tekstu, ważną rolę spełnia mechanizm identyfikacji
poprzedników dla wyrażeń anaforycznych (głównie zaimków). Proces
identyfikacji zachodzi w określonym stanie kontekstu interpretacji,
opisywanym poprzez SRZ stworzone dla fragmentu tekstu poprzedzającego dane
wyrażenie. Niestety identyfikacja zachodzi na meta-poziomie opisu znaczenia
tekstu, w dziedzinie wyrażeń języka SRZ, czyli struktur DRS [10]. Jest to
jedną z przyczyn niekompozycyjności 'standardowego' DRT (tzn. w kształcie
pracy [10]). Ścisła kompozycyjność opisu znaczenia jest istotną cechą
formalizmu reprezentacji znaczenia: upraszcza proces generowania SRZ,
pozwala na przypisanie znaczenia wyrażeniom dowolnej kategorii składniowej
a nie tylko kompletnym zdaniom np. rozpoznanym fragmentom wypowiedzi
zawierającej błędy lub zniekształconej. Zaproponowano wiele kompozycyjnych
wersji DRT, zwięzły przegląd przedstawiono w [6], jednak większość z nich w
reprezentacji mechanizmu anafory bazuje na założonym uprzednim
poindeksowaniu tekstu na poziomie analizy składniowej (drzewo rozbioru
składniowego musi zawierać indeksy określające pary wyrażeń powiązanych
anaforycznie). Przypisane indeksy wyznaczają nazwy znaczników (rodzaj
zmiennych reprezentujących byty). Tworzące się w ten sposób powiązania są
niejako 'zakodowane' we wszystkich częściach SRZ całego tekstu. W ten
sposób mechanizm reprezentacji anafory został w kompozycyjnych wersjach DRT
niejako wyłączony z reprezentacji znaczenia tekstu (w przeciwieństwie do
'standardowego' DRT).

Celem długofalowym prezentowanych tu badań jest konstrukcja kompozycyjnej
teorii znaczenia tekstu jako podstawy systemów przetwarzających tekst np.
systemów ekstrakcji informacji, komunikacji z maszyną w języku naturalnym.
Prezentowana tu praca koncentruje się na w pełni kompozycyjnej
reprezentacji znaczenia frazy nominalnej jako elementu struktury tekstu.
Pełna kompozycyjność proponowanej reprezentacji oznacza objęcie
kompozycyjnym opisem zarówno kwantyfikacji i aspektu deskryptywny
znaczenia, jak i też mechanizmów anafory, referencji i presupozycji [3].
Mechanizmy te są wzmiankowane jedynie w większości kompozycyjnych wersji
DRT [6]. Zgodnie z paradygmatem semantyki dynamicznej [8] znaczenie
wyrażenia jest utożsamiane ze zmianą jaką jego interpretacja wprowadza do
kontekstu interpretacji. Na proponowane tu rozwiązanie składa się definicja
formalnego języka logicznego, nazwanego Samoorganizująca się Logika
Struktur (SLS), oraz kompozycyjny mechanizm konstrukcji reprezentacji
znaczenia tekstu w postaci termów SLS.

Punktem wyjścia do konstrukcji SLS jest metafora pamięci komputera, w
ramach, której znaczniki są postrzegane jako 'komórki pamięci'
przechowujące informacje o obiektach wymienianych w tekście poprzez użycie
fraz nominalnych. Kontekst interpretacji utożsamiany jest ze stanem
'pamięci'. Pamięć może zawierać również informacje o obiektach znanych
odbiorcy z poza tekstu. Powiązania anaforyczne i referencyjne są modelowane
poprzez mechanizm więzów nakładanych na wartości 'przechowywane' w
odpowiednich komórkach pamięci. Znaczenie zdania, tekstu identyfikowane
jest z relacją na stanach ('stanach informacyjnych odbiorcy') wyrażaną
przez interpretację odpowiedniego termu SLS. Struktura powiązań pomiędzy
znacznikami nie wynika ze wstępnie przypisanych nazw zmiennych po
znacznikach. Jest tworzona dynamicznie poprzez mechanizm operatora
referencji identyfikującego odpowiednie znaczniki jako potencjalne
poprzedniki znacznika rozpatrywanego (nazwa to analogia do definicji
referencji Hessa [9]). Rozwiązanie to jest podobne do formalnej definicji
importu / eksportu zmiennych w Systemie Referencyjnym Vermeulena [16],
jednak nie jest, jak tam,  'sterowane' przypisaniem nazw do eksportowanych
/ importowanych znaczników. Operator referencji działa niedeterministycznie
w dziedzinie dostępnych znaczników (stąd "samoorganizująca się"). Dlatego
też, zmienne po znacznikach pełnią marginalną rolę w SLS, termy składowe
formuł są łączone poprzez powiązania. Celem SLS nie jest szczegółowy opis
procesu rozwiązywania powiązań anaforycznych a jedynie wyrażenie warunków
koniecznych spełnianych przez proces identyfikacji poprzednika na poziomie
semantyki (własności obiektów przypisanych do znaczników) oraz na poziomie
składni (strukturalne pojęcie dostępności znaczników).

Konstrukcja SLS wykorzystuje technikę warstwowej definicji logiki,
zastosowaną między innymi przez Muskensa [11]. Wyrażenie SLS definiowane są
jako skróty notacyjne wyrażeń standardowej logiki typów. Zbiór typów SLS
obejmuje standardowe typy: e (bytów) i t (wartości logicznych) oraz
dodatkowy typ m - znaczników dyskursu (nazwa sortu od memory cells).
Denotacja De to dowolny niepusty zbiór, Dt={0,1}, natomiast Dm to
nieskończony zbiór z nałożonym porządkiem całkowitym <m - daje nam
'sekwencyjny dostęp' do kolejnych komórek pamięci. Używane są dwa
konstruktory typów złożonych: (ab), gdzie D(a b) = DbDa, oraz
(a1(a2(...an), gdzie a1,(,an to dowolne typy, [pic] = [pic]. Typ stanu,
oznaczany s, jest definiowany jako typ złożony ( m(((m(m)t)((m(et)) ),
gdzie:

  1. m - wyróżniony znacznik określający ostatnio aktywowany ('włączony do
     użycia' w stanie poprzednim) znacznik; w każdym stanie tylko
     ograniczona liczba znaczników jest wykorzystywana; zawsze aktywowany
     jest następnik wyróżnionego; znaczniki aktywowane w danym stanie są
     dostępne do tworzenia powiązań;

  2. ( (m(m)t ) - relacja powiązań pomiędzy znacznikami - pierwszy znacznik
     reprezentuje poprzednika; do relacji może być włączony tylko znacznik
     dostępny czyli aktywowany w danym stanie; relacja powiązań nakłada
     ograniczenia na funkcję wartościującą znaczniki - ostatni element
     stanu, co jest zagwarantowane przez aksjomat niejednoznaczności
     referencji;

  3. ( m(et) ) - funkcja wartościująca znaczniki - funkcja całkowita na
     zbiorze znaczników aktywowanych (częściowa na Dm); przypisuje
     znacznikom zbiory obiektów; w pewnym uproszczeniu znaczniki powiązane
     otrzymują identyczne wartości.

Reprezentacją znaczenia zdań i całego tekstu są tzw. formuły dynamiczne -
termy typu (s(st)) - stanowiące relację na stanach. Mechanizmy SLS,
wyrażane w postaci operatorów można podzielić na trzy główne grupy:
opisujące komponent kontekstu (w sensie [16]), komponent deskryptywny oraz,
wydzielone w ramach tego ostatniego, mechanizmy kwantyfikacji i mnogości. W
większości przypadków, z wyjątkiem predykatywnych użyć FN [9],
interpretacja FN skutkuje zastosowaniem operatora aktywacji znacznika, typu
(s(st)), który, używając proceduralnej metafory, 'dodaje' kolejny znacznik
do aktywowanych oraz rozszerza niedeterministycznie funkcje wartościującą
stanu o wartość dla aktywowanego znacznika. Operator referencji, typu
(m ((et) (s (st))) ), stosowany w interpretacji anaforycznych i
referencyjnych FN, identyfikuje potencjalnych poprzedników dla podanego
znacznika, pomiędzy dostępnymi znacznikami w stanie wejściowym (warunek
strukturalny), spełniającymi dodatkowo warunek zawierania się znaczeniowego
we własnościach podanych do operatora (warunek semantyczny). Na rezultat
pracy operatora referencji nałożone są dodatkowe warunki presupozycji
egzystencjalnej [3] określające oczekiwaną zmianę w stanie relacji powiązań
np. ścisła presupozycja jest interpretowana jako wymóg rozszerzenia relacji
o dokładnie jedną parę.

Aspekt deskryptywny znaczenia FN interpretowany jest w 'klasyczny' sposób
poprzez predykatu typu (et). Z racji niestosowania zmiennych po
znacznikach, został wprowadzony mechanizm 'dostępu' do ostatnio
wprowadzanych znaczników i ich wartości w danym stanie. Pozwala na to
założenie sekwencyjnej konstrukcji formuł SLS jako reprezentacji tekstu,
który posiada sekwencyjną konstrukcję ze swojej natury. Typ predykatu
czasownikowego ((et)i t) t) i jego wykorzystanie wiąże się ściśle z
przyjętą interpretacją kwantyfikacji. Określnik FN (determinator w języku
angielskim, zaimek lub liczebnik w języku polskim) interpretowany jest,
zgodnie z fundamentalną pracą Barwise'a i Coopera [2], jako funktor
(nazywany tu proto-kwantyfikatorem) typu ((et) ((et) t)) generujący na
podstawie predykatu rzeczownikowego kwantyfikator uogólniony w sensie
definicji Mostowskiego [12, 5] tzn. rodzinę podzbiorów uniwersum.
Dodatkowo, w SLS wykorzystany został mechanizm formalnej interpretacji
odmian kwantyfikacji języka naturalnego (kolektywnej, dystrybutywnej i
neutralnej) w postaci modyfikatorów typu (ang. type lifts) proto-
kwantyfikatorów zaproponowany przez van der Does'a [4]. Modyfikatory
'podnoszą' typ proto-kwantyfikatora do ((et) (((et) t) t)) funktora
zwracającego rodzinę zbiorów kolekcji, gdzie kolekcje są reprezentowane na
bazie standardowej teorii zbiorów jako podzbiory uniwersum tzn. bytom
indywiduowym odpowiadają zbiory jednoelementowe. Mechanizm wiązania
zmiennej przez kwantyfikator został zastąpiony poprzez mechanizm wzajemnych
zależności liczebnościowych kwantyfikatorów, wywodzący się z lingwistycznej
koncepcji reprezentacji struktury kwantyfikacji przy pomocy grafu
zaproponowanej przez Bellert [1] oraz propozycji formalizacji systemu
Bellert zaproponowanych przez Vetulaniego [17] i Zawadowskiego [18].
Sekwencja operatorów zależnościowych, reprezentująca strukturę
kwantyfikacji zdania, generuje na podstawie zmodyfikowanych proto-
kwantyfikatorów i wartości znaczników zbiór podzbiorów produktów
kartezjańskich konstruowanych z kolekcji należących po poszczególnych
kwantyfikatorów. Każdy podzbiór to opis potencjalnej struktury relacji
wiążącej poszczególne kolekcje ('grupy obiektów'). Każdy podzbiór można
utożsamić z opisem pewnej sytuacji. Struktura zależnościowa n
kwantyfikatorów jest typu ((et)n t) t), identyczny typ ma predykat
czasownikowy, który również stanowi opis zbioru potencjalnych 'sytuacji',
potencjalnych użyć czasownika. Jeżeli, któryś z podzbiorów produktu
kartezjańskiego wystąpi zarówno w strukturze kwantyfikatorów jak i też w
denotacji predykatu czasownikowego to odpowiednie zdanie jest prawdziwe.

SLS definiuje ponadto mechanizmy dynamicznej implikację, negacji i
dysjunkcji modyfikujących dostępność znaczników w sposób typowy dla
semantyki dynamicznej [8]. Określone również zostało pojęcie prawdziwości
formuły dynamicznej jako zdolności do aktualizacji stanu wejściowego. Na
jego bazie zdefiniowane zostało pojęcie wynikania.

W pracy, oprócz formalnych definicji języka SLS i jego aksjomatów znajdują
się przykłady jego zastosowania do kompozycyjnego opisu znaczenia tekstu.
Przedstawiony został również graficzny język (którego symbole zdefiniowane
są jako skróty notacyjne) ułatwiający praktyczne zastosowania
skomplikowanego formalizmu. Kształt języka graficznego jest zbliżony do
języków modelowania obiektowego. Zaprezentowana w pracy teoria rozszerza
zakres zjawisk w dziedzinie semantyki tekstu, które mogą być opisywane
formalnie. Zbliża się do sposobu rozumienia znaczenia tekstu przez
człowieka jako informacji o różnych bytach pozostających ze sobą w
związkach o określonej strukturze (stąd "struktur" w nazwie SLS).


Bibliografia

Bellert Irena. (1989) Feature System for Quantification Structures in
Natural Language. Foris Publications, Dordrecht.

Barwise J., Cooper R., Generalized Quantifiers and Natural Language.
Linguistics and Philosophy 4:159-219, 1981.

Beaver David. Presupposition. W van Benthem J., ter Meulen A., ed.,
Handbook of Logic and Language, Elsevier, 1997.

van der Does Jaap. (1994) Applied Quantifier Logic. Doctoral dissertation,
ILLC, University of Amsterdam, Amsterdam.

van der Does Jaap. Basic Quantifier Theory. W van der Does J. i van Eijck
J., ed., Quantifiers, Logic and Language, CSLI Publications, 1996.

van Eijck Jan, Kamp Hans. Representing Discourse in Context. w van Benthem
J., ter Meulen A., editors, Handbook of Logic and Language, Elsevier, 1997.

Fodor Janet D. and Sag I.A. (1982) Referential and Quantificational
Indefinites. Linguistic and Philosophy, vol. 5, pp 355-398.

Groenendijk Jeroen, Stokhof Martin. Dynamic Predicate Logic. Linguistics
and Philosophy 14, pp. 39-100, 1991.

Hess Michael. (1989) Reference and Quantification in Discourse. not
published thesis (Habilitationsschrift), University of Zurich.

Kamp Hans, Reyle Uwe. (1993) From Discourse To Logic. Kluwer.

Mostowski Andrzej. On Generalization of Quantifiers. Fundamenta
Mathematicae 44:12-36, 1957.

Muskens R. Combining Montague Semantics nad Discourse Representation.
Linguistics and Philosophy 19, str 143-186, 1996

Piasecki Maciej. The Multidimensional Approach to Quantification and
Reference in the Noun Phrase. W Thessaloniker interkulturelle Analysen.
Akten des 33. Linguistichen Kolloquiums, red. Dorfmuller-Karpusa K., Vretta-
Panidou E., Thessaloniki, [24.-26. September] 1998, Peter Lang 2000.

Piasecki Maciej. A Dynamic Approach to Quantification and Reference in
Polish Noun Phrase. W materiałach konferencji 3rd European Conference on
Formal Description of Slavic Languages (FDSL-3) Leipzig'99, 2001.

Piasecki M., Semantic and Syntactic Aspects of Reference and Quantification
in Polish Noun Phrase. Przyjęte do druku w materiałach konferencji 4th
European Conference on Formal Description of Slavic Languages (FDSL-4)
Potsdam'01, 2001.

Vermeulen C.F.M. Merging without Mystery or: Variables in Dynamic
Semantics. Journal of Philosophical Logic. Nr. 24, str. 405-450, 1995.

Vetulani Zygmunt. On Bellert's Proposal Concerning Quantificational
Universals. Studia Logica XLVI, 4, Ossolineum, Wrocław, 1987.

Zawadowski Marek. Formalization of the Feature System in Terms of Pre-
orders. Dodatek do Bellert I. Feature System for Quantification Structures
in Natural Language. Foris Publications, Dordrecht, 1989.