AUTOR: Michał Dramiński, Krzysztof Ciesielski AFILIACJA: IPI PAN TYTUŁ: Przetwarzanie dokumentów tekstowych w systemie Beatca STRESZCZENIE: Od stycznia 2004 roku w IPI PAN rozwijany jest system Beatca służący do budowania map dokumentów. Integralną częścią systemu jest wyszukiwarka internetowa oparta na konstruowanych mapach. Analogicznie do podejścia WebSOM, celem projektu jest zbudowanie narzędzia do eksploracji dokumentów poprzez nawigowalne, dwuwymiarowe mapy, na których odległości geometryczne reprezentują podobieństwo konceptualne dokumentów. System Beatca rozszerzono w stosunku do oryginalnego WebSOM m.in. o elementy takie jak: kilka algorytmów tworzenia mapy (efektywny SOM, GNG, GNG-u), różne reprezentacje geometryczne mapy (mapy wielopoziomowe, reprezentacja na torusie, różne topologie sąsiedztwa), inicjalizację mapy opartą na wstępnej identyfikacji ogólnych tematów (rozkład SVD, metoda PLSA, grupowanie oparte na naiwnym klasyfikatorze bayesowskim, grupowanie oparte na szybkich sieciach bayesowskich), metody identyfikacji obszrów tematycznych oraz etykietowania mapy za pomocą znaczących termów, dynamicznie generowane streszczenia dokumentów (zawierających informacje istotne w kontekście kwerendy). Architektura systemu została zaprojektowana tak by umożliwić badania porównawcze różnych algorytmów przetwarzania dokumentów i konstrukcji map. System składa się z pięciu podstawowych modułów, które komunikują się ze sobą poprzez bazę danych. Są to: pająk/robot (tworzy korpus dokumentów), indekser (rozpoznaje język dokumentów, stemuje słowa, przekształca dokumenty do reprezentacji wektorowej i identyfikuje częste frazy), optymalizator słownika (oblicza miary użyteczności termów), maper (transformuje reprezentację wektorową do postaci mapy dokumentów), wyszukiwarka (odpowiada na zapytania użytkownika prezentując wybraną mapę wyróżniając istotne komórki). W wystąpieniu chcielibyśmy się skoncentrować na dwóch etapach przetwarzania dokumentów tekstowych: funkcjonalności indeksera oraz etapie finalnym tj. prezentacji wyników użytkownikowi (w szczególności prezentacji etykietowanej mapy oraz listy dokumentów wraz ze streszczeniami). Przedstawione również zostaną wyniki niektórych eksperymentów.