Książka dotyczy technologii rozumienia języka naturalnego przez komputer oraz wykorzystania tych technologii w systemach wspomagających działania na rzecz zapewnienia bezpieczeństwa publicznego. W tym zakresie jej autorzy współpracowali m. in. z Wojewódzką Komendą Policji w Poznaniu w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego (PPBW), realizując grant MNiSzW dotyczący zastosowania technologii języka naturalnego w sytuacjach kryzysowych. Referowane w monografii prace dotyczą systemów z emulowaną kompetencją językową, które, aby spełnić swoje zadania, muszą rozumieć człowieka. W przypadku, który nas interesuje, przedmiotem rozumienia są komunikaty zgłaszane do systemu przez osoby uczestniczące w zdarzeniach o charakterze kryzysowym. Przyjmujemy, że problemy rozumienia człowieka przez komputer rozwiązuje się najczęściej przy wyróżnieniu dwóch składowych (z których pierwsza wykracza poza ramy tej publikacji). Są to: -przekształcenie mowy w tekst (ewentualnie połączone z identyfikacją mówcy i rozpoznaniem pewnych dodatkowych okoliczności), - rozumienie tekstu (wydobycie z tekstu jego znaczenia). Rozumienie tekstu jest zasadnicze dla realizacji aktu komunikacji pomiędzy człowiekiem a komputerem. Od dawna wiadomo, że do zrozumienia tekstu przez komputer nie wystarcza zaopatrzenie go w słowniki czy w lingwistyczny opis języka w postaci sformalizowanej i zaimplementowanej komputerowo gramatyki języka naturalnego (np. polskiego czy angielskiego). Człowiek komunikuje się bowiem z drugim człowiekiem, odwołując się do olbrzymiej wiedzy o świecie, jak też do wiedzy o rozmówcy. Problemy komputerowego modelowania rozumienia nie zostały kompleksowo rozwiązane dla żadnego języka i stanowią ciągle aktualne wyzwanie zarówno dla informatyki, jak i lingwistyki. W części pierwszej książki prezentujemy prototypowy system POLINT-112-SMS jako przykład zaawansowanej aplikacji uwzględniającej technologię rozumienia człowieka przez komputer. Aplikacja ta ma za zadanie ułatwienie wczesnego wykrywania potencjalnych zagrożeń w warunkach imprezy masowej dzięki odpowiedniej organizacji przepływu informacji przekazywanych przez ludzi tekstem. Szczegółowo przedstawiamy zastosowane technologie i rozwiązania techniczne. Część druga poświęcona jest przede wszystkim prezentacji niezbędnych zasobów lingwistycznych które były rozwijane w projekcie w perspektywie dalszych prac badawczo-rozwojowych. Adresatami publikacji są projektanci i deweloperzy systemów z emulowaną kompetencją językową, osoby i instytucje zainteresowane nowoczesnymi technologiami informacyjnymi wykorzystującymi język naturalny, osoby odpowiedzialne za zarządzanie sytuacjami kryzysowymi; informatycy, lingwiści, oficerowie sztabowi służb odpowiedzialnych za bezpieczeństwo w sytuacjach kryzysowych (policja, straż pożarna, wojsko,...); studenci, doktoranci i pracownicy naukowi zainteresowani komputerowym przetwarzaniem tekstu/informacji, a także wszyscy inni entuzjaści pasjonującej dyscypliny jaką jest lingwistyka komputerowa. Zakłada się, że Czytelnik posiada kulturę informatyczną na poziomie ogólnoakademickim oraz jest obeznany z podstawowymi pojęciami w zakresie nauk o języku (językoznawstwo ogólne i opisowe języka polskiego), lecz nie oczekuje się od niego posiadania wiedzy specjalistycznej. Jako że omawiane wyniki są kontynuacją, choć nie „uwieńczeniem", naszych wcześniejszych przyczynków w zakresie lingwistyki komputerowej, naturalną lekturą wspomagającą może być monografia pt. „Komunikacja człowieka z maszyną. Komputerowe modelowanie kompetencji językowej" (Z. Yetulani, 2004, Wyd. Exit).
SPIS TREŚCI
Przedsłowie
1. Wstęp 2. Wprowadzenie 2.1. Kompetencja językowa 2.2. Modelowanie kompetencji językowej - metody empiryczne 2.3. Emulowanie kompetencji językowej człowieka - rola uBytkownika
CZĘŚĆ I - Aplikacja 3. Aplikacja POLINT-112-SMS 3.1. Model logiczny, załoBenia realizacyjne 3.1.1. Potrzeby informacyjne uBytkownika systemu POLINT-112-SMS 3.1.2. UBytkownicy systemu 3.1.3. Architektura - model logiczny systemu 3.2. Moduł NLP. Analiza tekstu wejściowego 3.2.1. Model predykatywno-argumentowy 3.2.2. Leksykon-gramatyka 3.2.3. POLINT - moduły przetwarzania wstępnego 3.2.3.1. Moduł Analizy Wstępnej 3.2.3.2. Moduł Rozpoznawania Kolokacji 3.2.3.3. Moduł Rozpoznawania Nazw 3.2.3.4. Moduł Przetwarzania RównowaBników Zdań 3.2.4. POLINT - parser i analizator semantyczny 3.2.4.1. Słownik 3.2.4.2. Gramatyka 3.2.4.3. Pokrycie językowe parsera 3.2.4.4. Analiza 3.3. Zarządzanie wiedzą 3.3.1. Typy wiedzy przechowywane na róBnych poziomach systemu 3.3.2. Struktury danych 3.3.3. Ramy: konstruowanie 3.3.3.1. Etap 1: Nadawanie znaczenia tokenom 3.3.3.2. Etap 2: Tworzenie ram 3.3.3.3. Etap 3: Składanie ram 3.3.4. Scalanie ram w MUD i MAS 3.4. Dialog i wnioskowanie 3.4.1. Model dialogu asynchronicznego 3.4.1.1. Anafora 3.4.1.2. Dopytywanie 3.4.1.3. Dopasowywanie odpowiedzi do pytań 3.4.1.4. Logowanie 3.4.1.5. Komunikaty ZERO 3.4.1.6. Wybór interpretacji 3.4.1.7. Profile uBytkowników 3.4.1.8. Odpowiadanie na pytania uBytkowników i wysyłanie powiadomień 3.4.1.9. Postępowanie w przypadku sprzecznych danych 3.4.2. Reguły Modułu Analizy Sytuacji 3.4.3. Wnioskowanie odnośnie czasu i przestrzeni 3.4.3.1. Moduł Czaso-Przestrzenny 3.4.3.2. Model XCDC 3.4.3.3. Relacje czasowo-przestrzenne 3.4.3.4. Relacje względne 3.4.3.5. Mapa 3.4.3.6. Wnioskowanie 3.5. Panel Centrum Dowodzenia: moduł wizualizacyjny 3.5.1. Funkcjonalności modułu wizualizacyjnego 3.5.1.1. Przedstawienie mapy obszaru działań 3.5.1.2 Interfejs przeglądania danych 3.5.2. Funkcjonalności Panelu Centrum Dowodzenia (PCD) 3.5.2.1. Kontrola dostępu i autoryzacja uBytkownika 3.5.2.2. Tryb wywiadowcy 3.5.2.3. Podgląd SMS 3.5.2.4. Logi systemowe 3.5.2.5. Konfigurowanie systemu POLINT-112-SMS przez PCD 3.5.2.6. Rozwiązania technologiczne 3.6. Realizacja architektury 3.6.1. Model implementacyjny 3.6.2. Środowisko instalacyjne 3.7. Metodologia rozwijania systemów z kompetencją językową 3.7.1. Wprowadzenie 3.7.2. Iteracyjny nodel budowy systemów z kompetencją językową 3.7.2.1. Model podstawowy 3.7.2.2. Model rozszerzony z wykorzystaniem eksperymentów kontrolowanych 3.7.3. Budowa i testowanie systemu POLINT-112-SMS 3.7.3.1. Przygotowanie �beta� prototypu 3.7.3.2. Struktura i zasady doboru zespołów testujących 3.7.3.3. Eksperymenty symulacyjne
CZĘŚĆ II - Zasoby zewnętrzne i rozwijane w projekcie 4. Zasoby i narzędzia ogólnodostępne wykorzystywane w projekcie 4.1. Korpus IPI PAN 4.2.Uniwersalny Słownik Języka Polskiego 4.3. Generatywny Słownik Czasowników Polskich 4.4. Narzędzia do generowania sieci leksykalnych typu WordNet - VisDic i DebVisDic 4.5. Słownik internetowy SJP.PL
5. Zasoby własne rozwijane w projekcie 5.1. Korpusy dialogów 5.1.1. SMS-y prywatne 5.1.2. SMS-y eksperymentalne 5.1.3. Krótkie podsumowanie analizy korpusów 5.2. Korpus tekstów prawniczych 5.3. Korpus nagrań 997 5.3.1. Nagrania z telefonu "997" i ich przetwarzanie 5.3.2. Przeglądarka i edytor transkrypcji ETRAN 5.4. Słownik kolokacji werbo-nominalnych 5.4.1. Charakter oraz struktura kolokacji werbo-nominalnych 5.4.2. Zasób początkowy 5.4.3. Rozszerzenie zasobu początkowego 5.4.3.1. Algorytm rozszerzania słownika kolokacji 5.4.3.2 Wyniki zastosowania algorytmu rozszerzania słownika kolokacji 5.5. Słownik walencyjny czasowników 5.5.1. Kodowanie czasowników 5.5.2. Algorytm 5.5.3. Wyjściowy format słownika 5.5.4. Wyniki stosowania algorytmu 5.6. Sieć leksykalna PolNet-Polish WordNet 5.6.1. Źródła i narzędzia 5.6.2. Algorytm budowy synsetów i tworzenia relacji hiponimii/hiperonimii 5.6.3. Charakterystyka ilościowa części rzeczownikowej PolNetu (stan na marzec 2010) 5.6.4. Weryfikacja danych sieci PolNet w systemie POLNET-112-SMS 5.6.5. Integracja danych sieci PolNet z Global WordNet Grid 5.6.6. Rozszerzanie PolNetu na inne części mowy 5.6.7. Narzędzie wordnetowe WQuery 5.6.7.1. Język zapytańWQuery 5.6.7.2. Zastosowania WQuery w systemie POLINT-112-SMS i w ontologii PolNet 5.7. POLEX 5.7.1. Publicznie dostępne zasoby źródłowe słownika morfologicznego POLEX 5.7.2. Rozszerzenie POLEX/PMDB
DODATEK I : Ogólna ontologia bytów na potrzeby projektu POLINT-112-SMS
DODATEK II : Taksonomia bytów zastosowana a systemie POLINT-112-SMS
DODATEK III Przykładowy zapis rozmowy przy pomocy systemu ELAN
BIBLIOGRAFIA
OBJAŚNIENIA AKRONIMÓW I SKRÓTÓW
O ZESPOLE AUTORSKIM I O KSIĄ[CE
INDEKS NAZWISK
INDEKS RZECZOWY
|