Inteligentne wyszukiwarki internetowe
Mieczysław Alojzy Kłopotek
Akademicka Oficyna Wydawnicza Exit, Warszawa 2001, 332 strony,
ISBN 83-87674-31-1 (do nabycia w sklepie internetowym http://www.exit.pl/)

Obok ciężkiej pracy fizycznej wymiana informacji należy do najważniejszych czynników postępu cywilizacyjnego ludzkości. Stąd przykładano zawsze wielką wagę do rozwoju technik przekazywania informacji. Ale rozwój cywilizacyjny doprowadził do paradoksalnej sytuacji, że człowiek, niegdyś spragniony „nowinek”, dziś nie jest w stanie skonsumować ich strumienia. Stąd naglącą stała się potrzeba selekcji informacji dla potrzeb poszczególnych ludzi. Niezbędnym warunkiem dla możliwości selekcji jest permanentna dostępność źródeł poszczególnych informacji. Takim źródłem stał się w ostatnim czasie Internet, a szczególnie jego usługa WWW (World Wide Web). Ale sama dostępność informacji nie jest warunkiem wystarczającym. Konieczny jest element aktywny: możliwość poszukiwania i znalezienia interesującej informacji. Tę rolę pełnią od lat stale doskonalone wyszukiwarki internetowe.

Ocenia się, że systemy wyszukiwania informacji w przyszłości jeszcze bardziej niż obecnie będą odgrywać istotną rolę w rozwoju gospodarki, biznesu, nauki i edukacji.

Aby możliwy był dalszy postęp w dziedzinie wyszukiwarek internetowych, potrzebny jest dopływ nowych idei i nowych kadr, które znałyby dotychczasowy stan rozwoju dziedziny. Niniejsza książka stanowi próbę zebrania wiedzy z różnych obszarów informatyki, niezbędnej do konstrukcji i rozwoju wyszukiwarki internetowej: technik prezentacji dokumentów na WWW (język HTML), technologii programowania w WWW (język Java, skrypty CGI, serwlety), technologie przetwarzania języka naturalnego, technologie systemów uczących się.

Książka adresowana jest przede wszystkim do studentów informatyki, młodych naukowców i programistów, którzy pragną znaleźć dla siebie atrakcyjne i nośne pole do działalności naukowej czy też praktycznej. Wiedza na temat obecnego potencjału wyszukiwarek oraz ich technicznej i koncepcyjnej konstrukcji może okazać się przydatną dla osób trudniących się działalnością gospodarczą, biznesem, pracujących w administracji publicznej itd., gdyż może być to dla nich impulsem do znalezienia nowych, często nieoczekiwanych możliwości zastosowań już obecnie istniejących technologii, co również może przyczynić się do poważnego postępu w tej dziedzinie informatyki.

Spis treści

1. Internet i systemy wyszukiwania

1.1. Historia

1.2. Architektura

1.3. Usługi internetowe

1.4. Dostęp do informacji na WWW

1.5. Zastosowania Internetu

1.6. Kierunki rozwoju

1.7. Internet a systemy wyszukiwawcze

1.8. Literatura

2. Systemy wyszukiwania informacji w Internecie

2.1. Wstęp

2.2. Oświecone zgadywanie

2.3. Katalogi stron

2.4. Specjalizowane katalogi

2.5. Automatycznie generowane kolekcje linków

2.6. Portale, wortale, strony startowe

2.7. Webring

2.8. Wyszukiwarki

2.9. Multiwyszukiwarki

2.10. Osobiste narzędzia multiwyszukiwawcze

2.11. Inne serwisy

2.12. Dlaczego inteligentne wyszukiwarki internetowe

2.13. Literatura

3. Budowa własnej wyszukiwarki internetowej

3.1. Wstęp

3.2. Projektowanie bazy danych – 'indeksu'

3.3. Architektura systemu

3.3.1. Pająk

3.3.2. Indekser dokumentów

3.3.3. Odpowiadanie na zapytania

3.3.4. Zarządzanie bazą danych

3.4. Ranking stron

3.5. Interfejs użytkownika

3.6. Ocena wydajności projektu wyszukiwarki

3.6.1. Konfiguracja sprzętu

3.6.2. Oszacowania

3.7. Literatura

4. Język HTML opisu dokumentu hipertekstowego

4.1. Wstęp

4.2. Historia

4.3. Zastosowanie

4.4. Charakterystyka

4.5. Kierunki rozwoju

4.6. Budowa dokumentu HTML

4.7. Część nagłówkowa dokumentu (Head)

4.7.1. Znaczniki

4.7.2. Znacznik

4.7.3. Inne znaczniki

4.8. Ciało dokumentu (Body)

4.8.1. Hiperłącza

4.8.2. Znaczniki logiczne

4.8.3. Znaczniki atrybutów czcionki

4.8.4. Przydatne znaczniki do formatowania (strukturalizacji) tekstu

4.8.5. Znaki specjalne

4.8.6. Kroje czcionek

4.8.7. Listy

4.9. Tabele

4.10. Multimedia

4.10.1. Grafika

4.10.2. Obrazki a linki

4.10.3. Mapowanie obrazków

4.10.4. Sekwencje wideo wbudowane w stronę internetową

4.10.5. Dźwięk na stronach WWW

4.11. Ramki

4.11.1. Struktura

4.11.2. Odnośniki w ramkach

4.11.3. Dla przeglądarek nie obsługujących ramek

4.12. Formularze

4.12.1. Ogólna budowa formularza

4.12.2. Typy pól formularza

4.13. Dynamiczne strony WWW (DHTML)

4.14. Uwagi

4.15. Literatura

5. Opis języka programowania Java

5.1. Wstęp

5.1.1. Java

5.1.2. Elementarny program: tekst źródłowy, kompilacja, interpretacja

5.2. Geneza obiektowości

5.3. Podstawowe pojęcia obiektowości

5.4. Klasy: definicja, dziedziczenie, tworzenie obiektów w Javie

5.5. Interfejsy

5.6. Pliki źródłowe i pakiety

5.7. Polimorfizm

5.8. Obsługa wyjątków

5.9. Zarządzanie pamięcią

5.9.1. Współbieżność

5.9.2. Synchronizacja wątków

5.9.3. Obiekty sieciowe

5.10. Aplety - programy Javy na stronach WWW

5.11. Standardowe klasy Javy

5.12. Servlety - programy Javy na serwerze WWW

5.13. XML i Java

5.14. Podsumowanie

5.15. Literatura

6. Technologie internetowe w wyszukiwarkach

6.1. Wstęp

6.2. Aplikacje internetowe

6.2.1. Wymagania stawiane przed aplikacjami internetowymi

6.1.2. Architektura aplikacji internetowych

6.1.3. Technologie wykorzystywane w aplikacjach internetowych

6.2. HyperText Transfer Protocol (HTTP)

6.2.1. Secure Sockets Layer (SSL)

6.2.2. Przechowywanie sesji w protokole HTTP

6.3. Serwery i przeglądarki WWW

6.4. Technologia CGI

6.4.1. Przeznaczenie CGI

6.4.2. Zalety CGI

6.4.3. Tryb startowania programu CGI

6.4.4. Struktura programu CGI

6.4.5. Bezpieczeństwo serwerów a programy CGI

6.5. PHP (Personal Home Page)

6.5.1. Czym są skrypty PHP?

6.5.2. Jak umieścić skrypt na stronie

6.5.3. Najprostszy skrypt

6.5.4. Komentarze

6.5.5. Wykorzystanie zmiennych

6.5.6. Tablice

6.5.7. Operatory i wyrażenia

6.5.8. Tworzenie funkcji

6.5.9. Zmienne w funkcjach

6.5.10. Zwracanie wartości

6.5.11. Dostęp do baz danych w PHP

6.6. ASP (Active Server Pages)

6.6.1. Technologia ASP

6.6.2. Instalacja ASP

6.6.3. Hello World w ASP

6.7. Standard serwletów i JavaServer Pages (JSP).

6.7.1. Działanie programu opartego na serwletach

6.8. Bazy danych

6.8.1. Systemy baz danych

6.8.2. Dostęp do baz danych

6.8.3. Java Database Connection (JDBC)

6.8.4. Dostęp do danych

6.9. Literatura

7. Technologie przetwarzania dokumentów tekstowych

7.1. Wstęp 173

7.1.1. Języki informacyjno-wyszukiwawcze 173

7.1.2. Kryterium zgodności znaczeniowej 174

7.2. Modele wyszukiwania informacji 178

7.2.1. Model boolowski 179

7.2.2. Model przestrzeni wektorowej 179

7.2.3. Probabilistyczne wyszukiwanie informacji 185

7.2.4. Wyszukiwanie informacji oparte na bazie wiedzy 188

7.2.5. Wyszukiwanie informacji oparte na systemach uczących 188

7.2.6. Reprezentacja tekstu 188

7.3. Waga (ranking) dokumentu 191

7.3.1. Statystyczne wagi termów 192

7.3.2. Statystyczne wagi dokumentów 193

7.3.3. Metoda Robertsona i Sparcka-Jonesa 193

7.3.4. Metoda Robertsona 194

7.3.5. Metoda bazowa B 195

7.3.6. Metoda linków 195

7.3.7. PageRank 196

7.3.8. Problem sprzężenia zwrotnego 197

7.4. Elementy „rozumienia" tekstu 198

7.4.1. Wyszukiwanie tematów słów 198

7.4.2. Rozpoznawanie języka dokumentu 200

7.4.3. Poszukiwanie słów kluczowych 201

7.4.4. Streszczanie dokumentów 202

7.4.5. Inne zagadnienia "rozumienia" tekstu 204

7.4.6. Nowy wymiar przetwarzania tekstów – lingwistyka 205

7.5. Organizacja informacji. 205

7.5.1. Metoda list prostych 205

7.5.2. Metoda Saltona 206

7.5.3. Metoda list inwersyjnych 207

7.5.4. Metoda łańcuchowa 207

7.5.5. Metoda Ghosha 208

7.5.6. Metoda Chowa 210

7.5.7. Metoda Luma 211

7.5.8. Metody organizacji informacji uwzględniające relację hierarchiczności na zbiorze deskryptorów 213

7.5.9. Organizacja spójna zbioru informacji 213

7.6. Literatura 214

8. Technologie systemów odkryć dla inteligentnych wyszukiwarkek

8.1. Wstęp

8.1.1. Etapy procesu odkryć 219

8.1.2. Zadania systemów KDD 220

8.1.3. Podstawowe elementy algorytmów odkryć

8.1.4. Typy algorytmów odkryć

8.1.5. Zastosowania i perspektywy systemów odkryć

8.2. Zadania klasyfikacji 223

8.3. Algorytmy drzew decyzyjnych 224

8.3.1. Algorytm ID3 227

8.3.2. Algorytm C4.5 231

8.3.3. Algorytm NewID 236

8.3.4. Algorytm CART 238

8.3.5. Algorytm Cal5 245

8.3.6. Algorytm M5/M5' 248

8.3.7. Inne heurystyki 253

8.3.8. Inne algorytmy 255

8.3.9. Podsumowanie 256

8.4. Brakujące wartości 257

8.4.1. Brakujące wartości podczas procesu uczenia 257

8.4.2. Brakujące wartości podczas klasyfikacji 260

8.5. Dyskretyzacja atrybutów o ciągłych wartościach 261

8.5.1. Podział na Przedziały o Równej Szerokości 262

8.5.2. Podział na Przedziały o Jednakowej Częstości Występowania 262

8.5.3. Algorytm „Naiwny" 263

8.5.4. Metoda ChiMerge i Chi2 264

8.5.5. Metoda Minimalizacji Entropii 267

8.5.6. Inne metody dyskretyzacji 269

8.5.7. Zestawienie metod dyskretyzacji 271

8.6. Metody oceny dokładności drzewa 271

8.6.1. Metody estymacji R*(d) 272

8.6.2. Metoda Bootstrap 273

8.7. Poprawianie drzewa czyli pruning 273

8.8. Uczenie pojęć dla drzew decyzyjnych – Podsumowanie 275

8.9. Sieci bayesowskie 277

8.9.1. Graficzne reprezentacje sieci bayesowskiej 279

8.9.2. Wnioskowanie w sieciach bayesowskich 284

8.9.3. Algorytmy uczące sieci bayesowskich 285

8.9.4. Algorytm Chow/Liu 286

8.9.5. Algorytm Pearla 287

8.9.6. Algorytm Lama/Bacchusa 288

8.9.7. Algorytm Kämpke 292

8.9.8. Algorytm Benedict 293

8.9.9. Algorytm Minimum Entropii 299

8.9.10. Zmodyfikowany Algorytm Minimum Entropii 301

8.9.11. Algorytm SGS 303

8.9.12. Algorytm PC 306

8.9.13. Algorytm PC* 307

8.9.14. Modyfikacje PC-2 i PC-3 308

8.9.15. Algorytm K2 309

8.9.15. Algorytm ETC 310

8.9.16. Podsumowanie 313

8.10. Grupowanie 315

8.11. Inne zagadnienia systemów uczących się 324

8.12. Literatura 327

Perspektywy rozwoju inteligentnych wyszukiwarek internetowych

Back to my home page

Click here if you want your visit to be counted

(Created on December 3rd, 2001)