Perspektywy rozwoju inteligentnych wyszukiwarek internetowych

Konstrukcja wyszukiwarki internetowej, spełniającej wymagania rozbudzone przez współczesny stan rozwoju systemów wyszukiwawczych, jest bez wątpienia ogromnym wyzwaniem. Podstawowy zarys architektury jest stosunkowo prosty (por. rozdział 3): potrzebny jest pająk wyszukujący dokumenty w Internecie i aktualizujący znalezione dokumenty, indekser budujący efektywną reprezentację dokumentów oraz podsystem odpowiadający na zapytania użytkownika. Duży stopień złożoności może mieć warstwa techniki internetowej wykorzystywanej w wyszukiwarce (por. rozdział 6): konieczny jest zrównoważony dobór narzędzi (platforma sprzętowa, system operacyjny, serwera WWW, systemu baz danych) a także selekcja stosownego środowiska programistycznego (język programowania, wspomagające biblioteki, por. rozdział 5), biorący pod uwagę wymaganą wydajność systemu w danej chwili oraz przewidywalnej przyszłości. Należy przykładowo rozważyć, ile dokumentów chcemy przetwarzać, ilu użytkowników może potencjalnie korzystać z systemu itp. Musimy postawić sobie też pytanie, czy korzystanie ze standardowych narzędzi bazodanowych i innych jest w stanie sprostać oczekiwaniom użytkowników, czy też trzeba opracować własne, autorskie rozwiązania, zwłaszcza dla podsystemu indeksera.

Najpoważniejszym wyzwaniem wydaje się jednak być sprostanie wymogom warstwy merytorycznej: zrozumienia potrzeb informacyjnych użytkownika i ich zaspokojenie (rozdział 7). W chwili obecnej zrozumienie potrzeb w zasadzie polega na odpowiadaniu na pytanie: Które dokumenty są najbardziej podobne do zapytania użytkownika? Stworzono szereg modeli określających to podobieństwo (rozdz.7.2.): logiczne, wektorowe, probabilistyczne, lingwistyczne itd. W ramach każdego z modeli opracowano dziesiątki różnorakich miar podobieństwa, mniej lub bardziej doskonale oddających semantykę zapytania. Przez zaspokojenie potrzeb rozumie się przedstawienie użytkownikowi listy adresów stron WWW zwykle uporządkowanych według malejącego podobieństwa do kwerendy użytkownika (rozdz.7.3.). Lista adresów jest dla każdego dokumentu uzupełniana informacjami mogącymi pomóc mu w odróżnieniu dokumentów mniej i bardziej interesujących. Podaje się m.in. tytuły, streszczenia, słowa kluczowe czy język dokumentu (rozdz.7.4.). Pojawiają się pierwsze wyszukiwarki dokonywujące podziału znalezionych dokumentów na grupy zwarte tematycznie. Czynnikiem krytycznym dla użytkownika jest czas reakcji: chce on uzyskać akceptowalną odpowiedź w rozsądnym czasie. Dlatego ważny jest czas reakcji, determinowany między innymi przez sposób organizacji zbioru dokumentów. W rozdziale 7.5. przypomniano w zasadzie stosunkowo stare metody organizacji, ale warto pamiętać, że niektóre z nich, jak zdawałoby się prymitywne metody list prostych czy inwersyjnych, stały się po drobnych modyfikacjach podstawą sukcesu wiodących obecnie wyszukiwarek takich jak Google. Być może ponowne sięgnięcie do już dziś zakurzonych innych metod organizacji, które w swoim czasie uznano za nieefektywne z uwagi na ówczesny sta techniki, okażą się nośne w przyszłości.

Niewątpliwie wyszukiwarki święciłyby większe sukcesy, gdyby udało się skonstruować system analizy lingwistycznej autentycznie rozumiejący tekst. W chwili obecnej i w najbliższej przyszłości nie wydaje się to być możliwe. Tym niemniej elementy analizy lingwistycznej, jakkolwiek niedoskonałe znajdują zastosowanie w systemach wyszukiwarek. Wspomnijmy tu choćby systemy wyłuskiwania tematów słów (rozdz. 7.4.1.), które znacznie polepszają odwzorowanie pojęcia „podobieństwo dokumentu do kwerendy”, automatyczne systemy streszczania (rozdz. 7.4.4.), identyfikacji słów kluczowych (rozdz. 7.4.3.), czy rozpoznawania języka dokumentu (rozdz. 7.4.2.).

Nieodłącznym komponentem wyszukiwarek stają się systemy uczące się (rozdział 8). Są potrzebne z uwagi na konieczność „dostrojenia” do aktualnej zawartości bazy dokumentów takich podsystemów, jak generatory streszczeń, generatory słów kluczowych, moduły rozpoznawania języka, automatycznej klasyfikacji dokumentów czy automatycznego grupowania dokumentów. W książce skupiono się zasadniczo na dwóch kategoriach systemów uczących się: generatorach drzew decyzyjnych (rozdz.8.3.) oraz sieci bayesowskich (rozdz.8.9.) jako reprezentantach dwóch głównych podejść do zagadnień klasyfikacji, grupowania itd. Drzewa decyzyjne uosabiają tzw. podejście deterministyczne, sieci bayesowskie – podejście rozmyte. W podejściu deterministycznym staramy się dawać jasne odpowiedzi (tak albo nie), gdy chodzi np. o przynależność dokumentu do zbioru odpowiedzi na zapytanie. Nie zawsze jednak taka odpowiedź ma sens. Zaglądając do dokumentów zwracanych przez wyszukiwarkę zauważamy, że semantycznie odpowiadają one na dane zapytanie w różnym stopniu. Tę percepcję starają się odzwierciedlać modele rozmyte w systemach uczących.

Po studium aktualnego stanu rozwoju wyszukiwarek internetowych rodzi się z pewnością szereg pytań:

Jeśli zauważymy, że wytwórcy nowych narzędzi wyszukiwawczych takich jak Microsoft SharePoint, OpenText, ThunderStorm EPI czy Verity za okres ostatnich dwóch/trzech lat osiągają na ich sprzedaży znaczące zyski, dynamicznie zwiększają liczbę klientów oraz stale inwestują w dalszy rozwój swych wyszukiwarek, to jest to niewątpliwie sygnał, iż warto jest angażować się w rozwój narzędzi wyszukiwawczych. Jest oczywiste, że zdobycie znaczącej pozycji rynkowej nie jest dziś łatwe, ale możliwe, jeśli uda się rozwiązać kolejny istotny problem merytoryczny, znaleźć niszę zastosowań nie eksplorowaną przez innych, a przy tym nie odstawać technologicznie od już ustalonych standardów. Dotyczy to w szczególności poszerzenia spektrum potrzeb informacyjnych zaspakajanych przez wyszukiwarki. Obecnie wyszukiwarki zasadniczo poszukują dokumentów podobnych do kwerendy użytkownika. Ale użytkownik jest zainteresowany często nie całymi dokumentami, lecz odpowiedziami na konkretne pytania (Gdzie w pobliżu kupię tanio buty? O której zamykają sklep obok mojego osiedla? Co to jest hamiltonian? Gdzie znajdę pracę z moimi kwalifikacjami?), ale także może być zainteresowany eksploracją określonej dziedziny (Jakie są najnowsze trendy w rachunku różniczkowym? Jakie są kierunki badań w dziedzinie dezynfektantów relewantne dla zwalczania pryszczycy?)

Co się tyczy przetwarzania tekstu, to bez wątpienia język HTML (rozdział 4), który niegdyś dominował wśród sposobów prezentacji dokumentów na WWW, stopniowo jest wypierany przez dokumenty w innych formatach. Niektóre wyszukiwarki obsługują dziś do 200 różnych formatów dokumentów (AltaVista Search 3.0). Ale trudno jest sobie wyobrazić przy dzisiejszym stanie techniki, aby użytkownik wpisał zapytanie np. w postaci zdjęcia znanego aktora i kazał wyszukać dostępne informacje na jego temat. Raczej większość projektów mających na celu indeksację dokumentów filmowych czy dźwiękowych, grafiki itp. dąży do opisu tychże za pomocą tekstu (por. projekt Informedia-II dotyczący bibliotek dokumentów video http://www.informedia.cs.cmu.edu/dli2/). Nie można jednakże zatrzymywać się na płaskim spojrzeniu na informację typu tekst, grafika, dźwięk. Trzeba sobie uświadomić, że za nimi tkwi pewna struktura logiczna, której eksploracja w wyszukiwarkach ma obecnie charakter szczątkowy. Pamiętajmy, że HTML to tekst strukturalizowany. Zbiór stron witryny WWW to jednostka strukturalizowana. Dokumenty pdf, filmy video i inne dokumenty zawierają informację strukturalną. Z niej można ekstrahować wiedzę dziedzinową, hierarchie pojęć itp.

Przyszły rozwój wyszukiwarek będzie niewątpliwie związany z rozwojem technicznym Internetu (podłączenie nowych klas urządzeń: telefonia komórkowa, sprzęt audio/video, nowa klasa interfejsów: komunikacja głosowa), rozwojem usług oferowanych przez Internet (standaryzowane oferty usług business-to-business), a także z integracją wiedzy dziedzinowej oraz samouczenia się ze standardowymi mechanizmami wyszukiwania. Z uwagi na dostępność wiedzy w postaci tezaurusów czy innej jedynie dla określonych wycinków wiedzy z pewnością należy oczekiwać rozkwitu specjalistycznych narzędzi wyszukiwawczych. Jednakże rozczłonkowanie wyszukiwarek na wysoko specjalizowane serwisy nie będzie zjawiskiem trwałym. Można spodziewać się systemów łączących w sobie heterogeniczne podsystemy reprezentacji wiedzy z różnych dziedzin, kooperujące ze sobą przy przetwarzaniu zapytania użytkownika. Wreszcie należy zdać sobie sprawę, iż zapewnienie krótkiego, kilkusekundowego czasu reakcji na każde możliwe zapytanie nie jest możliwe na dalszą metę, jeżeli wyszukiwarka ma sprostać coraz bardziej złożonym wymaganiom. Jeżeli użytkownik oczekuje dogłębnej analizy i czas gra nieco mniejszą rolę (np. jest gotów czekać kilka godzin, zanim system wyszuka dla niego odpowiednią ofertę pracy), to możemy sobie pozwolić na tworzenie nowych klas wyszukiwarek, z zupełnie innym rozłożeniem akcentów na strukturę czy zawartość bazy danych, na sposób pracy indeksera czy pająka. Należy także w dalszej kolejności oczekiwać odejścia od wyłącznie jednokrokowego wyszukiwania (kwerenda-odpowiedź) i przesunięcia ciężaru działania wyszukiwarek - zwłaszcza w dziedzinie business-to-business - na kompleksowe wieloetapowe wyszukiwanie informacji (kwerenda-odpowiedź-automatyczne sformułowanie dodatkowych podcelów wyszukiwania-ponowne wyszukiwania-integracja odpowiedzi-odpowiedź). Przykładem byłoby np. poszukiwanie kontrahentów do realizacji konkretnego zadania. Kontrahenci potencjalnie realizujący zadanie główne oferują na ogół usługi częściowe, zakładając realizację zadań pobocznych osobom trzecim. Aby usatysfakcjonować użytkownika, wyszukiwarka powinna poszukać nie tylko głównych kontrahentów, ale także koniecznych w realizacji podwykonawców, gdyż dopiero na bazie pełnego ciągu koniecznych prac można porównać oferty, zdecydować o wykonalności zamierzenia itp.

Wyszukiwarki internetowe odciskają już dziś swe piętno na życiu społecznym. Coraz częściej przestajemy nerwowo szukać zagubionego notesu, przeglądać podręczny wykaz telefonów, by z przypomnianych sobie strzępów nazwy firmy zrekonstruować, jak się do niej dodzwonić. Wołamy ulubioną wyszukiwarkę i za kilka chwil odczuwamy ulgę, że znaleźliśmy to, o co nam chodziło. Udostępniane w Internecie informacje - przede wszystkim dzięki sprawności wyszukiwarek - przyspieszają postęp społeczeństw, gdyż redukują duplikację wysiłków nad rozwiązaniem określonych zagadnień, ułatwiają dostęp do najświeższych publikacji czy ofert, pozwalają na poszerzenie konkurencji itd.

Dlatego sądzę, że warto jest angażować się w rozwój następnych generacji wyszukiwarek internetowych. Z jednej strony stanowią one interesujące wyzwanie badawcze zarówno w dziedzinie sprzętowej, programowej, jak i koncepcyjnej w dziedzinie sztucznej inteligencji, rozumienia tekstów, maszyn uczących się, baz danych, a ostatnio przetwarzania i rozumienia obrazów, rozpoznawania słowa mówionego i innych. Z drugiej strony dają wymierne korzyści praktyczne dla rozwoju społecznego i gospodarczego.


Powrót