HARVEST - neue Suchmöglichkeiten im Internet


Das Beschaffen von Informationen zu vielen Themen ist durch das Internet heutzutage kein Problem mehr. Allerdings ist es für den Informationssuchenden sehr schwer, in der Flut von Informationen den Überblick zu behalten. Abhilfe versprechen hier diverse Suchroboter, die sicher viele von Ihnen schon einmal benutzt haben. Dabei steht man aber oft vor dem Problem, wie eine Anfrage formuliert werden soll. Bei konkreten, genau spezifizierten Anfragen findet der Suchroboter oft keine Informationen zu dem gewünschten Thema, während allgemein gehaltene Anfragen einige tausend Dokumente als Ergebnis liefern. Diese Vielfalt zu durchforsten, wird die Geduld eines jeden Internetnutzers sprengen. Diese Problematik resultiert aus der Konzeption von Suchrobotern, deren Datenbestände nicht nach bestimmten Themen geordnet und somit sehr umfangreich sind.
Eine Lösung dieser Probleme verspricht die IRTF-RD (Internet Research Task Force Research Group on Resource Discovery) mit der Entwicklung des Programmpaketes HARVEST. Am treffendsten beschreibt der Spruch "Effektiver Gebrauch von Internet-Informationen" dieses Programmpaket und steckt somit den Einsatzbereich von HARVEST ab. HARVEST ist ein integrierter Satz von verschiedensten Werkzeugen zum Sammeln von Informationen und Dokmenten im Internet, zum Extrahieren und Organisieren der wichtigsten Informationen, zum Vervielfältigen von Informationen im Internet und zum Suchen von Informationen in den Datenbeständen. Die konkreten Aufgaben werden durch die vier bereitgestellten Teilsysteme bewältigt. Die beiden wichtigsten Komponenten sind der Gatherer und der Broker. Zusätzlich werden der HARVEST-Cache und der HARVEST-Replicator angeboten. Durch diese modulare Konzeption besitzt HARVEST eine hohe Flexibilität mit einer Vielzahl von Konfigurationsvarianten.

Gatherer
Er ist meines Erachtens nach zu 60 Prozent an der Arbeit von HARVEST beteiligt. Mit Hilfe der Standardzugriffsmethoden FTP, HTTP, NNTP, Gopher und dem Zugriff auf das lokale Filesystem empfängt der Gatherer die Informationsquellen aus den Beständen von vielen Providern. Empfohlen wird dabei aus Effizienzgründen die Nutzung eines Gatherers auf jedem Provider-Host, z.B. auf einem FTP-Server. Trotzdem ist es möglich, daß ein Gatherer Informationen von HTTP-Servern, FTP-Servern etc. bezieht, womit jedoch die Belastung des Gatherer-Hosts immens anwächst. Da ein Broker die Datenbestände von mehreren Gatherern verarbeiten kann, empfiehlt sich geradezu eine "verteilte" Nutzung von mehreren Gatherern. Um die Informationen von den Providern zu beschaffen, benötigt der Gatherer eine Konfigurationsdatei. In dieser Datei kann eine Vielzahl von Variablen gesetzt werden und sie enthält ebenfalls Angaben, wo der Gatherer die gewünschten Informationen beschaffen soll. Diese Angaben unterteilen sich in Wurzelknoten (RootNodes) und Blattknoten (LeafNodes). Im Allgemeinen sind dies URLs mit Angaben zur Zugriffsmethode, dem Provider-Host und relativen Pfadangaben. RootNodes sind in der Regel Pfadangaben, so daß in den angegebenen Verzeichnissen nach Dokumenten gesucht wird. Die Verarbeitung dieser RootNodes erfolgt durch eine Aufsplittung in Abhängigkeit von der Zugriffsmethode. Gleichzeitig besteht die Möglichkeit, bei der Suche der Dokumente eine Filterung nach Zugriffsmethoden, bestimmten Rechnern, Verzeichnissen, Dateien u.v.m. durchzuführen. LeafNodes charakterisieren einzelne, zu registrierende Dokumente (z.B. HTML-Dokumente). Für die Extrahierung der wichtigsten Informationen aus den bereitgestellten Dokumenten bedient sich der Gatherer eines Teilsystems Essence. Um diesem Anspruch gerecht zu werden, muß Essence den Typ der Daten erkennen und darstellungsabhängige Formate (z.B. komprimierte "tar"-Files) entwirren können. Dabei kann festgelegt werden, welche Typen von Dateien registriert werden sollen. Danach startet Essence einen typspezifischen Algorithmus, der die wichtigsten Informationen aus einem Dokument heraussucht und diese in ein SOIF-Objekt (Summary Object Interchange Format) abspeichert. Die entstehenden SOIF-Objekte werden in einer Datenbasis registriert und es ist möglich, diese Objekte noch nachträglich zu modifizieren.

Broker
Dieser empfängt seine Datenbestände von mehreren Gatherern oder anderen Brokern. Bei seinem Start stellt der Broker über einen URL eine Schnittstelle zwischen HARVEST und dem Nutzer bereit. Diese Schnittstelle ist eine HTML-Seite, in der der Nutzer Anfragen an die Datenbestände eingeben kann. Diese Anfragen werden von einem Registrationssystem verarbeitet. Standardmäßig wird vom Broker Glimpse verwendet, wobei durch ein flexibles Index-Interface auch andere Suchmaschinen zum Einsatz kommen können. Nachdem eine Verarbeitung der Anfrage beendet wurde, werden die Ergebnisse für den Nutzer aufbereitet. Der Umfang der zurückgegebenen Ergebnisse ist durch eine Konfigurationsdatei beliebig definierbar. Für die Administration des Brokers existiert zusätzlich eine Schnittstelle, über die Kommandos (z.B. Löschen oder Hinzufügen von SOIF-Objekten in den Datenbeständen) an den Broker übermittelt werden können.

HARVEST-Cache
Der HARVEST-Cache fungiert als Zwischenspeicher und sorgt für eine effizientere Nutzung von gesammelten Informationen. Er besitzt damit die gleiche Funktion wie der CERN-Cache oder andere Cache-Implementationen. Allerdings beschreibt das Autorengremium diesen Cache durch seine Implementation als schneller und somit effektiver. Der HARVEST-Cache kann in zwei Modi genutzt werden, zum einen als HTTP-Beschleuniger und zum anderen als Proxy-Cache. Empfohlen wird jedoch die Kombination der beiden Cache-Modi. Einstellungen können wiederum über Konfigurationsdateien vorgenommen werden. Weitere erwähnenswerte Details sind die unterstützten Cachzugriffsprotokolle TCP, UDP und das ASCII-Protokoll sowie Mechanismen zur Sicherung der Konsistenz in den Datenbeständen mit Hilfe von Time-To-Live-Angaben. Ein weiteres Schlagwort ist "Negatives Caching", was besagt, daß bei Fehlschlägen bei der Dokumentensuche (z.B. Dokument nicht vorhanden) erst nach einer definierten Zeit wieder eine Suche nach diesem Dokument zugelassen wird. Für die Wahrung von Sicherheitsaspekten sind ebenfalls geeignete Mechanismen, wie z.B. ein Public-Key-Kryptosystem, in den HARVEST-Cache eingebunden. Für eine weitere Erhöhung der Geschwindigkeit besteht die Möglichkeit einer hierarchischen Anordnung mehrerer HARVEST-Caches.

HARVEST-Replicator
Der HARVEST-Replicator verteilt Kopien der Broker-Datenbank im Internet. Damit besteht für Nutzer die Möglichkeit, Anfragen an solche Broker zu stellen, die aufgrund günstiger Netzverbindungen am schnellsten eine befriedigende Antwort liefern können. Zu diesem Zweck fungiert eine Replica als Master, der die Veränderungen an den Datenbeständen an die anderen Replicas weitergibt. Somit ist eine Verteilung der Belastung eines Brokers möglich. Natürlich stellt sich nun die Frage, ob sich mit diesem Vorgehen nicht eine zusätzliche Belastung der Netzinfrastruktur ergibt. Da eine Überarbeitung der Datenbestände nur bei Änderungen notwendig ist, hält sich die Serverbelastung und Netzbelastung in Grenzen. Als Grundkomponente nutzt der HARVEST-Replicator das FTP-Mirror-System. Zusätzlich existieren noch einige Programme zur Verwaltung und Feststellung von Bandbreiten und Verzögerungszeiten der Netzinfrastruktur. Die Anpassung des HARVEST-Replicators an die Ansprüche der Nutzer erfolgt ebenfalls mit Hilfe einer Konfigurationsdatei.

Zusammenfassung
Summa Summarum ist HARVEST auf keinen Fall ein neuer Suchroboter. Vielmehr ist es eine effektivere Variante, themenspezifische Informationen und Dokumente zu beschaffen und einer breiten Nutzergemeinschaft anzubieten. Durch diese Eigenschaften leistet HARVEST einen nicht zu unterschätzenden Beitrag zur wahrlich effektiveren Nutzung von Internet-Informationen.


18.05.96 ... Jan Wunderlich, jwu@informatik.tu-chemnitz.de