Ein Tag im Leben eines Suchroboters kennt kein Ende. Unermüdlich wühlen sich diese Programme - man nennt sie auch Spider (Spinne) oder Crawler (Kriecher, Raupenschlepper) - durch die Datenkanalisation, mustern endlose Buchstabenkolonnen und achten auf die spitzigen Klammern der Hypertextmarkierungen, die sich hinter den blau unterstrichenen Links verbergen und auf weitere Ansammlungen von Buchstaben und spitzigen Klammern verweisen.
Ein Suchroboter, der im Internet diesen Folio-Artikel aufstöbert, stösst schon im ersten Satz auf einen solchen Verweis: Er findet beim Wort «Suchroboters» den für einen Leser unsichtbaren Befehl <a href="http://bots. internet.com"> und zieht weiter zu dieser Adresse, wo ein Dokument eines Informationsdienstes in Connecticut erklärt, was ein Suchroboter ist - und von dort führen natürlich wiederum viele Links weiter.
Bei der Rückkehr von seiner Mission hat der Suchroboter eine Liste von Webadressen und die dazugehörigen Textpassagen im Maul. Aus diesen rudimentären Angaben erstellt die Suchmaschine, die den Roboter losgeschickt hat, eine Datenbasis, die den Inhalt des World Wide Web reflektiert. Diese Datenbasis nennt man Index, es ist typischerweise eine tabellenartige Struktur, in der einerseits die Suchbegriffe, andererseits die Adressen verzeichnet werden. Der genaue Aufbau eines solchen Indexes ist ein gut gehütetes Geheimnis der Betreiber des Suchsystems. Bekannt ist, dass diese Datenstruktur üblicherweise Hunderte von Gigabytes gross ist. Eine Suchmaschine schaut also nicht im Web nach, um eine Suchanfrage zu beantworten, sondern durchsucht ihren lokal gespeicherten Index.
In den Anfangszeiten des World Wide Web schickte jemand, der eine neue Website aufgebaut hatte, ein E-Mail an den Erfinder des WWW, Tim Berners-Lee in Genf, der dann unter info.cern.ch die Adresse publizierte. Die elfte Website, so lautet ein Treppenwitz der Medienkritiker, war eine, die die zehn besten Websites verzeichnete. Als Matthew Gray, ein Student am Massachusetts Institute of Technology, im Mai 1993 den ersten Software-Roboter durchs Netz krabbeln liess, fand der «Wanderer» 100 Websites. 1996 fand «Scooter» von Altavista bereits Hunderttausende von Websites und Millionen von Dokumenten. Zentrales Verzeichnis gibt es keines. Wer eine Website einrichtet, muss diese weder bei einer Verwaltung anmelden noch von einer Instanz absegnen lassen. Deshalb wäre das Web heute ohne den unermüdlichen Einsatz der Spinnen, Kriecher und Raupenschlepper für die Menschen ein undurchdringlicher Dschungel. Gemäss der jüngsten Anwenderbefragung des Graphics, Visualization and Usability Center des Georgia Institute of Technology sind Suchmaschinen mit 86 Prozent der Nennungen das wichtigste Hilfsmittel, um Websites zu finden.
Spiff, einer der Nachfahren des «Wanderer», ist in Zürich zu Hause. Geschaffen wurde er von der Firma Eurospider Information Technology AG, seinen Namen verdankt er den Cartoons «Calvin & Hobbes»: Spiff ist dort das Alter ego von Calvin, einem Lausbuben, der Eltern, Lehrer und das wohlerzogene Nachbarmädchen zur Verzweiflung bringt, selbst an ihnen verzweifelt und in seiner Phantasie als Spaceman Spiff spannende Abenteuer im Weltraum zu bestehen hat.
Die Welt des Suchroboters Spiff ist der Cyberspace. Irgendwann gab ihm jemand die erste Webadresse, und Spiff raste los, endlosen Buchstabenkolonnen entlang, immer neue Adressen sammelnd. Pro Sekunde verarbeitet Spiff mehrere Seiten. Seine Arbeit ist nicht ungefährlich: Es gibt im Cyberspace auch schwarze Löcher, automatisch generierte Verweise auf automatisch generierte Seiten, die nichts weiter enthalten als automatisch generierte Verweise auf automatisch generierte Seiten . . . Spiff kehrt nie mehr zurück.
Kein Suchroboter hat je das ganze World Wide Web durchforstet. Zum einen ändert sich das Web sehr schnell - jede Sekunde gibt es Dutzende neuer Webseiten -, zum andern sind nach Schätzungen nur die Hälfte der im Web gespeicherten Informationen den Robotern überhaupt zugänglich. Ein Dokument, das isoliert, ohne Verknüpfungen mit anderen Dokumenten, auf einem Server lagert, kann ein Suchroboter nicht aufspüren. Auch Datenbankeinträge, die jedesmal, wenn ein Surfer sie per Mausklick abruft, dynamisch zu einer Webseite zusammengestellt werden, findet der Roboter nicht.
1997 versprach Altavista, eine der wichtigsten Suchmaschinen des Web, dass ihre Spider einen Webserver mindestens einmal alle drei Monate besuchen. Vor kurzem wurde diese Zeitspanne auf 28 Tage reduziert. Danny Sullivan, der sich als Journalist und Berater auf Suchmaschinen spezialisiert hat, behauptet, Altavista löse das Versprechen zumindest bei seiner Website ein. Er unterhält im Rahmen seines Informationsdienstes «Search Engine Watch» ein «Elektrokardiogramm», das die Tätigkeit von ausgewählten Spidern und Crawlern überwacht. Andere Studien deuten darauf hin, dass es Monate dauern kann, bis eine neue Webseite von einem Suchroboter gefunden wird.
Die Suchmaschinen böten «erschreckend wenig Material», sagt Peter Schäuble, Gründer und Geschäftsführer von Eurospider. Auf den ersten Blick scheint diese Aussage der Alltagserfahrung zu widersprechen, erzeugt doch das Eintippen eines Suchbegriffs sofort eine fast unabsehbar lange Liste von Treffern. Allerdings kennt der Nutzer einer Suchmaschine das Web nur durch die Augen des Suchroboters. Seiten, die dieser nie gesichtet hat, wird er deshalb gar nicht vermissen. Eine Studie, die Steve Lawrence und C. Lee Giles vom amerikanischen NEC Research Institute durchgeführt haben und deren Resultate letzten Juli in «Nature» publiziert wurden, belegt, dass die beste Suchmaschine - Northern Light - bloss einen Sechstel der indexierbaren Webseiten erfasst.
Die elf populärsten Suchmaschinen decken zusammen nur gerade 42 Prozent des 15 Terabytes grossen Informationsangebotes ab. Führend sind Northern Light (16 Prozent), Snap (15, 5), Altavista (15, 5) und Hotbot (11, 3). Laut Danny Sullivan belegen inzwischen Altavista mit 250 Millionen Seiten und die norwegische Fast mit 200 Millionen die Spitzenpositionen. Aber nicht nur dass die Suchmaschinen viele Webseiten nicht kennen, ist ein Problem. Sie enthalten auch viele Verweise auf Webseiten, die es nicht mehr gibt. Fast 10 Prozent aller Indexeinträge von Northern Light sind gemäss der NEC-Studie tote Links.
Lawrence und Giles schätzen, dass es im Dezember 1997 320 Millionen indexierbare Seiten gab, im Februar 1999 sollen es 800 Millionen gewesen sein. Neben Ton- und Bilddokumenten enthalten diese Seiten mehr als sechs Billionen Zeichen Text. Sechs Prozent der in der NEC-Studie erfassten Webseiten behandeln wissenschaftliche Themen, der Anteil der nicht jugendfreien Internetangebote liegt bei 1, 5 Prozent. Nicht-kommerzielle und ausseramerikanische Informationsangebote haben es offenbar schwerer, von den Suchmaschinen berücksichtigt zu werden.
Ein Mitarbeiter des Suchdienstes Infoseek behauptet, 90 Prozent der Anfragen liessen sich mit einer Million Seiten beantworten. Mehr als 90 Prozent aller Seiten im Index würden überhaupt nie aufgerufen. Verständlich also, dass, wie Schäuble vermutet, die Betreiber der Suchmaschinen in jüngster Zeit eher das Verhalten der Suchenden studieren anstatt Möglichkeiten, ihre Suchroboter und Indexierungssysteme zu verbessern. Als Folge davon reflektieren die Indizes der Suchmaschinen oft eher die Vorlieben ihrer Benutzer als die reale Entwicklung des Web.
Niemand weiss, wie viele Suchroboter es gibt. Die Ansichten der Experten darüber, welchen Anteil am Verkehrsaufkommen im Internet ihrer Wühlarbeit zuzuschreiben ist, gehen auseinander. Es wurde immer wieder befürchtet, die Zahl der streunenden Roboter könnte so gross werden, dass sie Staus verursachen. Belegt werden konnte dies jedoch nie. Simon Wilkinson hat mit Botwach ein Programm geschrieben, mit dem Webmaster die Präsenz von Suchrobotern überwachen können. Er hat herausgefunden, dass deutlich weniger als ein Prozent aller Anfragen, die sein Server zu bearbeiten hat, von Robotern generiert wurden. Diese Zahlen stammen aus dem Jahr 1997; aus der Tatsache, dass neuere Zahlen nicht publiziert wurden, kann man schliessen, dass Webmaster der Tätigkeit von Robotern mittlerweile keine grosse Bedeutung mehr zumessen.
In ihrem unermüdlichen Einsatz schiessen die Suchroboter manchmal übers Ziel hinaus. Emsig, wie sie sind, bombardieren sie dann einen Server pro Sekunde mit Dutzenden von Fragen und zwingen ihn in die Knie. Es gibt zwar eine standardisierte Möglichkeit, sich das Gewürm vom Leibe zu halten: Mit Hilfe eines Protokolls lässt sich festlegen, welche Seiten welcher Suchroboter indexieren darf. Allerdings kann man einen Suchroboter nicht dazu zwingen, sich an diese Vorgaben zu halten. Es gibt deshalb Webmaster, die weitergehende Massnahmen ins Auge fassen und giftige Köder auslegen, riesige, nicht indexierbare Dateien, an denen die Roboter zugrunde gehen sollen. Paul Ginsparg, der ein Archiv mit naturwissenschaftlichen Forschungsberichten von amerikanischen Universitäten unterhält, droht beim Besuch von Robotern mit drastischen Vergeltungsmassnahmen. Er werde die Heimbasis des Roboters mit einem Mailbomben-Sturm zerstören.
Vor allem in den früheren Jahren des Web beschäftigte man sich in den einschlägigen elektronischen Diskussionsforen mit wildgewordenen Suchrobotern. Offenbar war aber seitens der Roboterbauer häufiger Unkenntnis als böser Wille Ursache der Störungen; in jüngster Zeit sind unhöfliche Suchroboter kaum noch ein Thema.
Die Firma Eurospider beschäftigt sich, anders als ihr Name vermuten lässt, nicht hauptsächlich mit Suchrobotern, und sie betreibt auch keinen öffentlich zugänglichen Suchdienst. Eurospider verkauft ihre Suchsysteme an Unternehmen, die diese intern einsetzen. Kernkompetenz der Software ist die intelligente Texterschliessung, damit aus dem Rohstoff, den Spiff brav apportiert, ein nützlicher Index aufgebaut werden kann. Dazu gehört etwa die Wortnormalisierung, bei der es darum geht, Grundbestandteile von Wörtern und zusammengesetzten Wörtern freizulegen, so dass ein Text, der nur von «Häusern» oder vom «Hausbau» handelt, auch mit dem Suchbegriff «Haus» gefunden wird; oder dass «Glockengeläut von Kühen» auch mit dem Suchbegriff «Kuhglocken» entdeckt werden kann.
Zu den fortgeschrittensten Aufgaben der Dokumentenanalyse gehört die Konzepterkennung: die Fähigkeit, aus einem Text etwas herauszulesen, auf das kein einzelnes der darin vorkommenden Wörter hinweist. Also etwa zu merken, dass ein Dokument über die Bilanz eines Unternehmens Auskunft gibt, auch wenn «Bilanz» im Text nie auftaucht, und gleichzeitig auch herauszufinden, dass ein anderes Dokument, das die Wörter «Gewinn» und «Franken» enthält, von einem sportlichen Wettbewerb handelt. Software, die diese Konzepterkennung beherrscht, wird von Eurospider derzeit getestet und soll im Februar unter dem Namen Cristallinaspider auf den Markt kommen.
Es gibt Zweifel, ob rein statistische Verfahren bei der inhaltlichen Erschliessung von Texten je so gut sein werden wie Menschen. Darum gibt es populäre Suchmaschinen, die sich nicht auf Suchroboter und Konzeptsensoren, sondern auf menschliche Arbeitskräfte verlassen. Zum Beispiel Yahoo: 1994 von zwei Studenten der Stanford Universität gegründet, ist Yahoo eine der meistbesuchten Adressen im Web und damit für die Werbewirtschaft ein begehrter Partner. Bei einem Börsenwert von rund 120 Milliarden Dollar hat die Firma - untypisch für ein Internetunternehmen - sogar Gewinne erwirtschaftet.
Yahoo nutzt die Arbeit von Menschen. Von Menschen, die eine Website errichtet haben und sich dann auch noch die Zeit nehmen, bei Yahoo ein Formular auszufüllen, um den Inhalt der Site zu charakterisieren; und von Menschen, die im Sold von Yahoo diese Formulare auswerten. Die Firma beschäftigt für ihre 21 sprachspezifischen Dienste rund 1730 Mitarbeiter. Wie viele davon sich mit dem Einordnen von Webseiten beschäftigen, gibt Yahoo nicht bekannt.
Das Verzeichnis von Yahoo umfasste zum Zeitpunkt der letzten NEC-Studie rund 60 Millionen nach Schlagwörtern kategorisierte Seiten. Oberste Hüterin über den Schlagwortbaum ist Srinija Srinivasan. Sie wacht darüber, dass ihre Mitarbeiter die Kategorien einheitlich interpretieren und dass der Schlagwortbaum nicht wilde Blüten treibt. An ihr liegt es auch, die besonders kniffligen Fragen zu klären: zum Beispiel die, ob die Website der Messianic Jewish Alliance of America trotz der Proteste anderer jüdischer Organisationen unter Society and Culture - Religion and Spirituality - Faiths and Practices - Judaism eingeordnet werden darf. Srinivasan entschied sich, eine neue Kategorie einzuführen: Messianic Judaism.
Es ist klar, dass die Katalogisierer von Yahoo mit dem raschen Wachstum des Web immer weniger Schritt halten können. Trotzdem sind die Verantwortlichen bei Yahoo der Meinung, dass die Arbeit der Menschen derjenigen der Suchroboter qualitativ deutlich überlegen sei: Da rechtfertige es sich, bezüglich der Quantität Abstriche zu machen. Sie sind mit dieser Ansicht nicht allein. «1999 war das Jahr, in dem die Menschen die Roboter besiegt haben», charakterisierte Danny Sullivan von «Search Engine Watch» das vergangene Jahr. «In den Jahren 1995 und 1996 gab es nur einen bedeutenden Suchdienst, der bei der Kategorisierung von Websites Menschen einsetzte, die anderen verliessen sich dabei auf die Technik. Nun sind bei sechs der zehn meistbenutzten Suchdienste Menschen am Werk.» Als Beispiel nennt Sullivan die Suchmaschine Lycos, die sich einst damit gebrüstet hatte, die Suchroboter erfunden zu haben, und diesen Anspruch beim amerikanischen Patentamt auch durchsetzen konnte. Jetzt aber hat Lycos begonnen, mit menschlichen Arbeitskräften ein Verzeichnis aufzubauen. Auch Altavista beschäftigt seit letztem Oktober neben Suchrobotern Redaktoren.
Ältere Konkurrenten von Yahoo sind Verzeichnisdienste wie Newhoo oder die Virtual Library. Letztere ist ein direkter Nachfahre der Liste, die einst Tim Berners-Lee am Cern eröffnet hatte. Newhoo wurde zuerst von Netscape, dann von America Online übernommen, nennt sich inzwischen Open Directory und hofft auf die freiwillige Mitarbeit aller Internetbenutzer. Im Unterschied zu Yahoo hat Open Directory keine Hemmungen, Auskunft über die Zahl der Redaktoren zu geben: 21 468 Freiwillige sind damit beschäftigt, den Inhalt des Internets in 206 349 Kategorien einzuordnen.
Für Menschen wie für Roboter ist bei der Texterschliessung weniger die thematische Zuordnung als vielmehr die Bestimmung der Relevanz die schwierigste Aufgabe. Wer die Suchmaschine nach «Mars» und «Raumfahrt» suchen lässt, wird sowohl die neusten Forschungsresultate der Nasa in den Fundstellen haben als auch einige Sites von Ufo-Gläubigen. Die Software von Eurospider berücksichtigt bei der Bewertung der Wichtigkeit eines Dokuments neben seinem Alter unter anderem die Häufigkeit und die Verteilung von Schlüsselbegriffen. Webdokumente mit hoher Relevanz erscheinen auf der Liste, die eine Suchmaschine auf eine Anfrage hin liefert, weiter oben, haben also bessere Chancen, von einem Surfer angeklickt zu werden. Die Nasa also vor den Ufos. Mit welchen Methoden die einzelnen Suchdienste die Relevanz von Dokumenten feststellen, ist Geschäftsgeheimnis.
Trotzdem versuchten Programmierer und Webdesigner herauszufinden mit welchen Tricks eine Site zu einer besseren Rangierung in den Suchmaschinen kommt. Es hat sich eine eigentliche Subindustrie gebildet, die Relevanz verkauft. Dabei greifen einige Webdesigner auch zu schmutzigen Tricks. Sie fügen zum Beispiel populäre Suchbegriffe - selbst wenn sie mit dem Dokument nichts zu tun haben - vielfach wiederholt in das Dokument ein, und zwar so, dass sie der Suchroboter, nicht aber der menschliche Leser findet.
Den Betreibern von Suchmaschinen bleibt solches Tun nicht lange verborgen, und sie programmieren ihre Suchroboter um, damit sie dagegen immun sind. Was wiederum die Webdesigner dazu motiviert, noch tiefer in die Trickkiste zu greifen: Spamdexing, Metajacking, Word Stuffing, Fontmatching - das Wörterbuch des WWW-Unmenschen wächst rasch.
Für Informationsanbieter, denen daran gelegen ist, ein Publikum zu erreichen und an sich zu binden, verbieten sich solche Taktiken. Dass diese Methoden trotzdem nicht aussterben, hat damit zu tun, dass einige Anbieter nicht Leser suchen, sondern Hits - angeklickte Seiten, mit denen sie dann bei der Werbewirtschaft wuchern können. Als der Suchbegriff «Monica Lewinsky» hohe Popularität genoss, machte Sullivan die Probe aufs Exempel und überprüfte Hunderte von Websites, die ihm die Suchmaschinen lieferten. Zwischen 10 Prozent (Infoseek) und 50 Prozent (Altavista, Lycos) der Seiten boten keinerlei Informationen über die Geliebte des Präsidenten, sondern täuschten dies dem Suchroboter lediglich vor. Wie ein Mitarbeiter von Altavista kürzlich anlässlich der Konferenz «Search Engine Strategies» mitteilte, sind 95 Prozent aller Seiten, die von Autoren selbst bei Altavista zum Indexieren angemeldet werden, Spam, das heisst Werbung.
Da sich die Spamdexer, Metajacker, Word Stuffer und Fontmatcher nicht ausrotten lassen, wollte Altavista wenigstens an ihrem Geschäft partizipieren. Im April letzten Jahres kündigte die Firma an, die vordersten Plätze auf der Trefferliste den Meistbietenden verkaufen zu wollen. Ein Aufschrei der Entrüstung ging durch die Netzgemeinde und zwang die Firma, das Vorhaben aufzugeben. Trotzdem verstummen die Gerüchte nicht, dass sich bei den grossen Suchmaschinen gute Rangierungen kaufen lassen. Tatsache ist, dass viele Anbieter bezahlte Links grafisch unauffällig in der Nähe der Trefferliste so placieren, dass wohl mancher Suchende in der Eile die Werbung nicht als solche erkennt.
Jüngere Suchdienste wie Google oder Clever (IBM) versuchen, das Problem des Spamming dadurch zu lösen, dass sie bei der Bewertung der Relevanz eines Dokuments nicht auf den Inhalt abstellen. Statt dessen gehen sie davon aus, dass die wertvollen Informationsangebote jene sind, auf die viele andere Dokumente verweisen. Der Verweis von einer Site, die selber häufig referenziert wird, hat dabei höheres Gewicht. Ein anderes Verfahren nutzt indirekt die Auswahlarbeit, die frühere Benutzer der Suchmaschine unbewusst leisten. Directhit zählt zum Beispiel, welche Seiten der ellenlangen Trefferliste auch wirklich angeklickt werden, und ordnet die oft besuchten Sites bei zukünftigen Suchanfragen nach demselben Begriff weit oben ein.
Ob in Wladiwostok, Wabern oder Waikiki - Suchen ist die beliebteste Tätigkeit im WWW. Das amerikanische Marktforschungsunternehmen Jupiter Communications hat ermittelt, dass 88 Prozent der befragten Surfer mindestens einmal monatlich eine Suchmaschine benützen. Einzig E-Mail mit 96 Prozent ist noch beliebter. Hunderte von Millionen Suchanfragen werden pro Tag abgesetzt, allein Yahoo bearbeitet täglich mehr als 50 Millionen, Altavista will gar mehr als 80 Millionen bewältigen, das sind rund 1000 Anfragen pro Sekunde.
Es gibt Hunderte von Suchmaschinen, teilweise werden die Dienste ein und derselben Suchmaschine von anderen Anbietern unter anderem Namen angeboten. Einige haben ihre Site zu einem «Portal», einem Gemischtwarenladen, ausgebaut, in dem das Eingabefeld für den Suchbegriff zwischen Werbebannern, aktuellen Nachrichten, Börsenkursen, Hinweisen auf Auktionen, Gratis-E-Mail und Einkaufsmöglichkeiten kaum noch auffindbar ist. Immer wieder tauchen Firmen auf, die mit neuen Techniken die Beschränkungen der bekannten Verfahren überwinden wollen. So sind in jüngster Zeit Ejemoni, Oingo und Slimpli.com mit dem Versprechen angetreten, dank einem integrierten elektronischen Bedeutungswörterbuch Mehrdeutigkeiten bei Suchbegriffen eliminieren und höhere Trefferquoten bieten zu können.
Es gibt Verzeichnisse der wichtigsten Suchmaschinen, es gibt Meta-Suchmaschinen, die eine Suchanfrage von mehreren Suchmaschinen bearbeiten lassen, und es gibt Verzeichnisse der Meta-Suchmaschinen. Es gibt Hunderte von Büchern über das Suchen im Internet. Aber es gibt keine Suchmaschine, kein Verzeichnis, keinen Katalog, wo alle Bedürfnisse optimal befriedigt werden. Erfahrene Surfer nutzen deshalb stets mehrere Suchmaschinen, setzen Meta-Suchmaschinen ein und geben nicht viel auf Testberichte in Internetheftchen, die immer mal wieder die beste Suchmaschine erküren. Denn sie wissen, dass angesichts der raschen Veränderungen des Web die beste Suchmaschine von heute morgen vielleicht schon ziemlich alt ausschaut. Auch bei der Wahl des Suchbegriffs ist Kopfarbeit gefragt: Ein zu enger Suchbegriff schliesst möglicherweise interessante Seiten aus, die wiederum bei einem zu allgemeinen Begriff unter Tausenden von uninteressanten Seiten untergehen.
Es gibt Hinweise, dass die Menschen bei der Informationssuche im Web in jüngster Vergangenheit intelligenter geworden sind: Vor zwei Jahren gaben sie pro Anfrage noch 1,8 Suchbegriffe ein, mittlerweile scheinen sie herausgefunden zu haben, dass die Kombination von Suchbegriffen die Trefferquote erhöht: pro Anfrage werden jetzt durchschnittlich 2,3 Wörter verwendet.
Mögen die Menschen im Web inzwischen auch intelligenter suchen, ihre Vorlieben haben sich kaum gewandelt: Das Paarungsverhalten der eigenen Gattung steht nach wie vor im Mittelpunkt des Interesses, wie ein Blick auf die Liste der häufigsten Suchbegriffe zeigt. Doch schreiben wir statt «Paarungsverhalten» doch lieber «Sex». Damit erhöhen sich die Chancen, dass die Internetversion dieses Folio-Texts, nachdem sie von einem Suchroboter verdaut wurde, bald auch in Wladiwostok, Wabern und Waikiki Hits erzielen wird.
Stefan Betschon ist Redaktor für Medien und Informatik bei der NZZ.