Andrei Broder über die Zukunft der Web-Suche
Mitte Mai fand an der Universitat Pompeu Fabra in Barcelona ein Workshop mit dem Titel The Future of Web Search statt. Ich war leider nicht dort, auf der Website sind aber die Präsentationen aller Vorträge zu finden. Mit am Interessantesten dürfte die Keynote von Andrei Broder; pdf) sein.
Broder ist mittlerweile „Fellow & VP Emerging Search Technologies“ bei Yahoo! Research, bekannt ist er aber vor allem für seine früheren Arbeiten bei AltaVista. Unter anderen seien hier die klassische Studie zur Bow-Tie-Struktur des Web (Volltext, deutsche Zusammenfassung) und seine Taxonomy of Web Search (pdf; deutsche Zusammenfassung) genannt. Dazu kommen noch jede Menge Patente.
Aber zur Sache: Nach Broder liegt die Bedeutung der Suchmaschinen darin, dass ohne sie das Web als solches nicht möglich wäre [4; die Zahlen in eckigen Klammern verweisen auf die jeweilige Folie in der Original-Präsentation]. Alle anderen Ansätze, die im Web verstreuten Informationen auffindbar zu machen (wie Klassifikationen, Bookmarks, usw.), sind gescheitert. Es besteht aber nur ein Anreiz, Inhalte zu erstellen, wenn diese auch auffindbar sind. Außerdem machen Suchmaschinen eine enorme Spezialisierung möglich: Dadurch, dass prinzipiell alles auffindbar ist, lassen sich auf geschäftlicher Seite sehr spezialisierte Shops führen; auf der gesellschaftlichen Seite können sehr spezielle Interessengruppen zueinander finden und sich austauschen.
Wie sieht es nun mit der Entwicklung der Suchmaschinen aus? Nach Broder gibt es vier Generationen [9]: Die erste Generation stützte sich allein auf Text (Worthäufigkeiten usw.), die zweite brachte als zusätzliches Element Informationen, die nicht direkt von der indexierten Seite kommen, mit ins Ranking ein (also vor allem Link-Informationen, aber auch Klickzahlen und die Auswertung von Ankertexten). Die dritte Generation – deren Entwicklung momentan noch im Gange ist – versucht, das Informationsbedürfnis hinter der gestellten Anfrage herauszufinden, der Fokus liegt dabei auf dem Nutzer, nicht wie früher nur auf der tatsächlich gestellten Suchanfrage. Die Suchmaschinen haben unterschiedliche Datenquellen integriert und versuchen mit Rechtschreibkontrolle, Vorschlägen zur Einschränkung der Suchanfrage, usw. dem Nutzer zu helfen (siehe auch Erweiterung und Einschränkung der Suchanfrage). Eine vierte Suchmaschinen-Generation gibt es nach Broder noch nicht wirklich, aber um sie soll es in seinem Vortrag gehen.
Aber noch einmal zurück zur Generation Nummer drei [12]: Mittlerweile führen die Suchmaschinen eine semantische Analyse der Suchanfrage durch. Die Veränderung weg vom einfachen syntaktischen Abgleich zwischen Suchanfrage und Dokumenten hin zu einem semantischen Abgleich ist laut Broder der wichtigste Trend in der Geschichte der Web-Suche. Es möge sich zwar um nur einfache semantische Verfahren handeln, dafür seien sie aber effektiv. Das kann man schon in Richtung eines Angriffs auf das vielbeschworene Semantic Web deuten, bei dem es sich ja eher umgekehrt verhält.
In der semantischen Analyse wird von der Suchmaschine die Sprache der Anfrage ermittelt und entsprechende Ergebnisse werden zurückgegeben. Das Ranking unterscheidet sich je nachdem, in welcher Sprache die Anfrage gestellt wurde.
Interessant ist, dass Broder hier die „Search Shortcuts“ (siehe auch Manuelle Einbindung von Top-Quellen) als integralen Bestandteil der Suchmaschinen und nicht nur als nettes Anhängsel sieht. Beispiele finden sich auf den Folien 15-18.
Um den Kontext einer gestellten Suchanfrage zu ermitteln, verwenden Suchmaschinen unterschiedliche Daten [20]: Den Ort des Nutzers, seine bisher gestellten Suchanfragen, sein persönliches Profil (wenn vorhanden), einen explizit ausgewählten Kontext (durch die Nutzung einer bestimmten vertikalen Suche) und einen impliziten Kontext (etwa über die eingegebene Top-Level-Domain der angewählten Suchmaschine).
Ähnlich verhält es sich mit Geodaten sowohl in den Dokumenten als auch in den Anfragen. In etwa 10 Prozent aller Dokumente finden sich Ortsangaben wie Postleitzahlen, Telefonnummern, usw.
In der vierten Generation der Web-Suche wird kommt nun ein weiteres Element hinzu: Anfragen werden nicht mehr nur ad hoc gestellt und beantwortet, sondern der Nutzer wird automatisch mit Informationen versorgt; und zwar zu dem Zeitpunkt, an dem er sie braucht. Welche Informationen er benötigt, ergibt sich auch seinen Aktivitäten und aus dem Kontext. Beispiele sind News-Alerts, Subscriptions (E-Mail, RSS) und auch kontextabhängige Werbung [31]. Wer sich ausführlicher mit diesem Thema der „ambient findability“ beschäftigen möchte, der findet einen brauchbaren Überblick in Peter Morvilles gleichnamigem Buch (ausführliche Besprechung dazu).
Im letzten Teil des Vortrags widmet sich Broder dann noch der Werbung im Web. Nach einigen eher allgemeinen Aussagen [38-46] kommt er auch hier auf die Frage nach dem Kontext zu sprechen [47]. Auch die Anzeigen dürften nicht einfach Wort für Wort mit der Suchanfrage abgeglichen werden, sondern auch hier sind Informationen aus den bisher gestellten Anfragen, dem Nutzerprofil, dem Ort des Nutzers und den bisher angesehenen Informationen zu verwenden.

