Archive forJune, 2006

Andrei Broder über die Zukunft der Web-Suche

Mitte Mai fand an der Universitat Pompeu Fabra in Barcelona ein Workshop mit dem Titel The Future of Web Search statt. Ich war leider nicht dort, auf der Website sind aber die Präsentationen aller Vorträge zu finden. Mit am Interessantesten dürfte die Keynote von Andrei Broder; pdf) sein.

Broder ist mittlerweile „Fellow & VP Emerging Search Technologies“ bei Yahoo! Research, bekannt ist er aber vor allem für seine früheren Arbeiten bei AltaVista. Unter anderen seien hier die klassische Studie zur Bow-Tie-Struktur des Web (Volltext, deutsche Zusammenfassung) und seine Taxonomy of Web Search (pdf; deutsche Zusammenfassung) genannt. Dazu kommen noch jede Menge Patente.

Aber zur Sache: Nach Broder liegt die Bedeutung der Suchmaschinen darin, dass ohne sie das Web als solches nicht möglich wäre [4; die Zahlen in eckigen Klammern verweisen auf die jeweilige Folie in der Original-Präsentation]. Alle anderen Ansätze, die im Web verstreuten Informationen auffindbar zu machen (wie Klassifikationen, Bookmarks, usw.), sind gescheitert. Es besteht aber nur ein Anreiz, Inhalte zu erstellen, wenn diese auch auffindbar sind. Außerdem machen Suchmaschinen eine enorme Spezialisierung möglich: Dadurch, dass prinzipiell alles auffindbar ist, lassen sich auf geschäftlicher Seite sehr spezialisierte Shops führen; auf der gesellschaftlichen Seite können sehr spezielle Interessengruppen zueinander finden und sich austauschen.

Wie sieht es nun mit der Entwicklung der Suchmaschinen aus? Nach Broder gibt es vier Generationen [9]: Die erste Generation stützte sich allein auf Text (Worthäufigkeiten usw.), die zweite brachte als zusätzliches Element Informationen, die nicht direkt von der indexierten Seite kommen, mit ins Ranking ein (also vor allem Link-Informationen, aber auch Klickzahlen und die Auswertung von Ankertexten). Die dritte Generation – deren Entwicklung momentan noch im Gange ist – versucht, das Informationsbedürfnis hinter der gestellten Anfrage herauszufinden, der Fokus liegt dabei auf dem Nutzer, nicht wie früher nur auf der tatsächlich gestellten Suchanfrage. Die Suchmaschinen haben unterschiedliche Datenquellen integriert und versuchen mit Rechtschreibkontrolle, Vorschlägen zur Einschränkung der Suchanfrage, usw. dem Nutzer zu helfen (siehe auch Erweiterung und Einschränkung der Suchanfrage). Eine vierte Suchmaschinen-Generation gibt es nach Broder noch nicht wirklich, aber um sie soll es in seinem Vortrag gehen.

Aber noch einmal zurück zur Generation Nummer drei [12]: Mittlerweile führen die Suchmaschinen eine semantische Analyse der Suchanfrage durch. Die Veränderung weg vom einfachen syntaktischen Abgleich zwischen Suchanfrage und Dokumenten hin zu einem semantischen Abgleich ist laut Broder der wichtigste Trend in der Geschichte der Web-Suche. Es möge sich zwar um nur einfache semantische Verfahren handeln, dafür seien sie aber effektiv. Das kann man schon in Richtung eines Angriffs auf das vielbeschworene Semantic Web deuten, bei dem es sich ja eher umgekehrt verhält.

In der semantischen Analyse wird von der Suchmaschine die Sprache der Anfrage ermittelt und entsprechende Ergebnisse werden zurückgegeben. Das Ranking unterscheidet sich je nachdem, in welcher Sprache die Anfrage gestellt wurde.
Interessant ist, dass Broder hier die „Search Shortcuts“ (siehe auch Manuelle Einbindung von Top-Quellen) als integralen Bestandteil der Suchmaschinen und nicht nur als nettes Anhängsel sieht. Beispiele finden sich auf den Folien 15-18.

Um den Kontext einer gestellten Suchanfrage zu ermitteln, verwenden Suchmaschinen unterschiedliche Daten [20]: Den Ort des Nutzers, seine bisher gestellten Suchanfragen, sein persönliches Profil (wenn vorhanden), einen explizit ausgewählten Kontext (durch die Nutzung einer bestimmten vertikalen Suche) und einen impliziten Kontext (etwa über die eingegebene Top-Level-Domain der angewählten Suchmaschine).
Ähnlich verhält es sich mit Geodaten sowohl in den Dokumenten als auch in den Anfragen. In etwa 10 Prozent aller Dokumente finden sich Ortsangaben wie Postleitzahlen, Telefonnummern, usw.

In der vierten Generation der Web-Suche wird kommt nun ein weiteres Element hinzu: Anfragen werden nicht mehr nur ad hoc gestellt und beantwortet, sondern der Nutzer wird automatisch mit Informationen versorgt; und zwar zu dem Zeitpunkt, an dem er sie braucht. Welche Informationen er benötigt, ergibt sich auch seinen Aktivitäten und aus dem Kontext. Beispiele sind News-Alerts, Subscriptions (E-Mail, RSS) und auch kontextabhängige Werbung [31]. Wer sich ausführlicher mit diesem Thema der „ambient findability“ beschäftigen möchte, der findet einen brauchbaren Überblick in Peter Morvilles gleichnamigem Buch (ausführliche Besprechung dazu).

Im letzten Teil des Vortrags widmet sich Broder dann noch der Werbung im Web. Nach einigen eher allgemeinen Aussagen [38-46] kommt er auch hier auf die Frage nach dem Kontext zu sprechen [47]. Auch die Anzeigen dürften nicht einfach Wort für Wort mit der Suchanfrage abgeglichen werden, sondern auch hier sind Informationen aus den bisher gestellten Anfragen, dem Nutzerprofil, dem Ort des Nutzers und den bisher angesehenen Informationen zu verwenden.

Comments (1)

Vortragsanfragen

Nachdem die Frage mit dem Start dieses Blogs verstärkt aufkam: Ja, man kann mich für Vorträge, Workshops und Moderationen buchen und wenn es einen Artikel zu schreiben gibt, sage ich meistens auch nicht nein.

Ich bitte aber darum, folgendes zu beachten:

Wenn das Ganze einen kommerziellen Hintergrund hat, dann sollte auch ein angemessenes Honorar gezahlt werden (An die SEOs: Ja, SEO ist kommerziell!). Vortragsangebote aus diesem Bereich, die „phantastische Möglichkeiten des Networkings“ anbieten, den Referenten die Reise- und Hotelkosten aufbrummen und damit werben, dass man ja dafür den Eintritt erlassen bekäme (wow!), sind nicht so richtig interessant.

Wenn es sich um eine wissenschaftliche, dem Gemeinwohl dienende, o.ä. Veranstaltung handelt, kann man über alles reden (aber vielleicht nicht gerade darüber, ob SEO dem Gemeinwohl dient!).

Ähnliches gilt für Artikel in Fachzeitschriften: Bei Publikationen mit Gewinnabsicht erwarte ich ein Honorar, bei anderen nach Absprache.

Auch wenn das jetzt nicht ganz danach klingt: Ich freue mich über jede Anfrage! Auch an gemeinsamer Arbeit und Veröffentlichung bin ich stets interessiert.
Anfragen bitte nur per Mail (unter „Kontakt“ in diesem Blog). Wenn das Telefon klingelt, stehe ich meist gerade unter der Dusche oder koche eine warme Speise.

Comments off

Über Reklame auf den Ergebnisseiten

Die Wissenschaft interessiert sich hauptsächlich für die echten (also algorithmisch generierten) Suchergebnisse und für Verfahren, wie man deren Qualität verbessern kann. Allerdings gibt es auch einige interessante Ergebnisse zum Thema „Sponsored Listings“, „Paid Search“ oder wie immer man es nennen will – einfach gesagt also: Reklame.

Eine aktuell veröffentlichte (aber leider nicht mehr ganz aktuelle) Studie fragt nach dem Anteil, den die echten Suchergebnisse überhaupt auf den Trefferseiten einnehmen (Scott Nicholson et al.: How Much of It Is Real? Analysis of Paid Placement in Web Search Engine Results. Original-Artikel (kostenpflichtig), kostenloses Preprint).

Dabei geht es nicht um die Anzahl der Treffer, sondern um den tatsächlich für die Treffer verwendeten Platz auf den Ergebnisseiten einerseits, auf den tatsächlich gesehenen Ausschnitten dieser Seiten (also den Bildschirmseiten) andererseits. Dazu wurden die Trefferlisten auf Millimeterpapier ausgedruckt und die Flächen für Treffer und für Werbung ausgemessen. Der Platzanteil der echten Treffer wird durch den Wert Editorial Precision (EPrec) ausgedrückt, wobei sich die EPrec ergibt aus dem Anteil der echten Treffer am Gesamt des Bildschirms (ED) geteilt durch die Summe des Anteils der echten Treffer und dem Anteil der Sponsored Results (AD) am Gesamt des Bildschirms.

Als Formel: EPrec = ED/(ED+AD)

Analog werden die Anteile für die gesamten Ergebnisseiten berechnet. Besonders interessant ist es aber gerade, wenn man nur die Bildschirmseite betrachtet, wobei allerdings zu bedenken ist, dass diese natürlich von der vom Nutzer verwendeten Bildschirmauflösung abhängig ist. Und hier liegt auch schon das wesentliche Problem der Ergebnisse der Studie: Als „Standardauflösung“ werden 800×600 Pixel gewählt, wobei die Autoren selbst zugeben, dass diese wohl nicht mehr besonders gängig ist. Man muss aber bedenken, dass die Untersuchung im Herbst 2003 durchgeführt wurde. Dass sie jetzt erst veröffentlicht wurde, ist auf die leider oft übermäßig langen Verzögerungen im wissenschaftlichen Publikationsprozess zurückzuführen.


Quelle: Nicholson et al. 2006

Die Ergebnisse sind also in den genauen Prozentwerten als nicht mehr aktuell zu betrachten – interessant sind jedoch die Unterschiede zwischen den Suchmaschinen (siehe Tabelle). Die verschiedenen Betreiber gehen mit dem Thema Werbung also unterschiedlich um: Während die einen den Bildschirm in so ziemlich allen Fällen mit Werbung „zukleistern“, setzen die anderen weniger Anzeigen ein, die dafür aber vielleicht eher erfolgversprechend sind. Für den Werbetreibenden (oder auch die Suchmaschinen-Marketing-Agentur) stellt sich die Frage, in welchem Umfeld man seine Anzeigen platziert sehen möchte.

Ein weiteres interessantes – wenn auch nicht besonders überraschendes – Ergebnis ist, dass bei Suchanfragen mit einem wissenschaftlichen Hintergrund der Anteil der bezahlten Werbeplätze deutlich geringer ist als bei anderen Anfragen. Oder andersherum: Der Anteil der Werbung steigt bei den anderen, weit häufigeren Anfragen deutlich: Hier sind im Schnitt nur noch ein Drittel der ersten Bildschirmseite mit echten Ergebnissen belegt. Leider erfolgt in der Studie keine Auswertung für die einzelnen Suchmaschinen.

Wie gering der Anteil der echten Treffer auf der ersten Bildschirmseite sein kann, zeigt sich schön bei einer Suche nach Begriffen mit hohem kommerziellen Potential. Die folgende Abbildung zeigt eine Suche nach „Krankenversicherung“ bei Yahoo. Man erkennt, dass der Anteil der bezahlten Treffer deutlich höher ist als der der echten und dass die bezahlten Treffer dazu noch wesentlich prominenter platziert sind.


Damit stellt sich die Frage nach der korrekten Kennzeichnung der bezahlten Treffer. Kann der Nutzer erkennen, welche Treffer bezahlt sind und bei welchen es sich um „neutral“ (also algorithmisch) ermittelte Ergebnisse handelt? Das ist eine Frage der Kennzeichnung, und formal machen es (inzwischen!) die meisten Suchmaschinen richtig: Die bezahlten Treffer sind irgendwie als solche gekennzeichnet. Allerdings muss man leider trotzdem von einer Verschleierungstaktik der Suchmaschinen sprechen. Folgende Methoden werden verwendet:

  • Begriffliche Verschleierung: Anstatt einer deutlichen Kennzeichnung als „Anzeige“ werden Begriffe wie „Partnerlinks“, „Sponsoren-Links“, usw. zur Kennzeichnung verwendet.
  • Platzierung des Anzeigenvermerks: Das Wort „Anzeige“ wird am rechten Rand der Anzeige platziert, während die Werbetreffer selbst linksbündig wie die echte Trefferliste beginnen (schön zu sehen bei den Trefferlisten von MSN).
  • Mangelnde Trennung von der Trefferliste: Die bezahlten Treffer werden nur undeutlich von der regulären Trefferliste abgesetzt, zum Beispiel nur durch einen dünnen Strich.
  • Typographie und Layout: Bezahlte und echte Treffer sind in der gleichen Schriftart, dem gleichen Schriftschnitt und/oder den gleichen Farben gestaltet.
  • Farbliche Kennzeichnung: Die bezahlten Einträge werden zwar farblich unterlegt, meist wird jedoch ein heller Farbton verwendet, der auf vielen Bildschirmen kaum zur Geltung kommt.

Eine Übersicht der Praktiken der bekannten Suchmaschinen (US-Versionen) bietet ein Report von Consumer Web Watch (pdf).

Angesichts solcher Methoden ist es kein Wunder, wenn die Nutzer die Treffer nicht von der Werbung unterscheiden können. Wenn sie denn überhaupt wissen, dass ihnen auf den Ergebnisseiten Werbung präsentiert wird. Eine Befragung aus dem Jahr 2003 (M. Machill et al.: Wegweiser im Netz) kam jedenfalls zu dem Ergebnis, dass nur neun Prozent der deutschen Nutzer überhaupt wissen, dass sich Suchmaschinen durch Werbeeinblendungen finanzieren. Wahrscheinlich (hoffentlich!) liegt dieser Wert 2006 deutlich höher, aber fragen Sie mal Ihre Eltern…

Eine weitere (allerdings leider auch schon drei Jahre alte) Untersuchung (pdf) führt ein Laborexperiment durch, in dem sich zeigt, dass 41 Prozent der Nutzer im Verlauf der Suche bezahlte Treffer anklicken und dabei annehmen, dass es sich um reguläre Ergebnisse handelt. Allerdings werden insgesamt nur 17 Nutzer befragt, was die Gültigkeit der Ergebnisse auf eine Tendenz einschränkt.

Diese kleine Übersicht von Untersuchungen zeigt, dass die Suchmaschinenbetreiber die Unkenntnis ihrer Nutzer ausnutzen und ihnen Werbung „unterschieben“. Dass damit die Klickzahlen auf die Werbetreffer erhöht werden, ist klar und liegt im Interesse der Suchmaschinen. Liegt das aber auch im Interesse der Werbetreibenden (und damit der Suchmaschinen-Marketing-Agenturen)? Denkbar wäre ja, dass die Treffer zwar angeklickt werden, viele Nutzer aber schnell wieder zur Trefferliste zurückkehren, weil sie mit dem kommerziellen Ergebnis nicht zufrieden sind. Dies würde sich auch mit den vielen Klagen von Nutzern decken, die sich wünschen, dass die Suchmaschinen weniger kommerzielle Treffer anzeigen. Mich würde dazu insbesondere die Meinung der SEOs/SEMs interessieren.

Comments (2)

Worum es hier geht

In diesem Blog sollen Ergebnisse der Suchmaschinen-Forschung dargestellt werden. Ich möchte damit ein bisschen dabei helfen, diese Ergebnisse verständlicher zu machen, allerdings ohne diese dabei zu verkürzen.

Und hier liegt meiner Meinung nach auch das Dilemma bisher: Entweder man liest die Original-Aufsätze (was aufwendig ist und nicht immer zur gewünschten Erkenntnis führt) oder man vertraut auf Blogs, Websites, usw. Dort werden die Forschungsergebnisse oft verkürzt (wenn nicht gar fehlerhaft) dargestellt und es fehlt eine fachkundige Einschätzung neuer Entwicklungen. Genau darum soll es nun in diesem Blog gehen: Kommentare und Einschätzungen.

Zu einem Teil wird es dabei natürlich auch um meine eigenen Forschungen gehen, der Großteil soll sich aber mit dem beschäftigen, was mich so im Rahmen der Forschung beschäftigt. Erwarten darf man hier also vor allem Zusammenfassungen von Aufsätzen, Patenten und fundierte Buchempfehlungen.

Was es hier nicht gibt: Produktbesprechungen, Kurznachrichten, Werbung. Besprechungen der neuesten Entwicklungen bei den großen Suchmaschinen gibt es in meiner Kolumne in der Zeitschrift Password (Archiv der Beiträge).

Was es wohl auch nicht geben wird: tägliche Einträge in diesem Blog. Denn die Auseinandersetzung mit einem Thema braucht Zeit. Und das Schreiben lesbarer Beiträge auch. Also: Eher ein Beitrag in zehn Tagen als zehn Beiträge an einem Tag. Bitte abonnieren!

Noch eine Anmerkung, die vielleicht vor allem für die SEOs unter den Lesern/Leserinnen interessant ist: Ich will nichts verkaufen (außer mein Buch vielleicht, aber das können Sie auch umsonst online lesen).

Comments (9)

Verfall von Webseiten: Auch ein Aktualitätsfaktor

Die Aktualität von Webseiten spielt im Ranking der Suchmaschinen eine wichtige Rolle, die mit dem zunehmenden Alter des WWW noch zunehmen dürfte (siehe Aktualität als erfolgskritischer Faktor bei Suchmaschinen (pdf)). Jede der größeren Suchmaschinen verwendet Aktualitätsfaktoren; Informationen zu den entsprechenden Verfahren sind – wenn überhaupt – in der Patentliteratur zu finden.

Eine neue US-Patentanmeldung (Methods and apparatus for assessing web page decay) bringt nun einen Verfallsfaktor für Webseiten ins Spiel: Danach ist nicht nur die Aktualität einer Seite selbst von Bedeutung, sondern auch die Aktualität der von ihr aus verlinkten Seiten (bis zu einem bestimmten Grenzwert). Ein Beispiel mag die Idee verdeutlichen: Eine Seite, die einen Text sowie ausgehende Links enthält, wird mit Hilfe eines Link-Checkers auf tote Links geprüft, diese werden entsprechend entfernt. Jede Veränderung an der Seite wird von den Suchmaschinen als Aktualisierung gewertet, auch wenn sich am Inhalt eigentlich nichts geändert hat.

Die Ausgangsfrage, die im Patent gestellt wird, ist also, ob Webseiten, deren ausgehende Links aktuell gehalten werden, auch tatsächlich als aktualisierte Seiten angesehen werden können/sollten [2] (die Zahlen in eckigen Klammern verweisen auf die Nummerierten Abschnitte im Patent). Diese Frage schließt sich an generelle Überlegungen, wie das tatsächliche Aktualisierungsdatum einer Seite zu bestimmen ist, an (siehe dazu Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten) und ist ganz klar zu verneinen. Die Lösung soll nun in einer Analyse des Umfelds der entsprechenden Seite liegen: Wenn von ihr entweder direkt Links auf tote Seiten ausgehen oder aber auf Seiten, die ihrerseits tote Links enthalten, so dürfte auch die Ausgangsseite dem Verfall anheim gefallen sein. Denn die Links auf ihr sind zwar noch gültig, aber eben nicht mehr „gepflegt“.

Es ist allerdings nicht trivial, festzustellen, ob ein Link tatsächlich tot ist oder nicht. Manche Server senden statt dem üblichen 404-Fehler eine formal gültige Seite ohne 404 oder führen einen Redirect aus. Prinzipiell gibt es drei Möglichkeiten, wie ein Server eine Anfrage beantwortet [49]:

1. Die Anfrage ist erfolgreich.
2. Die Anfrage ist nicht erfolgreich.
3. Es erfolgt ein Redirect.

Im Patent wird nun ein Verfahren beschrieben, wie zwischen wirklich erfolgreichen Anfragen und sog. „soft-404s“ unterschieden werden kann (also eine anscheinend vorhandenen Seite, die aber nur eine Fehlermeldung o.ä. enthält). Dazu wird das generelle Verhalten eines Servers bezüglich nicht vorhandener URLs überprüft [51]. Für jede URL wird eine Zufalls-URL auf der gleichen Verzeichnisebene generiert, die mit sehr hoher Wahrscheinlichkeit nicht vorhanden ist (25-stellige, zufällig Buchstabenkombination). Die gleiche Ebene wird gewählt, da bei großen Websites die verschiedenen Verzeichnisse oft auf unterschiedlichen Servern liegen, die unter Umständen unterschiedlich mit nicht vorhandenen Seiten umgehen. Im Patent wird dies anhand der Website von IBM gezeigt [53]: www.ibm.com/blablabla führt zu einem 404-Fehler, www.ibm.com/us/blablabla aber zu einem Redirect auf die US-Homepage von IBM.

Nun werden die Ergebnisse für die echte URL und die Zufalls-URL verglichen: Wenn die Zufalls-URL einen Fehler produziert, dann arbeitet der Server mit „hard-404“, also echten Fehlermeldungen; wenn die Zufalls-URL als erfolgreiche Anfrage behandelt wird, dann arbeitet der Server mit soft-404s [54+55]. Eine Ausnahme hierbei bildet die oberste Verzeichnisebene [56].

Damit ist das Problem aber noch nicht gelöst: Manche Server geben auch eine individuelle Seite zurück, die beispielsweise die eingegebene URL enthält, dazu vielleicht noch weitere Unterschiede zu anderen Fehlerseiten des gleichen Servers. Deshalb ist hier auch eine Überprüfung nach Fast-Dubletten nötig.

Wichtig ist die Feststellung der „soft-404s“, da sie für einen relativ hohen Anteil aller Fehlermeldungen stehen. Im Patent wird von mehr als 25 Prozent aller Fehlermeldungen gesprochen [36; empirische Befunde in 88-95].

Der Algorithmus, der nun den Verfall der Webseiten berechnet, geht ähnlich wie PageRank (siehe PageRank) von einem „Random-Surfer-Modell“ aus. Mit einer gewissen Wahrscheinlichkeit findet der Surfer auf der momentan aufgerufenen Seite das, was er sucht und bricht deshalb die Suche ab. Wenn er aber nicht das Gewünschte findet, klickt er auf einen Link auf dieser Seite. Dies setzt sich so lange fort, bis das Gewünschte gefunden wurde oder der Surfer auf einen toten Link klickt. Das Verfahren soll nun herausfinden, wie hoch die Wahrscheinlichkeit ist, dass der Surfer auf einem toten Link landet, wobei nach der Anzahl der Schritte, die von der Ausgangsseite aus getätigt wurden, differenziert wird. Je mehr Schritte ausgeführt wurden, desto geringer ist der Einfluss auf den Verfallswert der Ausgangsseite.

Dieses Modell wird natürlich formalisiert [71], für das Verständnis ist aber nur von Bedeutung, dass gemessen wird, wie hoch die Wahrscheinlichkeit ist, dass man auf einen toten Link gelangt, wenn man von sich von der Ausgangsseite aus den Links entlang hangelt. Es geht hier also um die OUT-Umgebung, auf die der Autor der Ausgangsseite direkten Einfluss hat: Zu dem Zeitpunkt, an dem er seinen Seite erstellt, dürfte er alle Links so auswählen, dass sie auf relevante und entsprechend gepflegte Seiten verweisen, die ihrerseits keine oder nur wenige tote Links enthalten. Pflegt der Autor aber seine Seite nicht (sondern löscht beispielsweise nur die direkt toten Links, wie sie ihm von seinem Link-Checker angezeigt werden), so werden mit hoher Wahrscheinlichkeit einige Links auf Seiten zeigen, die tote Links enthalten, ohne dass sie selbst tot wären. Sie werden schlicht nicht mehr gepflegt – und eine Seite, die auf ungepflegte Seiten verweist, kann selbst als ungepflegt gelten.

Im Patent wird der Unterschied zwischen der Zählung von toten Links und der Messung des Verfalls anhand eines Teils des Yahoo-Verzeichnisses gezeigt [97]: Die Seiten enthalten keine toten Links, da diese automatisch entfernt werden. Wird jedoch der Verfalls-Wert für die Seiten des Yahoo-Verzeichnisses gemessen, so unterscheidet sich dieser nicht von dem anderer. zufällig ausgewählter Seiten. Dies weist darauf hin, dass zwar nicht mehr vorhandene Seiten aus dem Yahoo-Verzeichnis entfernt werden, die noch vorhandenen Seiten aber nicht hinsichtlich ihrer Aktualität (und damit auch hinsichtlich ihrer noch vorhandenen Relevanz) überprüft werden.

Was kann man nun mit einer solchen Verfalls-Berechnung anfangen? Im Patent werden vier Möglichkeiten aufgezeigt [102-106]:

1. Webmaster können mit diesem Verfahren prüfen, ob die Seiten, auf die von ihrem Angebot aus verwiesen wird, noch relevant sind.
2. Suchmaschinen können den Verfallsfaktor im Ranking einsetzen. Hier ist an eine Ergänzung anderer Aktualitätsfaktoren zu denken (siehe auch Aktualitätsfaktoren im Ranking).
3. Der Verfallsfaktor kann mit darüber bestimmen, wie häufig eine Seite von Suchmaschinen-Crawlern besucht wird (ausführlich dazu siehe The Freshness of Web search engine databases (pdf)).
4. „Web-Soziologie“, z.B. Trenderkennung.

Comments (6)

« Previous entries