Archive forAktualität

Verfall von Webseiten: Auch ein Aktualitätsfaktor

Die Aktualität von Webseiten spielt im Ranking der Suchmaschinen eine wichtige Rolle, die mit dem zunehmenden Alter des WWW noch zunehmen dürfte (siehe Aktualität als erfolgskritischer Faktor bei Suchmaschinen (pdf)). Jede der größeren Suchmaschinen verwendet Aktualitätsfaktoren; Informationen zu den entsprechenden Verfahren sind – wenn überhaupt – in der Patentliteratur zu finden.

Eine neue US-Patentanmeldung (Methods and apparatus for assessing web page decay) bringt nun einen Verfallsfaktor für Webseiten ins Spiel: Danach ist nicht nur die Aktualität einer Seite selbst von Bedeutung, sondern auch die Aktualität der von ihr aus verlinkten Seiten (bis zu einem bestimmten Grenzwert). Ein Beispiel mag die Idee verdeutlichen: Eine Seite, die einen Text sowie ausgehende Links enthält, wird mit Hilfe eines Link-Checkers auf tote Links geprüft, diese werden entsprechend entfernt. Jede Veränderung an der Seite wird von den Suchmaschinen als Aktualisierung gewertet, auch wenn sich am Inhalt eigentlich nichts geändert hat.

Die Ausgangsfrage, die im Patent gestellt wird, ist also, ob Webseiten, deren ausgehende Links aktuell gehalten werden, auch tatsächlich als aktualisierte Seiten angesehen werden können/sollten [2] (die Zahlen in eckigen Klammern verweisen auf die Nummerierten Abschnitte im Patent). Diese Frage schließt sich an generelle Überlegungen, wie das tatsächliche Aktualisierungsdatum einer Seite zu bestimmen ist, an (siehe dazu Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten) und ist ganz klar zu verneinen. Die Lösung soll nun in einer Analyse des Umfelds der entsprechenden Seite liegen: Wenn von ihr entweder direkt Links auf tote Seiten ausgehen oder aber auf Seiten, die ihrerseits tote Links enthalten, so dürfte auch die Ausgangsseite dem Verfall anheim gefallen sein. Denn die Links auf ihr sind zwar noch gültig, aber eben nicht mehr „gepflegt“.

Es ist allerdings nicht trivial, festzustellen, ob ein Link tatsächlich tot ist oder nicht. Manche Server senden statt dem üblichen 404-Fehler eine formal gültige Seite ohne 404 oder führen einen Redirect aus. Prinzipiell gibt es drei Möglichkeiten, wie ein Server eine Anfrage beantwortet [49]:

1. Die Anfrage ist erfolgreich.
2. Die Anfrage ist nicht erfolgreich.
3. Es erfolgt ein Redirect.

Im Patent wird nun ein Verfahren beschrieben, wie zwischen wirklich erfolgreichen Anfragen und sog. „soft-404s“ unterschieden werden kann (also eine anscheinend vorhandenen Seite, die aber nur eine Fehlermeldung o.ä. enthält). Dazu wird das generelle Verhalten eines Servers bezüglich nicht vorhandener URLs überprüft [51]. Für jede URL wird eine Zufalls-URL auf der gleichen Verzeichnisebene generiert, die mit sehr hoher Wahrscheinlichkeit nicht vorhanden ist (25-stellige, zufällig Buchstabenkombination). Die gleiche Ebene wird gewählt, da bei großen Websites die verschiedenen Verzeichnisse oft auf unterschiedlichen Servern liegen, die unter Umständen unterschiedlich mit nicht vorhandenen Seiten umgehen. Im Patent wird dies anhand der Website von IBM gezeigt [53]: www.ibm.com/blablabla führt zu einem 404-Fehler, www.ibm.com/us/blablabla aber zu einem Redirect auf die US-Homepage von IBM.

Nun werden die Ergebnisse für die echte URL und die Zufalls-URL verglichen: Wenn die Zufalls-URL einen Fehler produziert, dann arbeitet der Server mit „hard-404“, also echten Fehlermeldungen; wenn die Zufalls-URL als erfolgreiche Anfrage behandelt wird, dann arbeitet der Server mit soft-404s [54+55]. Eine Ausnahme hierbei bildet die oberste Verzeichnisebene [56].

Damit ist das Problem aber noch nicht gelöst: Manche Server geben auch eine individuelle Seite zurück, die beispielsweise die eingegebene URL enthält, dazu vielleicht noch weitere Unterschiede zu anderen Fehlerseiten des gleichen Servers. Deshalb ist hier auch eine Überprüfung nach Fast-Dubletten nötig.

Wichtig ist die Feststellung der „soft-404s“, da sie für einen relativ hohen Anteil aller Fehlermeldungen stehen. Im Patent wird von mehr als 25 Prozent aller Fehlermeldungen gesprochen [36; empirische Befunde in 88-95].

Der Algorithmus, der nun den Verfall der Webseiten berechnet, geht ähnlich wie PageRank (siehe PageRank) von einem „Random-Surfer-Modell“ aus. Mit einer gewissen Wahrscheinlichkeit findet der Surfer auf der momentan aufgerufenen Seite das, was er sucht und bricht deshalb die Suche ab. Wenn er aber nicht das Gewünschte findet, klickt er auf einen Link auf dieser Seite. Dies setzt sich so lange fort, bis das Gewünschte gefunden wurde oder der Surfer auf einen toten Link klickt. Das Verfahren soll nun herausfinden, wie hoch die Wahrscheinlichkeit ist, dass der Surfer auf einem toten Link landet, wobei nach der Anzahl der Schritte, die von der Ausgangsseite aus getätigt wurden, differenziert wird. Je mehr Schritte ausgeführt wurden, desto geringer ist der Einfluss auf den Verfallswert der Ausgangsseite.

Dieses Modell wird natürlich formalisiert [71], für das Verständnis ist aber nur von Bedeutung, dass gemessen wird, wie hoch die Wahrscheinlichkeit ist, dass man auf einen toten Link gelangt, wenn man von sich von der Ausgangsseite aus den Links entlang hangelt. Es geht hier also um die OUT-Umgebung, auf die der Autor der Ausgangsseite direkten Einfluss hat: Zu dem Zeitpunkt, an dem er seinen Seite erstellt, dürfte er alle Links so auswählen, dass sie auf relevante und entsprechend gepflegte Seiten verweisen, die ihrerseits keine oder nur wenige tote Links enthalten. Pflegt der Autor aber seine Seite nicht (sondern löscht beispielsweise nur die direkt toten Links, wie sie ihm von seinem Link-Checker angezeigt werden), so werden mit hoher Wahrscheinlichkeit einige Links auf Seiten zeigen, die tote Links enthalten, ohne dass sie selbst tot wären. Sie werden schlicht nicht mehr gepflegt – und eine Seite, die auf ungepflegte Seiten verweist, kann selbst als ungepflegt gelten.

Im Patent wird der Unterschied zwischen der Zählung von toten Links und der Messung des Verfalls anhand eines Teils des Yahoo-Verzeichnisses gezeigt [97]: Die Seiten enthalten keine toten Links, da diese automatisch entfernt werden. Wird jedoch der Verfalls-Wert für die Seiten des Yahoo-Verzeichnisses gemessen, so unterscheidet sich dieser nicht von dem anderer. zufällig ausgewählter Seiten. Dies weist darauf hin, dass zwar nicht mehr vorhandene Seiten aus dem Yahoo-Verzeichnis entfernt werden, die noch vorhandenen Seiten aber nicht hinsichtlich ihrer Aktualität (und damit auch hinsichtlich ihrer noch vorhandenen Relevanz) überprüft werden.

Was kann man nun mit einer solchen Verfalls-Berechnung anfangen? Im Patent werden vier Möglichkeiten aufgezeigt [102-106]:

1. Webmaster können mit diesem Verfahren prüfen, ob die Seiten, auf die von ihrem Angebot aus verwiesen wird, noch relevant sind.
2. Suchmaschinen können den Verfallsfaktor im Ranking einsetzen. Hier ist an eine Ergänzung anderer Aktualitätsfaktoren zu denken (siehe auch Aktualitätsfaktoren im Ranking).
3. Der Verfallsfaktor kann mit darüber bestimmen, wie häufig eine Seite von Suchmaschinen-Crawlern besucht wird (ausführlich dazu siehe The Freshness of Web search engine databases (pdf)).
4. „Web-Soziologie“, z.B. Trenderkennung.

Comments (6)