Über Reklame auf den Ergebnisseiten

Die Wissenschaft interessiert sich hauptsächlich für die echten (also algorithmisch generierten) Suchergebnisse und für Verfahren, wie man deren Qualität verbessern kann. Allerdings gibt es auch einige interessante Ergebnisse zum Thema „Sponsored Listings“, „Paid Search“ oder wie immer man es nennen will – einfach gesagt also: Reklame.

Eine aktuell veröffentlichte (aber leider nicht mehr ganz aktuelle) Studie fragt nach dem Anteil, den die echten Suchergebnisse überhaupt auf den Trefferseiten einnehmen (Scott Nicholson et al.: How Much of It Is Real? Analysis of Paid Placement in Web Search Engine Results. Original-Artikel (kostenpflichtig), kostenloses Preprint).

Dabei geht es nicht um die Anzahl der Treffer, sondern um den tatsächlich für die Treffer verwendeten Platz auf den Ergebnisseiten einerseits, auf den tatsächlich gesehenen Ausschnitten dieser Seiten (also den Bildschirmseiten) andererseits. Dazu wurden die Trefferlisten auf Millimeterpapier ausgedruckt und die Flächen für Treffer und für Werbung ausgemessen. Der Platzanteil der echten Treffer wird durch den Wert Editorial Precision (EPrec) ausgedrückt, wobei sich die EPrec ergibt aus dem Anteil der echten Treffer am Gesamt des Bildschirms (ED) geteilt durch die Summe des Anteils der echten Treffer und dem Anteil der Sponsored Results (AD) am Gesamt des Bildschirms.

Als Formel: EPrec = ED/(ED+AD)

Analog werden die Anteile für die gesamten Ergebnisseiten berechnet. Besonders interessant ist es aber gerade, wenn man nur die Bildschirmseite betrachtet, wobei allerdings zu bedenken ist, dass diese natürlich von der vom Nutzer verwendeten Bildschirmauflösung abhängig ist. Und hier liegt auch schon das wesentliche Problem der Ergebnisse der Studie: Als „Standardauflösung“ werden 800×600 Pixel gewählt, wobei die Autoren selbst zugeben, dass diese wohl nicht mehr besonders gängig ist. Man muss aber bedenken, dass die Untersuchung im Herbst 2003 durchgeführt wurde. Dass sie jetzt erst veröffentlicht wurde, ist auf die leider oft übermäßig langen Verzögerungen im wissenschaftlichen Publikationsprozess zurückzuführen.


Quelle: Nicholson et al. 2006

Die Ergebnisse sind also in den genauen Prozentwerten als nicht mehr aktuell zu betrachten – interessant sind jedoch die Unterschiede zwischen den Suchmaschinen (siehe Tabelle). Die verschiedenen Betreiber gehen mit dem Thema Werbung also unterschiedlich um: Während die einen den Bildschirm in so ziemlich allen Fällen mit Werbung „zukleistern“, setzen die anderen weniger Anzeigen ein, die dafür aber vielleicht eher erfolgversprechend sind. Für den Werbetreibenden (oder auch die Suchmaschinen-Marketing-Agentur) stellt sich die Frage, in welchem Umfeld man seine Anzeigen platziert sehen möchte.

Ein weiteres interessantes – wenn auch nicht besonders überraschendes – Ergebnis ist, dass bei Suchanfragen mit einem wissenschaftlichen Hintergrund der Anteil der bezahlten Werbeplätze deutlich geringer ist als bei anderen Anfragen. Oder andersherum: Der Anteil der Werbung steigt bei den anderen, weit häufigeren Anfragen deutlich: Hier sind im Schnitt nur noch ein Drittel der ersten Bildschirmseite mit echten Ergebnissen belegt. Leider erfolgt in der Studie keine Auswertung für die einzelnen Suchmaschinen.

Wie gering der Anteil der echten Treffer auf der ersten Bildschirmseite sein kann, zeigt sich schön bei einer Suche nach Begriffen mit hohem kommerziellen Potential. Die folgende Abbildung zeigt eine Suche nach „Krankenversicherung“ bei Yahoo. Man erkennt, dass der Anteil der bezahlten Treffer deutlich höher ist als der der echten und dass die bezahlten Treffer dazu noch wesentlich prominenter platziert sind.


Damit stellt sich die Frage nach der korrekten Kennzeichnung der bezahlten Treffer. Kann der Nutzer erkennen, welche Treffer bezahlt sind und bei welchen es sich um „neutral“ (also algorithmisch) ermittelte Ergebnisse handelt? Das ist eine Frage der Kennzeichnung, und formal machen es (inzwischen!) die meisten Suchmaschinen richtig: Die bezahlten Treffer sind irgendwie als solche gekennzeichnet. Allerdings muss man leider trotzdem von einer Verschleierungstaktik der Suchmaschinen sprechen. Folgende Methoden werden verwendet:

  • Begriffliche Verschleierung: Anstatt einer deutlichen Kennzeichnung als „Anzeige“ werden Begriffe wie „Partnerlinks“, „Sponsoren-Links“, usw. zur Kennzeichnung verwendet.
  • Platzierung des Anzeigenvermerks: Das Wort „Anzeige“ wird am rechten Rand der Anzeige platziert, während die Werbetreffer selbst linksbündig wie die echte Trefferliste beginnen (schön zu sehen bei den Trefferlisten von MSN).
  • Mangelnde Trennung von der Trefferliste: Die bezahlten Treffer werden nur undeutlich von der regulären Trefferliste abgesetzt, zum Beispiel nur durch einen dünnen Strich.
  • Typographie und Layout: Bezahlte und echte Treffer sind in der gleichen Schriftart, dem gleichen Schriftschnitt und/oder den gleichen Farben gestaltet.
  • Farbliche Kennzeichnung: Die bezahlten Einträge werden zwar farblich unterlegt, meist wird jedoch ein heller Farbton verwendet, der auf vielen Bildschirmen kaum zur Geltung kommt.

Eine Übersicht der Praktiken der bekannten Suchmaschinen (US-Versionen) bietet ein Report von Consumer Web Watch (pdf).

Angesichts solcher Methoden ist es kein Wunder, wenn die Nutzer die Treffer nicht von der Werbung unterscheiden können. Wenn sie denn überhaupt wissen, dass ihnen auf den Ergebnisseiten Werbung präsentiert wird. Eine Befragung aus dem Jahr 2003 (M. Machill et al.: Wegweiser im Netz) kam jedenfalls zu dem Ergebnis, dass nur neun Prozent der deutschen Nutzer überhaupt wissen, dass sich Suchmaschinen durch Werbeeinblendungen finanzieren. Wahrscheinlich (hoffentlich!) liegt dieser Wert 2006 deutlich höher, aber fragen Sie mal Ihre Eltern…

Eine weitere (allerdings leider auch schon drei Jahre alte) Untersuchung (pdf) führt ein Laborexperiment durch, in dem sich zeigt, dass 41 Prozent der Nutzer im Verlauf der Suche bezahlte Treffer anklicken und dabei annehmen, dass es sich um reguläre Ergebnisse handelt. Allerdings werden insgesamt nur 17 Nutzer befragt, was die Gültigkeit der Ergebnisse auf eine Tendenz einschränkt.

Diese kleine Übersicht von Untersuchungen zeigt, dass die Suchmaschinenbetreiber die Unkenntnis ihrer Nutzer ausnutzen und ihnen Werbung „unterschieben“. Dass damit die Klickzahlen auf die Werbetreffer erhöht werden, ist klar und liegt im Interesse der Suchmaschinen. Liegt das aber auch im Interesse der Werbetreibenden (und damit der Suchmaschinen-Marketing-Agenturen)? Denkbar wäre ja, dass die Treffer zwar angeklickt werden, viele Nutzer aber schnell wieder zur Trefferliste zurückkehren, weil sie mit dem kommerziellen Ergebnis nicht zufrieden sind. Dies würde sich auch mit den vielen Klagen von Nutzern decken, die sich wünschen, dass die Suchmaschinen weniger kommerzielle Treffer anzeigen. Mich würde dazu insbesondere die Meinung der SEOs/SEMs interessieren.

Comments (2)

Worum es hier geht

In diesem Blog sollen Ergebnisse der Suchmaschinen-Forschung dargestellt werden. Ich möchte damit ein bisschen dabei helfen, diese Ergebnisse verständlicher zu machen, allerdings ohne diese dabei zu verkürzen.

Und hier liegt meiner Meinung nach auch das Dilemma bisher: Entweder man liest die Original-Aufsätze (was aufwendig ist und nicht immer zur gewünschten Erkenntnis führt) oder man vertraut auf Blogs, Websites, usw. Dort werden die Forschungsergebnisse oft verkürzt (wenn nicht gar fehlerhaft) dargestellt und es fehlt eine fachkundige Einschätzung neuer Entwicklungen. Genau darum soll es nun in diesem Blog gehen: Kommentare und Einschätzungen.

Zu einem Teil wird es dabei natürlich auch um meine eigenen Forschungen gehen, der Großteil soll sich aber mit dem beschäftigen, was mich so im Rahmen der Forschung beschäftigt. Erwarten darf man hier also vor allem Zusammenfassungen von Aufsätzen, Patenten und fundierte Buchempfehlungen.

Was es hier nicht gibt: Produktbesprechungen, Kurznachrichten, Werbung. Besprechungen der neuesten Entwicklungen bei den großen Suchmaschinen gibt es in meiner Kolumne in der Zeitschrift Password (Archiv der Beiträge).

Was es wohl auch nicht geben wird: tägliche Einträge in diesem Blog. Denn die Auseinandersetzung mit einem Thema braucht Zeit. Und das Schreiben lesbarer Beiträge auch. Also: Eher ein Beitrag in zehn Tagen als zehn Beiträge an einem Tag. Bitte abonnieren!

Noch eine Anmerkung, die vielleicht vor allem für die SEOs unter den Lesern/Leserinnen interessant ist: Ich will nichts verkaufen (außer mein Buch vielleicht, aber das können Sie auch umsonst online lesen).

Comments (9)

Verfall von Webseiten: Auch ein Aktualitätsfaktor

Die Aktualität von Webseiten spielt im Ranking der Suchmaschinen eine wichtige Rolle, die mit dem zunehmenden Alter des WWW noch zunehmen dürfte (siehe Aktualität als erfolgskritischer Faktor bei Suchmaschinen (pdf)). Jede der größeren Suchmaschinen verwendet Aktualitätsfaktoren; Informationen zu den entsprechenden Verfahren sind – wenn überhaupt – in der Patentliteratur zu finden.

Eine neue US-Patentanmeldung (Methods and apparatus for assessing web page decay) bringt nun einen Verfallsfaktor für Webseiten ins Spiel: Danach ist nicht nur die Aktualität einer Seite selbst von Bedeutung, sondern auch die Aktualität der von ihr aus verlinkten Seiten (bis zu einem bestimmten Grenzwert). Ein Beispiel mag die Idee verdeutlichen: Eine Seite, die einen Text sowie ausgehende Links enthält, wird mit Hilfe eines Link-Checkers auf tote Links geprüft, diese werden entsprechend entfernt. Jede Veränderung an der Seite wird von den Suchmaschinen als Aktualisierung gewertet, auch wenn sich am Inhalt eigentlich nichts geändert hat.

Die Ausgangsfrage, die im Patent gestellt wird, ist also, ob Webseiten, deren ausgehende Links aktuell gehalten werden, auch tatsächlich als aktualisierte Seiten angesehen werden können/sollten [2] (die Zahlen in eckigen Klammern verweisen auf die Nummerierten Abschnitte im Patent). Diese Frage schließt sich an generelle Überlegungen, wie das tatsächliche Aktualisierungsdatum einer Seite zu bestimmen ist, an (siehe dazu Möglichkeiten der Ermittlung von Datumsangaben in Web-Dokumenten) und ist ganz klar zu verneinen. Die Lösung soll nun in einer Analyse des Umfelds der entsprechenden Seite liegen: Wenn von ihr entweder direkt Links auf tote Seiten ausgehen oder aber auf Seiten, die ihrerseits tote Links enthalten, so dürfte auch die Ausgangsseite dem Verfall anheim gefallen sein. Denn die Links auf ihr sind zwar noch gültig, aber eben nicht mehr „gepflegt“.

Es ist allerdings nicht trivial, festzustellen, ob ein Link tatsächlich tot ist oder nicht. Manche Server senden statt dem üblichen 404-Fehler eine formal gültige Seite ohne 404 oder führen einen Redirect aus. Prinzipiell gibt es drei Möglichkeiten, wie ein Server eine Anfrage beantwortet [49]:

1. Die Anfrage ist erfolgreich.
2. Die Anfrage ist nicht erfolgreich.
3. Es erfolgt ein Redirect.

Im Patent wird nun ein Verfahren beschrieben, wie zwischen wirklich erfolgreichen Anfragen und sog. „soft-404s“ unterschieden werden kann (also eine anscheinend vorhandenen Seite, die aber nur eine Fehlermeldung o.ä. enthält). Dazu wird das generelle Verhalten eines Servers bezüglich nicht vorhandener URLs überprüft [51]. Für jede URL wird eine Zufalls-URL auf der gleichen Verzeichnisebene generiert, die mit sehr hoher Wahrscheinlichkeit nicht vorhanden ist (25-stellige, zufällig Buchstabenkombination). Die gleiche Ebene wird gewählt, da bei großen Websites die verschiedenen Verzeichnisse oft auf unterschiedlichen Servern liegen, die unter Umständen unterschiedlich mit nicht vorhandenen Seiten umgehen. Im Patent wird dies anhand der Website von IBM gezeigt [53]: www.ibm.com/blablabla führt zu einem 404-Fehler, www.ibm.com/us/blablabla aber zu einem Redirect auf die US-Homepage von IBM.

Nun werden die Ergebnisse für die echte URL und die Zufalls-URL verglichen: Wenn die Zufalls-URL einen Fehler produziert, dann arbeitet der Server mit „hard-404“, also echten Fehlermeldungen; wenn die Zufalls-URL als erfolgreiche Anfrage behandelt wird, dann arbeitet der Server mit soft-404s [54+55]. Eine Ausnahme hierbei bildet die oberste Verzeichnisebene [56].

Damit ist das Problem aber noch nicht gelöst: Manche Server geben auch eine individuelle Seite zurück, die beispielsweise die eingegebene URL enthält, dazu vielleicht noch weitere Unterschiede zu anderen Fehlerseiten des gleichen Servers. Deshalb ist hier auch eine Überprüfung nach Fast-Dubletten nötig.

Wichtig ist die Feststellung der „soft-404s“, da sie für einen relativ hohen Anteil aller Fehlermeldungen stehen. Im Patent wird von mehr als 25 Prozent aller Fehlermeldungen gesprochen [36; empirische Befunde in 88-95].

Der Algorithmus, der nun den Verfall der Webseiten berechnet, geht ähnlich wie PageRank (siehe PageRank) von einem „Random-Surfer-Modell“ aus. Mit einer gewissen Wahrscheinlichkeit findet der Surfer auf der momentan aufgerufenen Seite das, was er sucht und bricht deshalb die Suche ab. Wenn er aber nicht das Gewünschte findet, klickt er auf einen Link auf dieser Seite. Dies setzt sich so lange fort, bis das Gewünschte gefunden wurde oder der Surfer auf einen toten Link klickt. Das Verfahren soll nun herausfinden, wie hoch die Wahrscheinlichkeit ist, dass der Surfer auf einem toten Link landet, wobei nach der Anzahl der Schritte, die von der Ausgangsseite aus getätigt wurden, differenziert wird. Je mehr Schritte ausgeführt wurden, desto geringer ist der Einfluss auf den Verfallswert der Ausgangsseite.

Dieses Modell wird natürlich formalisiert [71], für das Verständnis ist aber nur von Bedeutung, dass gemessen wird, wie hoch die Wahrscheinlichkeit ist, dass man auf einen toten Link gelangt, wenn man von sich von der Ausgangsseite aus den Links entlang hangelt. Es geht hier also um die OUT-Umgebung, auf die der Autor der Ausgangsseite direkten Einfluss hat: Zu dem Zeitpunkt, an dem er seinen Seite erstellt, dürfte er alle Links so auswählen, dass sie auf relevante und entsprechend gepflegte Seiten verweisen, die ihrerseits keine oder nur wenige tote Links enthalten. Pflegt der Autor aber seine Seite nicht (sondern löscht beispielsweise nur die direkt toten Links, wie sie ihm von seinem Link-Checker angezeigt werden), so werden mit hoher Wahrscheinlichkeit einige Links auf Seiten zeigen, die tote Links enthalten, ohne dass sie selbst tot wären. Sie werden schlicht nicht mehr gepflegt – und eine Seite, die auf ungepflegte Seiten verweist, kann selbst als ungepflegt gelten.

Im Patent wird der Unterschied zwischen der Zählung von toten Links und der Messung des Verfalls anhand eines Teils des Yahoo-Verzeichnisses gezeigt [97]: Die Seiten enthalten keine toten Links, da diese automatisch entfernt werden. Wird jedoch der Verfalls-Wert für die Seiten des Yahoo-Verzeichnisses gemessen, so unterscheidet sich dieser nicht von dem anderer. zufällig ausgewählter Seiten. Dies weist darauf hin, dass zwar nicht mehr vorhandene Seiten aus dem Yahoo-Verzeichnis entfernt werden, die noch vorhandenen Seiten aber nicht hinsichtlich ihrer Aktualität (und damit auch hinsichtlich ihrer noch vorhandenen Relevanz) überprüft werden.

Was kann man nun mit einer solchen Verfalls-Berechnung anfangen? Im Patent werden vier Möglichkeiten aufgezeigt [102-106]:

1. Webmaster können mit diesem Verfahren prüfen, ob die Seiten, auf die von ihrem Angebot aus verwiesen wird, noch relevant sind.
2. Suchmaschinen können den Verfallsfaktor im Ranking einsetzen. Hier ist an eine Ergänzung anderer Aktualitätsfaktoren zu denken (siehe auch Aktualitätsfaktoren im Ranking).
3. Der Verfallsfaktor kann mit darüber bestimmen, wie häufig eine Seite von Suchmaschinen-Crawlern besucht wird (ausführlich dazu siehe The Freshness of Web search engine databases (pdf)).
4. „Web-Soziologie“, z.B. Trenderkennung.

Comments (6)

Über diesen Blog

Noch ein Blog über Suchmaschinen? Gibt’s doch alles schon! Ja, aber…

Wer Nachrichten aus der Suchmaschinenwelt lesen will, ist mit dem Searchenginewatch-Blog gut bedient; als Ergänzung für den deutschsprachigen Bereich ist @-Web gut.

In diesem Blog sollen Ergebnisse der Suchmaschinen-Forschung dargestellt werden. Ich möchte damit ein bisschen dabei helfen, diese Ergebnisse verständlicher zu machen, allerdings ohne diese dabei zu verkürzen.

Und hier liegt meiner Meinung nach auch das Dilemma bisher: Entweder man liest die Original-Aufsätze (was aufwendig ist und nicht immer zur gewünschten Erkenntnis führt) oder man vertraut auf Blogs, Websites, usw. Dort werden die Forschungsergebnisse oft verkürzt (wenn nicht gar fehlerhaft) dargestellt und es fehlt eine fachkundige Einschätzung neuer Entwicklungen. Genau darum soll es nun in diesem Blog gehen: Kommentare und Einschätzungen.

Zu einem Teil wird es dabei natürlich auch um meine eigenen Forschungen gehen, der Großteil soll sich aber mit dem beschäftigen, was mich so im Rahmen der Forschung beschäftigt. Erwarten darf man hier also vor allem Zusammenfassungen von Aufsätzen, Patenten und fundierte Buchempfehlungen.

Comments off

Next entries »