Samstag, 16. Februar 2008

Angriff der Roboter

Böse Bots - Datendiebe und Zumüller

Im WWW herrscht täglich Krieg. Webseitenbetreiber werden mit Bots geradezu überfallen und Teile der Website im Sekundentakt entführt oder für andere unerwünschte Zwecke missbraucht (z.B. Link Spam).
Dieses Zitat stammt von bot-trap.de, einer Selbsthilfegruppe von Webmastern, die gemeinsame schwarze Listen führen, um unerwünschte Gäste auszusperren. Bei diesen handelt es sich um Bots, womit maschinelle Surfer gemeint sind, also spezielle Programme, im Gegensatz zu menschlichen Teilnehmern.

Während ein menschlicher Vandale, dank begrenzter Zeit und Energie, sich nur auf wenigen Webseiten pro Tag durch den Diebstahl von Informationen oder unsachliche Kommentare unbeliebt machen kann, schaffen Klaubots und Müllbots dies rund um die Uhr, auf zig millionen Webangeboten und stellen damit ein ernstes Problem für die Betreiber dar. Wenn gestohlene Inhalte woanders angeboten werden, könnten z.B. Nutzer der Werbung auf der Webseite entzogen werden, wodurch deren Finanzierung und letztendlich Betrieb gefährdet wird. Datenmüll, wie unerwünschte Werbung oder Schlimmeres, vergrault auch Nutzer und kann ein Webangebot unbrauchbar machen.

Gute Bots - Sucher und Mixer

Neben den bösen Bots gibt es auch gute Bots, z.B. die Bots der Suchmaschinenbetreiber, wie den Googlebot, der unermüdlich mit dabei ist, eine Kopie des Webs auf Googles Serverfarmen anzufertigen, damit auf diesen nach Inhalten gesucht werden kann.

Diese possierlichen Kerlchen sind Nützlinge im Ökosystem des Netzes. Sie werden von den Betreibern dringend gebraucht, um Nutzer anzuziehen.

Vom Umgang mit Webangeboten

Typisch an bösen Bots ist, das sie sich nicht gut benehmen.

Umgangsformen sind Formen und Muster zwischenmenschlicher Interaktion. Von der Gesellschaft werden solche Verhaltensformen entweder negativ als derb, roh, ungehobelt oder unhöflich oder positiv als gut erzogen, höflich, kultiviert oder edel bewertet. (..)

Als gute Umgangsformen (..) bezeichnet man diejenigen Verhaltensweisen und -regeln, die dazu dienen sollen, das menschliche Zusammenleben möglichst reibungslos und angenehm zu machen. (..)

Zwar ist heute umstritten, ob, in welchem Maße und auf welche Weise fest vorgegebene Regeln den menschlichen Umgang bestimmen sollten, doch bedarf jedes respektvolle und würdige Miteinander von Menschen eines Mindestmaßes an einvernehmlicher Regelung. Als Grundprinzip eines solchen Umgangs wird gemeinhin die so genannte Goldene Regel angesehen.

Was du nicht willst, dass man dir tu', das füg' auch keinem andern zu.
Mindeststandard für einen wohlerzogenen Bot ist seine Anerkennung der robots.txt Datei einer Website. In dieser Datei legt ein Betreiber fest, welche Bereiche seines Angebotes ein Bot betreten darf oder nicht. Ein braver Bot hält sich daran.

Wo Bots im Web unerwünscht sind

Ein Beispiel für einen Bereich, der nur von einem Menschen betreten werden soll, ist z.B. die Seite mit dem Impressum. Laut deutschem Gesetz soll hier ein Mensch das Recht haben, mehr über den Betreiber des Webangebots zu erfahren, gleichzeitig möchte dieser, wenn es z.B. ein privates Angebot ist, das seine Adresse und Telefonnummer nicht unnötig im Internet verbreitet werden, indem sie als Ergebnis einer Suche erscheinen, so das Bots dort unerwünscht sind.

Der Blick in die robots.txt eines Buchhändlers liefert ein weiteres Beispiel für den sinnvollen Ausschluss von Bots:
# Disallow all crawlers access to certain pages.

User-agent: *
Disallow: /exec/obidos/account-access-login
Disallow: /exec/obidos/change-style
Disallow: /exec/obidos/flex-sign-in
Disallow: /exec/obidos/handle-buy-box
Disallow: /exec/obidos/tg/cm/member
Disallow: /exec/obidos/refer-a-friend-login
Disallow: /exec/obidos/subst/partners/friends/access.html
Disallow: /exec/obidos/subst/marketplace/sell-your-stuff.html
Disallow: /exec/obidos/subst/marketplace/sell-your-collection.html
Disallow: /exec/obidos/subst/gifts/gift-certificates
Disallow: /exec/obidos/subst/associates/join
Disallow: /gp/cart
Disallow: /gp/flex
Disallow: /gp/sign-in
Disallow: /gp/slides/make-money
Die hier genannten Bereiche sind zwar auch für maschinelle Nutzer gedacht, aber für Spezialisten, die auf ganz bestimmte Art und Weise auf diese Bereich zugreifen, um Daten mit den Anbieter auszutauschen. Da würden die Zugriffe eines Suchmaschinenbots nur Verwirrung im System auslösen.

Abwehrkampf gegen die Bothorden

Das es viele Hools unter den Bots gibt, zeigt z.B. der Blick in die robots.txt des F!XMBR Blogs. Dort werden Dutzende von ihnen als unerwünscht erklärt:
Blogcensus, WX_mail/2.000, Xenu's Link Sleuth, Xenu's Link Sleuth 1.1c, Xenu's, WhoWhere, Roverbot, ActiveAgent, EmailSiphon, Googlebot-Image, Slurp, Yahoo-MMCrawler, psbot, Fasterfox, ia_archiver, ia_archiver/1.6, Cegbfeieh, WWW-Collector-E, Black Hole, Titan, grub-client, grub, looksmart,
(..)
LinkScan/8.1a Unix, Keyword Density/0.9, Kenjin Spider, Iron33/1.0.2, Bookmark search tool, GetRight/4.2, FairAd Client, Gaisbot, Aqua_Products, Radiation Retriever 1.1, Flaming AttackBot, Oracle Ultra Search, MSIECrawler, PerMan, searchpreview
Ein Gruselkabinett.

Interessant ist auch ein Artikel, welcher ihren Wettkampf mit den Spammern beschreibt, gegen Datenmüll in den Kommentarbereichen des Blogs.

Die Bots crawlen die Artikel-URLs, hängen bekannte Formen der Trackback-Permalinkstruktur an und dann heißt es Feuer frei. Entschuldigt diesen bildlichen Ausdruck, aber nichts anderes heißt es. Sind diese Bots erstmal losgelassen, und haben uns entdeckt, herrscht keine Ruhe mehr - Thunderbird (oder ein anderer eMail-Client) meldet im Minuten-Takt, oder wie oft man die Mails auch abruft, neue Kommentare zum Freischalten.
Schon übel.

Waffenhändler im Krieg um die Daten im Netz

Viele böse Bots sind noch simpel aufgebaut und viel zu spezifisch auf die Software eines Webangebotes zugeschnitten, wie im oben genannten Fall die Blog Software Wordpress. Sie lassen sich durch einfache Variation (Umbennung einer URL, anderer Port etc.) wieder loswerden. Aber es gibt natürlich erheblich fortgeschrittenere Bots.

Beeindruckt hat mich diese Woche Kapow Technologies, die sowas wie Bot Fabriken anbieten, nämlich mächtige Bibliotheken, Werkzeuge und Server, mit denen man Bots zum Einsammeln von Daten aus dem Internet bauen kann. Um die Anzahl an Entwicklern zu steigern, bieten sie die Technologie auch als Open Source Projekt unter dem Namen openkapow an. Letztlich sind sie Waffenhändler im Krieg um die Daten.

Schaut man sich einmal die Kundenliste an, so sieht man neben grossen Unternehmen auch Behörden, wie das Department of Homeland Security, welches für die amerikanische Terrorabwehr mit zuständig ist, die US Army und Navy.

Nochmal gute Bots: Mashups

Eine sinnvolle Anwendung ist sicherlich das Mashup (die gute alte Collage, der Remix) von existierenden Informationen des Webs zu neuen Webanwendungen.
Neu ist die Idee nicht, nur das es heute leichter ist, sogar das Design mit zu übernehmen und das vermehrt von den Anbietern Schnittstellen für die maschinelle Verarbeitung bereitgestellt werden.

Einen Eindruck, was mit den Kapow Mitteln möglich ist, liefert die openkapow Robotliste.

Nochmal böse Bots: Web crawler, scraper, harvester

Auf der fragwürdigen Seite stehen, wie anfangs bereits erwähnt, Datensammelbots, die ohne Zustimmung der Betreiber von den Webangeboten Daten absaugen oder einspielen. Die Kapow Technologien werden auch für diesen Zweck eingesetzt, wobei möglicherweise nicht nur die Geschäftsmodelle der Webangebote unterlaufen werden, sondern auch gegen Urheberrechtgesetze verstossen wird.

Wie merkt eine Maschine, ob sie es mit einem Menschen zu tun hat, oder nicht?

Die eingesetzten Techniken sind eher zweifelhafter Natur. Letztlich soll der Reverse Turing test unterlaufen werden, nämlich maschinell zu erkennen, ob man es mit einer Maschine oder einem Menschen zu tun hat. Um dies zu ereichen simuliert Kapow die Browsernutzung eines menschlichen Nutzers, einschliesslich zeitlichem Verhalten, denn wenn die Abfragen zu schnell oder zu regelmässig kommen, ist es meist wohl eine Maschine.

Also versuchen die Betreiber der Maschine Aufgaben zu stellen, die zur Zeit eigentlich nur ein Mensch erledigen kann, wie z.B. die visuelle Erkennung von Mustern oder Gegenständen. Man sollte denken, dass dies den Bots den Garaus macht, tatsächlich nervt man auch die menschlichen Nutzer damit, so dass man diese Form der Botabwehr nicht beliebig oft einsetzen kann, ohne die regulären Nutzer zu vergraulen. D.h. es wird eine gewisse Lücke offen bleiben, welche die Bots nutzen können.

Zudem haben die Botbetreiber noch die Option, die Aufgaben an andere Menschen zur Lösung umzuleiten, z.B. an günstige Arbeiter in Asien oder an Besucher von Seiten, wo es irgendwas interessantes umsonst gibt.

Wo soll das alles enden?

Interessanterweise wollen die Visionäre des Webs ja genau dahin, dass die Angebote ausführlich beschriebene maschinelle Schnittstellen haben. Webservices statt Webseiten. Blöderweise setzt dies das bisherige dominierende Finanzierungsmodell durch Werbung unter Druck. Eine mögliche Lösung wären Kleinzahlungen für die Nutzung dieser Webservices, so dass z.B. der Werbeerlös des Mashups mit dem Datenlieferanten fair geteilt wird, oder man schlicht für Angebote ohne Werbung als Nutzer selber zahlt.

Bemerkenswert, dass Bottechnologien das Netz verstärkt in diese Richtung treiben könnten. Oder jemand findet noch wirksamere Abwehrtechnologien, was auch nicht überraschen würde. Bisher ging das Wettrüsten immer wieder in eine neue Runde.

Es bleibt spannend.

2 Kommentare:

hr hat gesagt…
Dieser Kommentar wurde vom Autor entfernt.
hr hat gesagt…

vielen dank für diesen sehr informativen artikel den ich vor ca. einem halben jahr gelesen habe und der für mich eigentlich mit der einstieg in das thema robots.txt und webcrawler war.

ich habe ihren artikel
in einem kleinen aber sehr unterhaltsamen verzeichnis auf wordpress und hier auf blogger verlinkt.

(sorry comment vorher wieder gelöscht weil ich zu spät begriffen habe daß ich html schreiben muß, einige blogs verlangen in den comments kein html für links, auch das target blank akzeptierter nicht, )

momentan plane ich (falls mir kein burnout oder kaffee/zigaretten/bier-induzierte reversible multiinfarkt-codemenz dazwischenkommt oder sonstwas) einen weiteren artikel zu seo (nachdem ich vor ein paar monaten eine glosse darüber geschrieben habe), muß aber vorher noch gründlicher zu algorithmen von pageranks und häufigkeiten recherchieren um rauszufinden wie sich bisher stark vernachlässigte tendenzen verstärkt in der multimedialen öffentlichkeit verstärken lassen.