Gibt es einen Weg aus dem Hijacking
Jeder halbwegs erfahrene oder belesene SEO kennt den Rotz, der sich hijacking (302 Redirect) nennt. Wer da erst einmal reingedappt ist, kommt schlichtweg einfach auch nicht mehr daraus und muss mit Arschkriechereien beim Inhaber der hijacking-verursachenden Page versuchen, die Seite wieder freizubekommen, sprich die betroffene Seite aus seinem Datenbestand zu entfernen.
Was aber, wenn der Inhaber der fremden Seite nicht erreichbar ist? Oder ein Arschloch? Und wenn auch keine höhere Instanz wie Suchmaschine, NIC, Gott etc. helfen möchte, diesen Umstand zu ändern?
Es gibt im Netz einige Beschreibungen, wie man dem 302er entkommen kann. Die meisten quatschen davon, die eigene Site durch zusätzliche Liks ein bisschen aufzupeppeln oder einfach den selben Käse machen und fleißig hijacken. Vielleicht funktioniert der Unsinn ja, aber das ist schlichtweg zu aufwendig und zu viel des Guten.
Also ich selbst bin / war von Hijacking noch nie betroffen, weil ich einfach unheimlich super fantastisch genial bin, und um meine unendliche Brillianz zu toppen, bin ich über das Thema natürlich perfekt im Bilde, um selbst verhüten zu können. Und dann geschah es! In einem Threat schien jemand (muss mit mir verwandt sein) ein Stück Code gepostet zu haben, das Geschichte schreiben wird. Betitelt ist das gute Stück mit dem Namen “Anti-Hijacking Code”
Der Ansatz ist tatsächlich nicht von schlechten Eltern und das Ding könnte sogar funktionieren, obwohl es nicht von mir ist. Allerdings gibts in diesem Threat auch ein paar User, die halt nicht alles sofort wissen, und bei denen es teils schwierig mit der Kommunikation ist. Aufgrund dieser kleinen Hindernisse muss ich mal wieder selbst ran, und einige Tests durchführen. Genug mit dem Gelaber, hier kommt das Wesentliche!
Die Idee ist, dem Bot einfach einen anderen Statuscode mitzuteilen, als der momentan gespeicherte. Im Untrübtext- wenn wir einfach mal annehmen, dass die Seite schon per 302 gehijacked wurde - kommt der Bot auf die Seite und, Dank seines super Orientierungssinn (per 302 weitergeleitet…), weiß er auch, wo er ist. Super Teil… das war aber noch nicht alles. Wir sagen dem Bot nun, dass er sich eine andere Seite anschauen soll und teilen ihm das über einen 301 Redirect mit! Fantastisch. Das ist die Grundidee.
Funktionieren könnte das, da jede Clientsoftware ob Browser, Bot, Skriptlösungen, die ich kenne, meistens über einen Parameter verfügen, mit dem man festlegen kann wieviel Weiterleitungen er folgen soll. Ausgegeben als Statuscode, wird dann der zuletzt übermittelte Statuscode. Ich kann mir also gut vorstellen, dass auch der Googlebot diesen Regeln folgt. Würde dieser Penner das nicht tun, würde es wahrscheinlich auch kein Hijacking geben.
So nun ist das Problem aber, dass wir ihm eine andere Seite nennen, oder die URL um Parameter erweitern müssen. Und damit entsteht das Problem, das es für den Bot so aussieht, als sei es eine ganz neue Seite, die er besucht. Und wenn dann im Ergebnis tatsächlich ein Unterschied in der URL bleibt, dann steigt die Bedrohung durch den berühmt berüchtigten doppelten Content.
Also muss ein Weg her, wie man das Umschreiben der URL umgeht, bzw. den doppelten Content vermeidet.
Zu schade, dass ich dort selbst im Moment zu doof für bin, was eine unheimlich ausnahmige Ausnahme ist. Herausgefunden gehört außerdem noch, wie Freund Google konkret auf die verschiedenen Möglichkeiten reagiert. Und mit diesem Wissen können dann auch wieder neue Überlegungen starten.
So, hier nun die Beschreibung der einzelnen Tests. Ich taufte mein Baby auf den Namen den 302prohibed Test.
Viel Spaß beim Lesen und Beobachten. Kommentare, Anregungen und Kritik könnt ihr euch sparen, weil eh alles perfekt ist. Sollte es doch Genies geben, die etwas zu bemängeln haben, dann bitte.
Grüße vom sehr, sehr großen heißen Etwas!
HaPe
Nachtrag:
05.10.2006 05:51 Uhr
Während ich hier die Logs beobachte, kam mir der Gedanke, dass es doch interessant wäre, wenn man wüsste, wie weit der Bot den die Redirects verfolgt. Deshalb habe ich die Versuchsreihe noch um 2 Tests erweitert.
Log:
05/Oct/2006:00:25:39 “GET /tests/302prohibed/302prohibed.php HTTP/1.1″ 200 2127
05/Oct/2006:04:47:17 “GET /tests/302prohibed/startseite.php HTTP/1.1″ 301 1796
05/Oct/2006:04:47:21 “GET /tests/302prohibed/umleitung.php HTTP/1.1″ 200 1322
05/Oct/2006:04:59:53 “GET /tests/302prohibed/startseite_05.php HTTP/1.1″ 301 1988
05/Oct/2006:04:59:54 “GET /tests/302prohibed/startseite_05.php?x302prohibed=1 HTTP/1.1″ 200 1988
05/Oct/2006:05:16:22 “GET /tests/302prohibed/startseite_03.php HTTP/1.1″ 301 2412
05/Oct/2006:05:16:26 “GET /tests/302prohibed/umleitung_03.php HTTP/1.1″ 200 3492
05/Oct/2006:05:31:26 “GET /tests/302prohibed/startseite_02.php HTTP/1.1″ 301 1423
05/Oct/2006:05:31:26 “GET /tests/302prohibed/umleitung_02.php HTTP/1.1″ 200 1322
05/Oct/2006:05:46:36 “GET /tests/302prohibed/startseite_04.php HTTP/1.1″ 301 1336
05/Oct/2006:05:46:37 “GET /tests/302prohibed/startseite_04.php?x302prohibed=1 HTTP/1.1″ 200 1336
Anmerkung:
05.10.2006 05:51 Uhr:
Wie zu erwarten war, wurde kein POST vom Bot ausgeführt. Auch wurde nach der umleitung.php nicht noch einmal die startseite.php aufgerufen. Ebensowenig wurde auch die extra Zieldatei nicht aufgerufen.
Dass nur Google in den Logfiles auftaucht ist Zufall. Yahoo, MSN oder sonst ein anderer Bot hat die Seiten noch nicht abgerufen.
