Wie kommt es dass Google Links in nichtöffentliche Homepagebereiche kennt bzw sogar die Zielseiten speichert?
Hi!
Beim Suchen mit Google ist es mir schon öfter passiert, dass ich Trefferlinks zu Internetforen bekommen habe, denen ich nicht folgen konnte, weil dann eine Fehlermeldung nach der Art "Sie müssen angemeldet sein um diese Seite sehen zu können" kam. An dem kleinen Textauszug mit den fettgedruckten, gefundenen Suchbegriffen, den Google zu jeder Seite anzeigt, ist aber ersehbar, dass Google den Originalthread sehen konnte. Oftmals kann man sich den sogar über die Google-Cachefunktion anzeigen lassen.
Wie kann das den sein, dass Google in derartige geschützte Bereiche hineinkommt und ein Normaluser nicht?
Gruss,
Björn
Antwort schreiben
Antwort 1 von conny77 vom 17.01.2019, 11:44 Options
Vielleicht weil der Forenwebmaster es so eingestellt hat, dass der Google-Bot Zugang zu bestimmten Foren hat. Ziel: Neue Interessenten finden, die sich dann anmelden und dabei ihre E-Mail-Adresse hinterlassen.
Antwort 2 von Björn vom 17.01.2019, 18:21 Options
Zitat:
.. es so eingestellt hat..
Hm, aber wie kann die technische Realisierung dann aussehen?
Gruss,
Björn
Antwort 3 von drago vom 17.01.2019, 20:51 Options
.htaccess !
Mit Einträgen in dieser Datei macht man das.
(Apache Server vorausgesetzt)
Antwort 4 von Björn vom 17.01.2019, 22:54 Options
Zitat:
.htaccess !
Aber wie funktioniert die Erkennung?
Gruss,
Björn
Antwort 5 von S1lv3R vom 20.01.2019, 00:15 Options
Der Google-Bot identifiziert sich über den Useragent "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
der kann mittels %{HTTP_USER_AGENT} in der .htaccess ausgelesen und dann mittels mod_rewrite an eine alternative Url weitergeleitet werden, wahrscheinlich wird dem Bot nun automatisch eine SessionID zugewiesen, die an seine IP gebunden ist, der Besucher der dem Link aus den SERPs folgt hat natürlich eine andere IP und wird aufgefordert sich einzuloggen bzw. sich zu registrieren.
Das wäre jedenfalls eine Möglichkeit so etwas zu realisieren.
Wenn du das konkret einbauen willst musste sonst hier nochmal nachfragen.
Grüße,
S1lv3R
Antwort 6 von Björn vom 20.01.2019, 00:33 Options
Bist Du sicher, dass es nur der UserAgent ist? Wäre ja leicht zu faken!
Zitat:
Wenn du das konkret einbauen willst musste sonst hier nochmal nachfragen.
Nein ich frage nur aus Neugierde.
Gruss,
Björn
Antwort 7 von Supermax vom 20.01.2019, 09:05 Options
Google und andere Suchmaschinen greifen meistens von statischen und mittlerweile wohlbekannten IP-Adressen aus zu; man kann also zusätzlich zur Überprüfung des User-Agents auch die IP-Adresse überprüfen, von der aus die Anfrage kommt.
Antwort 8 von S1lv3R vom 21.01.2019, 00:34 Options
Habe nur die Vorgehensweise beschrieben die ich mal in einem Script für ein phpBB in diesem Zusammenhang gesehn habe. ;)
Klar kann man das fälschen, aber wer sollte das tun?
Außerdem wäre der Zweck ja trotzdem erfüllt, die Seite wird durch Google gecrawlt, der Besucher kommt durch die SERPs muss sich aber trotzdem anmelden.
Gibt wohl kaum einen User, der durch das System durchcheckt und es erfolgreich umgeht, nur um sich nicht registrieren zu müssen. ;)
Selbstverständlich könnte man auch die IP verwenden, aber aufwändiger ist das allemal.
1. Gibt es mehrere IPs aber nur einen Useragent.
2. Können sich die IPs im Zweifelsfalle ändern der Useragent bleibt aber immer gleich.
Frage mich am Rande aber auch wie das in diesem Falle mit den Google Richtlinien steht, Grundsatz ist ja eigentlich, dass dem Bot kein Content geboten werden soll den der Nutzer nicht sehen kann, ist die Frage inwieweit, dass bei einer erforderlichen Registrierung der Fall ist. Naja in solchen Fällen kann man eh nur spekulieren, von Google erhält man jedenfalls keine konkreten Hinweise.