Gruppen

Top Gruppen: Windows 7; Windows Vista; Windows XP; Textverarbeitung; Excel; DSL; Internet Browser; E-Mail/Outlook
Betriebsysteme: Windows classik; Linux; BS-Sonstige
Software: Datenbanken; Bildbearbeitung; Audio/mp3/Video; Security/Viren; SW-Sonstige
Hardware: Mainboard/CPU; Grafikkarten; Peripherie; Laptop/Notebook; HW-Sonstiges
Netzwerk: Telefon,ISDN,Modem; W-Lan; NW-Sonstiges
Programmierung: PHP,ASP,Perl...; Java,C++...; Webseiten/HTML
Sonstiges: PC-Sonstiges; Plauderecke; SN Intern; Test

/ Forum / Webseiten/HTML

Webseiten/HTML

Fragevon Björn vom 17.01.2019, 11:06 Options

Wie kommt es dass Google Links in nichtöffentliche Homepagebereiche kennt bzw sogar die Zielseiten speichert?

Hi!

Beim Suchen mit Google ist es mir schon öfter passiert, dass ich Trefferlinks zu Internetforen bekommen habe, denen ich nicht folgen konnte, weil dann eine Fehlermeldung nach der Art "Sie müssen angemeldet sein um diese Seite sehen zu können" kam. An dem kleinen Textauszug mit den fettgedruckten, gefundenen Suchbegriffen, den Google zu jeder Seite anzeigt, ist aber ersehbar, dass Google den Originalthread sehen konnte. Oftmals kann man sich den sogar über die Google-Cachefunktion anzeigen lassen.
Wie kann das den sein, dass Google in derartige geschützte Bereiche hineinkommt und ein Normaluser nicht?

Gruss,
Björn

Antwort schreiben

Antwort 1 von conny77 vom 17.01.2019, 11:44 Options

Vielleicht weil der Forenwebmaster es so eingestellt hat, dass der Google-Bot Zugang zu bestimmten Foren hat. Ziel: Neue Interessenten finden, die sich dann anmelden und dabei ihre E-Mail-Adresse hinterlassen.

Antwort 2 von Björn vom 17.01.2019, 18:21 Options

Zitat:
.. es so eingestellt hat..

Hm, aber wie kann die technische Realisierung dann aussehen?

Gruss,
Björn

Antwort 3 von drago vom 17.01.2019, 20:51 Options

.htaccess !

Mit Einträgen in dieser Datei macht man das.
(Apache Server vorausgesetzt)

Antwort 4 von Björn vom 17.01.2019, 22:54 Options

Zitat:
.htaccess !

Aber wie funktioniert die Erkennung?

Gruss,
Björn

Antwort 5 von S1lv3R vom 20.01.2019, 00:15 Options

Der Google-Bot identifiziert sich über den Useragent "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
der kann mittels %{HTTP_USER_AGENT} in der .htaccess ausgelesen und dann mittels mod_rewrite an eine alternative Url weitergeleitet werden, wahrscheinlich wird dem Bot nun automatisch eine SessionID zugewiesen, die an seine IP gebunden ist, der Besucher der dem Link aus den SERPs folgt hat natürlich eine andere IP und wird aufgefordert sich einzuloggen bzw. sich zu registrieren.
Das wäre jedenfalls eine Möglichkeit so etwas zu realisieren.
Wenn du das konkret einbauen willst musste sonst hier nochmal nachfragen.
Grüße,
S1lv3R

Antwort 6 von Björn vom 20.01.2019, 00:33 Options

Bist Du sicher, dass es nur der UserAgent ist? Wäre ja leicht zu faken!

Zitat:
Wenn du das konkret einbauen willst musste sonst hier nochmal nachfragen.

Nein ich frage nur aus Neugierde.

Gruss,
Björn

Antwort 7 von Supermax vom 20.01.2019, 09:05 Options

Google und andere Suchmaschinen greifen meistens von statischen und mittlerweile wohlbekannten IP-Adressen aus zu; man kann also zusätzlich zur Überprüfung des User-Agents auch die IP-Adresse überprüfen, von der aus die Anfrage kommt.

Antwort 8 von S1lv3R vom 21.01.2019, 00:34 Options

Habe nur die Vorgehensweise beschrieben die ich mal in einem Script für ein phpBB in diesem Zusammenhang gesehn habe. ;)

Klar kann man das fälschen, aber wer sollte das tun?
Außerdem wäre der Zweck ja trotzdem erfüllt, die Seite wird durch Google gecrawlt, der Besucher kommt durch die SERPs muss sich aber trotzdem anmelden.

Gibt wohl kaum einen User, der durch das System durchcheckt und es erfolgreich umgeht, nur um sich nicht registrieren zu müssen. ;)

Selbstverständlich könnte man auch die IP verwenden, aber aufwändiger ist das allemal.
1. Gibt es mehrere IPs aber nur einen Useragent.
2. Können sich die IPs im Zweifelsfalle ändern der Useragent bleibt aber immer gleich.

Frage mich am Rande aber auch wie das in diesem Falle mit den Google Richtlinien steht, Grundsatz ist ja eigentlich, dass dem Bot kein Content geboten werden soll den der Nutzer nicht sehen kann, ist die Frage inwieweit, dass bei einer erforderlichen Registrierung der Fall ist. Naja in solchen Fällen kann man eh nur spekulieren, von Google erhält man jedenfalls keine konkreten Hinweise.

Hinweis

Diese Frage ist schon etwas älter, Sie können daher nicht mehr auf sie antworten. Sollte Ihre Frage noch nicht gelöst sein, stellen Sie einfach eine neue Frage im Forum..