Gruppen

Top Gruppen: Windows 7; Windows Vista; Windows XP; Textverarbeitung; Excel; DSL; Internet Browser; E-Mail/Outlook
Betriebsysteme: Windows classik; Linux; BS-Sonstige
Software: Datenbanken; Bildbearbeitung; Audio/mp3/Video; Security/Viren; SW-Sonstige
Hardware: Mainboard/CPU; Grafikkarten; Peripherie; Laptop/Notebook; HW-Sonstiges
Netzwerk: Telefon,ISDN,Modem; W-Lan; NW-Sonstiges
Programmierung: PHP,ASP,Perl...; Java,C++...; Webseiten/HTML
Sonstiges: PC-Sonstiges; Plauderecke; SN Intern; Test

/ Forum / Webseiten/HTML

Webseiten/HTML

Fragevon J32 vom 22.03.2021, 08:42 Options

fragen zu htacces - hilfe beim blocken von crawlern

Hallo,

seit einiger Zeit besucht mich ein crawler mit dem Namen radian6. Laut www.radian6.com/crawler hält sich der crawler an die robots.txt. Weit gefehlt die robots.txt wird ignoriert. Die Angaben das lediglich rss feeds gefetched werden ist ebenfalls falsch da radian6 noch nie meine rss gecrawlet hat dafür aber umso mehr meine einzelnen pages. Bei 30 bis 50 besuchen pro Tag geht mir da zuviel Traffic drauf. Da dieses Problem auch andere zu haben scheinen, habe ich einige Lösungen gefunden um radian per htaccess zu blocken.

Lösung 1


order allow,deny
deny from 142.166.0.0/16
deny from 207.179.0.0/16
allow from all

Hierzu habe ich eine Frage. Was bedeutet die /16 in dieser Lösung?
Da der Crawler von beiden Adressbereichen zu kommen scheint mag es sinnvoll sein den gesamten Bereich zu blockieren. Ich möchte jedoch nicht harmlose User/Besucher von meiner Webseite ausperren.

Lösung 2


RewriteCond %{HTTP_USER_AGENT} ^R6_
RewriteRule .* - [F]

Laut Autor dieser Lösung wird hier wohl der User Agent der mit R6_ startet auf eine error seite geleitet.

Da Radian scheinbar sehr hartnäckig ist, gab es user die beim blocken des UserAgents später besuch von radian6 unter einer anderen Signatur erhalten haben.

Zu welcher Lösung würdet ihr mir in dieser Situation raten. Ich persönlich habe keinen Plan. Und wie oben erwähnt wäre es nett wenn mir jemand erklären könnte was das /16 hinter der IP von Lösung 1 bedeutet.

Für eure Zeit bedanke ich mich schonmal

Gruß

J32

Antwort schreiben

Antwort 1 von Supermax vom 22.03.2021, 09:30 Options

Die /16 ist eine Kurzform für die Netzmaske 255.255.0.0; im Klartext heißt das, das nur die ersten 16 Bit (= die ersten beiden Zahlen) der angegeben IP-Adresse mit der Adresse des aufrufenden Clients verglichen werden, sprich es ist egal was die letzten beiden Zahlen für einen Wert haben.

Wenn der Crawler immer aus einem fixen Adressbereich kommt, und nicht z.B. aus dem Adresspool eines Providers, ist Methode 1 sicherlich die zuverlässigere, da Crawler und "Harvester" sich auch gerne als Internet Explorer oder ein anderer Browser ausgeben.

Methode 2 kann zusätzlich eingesetzt werden, man kann ja unter RewriteCond auch mehrere Bedingungen angeben mit dem Modifikator [OR] am Ende jeder RewriteCond-Zeile, das bewirkt daß die Bedingungen logisch ODER statt wie standardmäßig logisch UND verknüpft werden. Statt der ODER-Verknüpfung kann man auch den regulären Ausdruck so formulieren, daß er bei allen möglichen unerwünschten User-Agent-Zeichenketten einen Treffer liefert.

Antwort 2 von J32 vom 22.03.2021, 10:34 Options

vielen dank für deine Antwort, die hat mir schon ein gutes Stück geholfen. Ich werde wohl erstmal auf Lösung 2 zurückgreifen und sehen wie weit mich das bringt. Wenn das fehlschlägt werde ich wohl oder übel die IP's blockieren.

Hinweis

Diese Frage ist schon etwas älter, Sie können daher nicht mehr auf sie antworten. Sollte Ihre Frage noch nicht gelöst sein, stellen Sie einfach eine neue Frage im Forum..

Neue Einträge

Tipp einschicken

News einschicken