online 1
gast (50)

/ Forum / Webseiten/HTML

Webseiten/HTMLWebseiten/HTML

Fragevon J32 vom 22.03.2021, 08:42 Options

fragen zu htacces - hilfe beim blocken von crawlern

Hallo,

seit einiger Zeit besucht mich ein crawler mit dem Namen radian6. Laut www.radian6.com/crawler hält sich der crawler an die robots.txt. Weit gefehlt die robots.txt wird ignoriert. Die Angaben das lediglich rss feeds gefetched werden ist ebenfalls falsch da radian6 noch nie meine rss gecrawlet hat dafür aber umso mehr meine einzelnen pages. Bei 30 bis 50 besuchen pro Tag geht mir da zuviel Traffic drauf. Da dieses Problem auch andere zu haben scheinen, habe ich einige Lösungen gefunden um radian per htaccess zu blocken.

Lösung 1

order allow,deny
deny from 142.166.0.0/16
deny from 207.179.0.0/16
allow from all


Hierzu habe ich eine Frage. Was bedeutet die /16 in dieser Lösung?
Da der Crawler von beiden Adressbereichen zu kommen scheint mag es sinnvoll sein den gesamten Bereich zu blockieren. Ich möchte jedoch nicht harmlose User/Besucher von meiner Webseite ausperren.

Lösung 2

RewriteCond %{HTTP_USER_AGENT} ^R6_
RewriteRule .* - [F]

Laut Autor dieser Lösung wird hier wohl der User Agent der mit R6_ startet auf eine error seite geleitet.

Da Radian scheinbar sehr hartnäckig ist, gab es user die beim blocken des UserAgents später besuch von radian6 unter einer anderen Signatur erhalten haben.

Zu welcher Lösung würdet ihr mir in dieser Situation raten. Ich persönlich habe keinen Plan. Und wie oben erwähnt wäre es nett wenn mir jemand erklären könnte was das /16 hinter der IP von Lösung 1 bedeutet.

Für eure Zeit bedanke ich mich schonmal

Gruß

J32


Antwort schreiben

Antwort 1 von Supermax vom 22.03.2021, 09:30 Options

Die /16 ist eine Kurzform für die Netzmaske 255.255.0.0; im Klartext heißt das, das nur die ersten 16 Bit (= die ersten beiden Zahlen) der angegeben IP-Adresse mit der Adresse des aufrufenden Clients verglichen werden, sprich es ist egal was die letzten beiden Zahlen für einen Wert haben.

Wenn der Crawler immer aus einem fixen Adressbereich kommt, und nicht z.B. aus dem Adresspool eines Providers, ist Methode 1 sicherlich die zuverlässigere, da Crawler und "Harvester" sich auch gerne als Internet Explorer oder ein anderer Browser ausgeben.

Methode 2 kann zusätzlich eingesetzt werden, man kann ja unter RewriteCond auch mehrere Bedingungen angeben mit dem Modifikator [OR] am Ende jeder RewriteCond-Zeile, das bewirkt daß die Bedingungen logisch ODER statt wie standardmäßig logisch UND verknüpft werden. Statt der ODER-Verknüpfung kann man auch den regulären Ausdruck so formulieren, daß er bei allen möglichen unerwünschten User-Agent-Zeichenketten einen Treffer liefert.

Antwort 2 von J32 vom 22.03.2021, 10:34 Options

vielen dank für deine Antwort, die hat mir schon ein gutes Stück geholfen. Ich werde wohl erstmal auf Lösung 2 zurückgreifen und sehen wie weit mich das bringt. Wenn das fehlschlägt werde ich wohl oder übel die IP's blockieren.

Ähnliche Themen

Referrer blocken
Mich  10.12.2007 - 87 Hits - 2 Antworten

Fragen zu mit CMS erstellter Website
Mikoop  02.02.2008 - 23 Hits - 17 Antworten

Suchmaschinenoptimierung, 2 Fragen
Benny_Aua  03.02.2009 - 105 Hits - 8 Antworten

Webseitenlogo über hosts Datei blocken
Joerg1985  12.02.2009 - 150 Hits - 3 Antworten

Hinweis

Diese Frage ist schon etwas älter, Sie können daher nicht mehr auf sie antworten. Sollte Ihre Frage noch nicht gelöst sein, stellen Sie einfach eine neue Frage im Forum..

Neue Einträge

Version: supportware 1.9.150 / 10.06.2022, Startzeit:Mon Jan 26 01:23:17 2026