Bot Detection: Unterschied zwischen den Versionen

Aus Contao Community Documentation

K (Nutzung)
K (Nutzung)
Zeile 35: Zeile 35:
 
Die ersten beiden Methoden, BD_CheckBotAgent und BD_CheckBotIP, geben nur "true" oder "false" zurück und arbeiten mit internen Teilstrings zur Suche bzw. mit einer externen Datei zur Definition der IP Adressen /  Netze.<br /><br />
 
Die ersten beiden Methoden, BD_CheckBotAgent und BD_CheckBotIP, geben nur "true" oder "false" zurück und arbeiten mit internen Teilstrings zur Suche bzw. mit einer externen Datei zur Definition der IP Adressen /  Netze.<br /><br />
 
Eine dritte Methode BD_CheckBotAgentAdvanced kam in Version 1.0.2 hinzu, die über eine externe Konfigurationsdatei die Erkennung über User Agent durchführt und als Ergebnis den Kurznamen des Bots zurückgibt bzw. "false" wenn keine Erkennung erfolgte.
 
Eine dritte Methode BD_CheckBotAgentAdvanced kam in Version 1.0.2 hinzu, die über eine externe Konfigurationsdatei die Erkennung über User Agent durchführt und als Ergebnis den Kurznamen des Bots zurückgibt bzw. "false" wenn keine Erkennung erfolgte.
 +
 +
==Methode BD_CheckBotAgent==
 +
Die Methode "BD_CheckBotAgent" sucht in 2 Schritten, um möglichst schnell zu Ziel zu kommen.<br />
 +
Schritt 1 sucht nach Teilstrings die in den meisten Suchmaschinen / Bots im Namen auftauchen:<br />
 +
'bot'
 +
'spider'
 +
'spyder'
 +
'crawl'
 +
'slurp'
 +
'robo'
 +
'yahoo'
 +
 +
War Schritt 1 nicht erfolgreich sucht dann Schritt 2 nach weiteren Strings die meist der Name der Suchmaschine entsprechen, wie:<br />
 +
'altavista'
 +
'archiver'
 +
'inktomi'
 +
'twiceler'
 +
...
 +
 +
Als Ergebnis kommt "true" oder "false" zurück ("true" = Suchmaschine / Bot gefunden)
 +
 +
==Methode BD_CheckBotIP==
 +
Der Bot von Google oder der MSN-Suche bzw. von Bing sind manchmal verdeckt unterwegs, was verfälschte Statistiken zur Folge hat.<br />
 +
Um diese "Undercover" Suchmaschinen aufdecken zu können, muss über die IP-Adresse gefiltert werden.<br />
 +
Dazu dient die Methode "BD_CheckBotIP".<br />
 +
<br />
 +
Dazu gibt es eine Kofigurationsdatei im Verzeichnis config des Moduls: bot-ip-list.txt<br />
 +
Derzeitiger Inhalt kennt eine IP Adresse eines Spiders aus Israel sowie Netzadressen für Google und MSN/Bing.<br />
 +
<br />
 +
Eigene IP-Adressen bzw. Netze können in dieser Datei ebenfalls eingetragen werden, diese sind dann aber nicht updatesicher.
 +
Daher ist es besser diese, wie dort erwähnt, in der localconfig.php einzutragen wie folgt:<br />
 +
$GLOBALS['TL_BOTDETECTION']['BOT_IP'][] = '192.168.1.2';
 +
$GLOBALS['TL_BOTDETECTION']['BOT_IP'][] = '192.168.0.0/24';
 +
 +
==Methode BD_CheckBotAgentAdvanced==
 +
Die Methode "BD_CheckBotAgentAdvanced" wird von einer externen Konfigurationsdatei gesteuert zur Erkennnug der User Agents.
 +
Als Ergebnis folgt der Kurznamen des Bots bzw. "false", wenn keine Erkennung erfolgte.<br />
 +
<br />
 +
Die externe Konfigurationsdatei wird aus bekannten User Agent Angaben von Suchmaschinen / Bots generiert und regelmäßig erneuert.<br />
 +
<br />
 +
'''Hinweis'''<br />
 +
Diese externe DB unterscheidet auch zwischen den verschiedenen Arten von Suchmaschinen eines Herstellers.<br />
 +
D.h., es folgt nicht einfach die Rückgabe von beispielsweise "Google" sondern "Googlebot" oder "Googlebot-Image" oder "Googlebot-Mobile" usw. je nachdem was erkannt wurde.
 +
Diese mehrfachen Namen einer Suchmaschine gibt es auch bei anderen Herstellern wie MSN, Yahoo, um nur einige zu nennen.
  
 
=Demo Module=
 
=Demo Module=

Version vom 19. Juni 2010, 17:59 Uhr

No Bots!
Bot Detection dient als Hilfsklasse für andere Extensions (Frontend) die erkennen müssen, ob der Zugriff von Mensch oder Maschine erfolgt.


MsgError.png Unvollständiger Artikel: dieser Artikel ist noch nicht sauber bearbeitet.

Bitte erweitere ihn und entferne erst anschliessend diesen Hinweis.


Erweiterungs-Übersicht
Name des Entwicklers Glen Langer (BugBuster)
Entwickler Webseite http://www.contao.glen-langer.de
Version der Erweiterung 1.0.2
Kompatibilität mit Contao Version ab 2.9
Kompatibilität mit TYPOlight Version 2.8
Link zum Extension Repository http://www.contao.org/erweiterungsliste/view/botdetection.de.html
Den Entwickler unterstützen Cappuccino beim nächsten Stammtisch Treff

Forum

Fragen zum Bot Detection Modul werden im Forum beantwortet: Forum - Support für Extensions
Fehler und Wünsche können im Tracking System gemeldet werden.

Installation

Installation erfolgt über das Extension Repository im Backend der Contao Installation.
Eine manuelle Installation ist möglich, dazu die ZIP Datei vom Extension Repository laden, entpacken und entsprechend übertragen.
Dadurch ein Verzeichnis /system/modules/botdetection angelegt worden sein.
Danach wie dabei üblich /contao/install.php Aufrufen - Update Database durchführen.

Nutzung

Das Modul Bot Detection stellt 3 Methoden zur Erkennung bereit.
Eine sichere Erkennung gibt es dabei natürlich nicht.
Es wird über 2 Verfahren versucht dieses zu erkennen:

  • User Agent Kennung
  • IP Adresse

Die ersten beiden Methoden, BD_CheckBotAgent und BD_CheckBotIP, geben nur "true" oder "false" zurück und arbeiten mit internen Teilstrings zur Suche bzw. mit einer externen Datei zur Definition der IP Adressen / Netze.

Eine dritte Methode BD_CheckBotAgentAdvanced kam in Version 1.0.2 hinzu, die über eine externe Konfigurationsdatei die Erkennung über User Agent durchführt und als Ergebnis den Kurznamen des Bots zurückgibt bzw. "false" wenn keine Erkennung erfolgte.

Methode BD_CheckBotAgent

Die Methode "BD_CheckBotAgent" sucht in 2 Schritten, um möglichst schnell zu Ziel zu kommen.
Schritt 1 sucht nach Teilstrings die in den meisten Suchmaschinen / Bots im Namen auftauchen:

'bot'
'spider'
'spyder'
'crawl'
'slurp'
'robo'
'yahoo'

War Schritt 1 nicht erfolgreich sucht dann Schritt 2 nach weiteren Strings die meist der Name der Suchmaschine entsprechen, wie:

'altavista'
'archiver'
'inktomi'
'twiceler'
...

Als Ergebnis kommt "true" oder "false" zurück ("true" = Suchmaschine / Bot gefunden)

Methode BD_CheckBotIP

Der Bot von Google oder der MSN-Suche bzw. von Bing sind manchmal verdeckt unterwegs, was verfälschte Statistiken zur Folge hat.
Um diese "Undercover" Suchmaschinen aufdecken zu können, muss über die IP-Adresse gefiltert werden.
Dazu dient die Methode "BD_CheckBotIP".

Dazu gibt es eine Kofigurationsdatei im Verzeichnis config des Moduls: bot-ip-list.txt
Derzeitiger Inhalt kennt eine IP Adresse eines Spiders aus Israel sowie Netzadressen für Google und MSN/Bing.

Eigene IP-Adressen bzw. Netze können in dieser Datei ebenfalls eingetragen werden, diese sind dann aber nicht updatesicher. Daher ist es besser diese, wie dort erwähnt, in der localconfig.php einzutragen wie folgt:

$GLOBALS['TL_BOTDETECTION']['BOT_IP'][] = '192.168.1.2';
$GLOBALS['TL_BOTDETECTION']['BOT_IP'][] = '192.168.0.0/24';

Methode BD_CheckBotAgentAdvanced

Die Methode "BD_CheckBotAgentAdvanced" wird von einer externen Konfigurationsdatei gesteuert zur Erkennnug der User Agents. Als Ergebnis folgt der Kurznamen des Bots bzw. "false", wenn keine Erkennung erfolgte.

Die externe Konfigurationsdatei wird aus bekannten User Agent Angaben von Suchmaschinen / Bots generiert und regelmäßig erneuert.

Hinweis
Diese externe DB unterscheidet auch zwischen den verschiedenen Arten von Suchmaschinen eines Herstellers.
D.h., es folgt nicht einfach die Rückgabe von beispielsweise "Google" sondern "Googlebot" oder "Googlebot-Image" oder "Googlebot-Mobile" usw. je nachdem was erkannt wurde. Diese mehrfachen Namen einer Suchmaschine gibt es auch bei anderen Herstellern wie MSN, Yahoo, um nur einige zu nennen.

Demo Module

Ansichten
Meine Werkzeuge

Contao Community Documentation

Marc plant CFC für CCACSSCSR.

C-C-A
In anderen Sprachen
Navigation
Verstehen
Verwenden
Entwickeln
Verschiedenes
Werkzeuge