Robots.txt on Netsensei

WebAlta Robot

matthias@netsensei.nl (Matthias Vandermaesen) — Tue, 05 Feb 2008 23:17:15 +0000

Hm. Spiders en robots zuigen als ze je site bombarderen met bezoekjes. Neem nu WebAlta Crawler. Die is écht wel onbeschoft en loopt de deur hier gewoon plat. Ik zou die dus graag blokkeren in robots.txt. Jammer genoeg vind ik niet meteen de juiste UA string. En ik ontzie het wat om te knoeien met ip’s in de htaccess. Lazyweb? Anyone?

Referer spam

matthias@netsensei.nl (Matthias Vandermaesen) — Tue, 18 Jul 2006 18:26:18 +0000

Ik heb daarjuist de .htaccess file dichtgetimmerd tegen spammers. Ik heb willen merken dat er in de afgelopen 18 dagen 1Gb aan data is versluisd. Webalizer toonde dat het gros naar allerlei bots gaat. Bovendien zitten de logfiles vol spam.

Via de .htaccess file kan je mensen op basis van een aantal variabelen toegang ontzeggen tot je website. Ik heb een beetje rondgespeurd op het Net en het beste van verschillende praktijken gecombineerd:

Er zit een vrij indrukwekkende blacklist op bepaalde woorden in de referer
Er is een lijst met ip’s van gekende spammers. Niet dat die zo hulpzaam is want spammers muizen er sowieso vanonder door regelmatig met een andere ip te opereren.
Tenslotte wordt er ook gediscrimineerd op basis van de user agent string van een referer hit. Hoewel die gemakkelijk te maskeren valt, is het toch nuttig om een aantal commerciële bots zoals larbin, turnitin, aipbot die géén direct nut hebben buiten te sluiten, Ook hits zonder een user agent string worden geweerd: het is nogal lomp om de robots.txt standaard niet te volgen.

Voor zover ik via de logfiles kan volgen heb ik willen merken dat leukers met een referer waarin “texas-holdem” en zo, lekker worden afgeblokt. Ik kan het zo ver drijven door spammers zo ver te drijven dat alle traffiek die deze kant opkomt, gewoon terug richting afzender wordt gestuurd. Alleen weet ik dat dat spammers niet tegenhoudt en ik het dubbel zo hard terug zou krijgen. Ik ben nu al blij dat het zo ook al vrij goed lijkt te werken.

Moesten er nu mensen opeens niet meer op mijn blog geraken: geef me een seintje! Het kan zijn dat je afgeblokt wordt door de strikte filter!

Ter referentie: dit is de .htaccess file die ik als basis heb gebruikt.

Google bot?

matthias@netsensei.nl (Matthias Vandermaesen) — Sun, 18 Dec 2005 22:48:10 +0000

Het is leuk te weten dat je site wordt gevonden. Meer zelfs, het is leuk te weten dat je site wordt gevonden door mensen die je oprecht willen lezen: medebloggers, sympathisanten, en-ga-zo-maar-door. Via google bijvoorbeeld. En daar gaat het soms mis.

Zoekmachines zoals Google werken met nogal domme programma’s die dagelijks het web afluisteren, pagina’s verzamelen, daar dan informatie extraheren en op basis daarvan je website via ingewikkelde algoritmes zoals pagerank je website tonen in zoekresultaten wanneer die relevant is voor het ingegeven trefwoord. Het grote probleem is dat je dus een pak geluk moet hebben dat je website opduikt waar je hem graag zou willen hebben. In werkelijkheid worden website vaak gewoon “verkeerd geklasseerd”. En dat leidt dan weer tot een hoop frustratie. Enerzijds omdat je website vaker dan niet geen relevant zoekresultaat (signal to noise) vormt, anderzijds omdat jij een hoop mensen over de vloer krijgt die geen fluit geven om wat je schrijft. En in het slechtste geval van de gelegenheid gebruik maken om ook nog eens wat keet te schoppen.

Persoonlijke ervaring: een tijd geleden berichtte ik over de top 10 zoektermen waarmee men mij vond. Het resultaat was op zijn minst ontnuchterend te noemen: ongeveer alle mogelijke constellaties bestaande uit de trefwoorden paradise, hotel en erik of vt4. Een onderwerp waar ik een tijd geleden welgeteld 1 item aan had gewijd. De googlebot kende het potsje een hoge pagerank score toe waardoor het direct zeer hoog eindigde in elk zoekresultaat op die termen. Gevolg: een stroom mensen op zoek naar meer info over de TV show die hier belandden en niet noodzakelijk vonden waar ze naar op zoek waren. Sommigen gingen er zelfs vrij hard tegen aan in de commentaren. Om nog maar te zwijgen van de verbruikte – of verspilde zo u wil – bandbreedte!

Ten lange leste heb ik dan maar de hulp van een robots.txt bestand ingeroepen om de googlebot volledig buiten te houden. Mijn site wordt dus niet langer meer geïndexeerd door Google. En dat valt op zijn beurt weer op in de statistieken:

Maar is dit nu de juiste weg? Uiteindelijk ontloop ik het probleem alleen maar. Niemand vindt mijn site nu nog. Tenzij via links op andere blogs. Zou het gewoon niet mogelijk zijn om de robots te verhinderen om te indexeren op bepaalde trefwoorden? Zou het niet mogelijk zijn om dergelijk gedrag bij te sturen? Het omgekeerde bestaat immers: de metatag laat immers toe om een aantal trefwoorden te specifiëren. Jammer genoeg geraakt de metatag langzaam in onbruik en werd zelfs al dood verklaard!

Het zou anders wel mooi zijn moest er een gemakkelijkere wijze zijn om Google een handje te helpen. Alleen zie ik het technisch zo niet snel gebeuren. Om nog maar te zwijgen over bepaalde ethische kwesties.