<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Robots.txt on Netsensei</title>
    <link>https://www.netsensei.be/tags/robots.txt/</link>
    <description>Recent content in Robots.txt on Netsensei</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>nl-NL</language>
    <managingEditor>matthias@netsensei.nl (Matthias Vandermaesen)</managingEditor>
    <webMaster>matthias@netsensei.nl (Matthias Vandermaesen)</webMaster>
    <lastBuildDate>Tue, 05 Feb 2008 23:17:15 +0000</lastBuildDate><atom:link href="https://www.netsensei.be/tags/robots.txt/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>WebAlta Robot</title>
      <link>https://www.netsensei.be/2008/02/06/webalta-robot/</link>
      <pubDate>Tue, 05 Feb 2008 23:17:15 +0000</pubDate>
      <author>matthias@netsensei.nl (Matthias Vandermaesen)</author>
      <guid>https://www.netsensei.be/2008/02/06/webalta-robot/</guid>
      <description>&lt;p&gt;Hm. Spiders en robots zuigen als ze je site bombarderen met bezoekjes. Neem nu
WebAlta Crawler. Die is écht wel onbeschoft en loopt de deur hier gewoon plat.
Ik zou die dus graag blokkeren in robots.txt. Jammer genoeg vind ik niet meteen
de juiste UA string. En ik ontzie het wat om te knoeien met ip’s in de
htaccess. Lazyweb? Anyone?&lt;/p&gt;
</description>
    </item>
    
    <item>
      <title>Referer spam</title>
      <link>https://www.netsensei.be/2006/07/18/referer-spam/</link>
      <pubDate>Tue, 18 Jul 2006 18:26:18 +0000</pubDate>
      <author>matthias@netsensei.nl (Matthias Vandermaesen)</author>
      <guid>https://www.netsensei.be/2006/07/18/referer-spam/</guid>
      <description>&lt;p&gt;Ik heb daarjuist de &lt;a href=&#34;http://en.wikipedia.org/wiki/Htaccess&#34;&gt;.htaccess&lt;/a&gt; file dichtgetimmerd tegen spammers. Ik heb
willen merken dat er in de afgelopen 18 dagen 1Gb aan data is versluisd.
Webalizer toonde dat het gros naar allerlei bots gaat. Bovendien zitten de
logfiles vol spam.&lt;/p&gt;
&lt;p&gt;Via de .htaccess file kan je mensen op basis van een aantal variabelen toegang
ontzeggen tot je website. Ik heb een beetje rondgespeurd op het Net en het beste
van verschillende praktijken gecombineerd:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Er zit een vrij indrukwekkende blacklist op bepaalde woorden in de referer&lt;/li&gt;
&lt;li&gt;Er is een lijst met ip’s van gekende spammers. Niet dat die zo hulpzaam
is want spammers muizen er sowieso vanonder door regelmatig met een andere ip
te opereren.&lt;/li&gt;
&lt;li&gt;Tenslotte wordt er ook gediscrimineerd op basis van de &lt;a href=&#34;http://en.wikipedia.org/wiki/User_agent&#34;&gt;user agent string&lt;/a&gt;
van een referer hit. Hoewel die gemakkelijk te maskeren valt, is het toch
nuttig om een aantal commerciële bots zoals larbin, turnitin, aipbot die géén
direct nut hebben buiten te sluiten, Ook hits zonder een user agent string
worden geweerd: het is nogal lomp om de &lt;a href=&#34;http://en.wikipedia.org/wiki/Robots_Exclusion_Standard&#34;&gt;robots.txt standaard&lt;/a&gt; niet te
volgen.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Voor zover ik via de logfiles kan volgen heb ik willen merken dat leukers met
een referer waarin “texas-holdem” en zo, lekker worden afgeblokt. Ik
kan het zo ver drijven door spammers zo ver te drijven dat alle traffiek die
deze kant opkomt, gewoon terug richting afzender wordt gestuurd. Alleen weet ik
dat dat spammers niet tegenhoudt en ik het dubbel zo hard terug zou krijgen. Ik
ben nu al blij dat het zo ook al vrij goed lijkt te werken.&lt;/p&gt;
&lt;p&gt;Moesten er nu mensen opeens niet meer op mijn blog geraken: geef me een seintje!
Het kan zijn dat je afgeblokt wordt door de strikte filter!&lt;/p&gt;
&lt;p&gt;Ter referentie: dit is de &lt;a href=&#34;http://www.aaronlogan.com/downloads/htaccess.php&#34;&gt;.htaccess file&lt;/a&gt; die ik als basis heb gebruikt.&lt;/p&gt;
</description>
    </item>
    
    <item>
      <title>Google bot?</title>
      <link>https://www.netsensei.be/2005/12/19/google-bot/</link>
      <pubDate>Sun, 18 Dec 2005 22:48:10 +0000</pubDate>
      <author>matthias@netsensei.nl (Matthias Vandermaesen)</author>
      <guid>https://www.netsensei.be/2005/12/19/google-bot/</guid>
      <description>&lt;p&gt;Het is leuk te weten dat je site wordt gevonden. Meer zelfs, het is leuk te
weten dat je site wordt gevonden door mensen die je oprecht willen lezen:
medebloggers, sympathisanten, en-ga-zo-maar-door. Via google bijvoorbeeld. En
daar gaat het soms mis.&lt;/p&gt;
&lt;p&gt;Zoekmachines zoals Google werken met nogal domme programma’s die dagelijks
het web afluisteren, pagina’s verzamelen, daar dan informatie extraheren
en op basis daarvan je website via ingewikkelde algoritmes zoals &lt;a href=&#34;http://en.wikipedia.org/wiki/Pagerank&#34; title=&#34;&#34;&gt;pagerank&lt;/a&gt;
je website tonen in zoekresultaten wanneer die relevant is voor het ingegeven
trefwoord. Het grote probleem is dat je dus een pak geluk moet hebben dat je
website opduikt waar je hem graag zou willen hebben. In werkelijkheid worden
website vaak gewoon “verkeerd geklasseerd”. En dat leidt dan weer
tot een hoop frustratie. Enerzijds omdat je website vaker dan niet geen relevant
zoekresultaat (&lt;em&gt;signal to noise&lt;/em&gt;) vormt, anderzijds omdat jij een hoop mensen
over de vloer krijgt die geen fluit geven om wat je schrijft. En in het
slechtste geval van de gelegenheid gebruik maken om ook nog eens wat keet te
schoppen.&lt;/p&gt;
&lt;p&gt;Persoonlijke ervaring: een tijd geleden &lt;a href=&#34;https://www.netsensei.be/archives/paradise-hotel-bis/&#34; title=&#34;&#34;&gt;berichtte&lt;/a&gt; ik over de top 10
zoektermen waarmee men mij vond. Het resultaat was op zijn minst ontnuchterend
te noemen: ongeveer alle mogelijke constellaties bestaande uit de trefwoorden
&lt;em&gt;paradise, hotel&lt;/em&gt; en &lt;em&gt;erik&lt;/em&gt; of &lt;em&gt;vt4&lt;/em&gt;. Een onderwerp waar ik een tijd geleden
welgeteld 1 item aan had gewijd. De googlebot kende het potsje een hoge pagerank
score toe waardoor het direct zeer hoog eindigde in elk zoekresultaat op die
termen. Gevolg: een stroom mensen op zoek naar meer info over de TV show die
hier belandden en niet noodzakelijk vonden waar ze naar op zoek waren. Sommigen
gingen er zelfs vrij hard tegen aan in de commentaren. Om nog maar te zwijgen
van de verbruikte – of verspilde zo u wil – bandbreedte!&lt;/p&gt;
&lt;p&gt;Ten lange leste heb ik dan maar de hulp van een &lt;a href=&#34;http://www.robotstxt.org/wc/robots.html&#34; title=&#34;&#34;&gt;robots.txt&lt;/a&gt; bestand
ingeroepen om de googlebot volledig buiten te houden. Mijn site wordt dus niet
langer meer geïndexeerd door Google. En dat valt op zijn beurt weer op in de
statistieken:&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;http://static.flickr.com/9/74919282_10dbbb2ec8.jpg?v=0&#34; alt=&#34;&#34;&gt;&lt;/p&gt;
&lt;p&gt;Maar is dit nu de juiste weg? Uiteindelijk ontloop ik het probleem alleen maar.
Niemand vindt mijn site nu nog. Tenzij via links op andere blogs. Zou het gewoon
niet mogelijk zijn om de robots te verhinderen om te indexeren op bepaalde
trefwoorden? Zou het niet mogelijk zijn om dergelijk gedrag bij te sturen? Het
omgekeerde bestaat immers: de &lt;a href=&#34;http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4.2&#34; title=&#34;&#34;&gt;metatag&lt;/a&gt; laat immers toe om een aantal
trefwoorden te specifiëren. Jammer genoeg geraakt de metatag langzaam in onbruik
en werd zelfs al &lt;a href=&#34;http://searchenginewatch.com/sereport/article.php/2165061&#34; title=&#34;&#34;&gt;dood&lt;/a&gt; verklaard!&lt;/p&gt;
&lt;p&gt;Het zou anders wel mooi zijn moest er een gemakkelijkere wijze zijn om Google
een handje te helpen. Alleen zie ik het technisch zo niet snel gebeuren. Om nog
maar te zwijgen over bepaalde ethische kwesties.&lt;/p&gt;
</description>
    </item>
    
  </channel>
</rss>