<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Referer Informatie on Netsensei</title>
    <link>https://www.netsensei.be/tags/referer-informatie/</link>
    <description>Recent content in Referer Informatie on Netsensei</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>nl-NL</language>
    <managingEditor>matthias@netsensei.nl (Matthias Vandermaesen)</managingEditor>
    <webMaster>matthias@netsensei.nl (Matthias Vandermaesen)</webMaster>
    <lastBuildDate>Tue, 28 Nov 2006 21:45:50 +0000</lastBuildDate><atom:link href="https://www.netsensei.be/tags/referer-informatie/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Referer Spam</title>
      <link>https://www.netsensei.be/2006/11/28/referer-spam-2/</link>
      <pubDate>Tue, 28 Nov 2006 21:45:50 +0000</pubDate>
      <author>matthias@netsensei.nl (Matthias Vandermaesen)</author>
      <guid>https://www.netsensei.be/2006/11/28/referer-spam-2/</guid>
      <description>&lt;p&gt;&lt;a href=&#34;http://blog.artueel.be/link-spam/&#34;&gt;Het is een oud zeer&lt;/a&gt;. Ik heb daar ook enorm veel last van. In de eerste
plaats gaat het inderdaad om bots die massaal je pagina’s bezoeken en via
de referer informatie in een HTTP request een linkje proberen te krijgen op je
website via top 10 referer scripts en zo.&lt;/p&gt;
&lt;p&gt;Als webeigenaar ben jij de dupe: er wordt immers reclame gemaakt op jouw kosten
(bandbreedte). Bovendien is het vervuiling van je apache logfiles, je –
vaak op deze logfiles gebaseerde – statistieken en van je databank als je
referers logt. Ik kan mij voorstellen dat dit voor professionele websitebouwers
die op basis van dergelijke informatie een profiel van bezoekers willen
opstellen, een extra horde is.&lt;/p&gt;
&lt;p&gt;Wat kan je er tegen doen? Wel, niet zo heel veel heb ik willen merken.&lt;/p&gt;
&lt;p&gt;De HTTP specs (&lt;a href=&#34;http://www.faqs.org/rfcs/rfc2616.html&#34;&gt;RFC 2616&lt;/a&gt;) schrijven voor uit welke velden een door een
client gegenereerde HTTP request moet bestaan. Waar de inhoud van zo’n
veld vandaan komt, dat wordt uiteraard niet gespecifieerd. Die vrijheid heeft
tot misbruiken geleid.&lt;/p&gt;
&lt;p&gt;Een client dient het referer veld in een HTTP request in te vullen. Dit is een
‘teruglink’ naar de bron waarvan de client naar een pagina werd
geleid. Spammers schrijven bots die websites bezoeken en hun spamlinks expliciet
via het referer veld proberen achter te laten.&lt;/p&gt;
&lt;p&gt;Echter, een client moet via de user-agent string van een HTTP request zichzelf
identificeren. De IE7 webbrowser heeft bijvoorbeeld deze identificatiestring:&lt;br&gt;
&lt;code&gt;Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)&lt;/code&gt;&lt;br&gt;
terwijl de Googlebot volgende string moet meegeven in het User Agent veld:&lt;br&gt;
&lt;code&gt;Googlebot/2.X (+http://www.googlebot.com/bot.html)&lt;/code&gt;&lt;br&gt;
Je zou dus kunnen spammers kunnen blokkere n op basis van deze informatie via de
&lt;a href=&#34;http://en.wikipedia.org/wiki/Htaccess&#34;&gt;.htaccess file&lt;/a&gt; en de &lt;a href=&#34;http://www.robotstxt.org/&#34;&gt;robots.txt file&lt;/a&gt;. En strikt genomen kan je zo
inderdaad wel wat spam tegenhouden. Helaas zijn ontwikkelaars ook hier vrij in
de keuze van wat ze hier invullen. Gevolg: spammers kopiëren gewoon de
user-agent strings van de grote browsers om zich te vermommen.&lt;/p&gt;
&lt;p&gt;Wat je wel kan doen:&lt;/p&gt;
&lt;p&gt;Referer spam is vrij doorzichtig. Door je apache logs te onderzoeken kan je al
snel de spam terugvoeren tot een aantal IP adressen. Die kan je in je .htaccess
file blokkeren. Jammer genoeg kan je dat niet lang volhouden omdat een lange
.htaccess file parsen een serieuze aanslag is op de performance van je
webserver. Een must is de aanwezigheid van een robots.txt file waarin je
expliciet een aantal bots verbiedt of toelaat. Tenslotte kan je ook het
&lt;code&gt;nofollow&lt;/code&gt; attribuut opnemen in al je hyperlinks om spambots op een dood spoor
te zetten.&lt;/p&gt;
&lt;p&gt;O ja, je zou natuurlijk de referer wederkerig kunnen bevragen en zien of er daar
inderdaad een effectieve, geldige link staat naar je pagina. Maar op die manier
sla je het web effectief dood.&lt;/p&gt;
&lt;p&gt;Desondanks is er – bij mijn weten – geen effectieve oplossing voor
dit probleem en zal er altijd wel wat spam doorsijpelen.&lt;/p&gt;
</description>
    </item>
    
  </channel>
</rss>