Voici des règles que vous pouvez mettre dans vos fichiers .htaccess pour éviter les crawl et les bots indésirables sur vos hébergements ainsi que les traqueurs de liens.
Ce qui peut être pratique pour éviter que vos backlinks ne soient trackés par vos concurrents
RewriteRule Apache pour bots / crawlers
La liste est longue, mais pas exhaustive, à adapter selon vos besoins :
RewriteCond %{HTTP_USER_AGENT} (360Spider|acapbot|acoonbot|ahrefs|alexibot|archive.org|asterias|attackbot|backdorbot|baidu|becomebot|binlar|blackwidow|blekkobot|blexbot|blowfish|bullseye|bunnys|butterfly|careerbot|casper|checkpriv|cheesebot|cherrypick|chinaclaw|choppy|clshttp|cmsworld|copernic|copyrightcheck|cosmos|crescent|cy_cho|datacha|demon|diavol|discobot|dittospyder|dotbot|dotnetdotcom|dumbot|emailcollector|emailsiphon|emailwolf|exabot|extract|eyenetie|feedfinder|flaming|flashget|flicky|foobot|g00g1e|getright|gigabot|go-ahead-got|gozilla|grabnet|grafula|harvest|heritrix|httrack|icarus6j|jetbot|jetcar|jikespider|kmccrew|leechftp|libweb|linkextractor|linkscan|linkwalker|loader|miner|mj12bot|majestic|mechanize|morfeus|moveoverbot|netmechanic|netspider|nicerspro|nikto|ninja|nutch|octopus|pagegrabber|planetwork|postrank|proximic|purebot|pycurl|python|queryn|queryseeker|radian6|radiation|realdownload|rogerbot|scooter|seekerspider|semalt|seznambot|siclab|sindice|sistrix|sitebot|siteexplorer|sitesnagger|skygrid|smartdownload|snoopy|sosospider|spankbot|spbot|sqlmap|stackrambler|stripper|sucker|surftbot|sux0r|suzukacz|suzuran|takeout|teleport|telesoft|true_robots|turingos|turnit|vampire|vikspider|voideye|webleacher|webreaper|webstripper|webvac|webviewer|webwhacker|winhttp|wwwoffle|woxbot|xaldon|xxxyy|yamanalab|yioopbot|youda|zeus|zmeu|zune|zyborg) [NC]
RewriteRule . – [F,L]
N.B. : Vérifiez tout de même les user agent, par exemple cette liste contient le useragent archive.org qui empêche la wayback machine de sauvegarder votre site.
RewriteRule Apache traqueurs de liens
Si vous souhaitez être invisible uniquement auprès des trackers de liens, voici une autre règle apache que vous pouvez insérer dans votre fichier .htaccess
RewriteCond %{HTTP_USER_AGENT} ^.(ahrefsbot|mj12bot|rogerbot|exabot|dotbot|gigabot|semrush|seobserver|seokicks).$ [NC]
RewriteRule .* – [F,L]