• User

    E' possibile bloccare i bot dei siti di analisi Seo

    Salve,

    Vorrei sapere se esiste un modo per bloccare i bot dei siti che effettuano analisi SEO, agendo magari sul file robots.txt o in qualsiasi altra maniera.

    Mi riferisco a siti quali SeoMoz, OpenSiteExplorer, Majestic SEO, SemRush, ecc.

    Io ho provando utilizzando il file robots.txt che indico di seguito ma non ho ottenuto risultati.

    User-agent: rogerbot
    Disallow: /
    User-agent: MJ12bot
    Disallow: /
    User-agent: Majestic-12
    Disallow: /
    User-agent: AhrefsBot
    Disallow: /
    User-agent: ScoutJet
    Disallow: /
    User-agent: dotbot
    Disallow: /
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Sitemap: url sitemap

    Ho forse sbagliato qualcosa? Qualcuno sa se esiste un metodo diverso?

    Grazie,

    • Michele

    Dominio:
    Pokercasinomania.com
    Motori:
    Google
    Prima indicizzazione o attività:
    Settembre 2007
    Cambiamenti effettuati:
    Nessuno
    Eventi legati ai link:
    Calo post Penguin
    Sito realizzato con:
    Wordpress
    Come ho aumentato la popolarità:
    Link building
    Chiavi:
    Sale casino, giada fang
    Sitemaps:
    Si


  • Moderatore

    ciao Michele,
    @Mikele76 said:

    ...ho provando utilizzando il file robots.txt che indico di seguito ma non ho ottenuto risultati.
    Intendi dire che rilevi ancora visite da quei bot? dopo quanto tempo dalla modifica del robots.txt?


  • User

    Salve Federico,

    sono due gioni che ho modificato il file robots ma riesco comunque ad analizzare il sito con SeoMOz, Open Site Explorer ... eppure ho bloccato il RogerBot nel file robots.txt

    Grazie per la tua risposta


  • Moderatore

    Michele,
    purtroppo credo che la modifica nel robots.txt non basti per quello: per esempio riguardo a OpenSiteExplorer, RogerBot non può più visitare il tuo sito, ma i risultati che ha nell'indice non cambiano.
    Tieni inoltre conto che i backlink al tuo sito sono ottenuti visitando altri siti. Non sono nemmeno sicuro esista una procedura formale per chiedere a certi servizi di de-indicizzarti.


  • User

    Salve Federico, ho provato ad usare anche il seguente file htaccess, credi che nel tempo possa riuscire a sortire effetti. inoltre, potreasti confermarmi che ho scritto bene il file htaccess e che lo stesso non mi blocchi altri visitatori?

    RewriteEngine On
    RewriteBase /
    RewriteCond %{HTTP_USER_AGENT} ^rogerbot
    RewriteCond %{HTTP_USER_AGENT} ^exabot
    RewriteCond %{HTTP_USER_AGENT} ^MJ12bot
    RewriteCond %{HTTP_USER_AGENT} ^dotbot
    RewriteCond %{HTTP_USER_AGENT} ^gigabot
    RewriteCond %{HTTP_USER_AGENT} ^Ahrefsbot
    RewriteRule ^.*- [F,L]

    Grazie mille per le tue risposte.


  • Moderatore

    Ciao Michele,

    Credo che i tool menzionati obbediscano tutti al robots.txt, per cui bloccarli lato server con htaccess è "un di più"; il problema è che hanno già dati sui tuoi link, e quelli inbound li raccolgono da siti non sotto il tuo controllo.
    Se non permettono in modo facile di cancellare dati sui tuoi backlink (non ne sono a conoscenza), bloccarne i bot non risolverebbe il tuo problema in modo completo.

    Sulla sintassi del file htaccess temo di non essere la persona più adatta a rispondere, non ho mai lavorato su Apache.
    Sicuramente altri nel forum sapranno aiutarti.


  • User

    Grazie per le tue risposte Federico. Buona serata !


  • User

    Ciao, qui trovi una lista che uso nei file di htaccess; spero ti sia utile, e puoi aggiornarla con altri dati 😉
    Il codice dell Htacces va bene.

    La maggiorparte di questa lista sono i cosidetti "bad bots"

    naturalmente, il RewriteEngine On
    cosi come il RewriteBase /
    segue:

    RewriteCond %{HTTP_USER_AGENT} ^BlackWidow
    RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:[email protected]
    RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw
    RewriteCond %{HTTP_USER_AGENT} ^Custo
    RewriteCond %{HTTP_USER_AGENT} ^DISCo
    RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon
    RewriteCond %{HTTP_USER_AGENT} ^eCatch
    RewriteCond %{HTTP_USER_AGENT} ^EirGrabber
    RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon
    RewriteCond %{HTTP_USER_AGENT} ^EmailWolf
    RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures
    RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro
    RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE
    RewriteCond %{HTTP_USER_AGENT} ^FlashGet
    RewriteCond %{HTTP_USER_AGENT} ^GetRight
    RewriteCond %{HTTP_USER_AGENT} ^GetWeb!
    RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla
    RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It
    RewriteCond %{HTTP_USER_AGENT} ^GrabNet
    RewriteCond %{HTTP_USER_AGENT} ^Grafula
    RewriteCond %{HTTP_USER_AGENT} ^HMView
    RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper
    RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker
    RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ^InterGET
    RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja
    RewriteCond %{HTTP_USER_AGENT} ^JetCar
    RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider
    RewriteCond %{HTTP_USER_AGENT} ^larbin
    RewriteCond %{HTTP_USER_AGENT} ^LeechFTP
    RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader
    RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool
    RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX
    RewriteCond %{HTTP_USER_AGENT} ^Navroad
    RewriteCond %{HTTP_USER_AGENT} ^NearSite
    RewriteCond %{HTTP_USER_AGENT} ^NetAnts
    RewriteCond %{HTTP_USER_AGENT} ^NetSpider
    RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire
    RewriteCond %{HTTP_USER_AGENT} ^NetZIP
    RewriteCond %{HTTP_USER_AGENT} ^Octopus
    RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer
    RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator
    RewriteCond %{HTTP_USER_AGENT} ^PageGrabber
    RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto
    RewriteCond %{HTTP_USER_AGENT} ^pavuk
    RewriteCond %{HTTP_USER_AGENT} ^pcBrowser
    RewriteCond %{HTTP_USER_AGENT} ^RealDownload
    RewriteCond %{HTTP_USER_AGENT} ^ReGet
    RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger
    RewriteCond %{HTTP_USER_AGENT} ^SmartDownload
    RewriteCond %{HTTP_USER_AGENT} ^SuperBot
    RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP
    RewriteCond %{HTTP_USER_AGENT} ^Surfbot
    RewriteCond %{HTTP_USER_AGENT} ^tAkeOut
    RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro
    RewriteCond %{HTTP_USER_AGENT} ^VoidEYE
    RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector
    RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker
    RewriteCond %{HTTP_USER_AGENT} ^WebAuto
    RewriteCond %{HTTP_USER_AGENT} ^WebCopier
    RewriteCond %{HTTP_USER_AGENT} ^WebFetch
    RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS
    RewriteCond %{HTTP_USER_AGENT} ^WebLeacher
    RewriteCond %{HTTP_USER_AGENT} ^WebReaper
    RewriteCond %{HTTP_USER_AGENT} ^WebSauger
    RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor
    RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester
    RewriteCond %{HTTP_USER_AGENT} ^WebStripper
    RewriteCond %{HTTP_USER_AGENT} ^WebWhacker
    RewriteCond %{HTTP_USER_AGENT} ^WebZIP
    RewriteCond %{HTTP_USER_AGENT} ^Wget
    RewriteCond %{HTTP_USER_AGENT} ^Widow
    RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE
    RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider
    RewriteCond %{HTTP_USER_AGENT} ^Zeus
    RewriteRule ^.* - [F,L]

    sarebbe bello se qualcuno ne conosce altri e possiamo aggiornare la lista 😉