• User Attivo

    robots.txt e consumo banda

    Ciao a tutti, ho notato nel mio ecommerce un elevato consumo di banda, volevo chiedervi questo:
    se io volessi limitare l'accesso solo ad uno spider sarebbe giusto scrivere nel file robots questo?

    User-agent: *
    Disallow: /
    User-agent: slurp
    Disallow: /admin/

    Sitemap: hxxp://www_miosito_it/sitemapindex.xml

    in questo modo disabilito tutto gli spider ad eccezione di slurp yahoo (e in slurp gli disabilito una cartella)?
    E' corretto scrivere così?

    In quanto tempo vedo che gli spider se ne vanno? perchè se vado sul mio ecommerce con questo file robots, vedo ancora google bot e un altro spider yanga (che ho letto da qualche parte essere malevolo) che vorrei eliminare.

    Farei così e poi modificherei tipo ogni settimana manualmente il file robots per dire a google di passare ogni settimana, diversamente tutti mi consumano la banda, e ne ho 1Mb in upload!!!

    Grazie in anticipo 😉


  • Moderatore

    No in quel caso stai semplicemente escludendo tutti i bot.

    Se vuoi tener fuori google ad esempio devi scrivere

    
    User-agent: Googlebot
    Disallow: /
    
    

    ad ogni modo per quanto riguarda google puoi iscriverti alla sezione webmaster tools e da lì puoi indicare al bot quando passare, dove passare, ecc...

    Invece riguardo questo yanga è un bot russo ed è noto per non rispettare il robots.txt, quindi con quel metodo non risolvi nulla.

    L'unico modo è usare .htaccess in questo modo

    
    BrowserMatchNoCase Yanga bad_bot
    Order Deny,Allow
    Deny from env=bad_bot
    
    

    ovviamente al posto di Yanga devi mettere l'user agent string precisa che compare nelle tue stats.

    Se quel bot dovesse usare anche altri user agent allora non ti resta che bannarlo per ip tramite .htaccess o se proprio dà fastidio bannarlo tramite firewall.


  • User Attivo

    grazie per la risposta rapida, vediamo se ho capito
    quindi se io volessi limitare per esempio solo a yahoo di analizzare il sito ad eccezione della cartella miacartella dovrei scrivere
    User-agent: Googlebot
    Disallow: /
    User-agent: Slurp
    Disallow: /miacartella

    in questo modo tutte le altre cartelle verrebbero viste da slurp ma non da google è corretto?

    Dove vedo invece il nome dello spider?
    leggo per esempio sul mio ecommerce
    host:
    baiduspider+

    il nome esatto è con tutti gli spazi che vedo e i + per esempio? o c'è un elenco dei nomi corretti dello spider?
    Nel mio caso avrei dovuto scrivere questo?
    User-agent: baiduspider+
    Disallow: /

    Chiedo dove vedere il nome esatto dello spider anche per il file htaccess per sapere cosa scrivere al posto per esempio di yanga.

    Infine ultima cosa per bannare gli ip è corretto scrivere così nel file htaccess?
    Order deny,allow
    Deny from 91_205_124_21 #blocca l'accesso a yang

    molti bot hanno più ip, dove trovo tutti gli ip degli spider?
    Ti ringrazio molto davvero
    :sun:


  • Moderatore

    @giuly said:

    quindi se io volessi limitare per esempio solo a yahoo di analizzare il sito ad eccezione della cartella miacartella dovrei scrivere
    User-agent: Googlebot
    Disallow: /
    User-agent: Slurp
    Disallow: /miacartella

    Esattamente, in questo caso il primo Disallow si riferisce solo a google, il secondo solo a yahoo, tutti gli altri possono leggere qualsiasi pagina.

    Dove vedo invece il nome dello spider?
    leggo per esempio sul mio ecommerce
    host:
    baiduspider+

    in genere i programmi di statistiche tipo Awstats riportano gli useragent

    il nome esatto è con tutti gli spazi che vedo e i + per esempio? o c'è un elenco dei nomi corretti dello spider?

    no i nomi degli useragent vengono scelti dal bot che ti contatta e sono stringhe, il programma di statistiche li registra e poi li visualizza così come gli sono arrivati e devi aggiungerli ad .htaccess così come appaiono nella pagina delle statistiche

    Nel mio caso avrei dovuto scrivere questo?
    User-agent: baiduspider+
    Disallow: /

    si, però mi sa che l'useragent non è quello, baidu usa questi http://www.useragentstring.com/pages/Baiduspider/

    Chiedo dove vedere il nome esatto dello spider anche per il file htaccess per sapere cosa scrivere al posto per esempio di yanga.

    nella pagina delle statistiche per il dominio

    Infine ultima cosa per bannare gli ip è corretto scrivere così nel file htaccess?
    Order deny,allow
    Deny from 91_205_124_21 #blocca l'accesso a yang

    no dovresti scrivere una cosa del genere

    
    order allow,deny
    deny from 192.168.44.201
    deny from 224.39.163.12
    deny from 172.16.7.92
    allow from all
    
    

    molti bot hanno più ip, dove trovo tutti gli ip degli spider?
    Ti ringrazio molto davvero
    :sun:

    qui http://www.iplists.com/


  • User Attivo

    grazie milleeeeeeeee davvero completa la risposta, ho

    36.86% MSIE 7
    21.78% Mozilla/5
    17.97% MSIE 6
    7.01% Googlebot/2
    5.39% MSIE 8
    4.12% TwengaBot/1.1 (+hxxp://www_twenga_com/bot.html)
    2.64% Yahoo! Slurp/3
    0.99% Yanga WorldSearch Bot v1.1/beta (hxxp://www_yanga_co_uk/)
    0.69% Googlebot-Image/1.0
    0.55% Opera/9
    0.40% msnbot/1.1 (+hxxp://search_msn_com/msnbot.htm)
    0.21% Mozilla/4.0 (compatible;)
    0.18% msnbot-media/1.1 (+hxxp://search_msn_com/msnbot.htm)
    0.17% Baiduspider+(+hxxp://www_baidu_com/search/spider.htm)
    0.16% Vodafone/1.0/0Vodafone830/B116SP04 Browser/Obigo-Browser/Q05A MMS/Obigo-MMS/Q05A SyncML/HW-SyncML/1.0 Java/HWJa/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 Player/QTV-Player/5.3 UP.Link/6.3.1.21.0

    presi dalle statistiche, quindi per esempio per yanga il nome è
    Yanga WorldSearch Bot v1.1/beta questo?
    inoltre me li vede come spider anche vodafone, Opera, Mozilla, ma quelli sono i navigatori giusto?

    Sei stato gentilissimo e ultra chiaro, ho capito tutto il discorso sopra.:tongueout:


  • Moderatore

    no la stringa da usare è questa Yanga WorldSearch Bot v1.1/beta (hxxp://www_yanga_co_uk/)


  • User Attivo

    grazie mille sembrano cose semplici ma per chi non è "del mestiere" non è così.
    Spiegazione punto punto perfetta :bravo:
    entro domani applico tutto
    grazie ancora
    :71: