• User Attivo

    Il file robots.txt per una indicizzazione migliore

    Ciao a tutti, seguendo un post su un blog ho modificato il file robots.txt del mio blog su WordPress in questo modo:

    User-agent: *
    Disallow: /*/feed/
    Disallow: /*/feed/rss/
    Disallow: /*/trackback/
    Disallow: /wp-
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /tag/
    Sitemap: http://www.tuosito.com/sitemap.xml
    

    un file robots.txt fatto così dovrebbe favorire una indicizzazione piu' rapida e senza troppi duplicati dei nostri contenuti, siete daccordo? e' fatto bene? cosa cambiereste?

    Ciao e grazie 😉


  • Super User

    Non sò cosa potrebbe non andare nel tuo 🙂 però ti faccio vedere io cosa ho (contando che vado per i 200 accessi al giorno)

    
    Allow Googlebot
    User-agent: googlebot
    Allow: /
    
    User-agent: Googlebot-AdSense
    Allow: /
    
    User-agent: Mediapartners-Google*
    Allow: /
    
    User-agent: Slurp/2.0
    Allow: /
    
    User-agent: MSNbot
    Allow: /
    
    User-agent: kinjabot
    Allow: /
    
    User-agent: ia_archiver
    Allow: /
    
    User-agent: ArchitextSpider
    Allow: /
    
    

  • Super User

    Ciao dario99,
    dopo un pò di ricerche sono riuscito a verificare e a migliorare (grazie al tuo post) il mio file robots.txt aggiungendo degli spider e verificando diverse cose.

    Secondo me queste righe:

    
    Disallow: /*/feed/
    Disallow: /*/feed/rss/
    Disallow: /*/trackback/
    Disallow: /wp-
    Disallow: /feed/
    Disallow: /trackback/
     Disallow: /tag/
    
    ```Dovresti modificarle così:
    
    

    Disallow: //feed/
    Disallow: /
    /feed/rss/
    Disallow: /*/trackback/
    Disallow: /wp-

    In quanto, secondo me, non vale la pena disabilitare i tags e i trackback visto che potrebbero risultare utili. :)
    
    Parere personale opinabile :) mi piacerebbe sapere gli altri che ne pensano :)
    
    PS: per verificare la funzionalità e l'efficienza del file robots.txt ho utilizzato [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool che permette di verificare cosa va e cosa meno, le modifiche da apportare e gli errori che vengono dati. ;)
    

  • User Attivo

    ciao effettivamente ho fatto anche io delle modifiche al file precedentemente postato, e come hai fatto tu ho tolto le seguenti righe:

    Disallow: /feed/
    Disallow: /trackback/
    ```i dubbi rimangono su /tag/ perche' ci sarebbe una ripetizione eccessiva secondo me...
    
    Grazie per il suggerimento del tool ;)
    
    Ciao, Dario.

  • Super User

    Oltre i soliti bot/agent ne ho aggiunti altri ed ho modificato il mio file robots.txt. Se vuoi posso postare quì tutto così si vede cosa va e cosa meno :). Ti dico solo una cosa. Con tutti quelli che ho messo sono arrivato a 43 robots collegati contemporaneamente nell'arco di 1 minuto 🙂


  • User Attivo

    posta pure 🙂

    comunque il mio robots.txt si riferisce a questo sito qui: www.blognapoli.net

    Ciao, Dario.


  • Super User

    Eccolo

    
    
    User-agent: Googlebot
    Disallow: 
    
    User-agent: Googlebot-Image
    Disallow:
    
    User-agent: MSNBot
    Disallow:
    
    User-agent: Slurp
    Disallow:
    
    User-agent: Teoma
    Disallow:
    
    User-agent: Gigabot
    Disallow:
    
    User-agent: Scrubby
    Disallow:
    
    User-agent: Robozilla
    Disallow:
    
    User-agent: BecomeBot
    Disallow:
    
    User-agent: Nutch
    Disallow:
    
    User-agent: Fast
    Disallow:
    
    User-agent: Scooter
    Disallow:
    
    User-agent: Mercator
    Disallow:
    
    User-agent: Ask Jeeves
    Disallow:
    
    User-agent: teoma_agent
    Disallow:
    
    User-agent: ia_archiver
    Disallow:
    
    User-agent: BizBot04 kirk.overleaf.com
    Disallow:
    
    User-agent: HappyBot (gserver.kw.net)
    Disallow:
    
    User-agent: CaliforniaBrownSpider
    Disallow:
    
    User-agent: EI*Net/0.1  libwww/0.1
    Disallow:
    
    User-agent: Ibot/1.0 libwww-perl/0.40    
    Disallow:
    
    User-agent: Merritt/1.0
    Disallow:
    
    User-agent: StatFetcher/1.0
    Disallow:
    
    User-agent: TeacherSoft/1.0  libwww/2.17
    Disallow:
    
    User-agent: WWW Collector
    Disallow:
    
    User-agent: processor/0.0ALPHA libwww-perl/0.20
    Disallow:
    
    User-agent: wobot/1.0 from 206.214.202.45
    Disallow:
    
    User-agent: Libertech-Rover         www.libertech.com?
    Disallow:
    
    User-agent: WhoWhere Robot
    Disallow:
    
    User-agent: ITI Spider
    Disallow:
    
    User-agent: w3index
    Disallow:
    
    User-agent: MyCNNSpider
    Disallow:
    
    User-agent: SummyCrawler
    Disallow:
    
    User-agent: OGspider
    Disallow:
    
    User-agent: linklooker
    Disallow:
    
    User-agent: CyberSpyder ([email protected])
    Disallow:
    
    User-agent: SlowBot
    Disallow:
    
    User-agent: heraSpider
    Disallow:
    
    User-agent: Surfbot
    Disallow:
    
    User-agent: Bizbot003
    Disallow:
    
    User-agent: WebWalker
    Disallow:
    
    User-agent: SandBot
    Disallow:
    
    User-agent: EnigmaBot
    Disallow:
    
    User-agent: spyder3.microsys.com
    Disallow:
    
    User-agent: www.freeloader.com.
    Disallow:
    
    User-agent: 205.252.60.71
    Disallow:
    
    User-agent: 194.20.32.131
    Disallow:
    
    User-agent: 198.5.209.201
    Disallow:
    
    User-agent: acke.dc.luth.se
    Disallow:
    
    User-agent: dallas.mt.cs.cmu.edu
    Disallow:
    
    User-agent: darkwing.cadvision.com
    Disallow:
    
    User-agent: waldec.com
    Disallow:
    
    User-agent: www2000.ogsm.vanderbilt.edu
    Disallow:
    
    User-agent: unet.ca
    Disallow:
    
    User-agent: murph.cais.net (rapid fire... sigh)
    Disallow:
    
    User-agent: www.freeloader.com
    Disallow:
    
    User-agent: *
    Disallow: /cartella da escludere/
    
    Sitemap: http://miosito.it/sitemap.xml
    
    

  • User Attivo

    ma a cosa serve ripetere le stesse regole per ogni bot? non e' inutile?
    La mia non e' una critica, dato che ci capisco poco di robots.txt 🙂

    Ciao, Dario.


  • Super User

    Sinceramente ho messo tutti i bot, nome per nome, visto che mi sembrava una cosa "più completa". Avrei potuto risolvere mettendo

    
    User-agent: *
    Disallow:
    
    

    Ma non volevo escludere nessun bot 🙂

    Alla fine è la stessa cosa 🙂

    Ora ho letto [url=http://www.robotstxt.org/wc/active/html/index.html]il DB con tutti i robots 🙂 quasi quasi ne aggiungo qualcuno. 🙂


  • User Attivo

    Mi aggrego alla discussione (perché interessa anche a me 😛 ). Su askapache consiglia:

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads
    
    

    Sono d'accordo a non indicizzare i feed, ma sono dubbioso sulle categorie (e per chi usa il plugin apposta, i tag): sono realmente da considerarsi contenuto duplicato, se si fa largo uso del tag <!--MORE--> e prima di esso si presenta solo un breve estratto dell'articolo? Inoltre le pagine delle categorie (e ancora di più i tag) hanno un'alta probabilità di aggregare keywords e articoli simili e correlati tra loro...

    Inoltre se si tolgono categorie e tag, non si dovrebbero escludere dall'indice, per lo stesso motivo, anche gli archivi mensili e giornalieri?

    Ovviamente faccio queste considerazioni per quel niubbo che sono 😛 (per questo, chiedo a voi esperti...)


  • Super User

    Ciao notorious,
    per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora 😄

    Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

    I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
    Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.

    Appunto

    Il termine "Allow:" non significa niente e non viene riconosciuto dal file robots.txt. Per includere qualcosa si utilizza "Disallow:" ed in questo modo include tutto ciò che non è stato precedentemente escluso.

    Per maggiori delucidazioni basta leggere quì ;). Inoltre è possibile verificare la corretta funzionalità del file utilizzando [url=http://tool.motoricerca.info/analizzatore-robots.phtml]questo tool 😉


  • User Attivo

    @cionfs said:

    Ciao notorious,
    per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora 😄

    Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

    I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
    Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.

    Non mi riferivo a Wordpress, ma al lato SEO (anche se sì, sono niubbo anche in Wordpress). 😄
    Quindi tu lasceresti

    
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /*?*
    Disallow: /*?
    ```da quel che ho capito, e google comunque sia non considererebbe gli archivi come contenuto duplicato, giusto? ;) (quindi... wordpress va QUASI bene così com'è?)
    Per quanto riguarda escludere o meno i feed, mi riferivo che a volte essi sono riportati nei risultati di ricerca, e potrebbero significare aver perso un possibile visitatore (ricordatevi che queste considerazioni sono fatte da un ignIorante :D in materia).
    
    EDIT: Questa l'aggiungiamo?
    

    Sitemap: http://www.miosito.com/sitemap.xml

    EDIT 2: ops, ho visto solo adesso che già l'usavi ;)

  • Super User

    Per quanto riguarda il lato "SEO" wordpress risolve tutto utilizzando i permalink e la modifica al file .htaccess e l'utilizzo correto e mirato del file robots.txt facilita l'indicizzazione IMHO.
    Per quanto mi ho capito i feed sono indicizzati indipendentemente e come se fossero "a parte" (da prendere con le pinze queste mie parole visto che sto ipotizzando 😉 ) e di conseguenza fornirebbero maggiori ingressi.
    Il file robots.txt è soltanto un qualcosa che permette ai bot di leggere e verificare ciò che hai messo su un blog, pagina web, forum o altro 😉 escludendo ovviamente ciò che non vuoi che venga trovato e indicizzato.

    L'utilità di questo file è, secondo me, solo quello di escludere/permettere di far trovare argomenti ben mirati.

    All IMHO


  • User Attivo

    Cionfs, tutto ciò continuerebbe a valere se nel blog si ha l'abitudine di non associare, ad ogni post, una sola categoria, ma più di una? (so che è sconsigliato, ma per una migliore navigabilità ho scelto di rendere alcuni post "multicategoria" - nel caso specifico mi riferisco ad un mio blog pubblicato da pochi giorni, in cui le categorie hanno una struttura gerarchica, e post appartanente ad una figlia compare anche nell'archivio del padre...)


  • Super User

    Personalmente, nel mio blog, ho qualche post in più di una categoria (per il tuo stesso motivo). La questione riguarda sempre il fatto che, se hai attivi i permalink, il file robots.txt ti permette indicizzazione in tutti i casi. 🙂
    La funzione di questo file è solo quello di "farti leggere" dai bot. Per il resto è tutta questione di indicizzazione 😉

    All IMHO


  • User

    scusate, sarà forse banala ma:

    se devo mettere il sito on line, è voglio niente venga indicizzato, basta mettere

    User-agent: *
    Disallow: /

    grazie


  • User

    trovata risposta, grazie cmq.

    😉


  • User Attivo