+ Rispondi alla Discussione
Risultati da 1 a 18 di 18

Il file robots.txt per una indicizzazione migliore

Ultimo Messaggio di yurx il:
  1. #1
    Utente Premium L'avatar di dario99
    Data Registrazione
    Dec 2005
    Località
    Napoli
    Messaggi
    208

    Il file robots.txt per una indicizzazione migliore

    Ciao a tutti, seguendo un post su un blog ho modificato il file robots.txt del mio blog su WordPress in questo modo:

    Codice:
    User-agent: *
    Disallow: /*/feed/
    Disallow: /*/feed/rss/
    Disallow: /*/trackback/
    Disallow: /wp-
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /tag/
    Sitemap: http://www.tuosito.com/sitemap.xml
    un file robots.txt fatto così dovrebbe favorire una indicizzazione piu' rapida e senza troppi duplicati dei nostri contenuti, siete daccordo? e' fatto bene? cosa cambiereste?

    Ciao e grazie

  2. #2
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Non sò cosa potrebbe non andare nel tuo però ti faccio vedere io cosa ho (contando che vado per i 200 accessi al giorno)

    Codice:
    Allow Googlebot
    User-agent: googlebot
    Allow: /
    
    User-agent: Googlebot-AdSense
    Allow: /
    
    User-agent: Mediapartners-Google*
    Allow: /
    
    User-agent: Slurp/2.0
    Allow: /
    
    User-agent: MSNbot
    Allow: /
    
    User-agent: kinjabot
    Allow: /
    
    User-agent: ia_archiver
    Allow: /
    
    User-agent: ArchitextSpider
    Allow: /

  3. #3
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Ciao dario99,
    dopo un pò di ricerche sono riuscito a verificare e a migliorare (grazie al tuo post) il mio file robots.txt aggiungendo degli spider e verificando diverse cose.

    Secondo me queste righe:

    Codice:
    Disallow: /*/feed/
    Disallow: /*/feed/rss/
    Disallow: /*/trackback/
    Disallow: /wp-
    Disallow: /feed/
    Disallow: /trackback/
     Disallow: /tag/
    Dovresti modificarle così:

    Codice:
    Disallow: /*/feed/
    Disallow: /*/feed/rss/
    Disallow: /*/trackback/
    Disallow: /wp-
    

    In quanto, secondo me, non vale la pena disabilitare i tags e i trackback visto che potrebbero risultare utili.

    Parere personale opinabile mi piacerebbe sapere gli altri che ne pensano

    PS: per verificare la funzionalità e l'efficienza del file robots.txt ho utilizzato questo tool che permette di verificare cosa va e cosa meno, le modifiche da apportare e gli errori che vengono dati.

  4. #4
    Utente Premium L'avatar di dario99
    Data Registrazione
    Dec 2005
    Località
    Napoli
    Messaggi
    208
    ciao effettivamente ho fatto anche io delle modifiche al file precedentemente postato, e come hai fatto tu ho tolto le seguenti righe:
    Codice:
    Disallow: /feed/
    Disallow: /trackback/
    i dubbi rimangono su /tag/ perche' ci sarebbe una ripetizione eccessiva secondo me...

    Grazie per il suggerimento del tool

    Ciao, Dario.

  5. #5
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Oltre i soliti bot/agent ne ho aggiunti altri ed ho modificato il mio file robots.txt. Se vuoi posso postare quì tutto così si vede cosa va e cosa meno . Ti dico solo una cosa. Con tutti quelli che ho messo sono arrivato a 43 robots collegati contemporaneamente nell'arco di 1 minuto

  6. #6
    Utente Premium L'avatar di dario99
    Data Registrazione
    Dec 2005
    Località
    Napoli
    Messaggi
    208
    posta pure

    comunque il mio robots.txt si riferisce a questo sito qui: www.blognapoli.net


    Ciao, Dario.

  7. #7
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Eccolo

    Codice:
    User-agent: Googlebot
    Disallow: 
    
    User-agent: Googlebot-Image
    Disallow:
    
    User-agent: MSNBot
    Disallow:
    
    User-agent: Slurp
    Disallow:
    
    User-agent: Teoma
    Disallow:
    
    User-agent: Gigabot
    Disallow:
    
    User-agent: Scrubby
    Disallow:
    
    User-agent: Robozilla
    Disallow:
    
    User-agent: BecomeBot
    Disallow:
    
    User-agent: Nutch
    Disallow:
    
    User-agent: Fast
    Disallow:
    
    User-agent: Scooter
    Disallow:
    
    User-agent: Mercator
    Disallow:
    
    User-agent: Ask Jeeves
    Disallow:
    
    User-agent: teoma_agent
    Disallow:
    
    User-agent: ia_archiver
    Disallow:
    
    User-agent: BizBot04 kirk.overleaf.com
    Disallow:
    
    User-agent: HappyBot (gserver.kw.net)
    Disallow:
    
    User-agent: CaliforniaBrownSpider
    Disallow:
    
    User-agent: EI*Net/0.1  libwww/0.1
    Disallow:
    
    User-agent: Ibot/1.0 libwww-perl/0.40    
    Disallow:
    
    User-agent: Merritt/1.0
    Disallow:
    
    User-agent: StatFetcher/1.0
    Disallow:
    
    User-agent: TeacherSoft/1.0  libwww/2.17
    Disallow:
    
    User-agent: WWW Collector
    Disallow:
    
    User-agent: processor/0.0ALPHA libwww-perl/0.20
    Disallow:
    
    User-agent: wobot/1.0 from 206.214.202.45
    Disallow:
    
    User-agent: Libertech-Rover         www.libertech.com?
    Disallow:
    
    User-agent: WhoWhere Robot
    Disallow:
    
    User-agent: ITI Spider
    Disallow:
    
    User-agent: w3index
    Disallow:
    
    User-agent: MyCNNSpider
    Disallow:
    
    User-agent: SummyCrawler
    Disallow:
    
    User-agent: OGspider
    Disallow:
    
    User-agent: linklooker
    Disallow:
    
    User-agent: CyberSpyder ([email protected])
    Disallow:
    
    User-agent: SlowBot
    Disallow:
    
    User-agent: heraSpider
    Disallow:
    
    User-agent: Surfbot
    Disallow:
    
    User-agent: Bizbot003
    Disallow:
    
    User-agent: WebWalker
    Disallow:
    
    User-agent: SandBot
    Disallow:
    
    User-agent: EnigmaBot
    Disallow:
    
    User-agent: spyder3.microsys.com
    Disallow:
    
    User-agent: www.freeloader.com.
    Disallow:
    
    User-agent: 205.252.60.71
    Disallow:
    
    User-agent: 194.20.32.131
    Disallow:
    
    User-agent: 198.5.209.201
    Disallow:
    
    User-agent: acke.dc.luth.se
    Disallow:
    
    User-agent: dallas.mt.cs.cmu.edu
    Disallow:
    
    User-agent: darkwing.cadvision.com
    Disallow:
    
    User-agent: waldec.com
    Disallow:
    
    User-agent: www2000.ogsm.vanderbilt.edu
    Disallow:
    
    User-agent: unet.ca
    Disallow:
    
    User-agent: murph.cais.net (rapid fire... sigh)
    Disallow:
    
    User-agent: www.freeloader.com
    Disallow:
    
    User-agent: *
    Disallow: /cartella da escludere/
    
    Sitemap: http://miosito.it/sitemap.xml

  8. #8
    Utente Premium L'avatar di dario99
    Data Registrazione
    Dec 2005
    Località
    Napoli
    Messaggi
    208
    ma a cosa serve ripetere le stesse regole per ogni bot? non e' inutile?
    La mia non e' una critica, dato che ci capisco poco di robots.txt


    Ciao, Dario.

  9. #9
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Sinceramente ho messo tutti i bot, nome per nome, visto che mi sembrava una cosa "più completa". Avrei potuto risolvere mettendo

    Codice:
    User-agent: *
    Disallow:
    Ma non volevo escludere nessun bot

    Alla fine è la stessa cosa

    Ora ho letto il DB con tutti i robots quasi quasi ne aggiungo qualcuno.

  10. #10
    User L'avatar di notorious
    Data Registrazione
    Dec 2006
    Località
    Ostra (AN)
    Messaggi
    210
    Mi aggrego alla discussione (perché interessa anche a me :P ). Su askapache consiglia:
    Codice:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    Allow: /wp-content/uploads
    Sono d'accordo a non indicizzare i feed, ma sono dubbioso sulle categorie (e per chi usa il plugin apposta, i tag): sono realmente da considerarsi contenuto duplicato, se si fa largo uso del tag <!--MORE--> e prima di esso si presenta solo un breve estratto dell'articolo? Inoltre le pagine delle categorie (e ancora di più i tag) hanno un'alta probabilità di aggregare keywords e articoli simili e correlati tra loro...

    Inoltre se si tolgono categorie e tag, non si dovrebbero escludere dall'indice, per lo stesso motivo, anche gli archivi mensili e giornalieri?

    Ovviamente faccio queste considerazioni per quel niubbo che sono :P (per questo, chiedo a voi esperti...)
    Ultima modifica di notorious; 18-08-07 alle 18:05

  11. #11
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Ciao notorious,
    per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora

    Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

    I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
    Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.

    Appunto

    Il termine "Allow:" non significa niente e non viene riconosciuto dal file robots.txt. Per includere qualcosa si utilizza "Disallow:" ed in questo modo include tutto ciò che non è stato precedentemente escluso.

    Per maggiori delucidazioni basta leggere quì . Inoltre è possibile verificare la corretta funzionalità del file utilizzando questo tool

  12. #12
    User L'avatar di notorious
    Data Registrazione
    Dec 2006
    Località
    Ostra (AN)
    Messaggi
    210
    Citazione Originariamente Scritto da cionfs Visualizza Messaggio
    Ciao notorious,
    per quanto riguarda l'essere "niubbi" in wordpress siamo in due allora

    Per il fattore robots.txt non mi trovo d'accordo con il fatto di escludere i feed, i commenti e le categorie.

    I Feed sono segnalabili a directory e potrebbero anche essere rintracciati dai motori di ricerca. Stessa cosa per i commenti e le categorie IMHO.
    Per l'esclusione dei temi, plugins ed area amministrativa sono d'accordo.
    Non mi riferivo a Wordpress, ma al lato SEO (anche se sì, sono niubbo anche in Wordpress).
    Quindi tu lasceresti
    Codice:
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /*?*
    Disallow: /*?
    da quel che ho capito, e google comunque sia non considererebbe gli archivi come contenuto duplicato, giusto? (quindi... wordpress va QUASI bene così com'è?)
    Per quanto riguarda escludere o meno i feed, mi riferivo che a volte essi sono riportati nei risultati di ricerca, e potrebbero significare aver perso un possibile visitatore (ricordatevi che queste considerazioni sono fatte da un ignIorante in materia).

    EDIT: Questa l'aggiungiamo?
    Codice:
    Sitemap: http://www.miosito.com/sitemap.xml

    EDIT 2: ops, ho visto solo adesso che già l'usavi
    Ultima modifica di notorious; 18-08-07 alle 19:25

  13. #13
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Per quanto riguarda il lato "SEO" wordpress risolve tutto utilizzando i permalink e la modifica al file .htaccess e l'utilizzo correto e mirato del file robots.txt facilita l'indicizzazione IMHO.
    Per quanto mi ho capito i feed sono indicizzati indipendentemente e come se fossero "a parte" (da prendere con le pinze queste mie parole visto che sto ipotizzando ) e di conseguenza fornirebbero maggiori ingressi.
    Il file robots.txt è soltanto un qualcosa che permette ai bot di leggere e verificare ciò che hai messo su un blog, pagina web, forum o altro escludendo ovviamente ciò che non vuoi che venga trovato e indicizzato.

    L'utilità di questo file è, secondo me, solo quello di escludere/permettere di far trovare argomenti ben mirati.

    All IMHO

  14. #14
    User L'avatar di notorious
    Data Registrazione
    Dec 2006
    Località
    Ostra (AN)
    Messaggi
    210
    Cionfs, tutto ciò continuerebbe a valere se nel blog si ha l'abitudine di non associare, ad ogni post, una sola categoria, ma più di una? (so che è sconsigliato, ma per una migliore navigabilità ho scelto di rendere alcuni post "multicategoria" - nel caso specifico mi riferisco ad un mio blog pubblicato da pochi giorni, in cui le categorie hanno una struttura gerarchica, e post appartanente ad una figlia compare anche nell'archivio del padre...)

  15. #15
    Esperto L'avatar di cionfs
    Data Registrazione
    Mar 2007
    Località
    Taranto
    Messaggi
    2,871
    Aggiungi cionfs su Facebook
    Personalmente, nel mio blog, ho qualche post in più di una categoria (per il tuo stesso motivo). La questione riguarda sempre il fatto che, se hai attivi i permalink, il file robots.txt ti permette indicizzazione in tutti i casi.
    La funzione di questo file è solo quello di "farti leggere" dai bot. Per il resto è tutta questione di indicizzazione

    All IMHO

  16. #16
    User L'avatar di maiuei
    Data Registrazione
    Nov 2007
    Messaggi
    23
    scusate, sarà forse banala ma:

    se devo mettere il sito on line, è voglio niente venga indicizzato, basta mettere

    User-agent: *
    Disallow: /

    grazie
    Maiuei

  17. #17
    User L'avatar di maiuei
    Data Registrazione
    Nov 2007
    Messaggi
    23
    trovata risposta, grazie cmq.

    Maiuei

  18. #18
    Utente Premium L'avatar di yurx
    Data Registrazione
    Jan 2008
    Località
    Provincia di Brescia, Italy
    Messaggi
    296
    askapache.com/seo/seo-with-robotstxt.html

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.