+ Rispondi alla Discussione
Risultati da 1 a 18 di 18

Tanti url soggetto a restrizioni da robots.txt

Ultimo Messaggio di Webmaster70 il:
  1. #1
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58

    Tanti url soggetto a restrizioni da robots.txt

    Ho un sistema vBulletin 4.1.3 in bridge con Wordpress. Ho generato una sitemap di WP e segnalata ai motori di ricerca, e va alla grande.

    Ho generato con l'apposito tool di vBulletin la sitemap del forum, che genera il file xmlsitemap.php da segnalare ai vari search engine. Questa mappa di tipo indice dà errore al webmaster tool di google, notificando con una X rossa lo stato della mappa.

    Inoltre ho restrizioni da robots.txt per più di 1500 url, per la maggior parte tratti dal forum.

    il mio file robots è questo...ho sbagliato qualcosa? Avete qualche idea?

    Codice:
    Sitemap: /sitemap.xml
    Sitemap: /forum/xmlsitemap.php
    
    User-agent: BoardTracker
    Disallow: /
    
    User-agent: Gigabot
    Disallow: /
    
    User-agent: Twiceler
    Disallow: /
    
    User-agent: Slurp
    Crawl-delay: 2
    
    User-agent: msnbot
    Crawl-delay: 2
    
    User-agent: *
    
    Disallow: /wp-
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /cgi-bin/
    
    Allow: /wp-content/uploads/
    
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /comments/
    Disallow: */feed/
    Disallow: */trackback/
    Disallow: */comments/
    
    Disallow: /*?*
    Disallow: /*?
    
    Disallow: /tag/           
    Disallow: /category/
    
    Disallow: /editpost.php
    Disallow: /gamercard.php
    Disallow: /inlinemod.php
    Disallow: /member.php
    Disallow: /memberlist.php
    Disallow: /newreply.php
    Disallow: /newthread.php
    Disallow: /payments.php
    Disallow: /printthread.php
    Disallow: /private.php
    Disallow: /profile.php
    Disallow: /report.php
    Disallow: /search.php
    Disallow: /sendmessage.php
    Disallow: /showpost.php
    Disallow: /usercp.php
    Disallow: /usernote.php
    
    User-agent: Mediapartners-Google
    Allow: /member.php
    Allow: /private.php
    Allow: /usercp.php
    
    Allow: /

  2. #2
    User L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Ciao Amaca, il robots.txt contiene errori formali, una riga vuota infatti significa fine del blocco precedente (che invece inizia con User-Agent), probabilmente Google lo corregge in automatico, in ogni caso li eliminerei.

    Poi ci sono alcune righe superflue, perché ribadiscono inutilmente quando già detto in altre righe.

    Riguardo al forum, non fa uso di tecniche di URL rewriting, vero?

    Cioè hai delle URL parametriche di questo tipo:
    /forum/thread.php?id=1234

    Se la risposta è SI, il problema probabilmente sta nelle righe:
    Disallow: /*?*
    Disallow: /*?

    Sotto ti riporto il codice commentato, io eliminerei tutte le righe dove trovi i miei commenti, e poi lo controllerei tramite l'apposito tool negli strumenti per webmaster di Google.

    ---------------------------------------

    Sitemap: /sitemap.xml
    Sitemap: /forum/xmlsitemap.php

    User-agent: BoardTracker
    Disallow: /

    User-agent: Gigabot
    Disallow: /

    User-agent: Twiceler
    Disallow: /

    User-agent: Slurp
    Crawl-delay: 2

    User-agent: msnbot
    Crawl-delay: 2

    User-agent: *
    <- ERRORE: RIGA VUOTA
    Disallow: /wp-
    Disallow: /wp-admin/ <- SUPERFLUO
    Disallow: /wp-includes/ <- SUPERFLUO
    Disallow: /wp-content/ <- SUPERFLUO
    Disallow: /cgi-bin/
    <- ERRORE: RIGA VUOTA
    Allow: /wp-content/uploads/
    <- ERRORE: RIGA VUOTA
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /comments/
    Disallow: */feed/
    Disallow: */trackback/
    Disallow: */comments/
    <- ERRORE: RIGA VUOTA
    Disallow: /*?* <- SUPERFLUO, inoltre vedi sotto
    Disallow: /*? <- FORSE E' QUESTA RIGA CHE IMPEDISCE L'INDICIZZAZIONE DEL FORUM
    <- ERRORE: RIGA VUOTA
    Disallow: /tag/
    Disallow: /category/
    <- ERRORE: RIGA VUOTA
    Disallow: /editpost.php
    Disallow: /gamercard.php
    Disallow: /inlinemod.php
    Disallow: /member.php
    Disallow: /memberlist.php
    Disallow: /newreply.php
    Disallow: /newthread.php
    Disallow: /payments.php
    Disallow: /printthread.php
    Disallow: /private.php
    Disallow: /profile.php
    Disallow: /report.php
    Disallow: /search.php
    Disallow: /sendmessage.php
    Disallow: /showpost.php
    Disallow: /usercp.php
    Disallow: /usernote.php

    User-agent: Mediapartners-Google
    Allow: /member.php <- SUPERFLUO
    Allow: /private.php <- SUPERFLUO
    Allow: /usercp.php <- SUPERFLUO
    <- ERRORE: RIGA VUOTA
    Allow: /
    Ultima modifica di Webmaster70; 03-11-11 alle 16:51

  3. #3
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Intanto Webmaster ti ringrazio tanto per la risposta super dettagliata.

    Sono alle prime armi con i robots e sicuramente avrò fatto tanti errori.

    esatto per gli url parametrici, non uso url rewrite. quindi potrebbe essere proprio quello il problema! provo immediatamente a settarlo come mi hai consigliato, ti faccio sapere se ho delle novità.

    Per quanto riguarda la sitemap del forum, invece? secondo te come mai mi da la X rossa sullo stato? dici che puo dipendere dal file robots?

  4. #4
    User L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Accanto alla X dovrebbe esserci un link con il nome della sitemap, cliccalo e nella pagina di dettaglio dovresti leggere di che errore si tratta (forse è la presenza di tante URL escluse dal robots.txt).

  5. #5
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Ah ecco!! non mi ero accorto che si poteva controllare nel dettaglio!

    E' esattamente come dici:

    "URL limitato da robots.txt
    Abbiamo rilevato un errore durante l'accesso alla tua Sitemap. Accertati che la tua Sitemap rispetti le nostre linee guida e che sia possibile accedervi utilizzando il percorso da te fornito, quindi reinviala."

    e sotto i vari url bloccati.

    Ho modificato il robots.txt, ho modo di segnalarlo subito al sistema o devo attendere per forza che i crawler controllino da soli?

  6. #6
    User L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Bene!

    Pazienta un po', entro 24 ore circa si accorgerà dei cambiamenti al robots.txt, e potrai verificarlo sempre li negli strumenti per webmaster.

    Dopo invia di nuovo la sitemap.

    Anche se una prova puoi farla già adesso, non si sa mai.

  7. #7
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Perfetto, attendo che il robots sia aggiornato! incrocio le dita!

    Intanto grazie in anticipo per l'aiuto!!!
    Ultima modifica di Webmaster70; 06-11-11 alle 23:54 Motivo: Inizia le frasi con le maiuscole, grazie.

  8. #8
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Buone nuove, ma non del tutto!

    nella home del webmaster tool prima mi diceva che c'erano errori indicandomelo con una scritta in rosso, e una volta entrato nel sito specifico, ritrovavo lo stesso errore su una banda rossa che evidenziava il problema. Ora quegli errori non ci sono piu, quindi sembra che sia apposto, anche perche l'errore della sitemap che avevo prima, ora non c'è piu, è settata correttamente e la bella V in verde lo conferma.

    Unico problema: negli errori di scansione trovo tutto esattamente come prima, con i 1600 e rotti url bloccati da robots, nonostante siano stati scannerizzati il 5 novembre, quindi teoricamente era gia tutto apposto, poichè gia da un paio di giorni è tutto corretto.

    E' normale? devo aspettare un po di tempo o ancora c'è qualche problema di configurazione?

  9. #9
    User L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Puoi fare il copia e incolla di alcune di quelle righe?
    Togli però http:// e il nome del tuo dominio, così non diventano link attivi e mantieni la privacy.

  10. #10
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    questi sono quelli nella colonna "soggetto a limitazioni da robots", e ne ho altri 1600. ho visto che la prima pagina di link sono stati visionati dal crawler il 5 novembre, ma gli altri piu vecchi non sono stati ricontrollati...ma rimane il fatto che ne sono usciti di nuovi il giorno che avevo settato tutto bene.

    /forum/showthread.php?301-One-piece-pop-silvers-rayleigh&p=1266
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?194-P.O.P.-quot-Sailing-Again-quot-Chopper
    URL limitato da robots.txt 05/nov/2011
    /forum/tags.php?tag=catherine
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=446&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=450&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/tags.php?tag=site
    URL limitato da robots.txt 05/nov/2011
    /forum/tags.php?tag=guida
    URL limitato da robots.txt 05/nov/2011
    /forum/external.php?type=RSS2&forumids=67
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=112&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=456&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?298-Ciao-a-tutti!
    URL limitato da robots.txt 05/nov/2011


    questi invece sono nella colonna "nella sitemap", e listati ce ne sono sui 124


    /forum/showthread.php?349-vendo-Thousand-Sunny-
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/showthread.php?15-DX08-Batman(1989)-1-6th-scale-Joker
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/forumdisplay.php?26-Varie
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/forumdisplay.php?52-Cinema-e-TV
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/showthread.php?336-Mikuru-Asahina-1-8-(Figure)
    URL limitato da robots.txt
    non disponibile
    05/nov/2011

  11. #11
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono? Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:

    /category/americane/recensioni-americane
    /category/video
    /wp-admin/admin-ajax.php

    i file in questione sono riferiti a wordpress.

  12. #12
    User L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Citazione Originariamente Scritto da Amaca Visualizza Messaggio
    Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono?
    Si.

    Quello è come un normale file di log (o registro) eventi (di solito errori), e quindi funziona in questo modo.

    Quando si verifica un errore viene aggiunta una riga, la quale poi non viene eliminata quando l'errore viene corretto, bensì quando passa tot tempo dalla sua registrazione e/o il registro raggiunge una certa capienza.

    Quindi è normale che adesso si "sgonfi" lentamente.

    Citazione Originariamente Scritto da Amaca Visualizza Messaggio
    Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:
    /category/americane/recensioni-americane
    /category/video
    /wp-admin/admin-ajax.php

    i file in questione sono riferiti a wordpress.
    Sta semplicemente facendo quello che gli hai ordinato tu tramite robots.txt:
    Citazione Originariamente Scritto da Amaca Visualizza Messaggio
    Disallow: /wp-
    Disallow: /category/
    Ultima modifica di Webmaster70; 12-11-11 alle 18:10

  13. #13
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Infatti sta continuando a scendere pian piano giornalmente!!!! ah, quindi ho bloccato stupidamente le catogorie! Errori da principiante

    Non so come ringraziarti Webmaster! sei un grande!!! non sarei mai riuscito a risolvere la questione senza di te e sta mitica community, sempre i numeri uno!!!

    un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.

    c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?

  14. #14
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Citazione Originariamente Scritto da Amaca Visualizza Messaggio
    un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.

    c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?
    Ok ho risolto quel discorso li! Era una cavolata

    Per le categorie in realtà mi sono ricordato il motivo per cui le bloccavo...avevo letto in giro che avendo molte categorie, c era il rischio di creare contenuti duplicati, poichè le categorie andavano a pescare articoli a volte uguali...potrebbe essere saggio continuare a bloccarle oppure no?

  15. #15
    User L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Si Amaca, categorie e tags possono creare problemi di contenuti duplicati.

    Metterle in disallow nel robots.txt è una soluzione, ma per me non è quella ottimale. Io farei così.

    - Usa o le categorie o i tags, non entrambi.

    - Se usi i tags, non assegnarne più di 4-5 per ogni articolo, cercando di riutilizzare gli stessi.

    - Nelle pagine tags o categorie non mostrare tutto l'articolo, ma solo titolo + abstract, oppure solo titolo.

    - Togli le righe relative a tags e categorie nel robots.txt.

    Quanto detto sopra è un mio convinto parere, e non una assodata prescrizione sulle quali tutti concordano, vedi tu.

  16. #16
    Moderatore L'avatar di overclokk
    Data Registrazione
    Jun 2010
    Località
    Persiceto (BO)
    Messaggi
    3,110
    Segui overclokk su Twitter Aggiungi overclokk su Google+
    Secondo me è un'ottima soluzione, l'alternativa oltre al disallow è il nofollow sulle categorie e sui tags.

  17. #17
    User L'avatar di Amaca
    Data Registrazione
    Feb 2010
    Messaggi
    58
    Non ho usato dei tags, ma ho creato delle tassonomie personalizzate con la possibilità di aggiungere figli...a conti fatti li utilizzo come se fossero tag, ma con la possibilità di categorizzarli in tassonomie padre. Sono lo stesso considerate categorie? spero di essere stato chiaro, altrimenti chiedetemi!

    Vale lo stesso discorso di non associare piu di 4 o 5 tassonomie a post?

    Per ora visualizzo titolo e la parte iniziale dell'articolo nella pagine relative alle tassonomie e categorie, che viene tagliato in automatico. sarebbe piu oppurtuno usare i "riassunti"?

    comunque anche l idea del nofollow non è sbagliata.
    Ultima modifica di Amaca; 16-11-11 alle 10:50

  18. #18
    User L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Il discorso è uguale, non assegnare troppe categorie, tag o tassonomie per articolo.

    I riassunti sono meglio degli articoli troncati, però se li devi a mano fare esclusivamente per questo, non ne vale la pena, perché bastano le altre precauzioni.

    Riguardo al nofollow ... idem al disallow, previene contenuti duplicati (grave problema) ma comporta perdita di link juice (piccolo problema), per me.

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.