• User

    Tanti url soggetto a restrizioni da robots.txt

    Ho un sistema vBulletin 4.1.3 in bridge con Wordpress. Ho generato una sitemap di WP e segnalata ai motori di ricerca, e va alla grande.

    Ho generato con l'apposito tool di vBulletin la sitemap del forum, che genera il file xmlsitemap.php da segnalare ai vari search engine. Questa mappa di tipo indice dà errore al webmaster tool di google, notificando con una X rossa lo stato della mappa.

    Inoltre ho restrizioni da robots.txt per più di 1500 url, per la maggior parte tratti dal forum.

    il mio file robots è questo...ho sbagliato qualcosa? Avete qualche idea? :bho:

    
    Sitemap: /sitemap.xml
    Sitemap: /forum/xmlsitemap.php
    
    User-agent: BoardTracker
    Disallow: /
    
    User-agent: Gigabot
    Disallow: /
    
    User-agent: Twiceler
    Disallow: /
    
    User-agent: Slurp
    Crawl-delay: 2
    
    User-agent: msnbot
    Crawl-delay: 2
    
    User-agent: *
    
    Disallow: /wp-
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /cgi-bin/
    
    Allow: /wp-content/uploads/
    
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /comments/
    Disallow: */feed/
    Disallow: */trackback/
    Disallow: */comments/
    
    Disallow: /*?*
    Disallow: /*?
    
    Disallow: /tag/           
    Disallow: /category/
    
    Disallow: /editpost.php
    Disallow: /gamercard.php
    Disallow: /inlinemod.php
    Disallow: /member.php
    Disallow: /memberlist.php
    Disallow: /newreply.php
    Disallow: /newthread.php
    Disallow: /payments.php
    Disallow: /printthread.php
    Disallow: /private.php
    Disallow: /profile.php
    Disallow: /report.php
    Disallow: /search.php
    Disallow: /sendmessage.php
    Disallow: /showpost.php
    Disallow: /usercp.php
    Disallow: /usernote.php
    
    User-agent: Mediapartners-Google
    Allow: /member.php
    Allow: /private.php
    Allow: /usercp.php
    
    Allow: /
    
    

  • Super User

    Ciao Amaca, il robots.txt contiene errori formali, una riga vuota infatti significa fine del blocco precedente (che invece inizia con User-Agent), probabilmente Google lo corregge in automatico, in ogni caso li eliminerei.

    Poi ci sono alcune righe superflue, perché ribadiscono inutilmente quando già detto in altre righe.

    Riguardo al forum, non fa uso di tecniche di URL rewriting, vero?

    Cioè hai delle URL parametriche di questo tipo:
    /forum/thread.php?id=1234

    Se la risposta è SI, il problema probabilmente sta nelle righe:
    Disallow: /?
    Disallow: /*?

    Sotto ti riporto il codice commentato, io eliminerei tutte le righe dove trovi i miei commenti, e poi lo controllerei tramite l'apposito tool negli strumenti per webmaster di Google.


    Sitemap: /sitemap.xml
    Sitemap: /forum/xmlsitemap.php

    User-agent: BoardTracker
    Disallow: /

    User-agent: Gigabot
    Disallow: /

    User-agent: Twiceler
    Disallow: /

    User-agent: Slurp
    Crawl-delay: 2

    User-agent: msnbot
    Crawl-delay: 2

    User-agent: *
    <- ERRORE: RIGA VUOTA
    Disallow: /wp-
    Disallow: /wp-admin/ <- SUPERFLUO
    Disallow: /wp-includes/ <- SUPERFLUO
    Disallow: /wp-content/ <- SUPERFLUO
    Disallow: /cgi-bin/
    <- ERRORE: RIGA VUOTA
    Allow: /wp-content/uploads/
    <- ERRORE: RIGA VUOTA
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /comments/
    Disallow: /feed/
    Disallow: /trackback/
    Disallow: /comments/
    <- ERRORE: RIGA VUOTA
    Disallow: /
    ?
    <- SUPERFLUO, inoltre vedi sotto
    Disallow: /
    ? <- FORSE E' QUESTA RIGA CHE IMPEDISCE L'INDICIZZAZIONE DEL FORUM
    <- ERRORE: RIGA VUOTA
    Disallow: /tag/
    Disallow: /category/
    <- ERRORE: RIGA VUOTA
    Disallow: /editpost.php
    Disallow: /gamercard.php
    Disallow: /inlinemod.php
    Disallow: /member.php
    Disallow: /memberlist.php
    Disallow: /newreply.php
    Disallow: /newthread.php
    Disallow: /payments.php
    Disallow: /printthread.php
    Disallow: /private.php
    Disallow: /profile.php
    Disallow: /report.php
    Disallow: /search.php
    Disallow: /sendmessage.php
    Disallow: /showpost.php
    Disallow: /usercp.php
    Disallow: /usernote.php

    User-agent: Mediapartners-Google
    Allow: /member.php <- SUPERFLUO
    Allow: /private.php <- SUPERFLUO
    Allow: /usercp.php <- SUPERFLUO
    <- ERRORE: RIGA VUOTA
    Allow: /


  • User

    Intanto Webmaster ti ringrazio tanto per la risposta super dettagliata.

    Sono alle prime armi con i robots e sicuramente avrò fatto tanti errori.

    esatto per gli url parametrici, non uso url rewrite. quindi potrebbe essere proprio quello il problema! provo immediatamente a settarlo come mi hai consigliato, ti faccio sapere se ho delle novità.

    Per quanto riguarda la sitemap del forum, invece? secondo te come mai mi da la X rossa sullo stato? dici che puo dipendere dal file robots?


  • Super User

    Accanto alla X dovrebbe esserci un link con il nome della sitemap, cliccalo e nella pagina di dettaglio dovresti leggere di che errore si tratta (forse è la presenza di tante URL escluse dal robots.txt).


  • User

    Ah ecco!! non mi ero accorto che si poteva controllare nel dettaglio!

    E' esattamente come dici:

    "URL limitato da robots.txt
    Abbiamo rilevato un errore durante l'accesso alla tua Sitemap. Accertati che la tua Sitemap rispetti le nostre linee guida e che sia possibile accedervi utilizzando il percorso da te fornito, quindi reinviala."

    e sotto i vari url bloccati.

    Ho modificato il robots.txt, ho modo di segnalarlo subito al sistema o devo attendere per forza che i crawler controllino da soli?


  • Super User

    Bene!

    Pazienta un po', entro 24 ore circa si accorgerà dei cambiamenti al robots.txt, e potrai verificarlo sempre li negli strumenti per webmaster.

    Dopo invia di nuovo la sitemap.

    Anche se una prova puoi farla già adesso, non si sa mai.


  • User

    Perfetto, attendo che il robots sia aggiornato! incrocio le dita!;)

    Intanto grazie in anticipo per l'aiuto!!! :bravo:


  • User

    Buone nuove, ma non del tutto! 🙂

    nella home del webmaster tool prima mi diceva che c'erano errori indicandomelo con una scritta in rosso, e una volta entrato nel sito specifico, ritrovavo lo stesso errore su una banda rossa che evidenziava il problema. Ora quegli errori non ci sono piu, quindi sembra che sia apposto, anche perche l'errore della sitemap che avevo prima, ora non c'è piu, è settata correttamente e la bella V in verde lo conferma.

    Unico problema: negli errori di scansione trovo tutto esattamente come prima, con i 1600 e rotti url bloccati da robots, nonostante siano stati scannerizzati il 5 novembre, quindi teoricamente era gia tutto apposto, poichè gia da un paio di giorni è tutto corretto.

    E' normale? devo aspettare un po di tempo o ancora c'è qualche problema di configurazione?


  • Super User

    Puoi fare il copia e incolla di alcune di quelle righe?
    Togli però http:// e il nome del tuo dominio, così non diventano link attivi e mantieni la privacy.


  • User

    questi sono quelli nella colonna "soggetto a limitazioni da robots", e ne ho altri 1600. ho visto che la prima pagina di link sono stati visionati dal crawler il 5 novembre, ma gli altri piu vecchi non sono stati ricontrollati...ma rimane il fatto che ne sono usciti di nuovi il giorno che avevo settato tutto bene.

    /forum/showthread.php?301-One-piece-pop-silvers-rayleigh&p=1266
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?194-P.O.P.-quot-Sailing-Again-quot-Chopper
    URL limitato da robots.txt 05/nov/2011
    /forum/tags.php?tag=catherine
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=446&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=450&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/tags.php?tag=site
    URL limitato da robots.txt 05/nov/2011
    /forum/tags.php?tag=guida
    URL limitato da robots.txt 05/nov/2011
    /forum/external.php?type=RSS2&forumids=67
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=112&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?t=456&goto=newpost
    URL limitato da robots.txt 05/nov/2011
    /forum/showthread.php?298-Ciao-a-tutti!
    URL limitato da robots.txt 05/nov/2011

    questi invece sono nella colonna "nella sitemap", e listati ce ne sono sui 124

    /forum/showthread.php?349-vendo-Thousand-Sunny-
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/showthread.php?15-DX08-Batman(1989)-1-6th-scale-Joker
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/forumdisplay.php?26-Varie
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/forumdisplay.php?52-Cinema-e-TV
    URL limitato da robots.txt
    non disponibile
    05/nov/2011
    /forum/showthread.php?336-Mikuru-Asahina-1-8-(Figure)
    URL limitato da robots.txt
    non disponibile
    05/nov/2011


  • User

    Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono? Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:

    /category/americane/recensioni-americane
    /category/video
    /wp-admin/admin-ajax.php

    i file in questione sono riferiti a wordpress.


  • Super User

    @Amaca said:

    Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono?

    Si.

    Quello è come un normale file di log (o registro) eventi (di solito errori), e quindi funziona in questo modo.

    Quando si verifica un errore viene aggiunta una riga, la quale poi non viene eliminata quando l'errore viene corretto, bensì quando passa tot tempo dalla sua registrazione e/o il registro raggiunge una certa capienza.

    Quindi è normale che adesso si "sgonfi" lentamente.

    @Amaca said:

    Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:
    /category/americane/recensioni-americane
    /category/video
    /wp-admin/admin-ajax.php

    i file in questione sono riferiti a wordpress.

    Sta semplicemente facendo quello che gli hai ordinato tu tramite robots.txt:
    @Amaca said:

    Disallow: /wp-
    Disallow: /category/


  • User

    Infatti sta continuando a scendere pian piano giornalmente!!!! ah, quindi ho bloccato stupidamente le catogorie! Errori da principiante 🙂

    Non so come ringraziarti Webmaster! sei un grande!!! non sarei mai riuscito a risolvere la questione senza di te e sta mitica community, sempre i numeri uno!!! 😉

    un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.

    c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?


  • User

    @Amaca said:

    un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.

    c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?

    Ok ho risolto quel discorso li! Era una cavolata 🙂

    Per le categorie in realtà mi sono ricordato il motivo per cui le bloccavo...avevo letto in giro che avendo molte categorie, c era il rischio di creare contenuti duplicati, poichè le categorie andavano a pescare articoli a volte uguali...potrebbe essere saggio continuare a bloccarle oppure no?


  • Super User

    Si Amaca, categorie e tags possono creare problemi di contenuti duplicati.

    Metterle in disallow nel robots.txt è una soluzione, ma per me non è quella ottimale. Io farei così.

    • Usa o le categorie o i tags, non entrambi.

    • Se usi i tags, non assegnarne più di 4-5 per ogni articolo, cercando di riutilizzare gli stessi.

    • Nelle pagine tags o categorie non mostrare tutto l'articolo, ma solo titolo + abstract, oppure solo titolo.

    • Togli le righe relative a tags e categorie nel robots.txt.

    Quanto detto sopra è un mio convinto parere, e non una assodata prescrizione sulle quali tutti concordano, vedi tu.


  • Moderatore

    Secondo me è un'ottima soluzione, l'alternativa oltre al disallow è il nofollow sulle categorie e sui tags.


  • User

    Non ho usato dei tags, ma ho creato delle tassonomie personalizzate con la possibilità di aggiungere figli...a conti fatti li utilizzo come se fossero tag, ma con la possibilità di categorizzarli in tassonomie padre. Sono lo stesso considerate categorie? spero di essere stato chiaro, altrimenti chiedetemi!

    Vale lo stesso discorso di non associare piu di 4 o 5 tassonomie a post?

    Per ora visualizzo titolo e la parte iniziale dell'articolo nella pagine relative alle tassonomie e categorie, che viene tagliato in automatico. sarebbe piu oppurtuno usare i "riassunti"?

    comunque anche l idea del nofollow non è sbagliata.


  • Super User

    Il discorso è uguale, non assegnare troppe categorie, tag o tassonomie per articolo.

    I riassunti sono meglio degli articoli troncati, però se li devi a mano fare esclusivamente per questo, non ne vale la pena, perché bastano le altre precauzioni.

    Riguardo al nofollow ... idem al disallow, previene contenuti duplicati (grave problema) ma comporta perdita di link juice (piccolo problema), per me.