• User Attivo

    La Sitemap contiene URL bloccati da robots.txt

    Recentemente mi sono accorto che per uno dei miei blog google segnala 61.425 avvisi per url bloccati dal file robots.txt

    Il blog è basato su piattaforma wordpress e il contenuto del file robots è il seguente:

    User-agent: *Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?
    Disallow: /?
    Allow: /wp-content/uploads
     
    # Google Image
    User-agent: Googlebot-Image
    Allow: /
     
    # Google AdSense
    User-agent: Mediapartners-Google*
    Allow: /
    
    
    Sitemap: http://www.nome-sito.it/sitemap.xml.gz
    

    Nel robots non mi sembra di vedere problemi e fin'ora non ho avuto problemi di indicizzazione, però quei 60 mila avvisi un po' mi preoccupano.

    Voi usate configurazioni differenti? Dite che sto bloccando contenuti che non è necessario bloccare?

    Tipo:
    Altri


  • Admin

    Io ci andrei cauto con

    Disallow: /*?
    Disallow: /?
    

    Considera che spesso WP aggiunge all'head lo shortlink e considera anche che spesso chi ti ricondivide potrebbe ricondividerti con i parametri ad esempio dei feed rss o di eventuali campagne.

    Bloccare così quelle URL credo sia nella maggior parte dei casi deleterio in quanto già il canonical per queste cose funziona abbastanza bene.


  • Moderatore

    Ciao,
    puoi prendere uno degli url che vengono bloccati e nella pagina URL bloccati del GWT fai un test e vedrai quale riga del robots.txt blocca lo spider.
    Avrai un quadro più chiaro per capire la situazione.


  • User Attivo

    Effettivamente facendo una prova ho visto il risultato è il seguente:
    http://www.nome-sito.it/?p=17501
    Bloccato dalla riga 14: Disallow: /*?

    Quel disallow l'avevo messo proprio per bloccare i shortlink, da quel che ne sapevo diversamente si rischia di avere contenuti duplicati, dici che è meglio il disallow?


  • Moderatore

    Perchè gli shortlink sono inseriti nella sitemap?
    Se sono bloccati non ha senso e gwt ti segnala il problema.


  • Admin

    Lo shortlink se vuoi puoi escluderlo.

    Solitamente WP lo inserisce nell'<head> della pagina. In ogni caso secondo me ha poco senso usare quel disallow nel robots.txt come ti avevo detto prima.


  • User Attivo

    @Juanin said:

    Lo shortlink se vuoi puoi escluderlo.

    Ma si fa dalle impostazioni di wordpress?


  • Moderatore

    Se il sito di cui parli è quello che tu hai in firma allora il problema di duplicazione non esiste, in quanto ogni shortlink ha un redirect 301 verso l'url completo.
    Continuo però a non capire come mai gli shortlink siano presenti nella sitemap.


  • User Attivo

    Si è quello in firma.
    Sinceramente non saprei, uso questi due plugin per generale le sitemap: "Google XML Sitemaps" e "Udinra All Image Sitemap" e fanno tutto in automatico, non c'è nessun settaggio da impostare.
    Comunque se mi dici che non c'è problema di duplicazione allora tolgo il disallow dal file robots.