• User

    Problema Google: Robots blocca url - Blogger

    Buongiorno a tutti 🙂 Sono nuovo del forum!
    Vi leggo spesso e ho sempre cercato di cavarmela da solo...tuttavia mi trovo di fronte un bel problema ora, anche se sono sicuro che per voi sarà una passeggiata 😄

    In sostanza, tramite Strumenti di Google, alla sezione Url Bloccati, mi dice chiaramente che mi ha bloccato 24 url ( il blog che voglio indicizzare è appena nato, quindi si e no saranno 20 pagine in totale).
    Anche nella sezione Stato dell'indicizzazione mi dice 1 indicizzata, 7 bloccate dai robot.
    Il mio file robots secondo google è questo (ovviamente l'url della sitemap normalmente ha la parte iniziale ) :

    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: pc-migliore-gratis.blogspot.com/feeds/posts/default?orderby=UPDATED

    Quello che invece ho caricato io dalle impostazioni di blogger è questo:

    User-agent: Mediapartners-Google
    Disallow:

    Sitemap: pc-migliore-gratis.blogspot.com/feeds/posts/default?orderby=UPDATED

    Infine ho già provato la funzione AddUrl, già inviato la sitemap( anche se non so quale sia la migliore, leggi domanda 2 ), già ottenuto backlink sia da social, sia da qualche directory e sito con PR interessante.
    Detto ciò le mie domande sono:

    • Perchè i 2 file robots non coincidono?
    • E' meglio la sitemap che ho, o una classica cioè indirizzo.com/atom.xml?redirect=false ?
    • Tramite site: pc-migliore-gratis.blogspot.it rilevo effettivamente solo 1 pagina..ma è la pagina di un label!? WTF? Perché?! :?:?
    • D'altra parte tramite site: pc-migliore-gratis.blogspot.com mi escono 6 risultati.. quindi, devo continuare a promuovere .it o .com? Mi confonde davvero questo punto, anche perchè non so se fare errori che possono influire sulla duplicazione delle pagine :arrabbiato:
    • Come faccio a "sbloccare" quei 24 url?
    • Mi sfugge ancora qualcosa?

    Grazie a tutti per la pazienza 😮 e in anticipo per le risposte :smile5:


  • Moderatore

    Ciao FabrizioMazzei, Benvenuto nel ForumGT

    Ti faccio innanzi tutto i complimenti per come hai già approfondito in autonomia la conoscenza del SEO Tecnico, bravo!

    @FabrizioMazzei said:

    Perchè i 2 file robots non coincidono?La versione mostrata da "URL bloccati" è spesso non aggiornata, è una lacuna fastidiosa dello strumento.
    Immagino per un certo periodo il tuo file sia stato come lo visualizzi. Non è neanche la copia che vede Googlebot, è una copia indipendente. Se non ci sono problemi nell'erogazione del file, Googlebot considera la copia di robots.txt valida per 24 ore.

    Nota: ora non ricordo bene la struttura dei siti blogspot, ma se come immagino /search/ corrisponde a risultati di ricerche interne, è corretto bloccarlo da robots.txt : Google chiede di non rendere indicizzabili pagine del genere.

    @FabrizioMazzei said:

    E' meglio la sitemap che ho, o una classica cioè indirizzo.com/atom.xml?redirect=false ?Nessuna delle due: la sintassi Atom può essere usata per le sitemap inviate a Google tramite GWT, ma le sitemap declinate in robots.txt devono obbedire alla sintassi delle XML Sitemap come descritta su sitemaps.org

    @FabrizioMazzei said:

    Tramite site: pc-migliore-gratis.blogspot.it rilevo effettivamente solo 1 pagina..ma è la pagina di un label!? WTF? Perché?!
    D'altra parte tramite site: pc-migliore-gratis.blogspot.com mi escono 6 risultati.. quindi, devo continuare a promuovere .it o .com? Mi confonde davvero questo punto, anche perchè non so se fare errori che possono influire sulla duplicazione delle pagine
    Per motivi più o meno condivisibili (personalmente lo trovo un'assurdità) Google - nel ruolo di fornitore del servizio di Blogspot, non nel ruolo di motore di ricerca - ha deciso di redirezionare gli utenti di blogspot verso un'estensione di dominio nazionale in base all'IP del visitatore ( 😛 )
    Googlebot visita le pagine (quasi) esclusivamente da IP americani, per questo i contenuti sono indicizzati come .com

    La cosa non genera problemi di duplicazione contenuti, perché le pagine in automatico espongono un canonical link che punta alla versione .com

    Possibile l'unica pagina .it sia indicizzata prima della decisione di G? La cosa risale a circa un annetto fa, purtroppo non trovo link ora.
    I 10 URL visualizzati per .it sono riportati come bloccati da robots.txt (ma secondo me non lo sono più), e G non poteva quindi vederne il canonical.

    @FabrizioMazzei said:

    Come faccio a "sbloccare" quei 24 url?
    Se ho ben compreso bene non sai esattamente quali sono questi 24 URL, giusto? Perché hai detto hai solo 20 pagine. Giocando un po' con site: e cliccando sul link alla fine "Visualizza risultati omessi", vedo un 11 bloccati, e mi sembra siano tutti in /search/ e/o labels
    Secondo me sono già sbloccati. Puoi verificarlo da GWT con "Visualizza come Google": se fossero bloccati te lo notificherebbe.
    Se tu volessi indicizzarli (ma quelli che vedo non dovrebbero esserlo a mio parere) potresti poi usare "Invia all'indice".

    ...Anzi, ripensandoci fallo, tanto al momento non sono bloccati e Google apprenderebbe del canonical, non può fare danno.

    @FabrizioMazzei said:

    Mi sfugge ancora qualcosa?
    Hai detto d'avere una ventina di pagine, ma ne vedo solo sei, le stesse elencate dal tuo feed, le stesse indicizzate da Google.
    Secondo me le 24 riportate come bloccate sono solo URL di pagine elenco di label

    Spero d'esserti stato utile


  • User

    E io faccio i complimenti a te per la velocissima risposta 😄

    1. Quindi devo crearmi una sitemap lettera per lettera seguendo lo schema del sito? una volta fatta come la faccio diventare una pagina di blogger?
      Mi è sorto anche un altro dubbio: l'user agent del file robots di GWT è Media partner che se non sbaglio è quello di Adsense; non dovrebbe esserci googlebot o perlomeno anche googlebot?

    3)quindi secondo te gli url .it sono sbloccati o sono in procinto di? Oppure non verranno mai sbloccati e google indicizzera sempre solo i .com?
    Ed in più, ha più senso continuare a pubblicizzare in giro gli url **.it **vero?

    1. Beh si, ho detto 20, per dare un numero generico, ed ovviamente comprendevo anche le pagine categorie, quella di errore e qualcos'altro che mi sfugge 😄
      Tuttavia, le pagine effettive (home+articoli) sono 7 e a quanto pare sono proprio quelle che google non indicizza se non col .com! Che sfiga 😛
      In ultimo: sinceramente da Visualizza come Google, provo a recuperare l'home page selezionando "URL e pagine con link inviate all'indice".
      La richiesta va e arrivo nella pagina in cui praticamente c'è tutto il codice, ma da questo non capisco se qualcosa è bloccato e se si cosa.

    Grazie nuovamente 🙂


  • Moderatore

    @FabrizioMazzei said:

    1. Quindi devo crearmi una sitemap lettera per lettera seguendo lo schema del sito? una volta fatta come la faccio diventare una pagina di blogger?
      la piattaforma di blogger.com dovrebbe già generartela in automatico
      http://pc-migliore-gratis.blogspot.it/sitemap.xml (c'è anche in versione .com)

    @FabrizioMazzei said:

    Mi è sorto anche un altro dubbio: l'user agent del file robots di GWT è Media partner che se non sbaglio è quello di Adsense; non dovrebbe esserci googlebot o perlomeno anche googlebot?
    Sì, è riferito a quello di Adsense; puoi utilizzare il generico *

    @FabrizioMazzei said:

    3)quindi secondo te gli url .it sono sbloccati o sono in procinto di? Oppure non verranno mai sbloccati e google indicizzera sempre solo i .com?
    Ed in più, ha più senso continuare a pubblicizzare in giro gli url .it vero?
    non sono bloccati perché il robots.txt del .it è uguale a quello del .com, però gli URL .it non saranno mai indicizzati perché il canonical link punta alla versione .com
    Pubblicizza la versione che preferisci; visto che ti rivolgi a un pubblico Italiano l'URL .it non costringe l'utente a un redirect con conseguente piccolo ritardo nel caricamento della pagina. Se è ai motori di ricerca che pensi, il "succo" del link viene preservato dal redirect 301 (studi di correlazione vorrebbero una piccola perdita, ma in generale puoi pensare che un 301 si comporti come un link diretto in termini di passaggio di PR).

    @FabrizioMazzei said:

    In ultimo: sinceramente da Visualizza come Google, provo a recuperare l'home page selezionando "URL e pagine con link inviate all'indice".
    La richiesta va e arrivo nella pagina in cui praticamente c'è tutto il codice, ma da questo non capisco se qualcosa è bloccato e se si cosa.
    Se ti visualizza l'html vuole dire che non è bloccato da robots.txt; all'inizio intestazione dovresti pure vedere che il codice di stato http è 200 OK

    Ciao!


  • User

    @Federico Sasso said:

    la piattaforma di blogger.com dovrebbe già generartela in automatico
    pc-migliore-gratis.blogspot.it/sitemap.xml (c'è anche in versione .com)

    Sì, è riferito a quello di Adsense; puoi utilizzare il generico *

    Perfetto

    non sono bloccati perché il robots.txt del .it è uguale a quello del .com, però gli URL .it non saranno mai indicizzati perché il canonical link punta alla versione .com
    Pubblicizza la versione che preferisci; visto che ti rivolgi a un pubblico Italiano l'URL .it non costringe l'utente a un redirect con conseguente piccolo ritardo nel caricamento della pagina. Se è ai motori di ricerca che pensi, il "succo" del link viene preservato dal redirect 301 (studi di correlazione vorrebbero una piccola perdita, ma in generale puoi pensare che un 301 si comporti come un link diretto in termini di passaggio di PR).

    Che ansia pensare di ricambiare tutti i link sparsi nel mondo della rete!

    Se ti visualizza l'html vuole dire che non è bloccato da robots.txt; all'inizio intestazione dovresti pure vedere che il codice di stato http è 200 OK
    Ciao!

    :1: Ottimo, grazie mille, tutto risolto!


  • User Newbie

    Grazie Fabrizio e Federico, è stato molto utili leggervi, nel mio caso in particolare, rispetto ai robots del search di Blogspot.