+ Rispondi alla Discussione
Risultati da 1 a 6 di 6

Problema Google: Robots blocca url - Blogger

Ultimo Messaggio di patriciabaltazar il:
  1. #1
    User L'avatar di FabrizioMazzei
    Data Registrazione
    Jun 2013
    Località
    Bari
    Messaggi
    12
    Segui FabrizioMazzei su Twitter Aggiungi FabrizioMazzei su Google+ Aggiungi FabrizioMazzei su Facebook Aggiungi FabrizioMazzei su Linkedin Visita il canale Youtube di FabrizioMazzei

    Problema Google: Robots blocca url - Blogger

    Buongiorno a tutti Sono nuovo del forum!
    Vi leggo spesso e ho sempre cercato di cavarmela da solo...tuttavia mi trovo di fronte un bel problema ora, anche se sono sicuro che per voi sarà una passeggiata

    In sostanza, tramite Strumenti di Google, alla sezione Url Bloccati, mi dice chiaramente che mi ha bloccato 24 url ( il blog che voglio indicizzare è appena nato, quindi si e no saranno 20 pagine in totale).
    Anche nella sezione Stato dell'indicizzazione mi dice 1 indicizzata, 7 bloccate dai robot.
    Il mio file robots secondo google è questo (ovviamente l'url della sitemap normalmente ha la parte iniziale ) :
    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: pc-migliore-gratis.blogspot.com/feeds/posts/default?orderby=UPDATED
    Quello che invece ho caricato io dalle impostazioni di blogger è questo:
    User-agent: Mediapartners-Google
    Disallow:

    Sitemap: pc-migliore-gratis.blogspot.com/feeds/posts/default?orderby=UPDATED
    Infine ho già provato la funzione AddUrl, già inviato la sitemap( anche se non so quale sia la migliore, leggi domanda 2 ), già ottenuto backlink sia da social, sia da qualche directory e sito con PR interessante.
    Detto ciò le mie domande sono:
    1. Perchè i 2 file robots non coincidono?
    2. E' meglio la sitemap che ho, o una classica cioè indirizzo.com/atom.xml?redirect=false ?
    3. Tramite site: pc-migliore-gratis.blogspot.it rilevo effettivamente solo 1 pagina..ma è la pagina di un label!? WTF? Perché?!
    4. D'altra parte tramite site: pc-migliore-gratis.blogspot.com mi escono 6 risultati.. quindi, devo continuare a promuovere .it o .com? Mi confonde davvero questo punto, anche perchè non so se fare errori che possono influire sulla duplicazione delle pagine
    5. Come faccio a "sbloccare" quei 24 url?
    6. Mi sfugge ancora qualcosa?


    Grazie a tutti per la pazienza e in anticipo per le risposte

  2. #2
    Moderatore L'avatar di Federico Sasso
    Data Registrazione
    Dec 2012
    Località
    Genova
    Messaggi
    1,739
    Segui Federico Sasso su Twitter Aggiungi Federico Sasso su Google+ Aggiungi Federico Sasso su Linkedin
    Ciao FabrizioMazzei, Benvenuto nel ForumGT

    Ti faccio innanzi tutto i complimenti per come hai già approfondito in autonomia la conoscenza del SEO Tecnico, bravo!

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    Perchè i 2 file robots non coincidono?
    La versione mostrata da "URL bloccati" è spesso non aggiornata, è una lacuna fastidiosa dello strumento.
    Immagino per un certo periodo il tuo file sia stato come lo visualizzi. Non è neanche la copia che vede Googlebot, è una copia indipendente. Se non ci sono problemi nell'erogazione del file, Googlebot considera la copia di robots.txt valida per 24 ore.

    Nota: ora non ricordo bene la struttura dei siti blogspot, ma se come immagino /search/ corrisponde a risultati di ricerche interne, è corretto bloccarlo da robots.txt : Google chiede di non rendere indicizzabili pagine del genere.

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    E' meglio la sitemap che ho, o una classica cioè indirizzo.com/atom.xml?redirect=false ?
    Nessuna delle due: la sintassi Atom può essere usata per le sitemap inviate a Google tramite GWT, ma le sitemap declinate in robots.txt devono obbedire alla sintassi delle XML Sitemap come descritta su sitemaps.org

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    Tramite site: pc-migliore-gratis.blogspot.it rilevo effettivamente solo 1 pagina..ma è la pagina di un label!? WTF? Perché?!
    D'altra parte tramite site: pc-migliore-gratis.blogspot.com mi escono 6 risultati.. quindi, devo continuare a promuovere .it o .com? Mi confonde davvero questo punto, anche perchè non so se fare errori che possono influire sulla duplicazione delle pagine
    Per motivi più o meno condivisibili (personalmente lo trovo un'assurdità) Google - nel ruolo di fornitore del servizio di Blogspot, non nel ruolo di motore di ricerca - ha deciso di redirezionare gli utenti di blogspot verso un'estensione di dominio nazionale in base all'IP del visitatore ( :-P )
    Googlebot visita le pagine (quasi) esclusivamente da IP americani, per questo i contenuti sono indicizzati come .com

    La cosa non genera problemi di duplicazione contenuti, perché le pagine in automatico espongono un canonical link che punta alla versione .com

    Possibile l'unica pagina .it sia indicizzata prima della decisione di G? La cosa risale a circa un annetto fa, purtroppo non trovo link ora.
    I 10 URL visualizzati per .it sono riportati come bloccati da robots.txt (ma secondo me non lo sono più), e G non poteva quindi vederne il canonical.

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    Come faccio a "sbloccare" quei 24 url?
    Se ho ben compreso bene non sai esattamente quali sono questi 24 URL, giusto? Perché hai detto hai solo 20 pagine. Giocando un po' con site: e cliccando sul link alla fine "Visualizza risultati omessi", vedo un 11 bloccati, e mi sembra siano tutti in /search/ e/o labels
    Secondo me sono già sbloccati. Puoi verificarlo da GWT con "Visualizza come Google": se fossero bloccati te lo notificherebbe.
    Se tu volessi indicizzarli (ma quelli che vedo non dovrebbero esserlo a mio parere) potresti poi usare "Invia all'indice".

    ...Anzi, ripensandoci fallo, tanto al momento non sono bloccati e Google apprenderebbe del canonical, non può fare danno.

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    Mi sfugge ancora qualcosa?
    Hai detto d'avere una ventina di pagine, ma ne vedo solo sei, le stesse elencate dal tuo feed, le stesse indicizzate da Google.
    Secondo me le 24 riportate come bloccate sono solo URL di pagine elenco di label

    Spero d'esserti stato utile
    MODPosizionamento nei motori di ricercaFederico Sasso, autore di Visual SEO Studio - Il tool SEO Italiano, disponibile anche in Inglese, Francese, Polacco, Russo, Spagnolo e Tedesco.

  3. #3
    User L'avatar di FabrizioMazzei
    Data Registrazione
    Jun 2013
    Località
    Bari
    Messaggi
    12
    Segui FabrizioMazzei su Twitter Aggiungi FabrizioMazzei su Google+ Aggiungi FabrizioMazzei su Facebook Aggiungi FabrizioMazzei su Linkedin Visita il canale Youtube di FabrizioMazzei
    E io faccio i complimenti a te per la velocissima risposta

    2) Quindi devo crearmi una sitemap lettera per lettera seguendo lo schema del sito? una volta fatta come la faccio diventare una pagina di blogger?
    Mi è sorto anche un altro dubbio: l'user agent del file robots di GWT è Media partner che se non sbaglio è quello di Adsense; non dovrebbe esserci googlebot o perlomeno anche googlebot?

    3)quindi secondo te gli url .it sono sbloccati o sono in procinto di? Oppure non verranno mai sbloccati e google indicizzera sempre solo i .com?
    Ed in più, ha più senso continuare a pubblicizzare in giro gli url .it vero?

    4) Beh si, ho detto 20, per dare un numero generico, ed ovviamente comprendevo anche le pagine categorie, quella di errore e qualcos'altro che mi sfugge
    Tuttavia, le pagine effettive (home+articoli) sono 7 e a quanto pare sono proprio quelle che google non indicizza se non col .com! Che sfiga :P
    In ultimo: sinceramente da Visualizza come Google, provo a recuperare l'home page selezionando "URL e pagine con link inviate all'indice".
    La richiesta va e arrivo nella pagina in cui praticamente c'è tutto il codice, ma da questo non capisco se qualcosa è bloccato e se si cosa.

    Grazie nuovamente

  4. #4
    Moderatore L'avatar di Federico Sasso
    Data Registrazione
    Dec 2012
    Località
    Genova
    Messaggi
    1,739
    Segui Federico Sasso su Twitter Aggiungi Federico Sasso su Google+ Aggiungi Federico Sasso su Linkedin
    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    2) Quindi devo crearmi una sitemap lettera per lettera seguendo lo schema del sito? una volta fatta come la faccio diventare una pagina di blogger?
    la piattaforma di blogger.com dovrebbe già generartela in automatico
    http://pc-migliore-gratis.blogspot.it/sitemap.xml (c'è anche in versione .com)

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    Mi è sorto anche un altro dubbio: l'user agent del file robots di GWT è Media partner che se non sbaglio è quello di Adsense; non dovrebbe esserci googlebot o perlomeno anche googlebot?
    Sì, è riferito a quello di Adsense; puoi utilizzare il generico *

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    3)quindi secondo te gli url .it sono sbloccati o sono in procinto di? Oppure non verranno mai sbloccati e google indicizzera sempre solo i .com?
    Ed in più, ha più senso continuare a pubblicizzare in giro gli url .it vero?
    non sono bloccati perché il robots.txt del .it è uguale a quello del .com, però gli URL .it non saranno mai indicizzati perché il canonical link punta alla versione .com
    Pubblicizza la versione che preferisci; visto che ti rivolgi a un pubblico Italiano l'URL .it non costringe l'utente a un redirect con conseguente piccolo ritardo nel caricamento della pagina. Se è ai motori di ricerca che pensi, il "succo" del link viene preservato dal redirect 301 (studi di correlazione vorrebbero una piccola perdita, ma in generale puoi pensare che un 301 si comporti come un link diretto in termini di passaggio di PR).

    Citazione Originariamente Scritto da FabrizioMazzei Visualizza Messaggio
    In ultimo: sinceramente da Visualizza come Google, provo a recuperare l'home page selezionando "URL e pagine con link inviate all'indice".
    La richiesta va e arrivo nella pagina in cui praticamente c'è tutto il codice, ma da questo non capisco se qualcosa è bloccato e se si cosa.
    Se ti visualizza l'html vuole dire che non è bloccato da robots.txt; all'inizio intestazione dovresti pure vedere che il codice di stato http è 200 OK

    Ciao!
    MODPosizionamento nei motori di ricercaFederico Sasso, autore di Visual SEO Studio - Il tool SEO Italiano, disponibile anche in Inglese, Francese, Polacco, Russo, Spagnolo e Tedesco.

  5. #5
    User L'avatar di FabrizioMazzei
    Data Registrazione
    Jun 2013
    Località
    Bari
    Messaggi
    12
    Segui FabrizioMazzei su Twitter Aggiungi FabrizioMazzei su Google+ Aggiungi FabrizioMazzei su Facebook Aggiungi FabrizioMazzei su Linkedin Visita il canale Youtube di FabrizioMazzei
    Citazione Originariamente Scritto da Federico Sasso Visualizza Messaggio
    la piattaforma di blogger.com dovrebbe già generartela in automatico
    pc-migliore-gratis.blogspot.it/sitemap.xml (c'è anche in versione .com)

    Sì, è riferito a quello di Adsense; puoi utilizzare il generico *
    Perfetto

    non sono bloccati perché il robots.txt del .it è uguale a quello del .com, però gli URL .it non saranno mai indicizzati perché il canonical link punta alla versione .com
    Pubblicizza la versione che preferisci; visto che ti rivolgi a un pubblico Italiano l'URL .it non costringe l'utente a un redirect con conseguente piccolo ritardo nel caricamento della pagina. Se è ai motori di ricerca che pensi, il "succo" del link viene preservato dal redirect 301 (studi di correlazione vorrebbero una piccola perdita, ma in generale puoi pensare che un 301 si comporti come un link diretto in termini di passaggio di PR).
    Che ansia pensare di ricambiare tutti i link sparsi nel mondo della rete!

    Se ti visualizza l'html vuole dire che non è bloccato da robots.txt; all'inizio intestazione dovresti pure vedere che il codice di stato http è 200 OK
    Ciao!
    ) Ottimo, grazie mille, tutto risolto!
    Ti piace trovare gli errori? Coming Soon

  6. #6
    User Newbie
    Data Registrazione
    Jul 2017
    Località
    Amburgo
    Messaggi
    1
    Grazie Fabrizio e Federico, è stato molto utili leggervi, nel mio caso in particolare, rispetto ai robots del search di Blogspot.

+ Rispondi alla Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.