• User Attivo

    Sovrapposizione "Disallow" e mata "Noindex": come si comporta Google?

    Ciao a tutti.
    Voglio eliminare dall'index di Google un insieme di pagine del mio sito.

    Per farlo ho inizialmente inserito un Disallow nel robots.txt per questo insieme di pagine: a distanza di due mesi con un site:w ww.miosito.com/pagineindisallow ho notato che le pagine erano comuqnue presenti nel'index di Google, ma al posto della description era presente il seguente testo : "Non è disponibile una descrizione per questo risultato a causa del file robots.txt del sito." A questo punto ho inserito il meta "noindex" in queste stesse pagine, senza togliere il disallow nel robots.txt. A distanza di 10 giorni dall'inserimento del meta "noindex" ho fatto di nuovo un **site:w ww.miosito.com/pagineindisallow **e ho notato che il numero di pagine è sempre lo stesso (anzi, un po' aumentato). Ora mi chiedo: devo attendere ancora per tirare le conclusioni, oppure è possibile che il noindex non stia funzionando per la contemporanea presenza del disallow, che probabilmente sta avendo priorità e invalidando il meta noindex?

    Non ho trovato notizie in merito a una sovrapposzione di disallow e meta noindex... vorrei verificare tramite questo test cosa succede...

    Dritte? Qualcuno si è già trovato in uan situazione simile?

    Grazie mille:ciauz:


  • Moderatore

    Ciao Misia,
    è normale che sia così, non si tratta di aspettare, né di priorità: per poter vedere il noindex, il crawler ha bisogno di accedere alla pagina; se questa è disallowed non può farlo.

    Per eliminare le pagine dall'indice puoi

    • togliere almeno temporaneamente il disallow, lasciare che il crawler acceda alle pagine, così che Google apprenda del noindex e tolga la pagina dall'indice
    • oppure lasciare il disallow, e usare la funzione "Rimuovi URL" da Google Webmaster Tools

    Spero d'esserti stato utile


  • User Attivo

    @Federico Sasso said:

    Spero d'esserti stato utile

    Utilissimo! Dovevo arrivarci :).
    Assodato che il procedimento corretto è quello che hai suggerito, ti/vi faccio un'altra domanda:
    poniamo che l'obiettivo che voglio raggiungere in relazione a queste URL è IMPEDIRE a Google di scansionarne i CONTENUTI e di mettere queste pagine in concorrenza con altre pagine del sito rilevanti per certe keywords (sia perchè queste pagine contengono contenuti duplicati, sia perchè vanno a diluire la rilevanza delle pagine canoniche che vorrei posizionare per parole chiave).

    Poniamo il caso che per impostare il disallow impiego un secondo, mentre l'inserimento del noindex con gli strumenti che ho richiede un procedimento laborioso e fuori budget: il disallow rappresenta comunque un'alternativa per raggiungere l'obbiettivo indicato (ossia: NON permettere a Google di scansionare i CONTENUTI e di mettere queste pagine in concorrenza con altre pagine del sito rilevanti per certe keywords)?

    Grazie mille e scusate la pignoleria 😉 : mi rendo conto di essere un po'm scassaballe 😛


  • Moderatore

    @Misia said:

    Poniamo il caso che per impostare il disallow impiego un secondo, mentre l'inserimento del noindex con gli strumenti che ho richiede un procedimento laborioso e fuori budget: il disallow rappresenta comunque un'alternativa per raggiungere l'obbiettivo indicato (ossia: NON permettere a Google di scansionare i CONTENUTI e di mettere queste pagine in concorrenza con altre pagine del sito rilevanti per certe keywords)?
    Ni... mi spiego meglio:

    Il disallow impedisce la visita, non l'indicizzazione.
    Però può essere un buon surrugato.

    Mi spiego ancora meglio:

    è possibile che Google indicizzi pagine bloccate da robots.txt, se trova link ad esse e le reputa potenzialmente interessanti. Io in certi casi automatizzo i link di navigazione interni così che siano nofollow se la pagina non deve essere indicizzabile. Così facendo si spera non le indicizzi.
    Questo se i link trovati sono interni, se qualcuno ti linka dall'esterno è fuori dal tuo controllo.

    Se rimuovi tramite GWT gli URL dall'indice, ottieni il risultato voluto (per farlo occorre che la pagina ritorni un 404, oppure siano noindex, oppure bloccate da robots.txt) e si spera ricordi di non indicizzarle più (tecnicamente in realtà le tiene indicizzate, ma non le mostra).

    Tieni conto che gli URL delle pagine indicizzate ma bloccate da robots.txt di solito Google in SERP non le mostra, devi usare l'operatore site: per vederle, altrimenti in alcuni casi li mostra, ma solo se l'utente lo sceglie cliccando sul link a nell'ultima pagina delle SERP che recita qualcosa del tipo "visualizza risultati omessi da domain.com"

    Nel tuo caso specifico, penso il miglior corso d'azione sia tenere bloccato da robots.txt (che ti costa poco) e rimuovere gli URL manualmente da GWT

    Ciao


  • User Attivo

    @Federico Sasso said:

    Ni... mi spiego meglio:

    Il disallow impedisce la visita, non l'indicizzazione.
    Però può essere un buon surrugato.

    Mi spiego ancora meglio:

    è possibile che Google indicizzi pagine bloccate da robots.txt, se trova link ad esse e le reputa potenzialmente interessanti. Io in certi casi automatizzo i link di navigazione interni così che siano nofollow se la pagina non deve essere indicizzabile. Così facendo si spera non le indicizzi.
    Questo se i link trovati sono interni, se qualcuno ti linka dall'esterno è fuori dal tuo controllo.

    Se rimuovi tramite GWT gli URL dall'indice, ottieni il risultato voluto (per farlo occorre che la pagina ritorni un 404, oppure siano noindex, oppure bloccate da robots.txt) e si spera ricordi di non indicizzarle più (tecnicamente in realtà le tiene indicizzate, ma non le mostra).

    Tieni conto che gli URL delle pagine indicizzate ma bloccate da robots.txt di solito Google in SERP non le mostra, devi usare l'operatore site: per vederle, altrimenti in alcuni casi li mostra, ma solo se l'utente lo sceglie cliccando sul link a nell'ultima pagina delle SERP che recita qualcosa del tipo "visualizza risultati omessi da domain.com"

    Nel tuo caso specifico, penso il miglior corso d'azione sia tenere bloccato da robots.txt (che ti costa poco) e rimuovere gli URL manualmente da GWT

    Ciao

    Illuminante :)!

    Grazie mille 🙂


  • User Attivo

    @Federico Sasso said:

    Ni... mi spiego meglio (...)

    Scusa, ricapitolando (giusto per conferma):
    ho due pagine web duplicate: una voglio posizionarla per determinate keyword e un'altra la metto in disallow affinchè non rappresenti contenuto duplicato e non si metta in concorrenza con l'altra pagina identica.
    Poniamo che L'URL in disallow viene comunque indicizzato in SERP con il testo di anteprima "Non è disponibile una descrizione per questo risultato a causa del file robots. txt del sito." ... La pagina in disallow, pur se presente in SERP, non si mette in concorrenza con la pagina corretta, giusto? proprio in quanto google non tende neanche a mostrarla se non con un site specifico .


  • Moderatore

    Tranqullizzati: Se è bloccata, non può nemmeno processarne il contenuto e pensare sia un contenuto duplicato.