• User Attivo

    Meglio usare robots.txt o il meta tag ?

    Secondo voi è meglio specificare quali pagine non indicizzare con robots.txt oppure usare
    <meta name="robots" content="noindex,nofollow" />
    ?


  • User Attivo

    Vanno bene entrambi.
    Google consiglia di impostare il robots.txt, ma di fatto a volte se ne frega di quello che ci scrivi dentro (esperienza personale).


  • ModSenior

    Stessa esperienza mia, meglio usare ambedue le tecniche (anche perché non c'è solo Google).

    Valerio Notarfrancesco


  • User

    Ciao, mi spiegate come inserire per una determinata pagina il meta tag noindex?

    Nel frattempo ho dovuto eliminare degli articoli e nel file robots.txt ho inserito questa stringhe:

    Disallow: /2010/05/30/articolodaeliminare/

    Sinceramente non so se prima della cartella 2010 dovevo inserire il nome del sito :

    Disallow: miosito/2010/05/30/nomearticolo/

    Mi potete dare qualche suggerimento?
    grazie.


  • ModSenior

    I'istruzione <meta name="robots" content="noindex"> la devi inserire nella sezione head della pagina html, quindi tra i tag <head> e </head>.
    Disallow senza il nome del dominio, quindi la prima forma che ha scritto.

    Valerio Notarfrancesco


  • User

    Grazie per la risposta.
    Ma ho ancora un dubbio. Il mio sito è fatto con wordpress. Voglio inserire il meta tag per la pagina eliminata. Se inserisco l'istruzione noindex tra gli head del template diro a google di non indicizzare l'intero sito, sbaglio?

    Come faccio ad inserire il noindex solo per quella pagina?

    Grazie.


  • ModSenior

    @smart320 said:

    Il mio sito è fatto con wordpress. [...] Se inserisco l'istruzione noindex tra gli head del template diro a google di non indicizzare l'intero sito, sbaglio?
    Non sbagli è proprio così, varrà per tutte le pagine del blog, ma non so aiutarti in questo, vediamo se qualcun altro sa come fare altrimenti sarebbe meglio che aprissi un thread specifico nella sezione Wordpress.

    Valerio Notarfrancesco


  • User Attivo

    La domanda evidenzia un problema di base:

    tramite il robots posso bloccare un file, tutta la cartella, tutti i file di un certo tipo.

    Il metatag invece blocco solo la singola pagina e va messo su tutte quella da bloccare.

    Lo standard ufficiale è il robots.txt letto da tutti i motori di ricerca degni di tale nome;

    il tag metatag inoltre ti costringerebbe a cambiare tutte le pagine ogni volta che devi includerle o escluderle.


  • ModSenior

    Provo a fare un po' di chiarezza non sugli standard ma sul funzionamento dei motori di ricerca.
    @dstorm82 said:

    lo standard ufficiale è il robots.txt letto da tutti i motori di ricerca degni di tale nome;
    Al di la degli standard ufficiali, riporto dalla guida ufficiale di Google ma vale anche per Bing e Yahoo:
    @Google said:
    Un file robots.txt limita l'accesso al tuo sito da parte dei robot dei motori di ricerca che eseguono la scansione del Web. Questi bot sono automatici e, prima di accedere alle pagine di un sito, effettuano un controllo per verificare la presenza di un file robots.txt che impedisce loro di accedere a determinate pagine.
    @Google said:
    Anche se Google non eseguirà la scansione o l'indicizzazione dei contenuti delle pagine bloccate dal file robots.txt, potrà comunque indicizzare gli URL trovati su altre pagine web. Di conseguenza, l'URL della pagina e, potenzialmente, anche altre informazioni disponibili [...] possono essere visualizzati nei risultati di ricerca di Google.
    Ho evidenziato in grassetto il nocciolo della questione. Quindi:
    @Google said:
    Per impedire che i contenuti di una pagina vengano elencati nell'indice web di Google anche se altri siti contengono link a essa, utilizza un metatag noindex. Quando analizza la pagina, Googlebot riconosce il metatag noindex e impedisce la visualizzazione della pagina nell'indice web.
    Mi raccomando su questo forum di iniziare le frasi con la maiuscola e terminarle con un punto. 🙂

    Valerio Notarfrancesco


  • User Attivo

    Se la pagina è dinamica e in rewrite come fai?
    Se uno vuole bloccare tutta la cartella, magari composta da centinaia di file?

    Direi che il robots è l'unica strada percorribile e comunque non ho mai visto un sito che nonostante il blocco del robots avesse pagine indicizzate.


  • User Attivo

    @dstorm82 said:

    e comunque non ho mai visto un sito che nonostante il blocco del robots avesse pagine indicizzate.

    Io si, purtroppo, e mi è costato una penalizzazione che ci è voluto un bel po' a risolvere...


  • User

    Grazie a tutti, ma nessuno sa come posso risolvere il mio problema ? Inserire un noindex per quelle specifiche pagine? E non per tutto il sito?

    Grazie, in ogni caso chiederò anche nella sezione wordpress come mi è stato consigliato.

    Ciao.


  • User Attivo

    @smart320 said:

    Grazie a tutti, ma nessuno sa come posso risolvere il mio problema ? Inserire un noindex per quelle specifiche pagine? E non per tutto il sito?

    Grazie, in ogni caso chiederò anche nella sezione wordpress come mi è stato consigliato.

    Ciao.

    Ma sono pagine che hai cancellato o che vuoi solo togliere dall'indice di google ? Se le cancelli fisicamente ritorneranno l'errore 404 quindi dopo un pò scompariranno dall'indice, se invece non le vuoi indicizzare probabilmente dovrai installare qualche plugin.

    Se no metti l'indirizzo della pagina su robots.txt , altrimenti se stanno in una specifica categoria puoi fare apparire il meta noindex nofollow in tutte quelle pagine.


  • User Attivo

    @vnotarfrancesco said:

    Provo a fare un po' di chiarezza non sugli standard ma sul funzionamento dei motori di ricerca.

    Al di la degli standard ufficiali, riporto dalla guida ufficiale di Google ma vale anche per Bing e Yahoo:

    Ho evidenziato in grassetto il nocciolo della questione. Quindi:

    Mi raccomando su questo forum di iniziare le frasi con la maiuscola e terminarle con un punto. 🙂

    Valerio Notarfrancesco

    Grazie mille! Testerò il tutto e vediamo se scompariranno anche dall'indice.


  • Super User

    Io evito entrambe le cose il più possibile, e invece metto (quando non voglio indicizzare una pagina)

    <meta name="robots" content="noindex,follow" />

    che non mi fa perdere link juice.


  • Moderatore

    In ogni caso, se hai cancellato la pagina (E svuotato il 'cestino' di WP) il 404 porterà alla rapida deindicizzazione.

    Se proprio tu volessi inserire un meta particolare solo per una pagina puoi usare i Conditional Tags di wordpress.

    http://codex.wordpress.org/Conditional_Tags