+ Rispondi alla Discussione
Risultati da 1 a 17 di 17

<meta name="robots"...

Ultimo Messaggio di LowLevel il:
  1. #1
    ludus
    Non iscritto

    <meta name="robots"...

    Leggendo la guida del Tave, ho trovato questo:

    * INDEX: comunica allo spider di archiviare la pagina nel database
    * NOINDEX: comunica allo spider di non archiviare la pagina
    * FOLLOW: comunica allo spider di seguire i link nella pagina
    * NOFOLLOW: comunica allo spider di non seguire i link nella pagina

    ma che succede se lo spider archivia o meno la pagina e segue o meno i link?

    Grazie.

  2. #2
    Esperto L'avatar di Stuart
    Data Registrazione
    Jan 2006
    LocalitÓ
    Torino
    Messaggi
    3,881
    Se vuoi che la tua pagina appaia tra i risultati delle ricerche, il motore deve avere la tua pagina in archivio. Per averla in archivio deve indicizzarla.

    Di default il comportamento degli spider Ŕ di indicizzare (index) e seguire i link presenti in una data pagina (follow).

    Se per qualsiasi motivo non vuoi che la tua pagina sia archiviata inserisci il comando NOINDEX. Se per qualsiasi motivo non vuoi che lo spider inserisca in schedule i link presenti nella tua pagina, inserisci il comando NOFOLLOW.

    Relativamente a Google, esiste anche un meta specifico (meta Googlebot) che include anche il comando NOARCHIVE e NOSNIPPET
    Maggiori info qui:
    Meta Googlebot



    La scelta Ŕ tua.


    Cordialmente,
    Stuart
    210720082115

  3. #3
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    Ho scoperto solo recentemente, non senza un certo disappunto, che Googlebot ignora il tag <META NAME="ROBOTS">, a meno che non contenga una "interpellazione diretta" (<META NAME="GOOGLEBOT">). ()

  4. #4
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    LocalitÓ
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da ArkaneFactors
    Ho scoperto solo recentemente, non senza un certo disappunto, che Googlebot ignora il tag <META NAME="ROBOTS">, a meno che non contenga una "interpellazione diretta" (<META NAME="GOOGLEBOT">). ()
    Accidenti... non avevo mai osservato un comportamento simile. E' qualcosa di sistematico? Ti Ŕ capitato su pi¨ di un sito o pagina? Quale direttiva avrebbe ignorato, un NOINDEX, un NOFOLLOW o entrambe le cose?

    Io non ho mai riscontrato problemi di Googlebot con quel meta tag.

  5. #5
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    Citazione Originariamente Scritto da LowLevel
    Accidenti... non avevo mai osservato un comportamento simile. E' qualcosa di sistematico? Ti Ŕ capitato su pi¨ di un sito o pagina? Quale direttiva avrebbe ignorato, un NOINDEX, un NOFOLLOW o entrambe le cose?
    M'Ŕ capitato su pi¨ pagine di pi¨ siti (almeno due) che Googlebot abbia ignorato il NOINDEX contenuto in questo tag:
    Codice:
    <meta name="robots" content="NOINDEX, FOLLOW" />
    Le pagine contenenti il tag in questione sono state tutte indicizzate da Google (esistono nella cache).

    Per quanto riguarda il NOFOLLOW, non ho dati sufficienti per dire se venga rispettato o ignorato (per saperlo dovrei poter disporre di una pagina linkata solo da una pagina contenente quella direttiva), ma ho come il sospetto che se non viene rispettato il NOINDEX, anche il NOFOLLOW sarÓ ignorato.

  6. #6
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    M'Ŕ venuto un dubbio: potrebbe essere la chiusura del tag (" />") ad aver impedito il corretto riconoscimento dello stesso dal parser di Google?

    N.B.: uno dei siti in esame usa questo doctype:
    Codice:
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http&#58;//www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http&#58;//www.w3.org/1999/xhtml">
    L'altro sito invece non specifica alcun doctype (lo so, lo so...).

    Che ne pensate?

  7. #7
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    http://www.google.com/support/webmas...y?answer=35303
    Per impedire a tutti i robot di indicizzare una pagina del tuo sito, inserisci il seguente meta tag nella sezione <HEAD> della pagina:

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
    => Google dovrebbe riconoscere e rispettare il tag anche quando l'attributo "NAME" contiene ROBOTS (e non GOOGLEBOT).

    => Secondo me il mancato riconoscimento del mio tag Ŕ dovuto a un bug del parser di Google, rimasto fermo alla specifica HTML 4.01 (citata da questa pagina).

    => Segnalo la cosa a Google e vedo cosa mi rispondono.

  8. #8
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    LocalitÓ
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da ArkaneFactors
    M'Ŕ venuto un dubbio: potrebbe essere la chiusura del tag (" />") ad aver impedito il corretto riconoscimento dello stesso dal parser di Google?
    Premesso che con Google "non si sa mai", se il bug dipendesse proprio dalla chiusura del tag mi cascherebbero le braccia...

    Nella cache delle pagine che non avrebbero dovuto essere indicizzate, il meta tag Ŕ presente? Esiste, sempre nella cache, codice precedente a quel meta tag che potrebbe aver causato il problema di parsing?

  9. #9
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    Citazione Originariamente Scritto da LowLevel
    Premesso che con Google "non si sa mai", se il bug dipendesse proprio dalla chiusura del tag mi cascherebbero le braccia...
    Un po' anche a me, per˛ non mi sorprenderebbe eccessivamente.

    Nella cache delle pagine che non avrebbero dovuto essere indicizzate, il meta tag Ŕ presente?
    Sý.

    Esiste, sempre nella cache, codice precedente a quel meta tag che potrebbe aver causato il problema di parsing?
    Mi pare di no, tu che dici?
    Codice:
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http&#58;//www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http&#58;//www.w3.org/1999/xhtml">
    <head>
    <title>&#91;snip&#93;</title>
    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
    <meta name="robots" content="NOINDEX, FOLLOW" />
    &#91;...&#93;

  10. #10
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    LocalitÓ
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da ArkaneFactors
    Mi pare di no, tu che dici?
    Non vedo nulla di anomalo.

    Se si trattasse di un errore sistematico, penso che la quantitÓ di siti affetti da questo problema sarebbe consistente ed i forum internazionali sarebbero in rivolta.

    Potrebbe essere un bug che viene fuori solo in presenza di specifici fattori. Hai usato Google Sitemaps su quel sito? Che cosa contiene il robots.txt? Per caso c'Ŕ una copia del meta tag keywords nel resto del codice della pagina (a volte qualche cms combina schifezze)?

  11. #11
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    Citazione Originariamente Scritto da LowLevel
    Non vedo nulla di anomalo.
    Nemmeno io.

    Se si trattasse di un errore sistematico
    Per quanto mi riguarda, Ŕ sistematico: ho lo stesso problema su almeno altri 3 siti (siti diversi, su 3 server diversi, accomunati dallo stesso tag).

    Potrebbe essere un bug che viene fuori solo in presenza di specifici fattori. Hai usato Google Sitemaps su quel sito?
    No. O meglio, l'ho aggiunto al mio profilo Sitemaps, ma non ho inserito alcuna sitemap per questo sito.

    Che cosa contiene il robots.txt?
    Dei gran Disallow, e qualche Crawl-Delay.
    Sitemaps non mi segnala errori sintattici.

    Per caso c'Ŕ una copia del meta tag keywords nel resto del codice della pagina
    No.

  12. #12
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    Torno sull'argomento per aggiornarvi sull'esito della mia segnalazione del problema a Google.

    Questa la mia richiesta (spedita tramite il modulo raggiungibile cliccando sul link "let us know" su questa pagina dell'help):

    Dear Google Team,

    Googlebot does not respect the following tag on our site:

    <meta name="robots" content="NOINDEX, FOLLOW" />

    For example, the following URL has been indexed by Google in spite of the above tag:

    [snip]

    I suspect this behaviour might be due to a bug in Google(bot)'s parser, which does not seem to recognize meta robots tags ending in " />".

    Could you please investigate and let me know if that is the case?

    Many thanks,
    [snip]
    Dopo 4 giorni quelli di Google mi rispondono dicendomi che non riescono a riprodurre il problema, e mi chiedono di inviargli l'URL della SERP sul quale si verifica [sic], in modo che possano investigare.

    Rispondo che, in effetti, la pagina non appare nelle SERP, nemmeno cercando "nomepagina site:miosito". Tuttavia, la pagina Ŕ stata indicizzata da Google, poichÚ esiste una copia cache di quella pagina (della quale riporto l'URL) raggiungibile tramite la Google Toolbar.

    Il giorno seguente (oggi), mi rispondono dicendomi: "If you're concerned about this page being indexed, you can process it using our automatic URL removal system at http://services.google.com:8882/urlc...&lastcmd=login".

    DopodichÚ mi rimandano a questa pagina dell'help per maggiori informazioni sull'uso di robots.txt e meta tags.

    Non una parola, nÚ di conferma nÚ di smentita, su un eventuale bug del parser (la mia domanda originaria).

    A questo punto mi chiedo se le direttive NOINDEX e NOARCHIVE siano indipendenti (io ho sempre pensato che NOINDEX "includesse" anche NOARCHIVE: mi sbagliavo?).

    <added>
    Ho deciso di chiederlo direttamente a Google:
    So, using <meta name="robots" content="NOINDEX, FOLLOW" />, a page will not be indexed by Google (i.e., it will not appear on search results pages), but it may be cache_d (and, if I don't want that page to be cache_d, either, I should add a NOARCHIVE directive to that tag)? Is that correct?
    Vi far˛ sapere cosa mi rispondono. Stay tuned.

    (Ho scritto "cache_d" per evitare che la parola venga sostituita con asterischi su questo forum).
    </added>

  13. #13
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    LocalitÓ
    Monasterace
    Messaggi
    44,423
    Visita il canale Youtube di Giorgiotave
    Ciao ArkaneFactors,

    se avessi voglia/tempo/disponibilitÓ potresti creare alcune pagine con quelle caratteristiche per fare un Test e inserirlo nel nostro Laboratorio SEO?

    Possiamo usare il ProgettoSeo come dominio su cui fare test.
    Condividiamo insieme quel poco che sappiamo, tramite un forum, per lasciare traccia del sapere a chi vuole imparare!

  14. #14
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    Citazione Originariamente Scritto da Giorgiotave
    se avessi voglia/tempo/disponibilitÓ potresti creare alcune pagine con quelle caratteristiche per fare un Test e inserirlo nel nostro Laboratorio SEO?
    Se ho un attimo di tempo lo faccio (ci avevo giÓ pensato).

    Nel frattempo vediamo cosa mi rispondono da Google.

  15. #15
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    LocalitÓ
    Milano
    Messaggi
    1,542
    Quindi le pagine non sono state indicizzate, corretto? Esiste solo la cache, ma non sono state inserite nell'indice.

    Se Ŕ cosý, il "noindex, follow" Ŕ stato rispettato.

  16. #16
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    LocalitÓ
    Antipodi
    Messaggi
    1,483
    Citazione Originariamente Scritto da LowLevel
    Quindi le pagine non sono state indicizzate, corretto? Esiste solo la cache, ma non sono state inserite nell'indice.
    Sý, Ŕ corretto. Io davo per scontato che una pagina che esiste nella cache di Google fosse anche indicizzata, invece evidentemente cosý non Ŕ. Me ne sono accorto solo dopo, cercando "nomepagina site:miosito".
    Se Ŕ cosý, il "noindex, follow" Ŕ stato rispettato.
    Allora (ti giro la domanda che ho rivolto a Google) se non si vuole che una pagina venga archiviata come copia cache, conviene usare anche la direttiva NOARCHIVE (oltre a NOINDEX)?

    Nel frattempo mi hanno risposto da Google.

    Vi sintetizzo la loro risposta (traducendo e parafrasando):

    "Non diamo risposte su siti specifici, e non rilasciamo commenti sulle tecniche utilizzate dai webmaster o sui dettagli della nostra tecnologia di ricerca al di lÓ di ci˛ che appare sul nostro sito, sul quale come forse saprai c'Ŕ un'intera sezione dedicata alle domande pi¨ comuni dei webmaster/SEO rompipalle come te: http://www.google.com/support/webmasters/
    Oltre a ci˛, esiste anche un newsgroup di supporto (http://groups.google.com/groups?q=go...upport.general): ti invitiamo a fare una ricerca e postare lý eventuali domande, sperando che qualche buon'anima ti risponda.
    Siamo spiacenti, ma non possiamo esserti di ulteriore aiuto riguardo a questo argomento. Saluti cari."

  17. #17
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    LocalitÓ
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da ArkaneFactors
    Allora (ti giro la domanda che ho rivolto a Google) se non si vuole che una pagina venga archiviata come copia cache, conviene usare anche la direttiva NOARCHIVE (oltre a NOINDEX)?
    Sý, Ŕ la direttiva giusta.

    In alternativa si pu˛ usare anche la NOSNIPPET, il cui scopo Ŕ diverso (non fa apparire nella descrizione della pagina un estratto del testo della medesima) ma implica indirettamente anche una direttiva NOARCHIVE.


    Nel frattempo mi hanno risposto da Google.
    Essý, Ŕ la risposta standard.

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB Ŕ Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] Ŕ Attivato
  • Il codice [VIDEO] Ŕ Attivato
  • Il codice HTML Ŕ Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.