+ Rispondi alla Discussione
Risultati da 1 a 8 di 8

file robot e sitemap in conflitto

Ultimo Messaggio di Blays il:
  1. #1
    User Newbie
    Data Registrazione
    Mar 2012
    LocalitÓ
    Italia
    Messaggi
    2

    file robot e sitemap in conflitto

    Ciao a tutti, mi sa che questo Ŕ il mio primo post qui.. Vi pongo subito la domanda, in pratica vorrei escludere dall'indicizzazione sui motori di ricerca le pagine del sito ad esclusione delle sole che indico nella sitemap...

    se nel file robots.txt inserisco la direttiva

    Disallow: /

    ma creo una sitemap in cui inserisco le pagine che voglio che vengano indicizzate, queste pagine vengono prese in considerazione oppure siccome nel robots c'Ŕ scritto di non seguire nessuna pagina all'interno del sito allora la sitemap non viene presa in considerazione?
    (in alternativa qualcuno pu˛ dirmi come posso fare per risolvere il problema?)

    grazie anticipatamente per la risposta

  2. #2
    User L'avatar di problemaPc
    Data Registrazione
    Apr 2012
    LocalitÓ
    Napoli
    Messaggi
    191
    Segui problemaPc su Twitter Aggiungi problemaPc su Google+ Aggiungi problemaPc su Facebook Aggiungi problemaPc su Linkedin
    Secondo lo standard per l'esclusione dai robot, puoi usare solo la direttiva disallow per bloccare pagine e directory.
    Non mi risulta esista per pagine e directory un comando allow, ossia consenti.
    Il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.

    Ci˛ significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.

  3. #3
    User Newbie
    Data Registrazione
    Mar 2012
    LocalitÓ
    Italia
    Messaggi
    2
    qui
    support.google . com/webmasters/bin/answer.py?hl=it&answer=156449 la direttiva allow viene utilizzata ogni tanto, ma inserire un allow per ogni pagina che vorrei venisse indicizzata sarebbe in pratica come inserire la sitemap all'interno del file robots.txt (non il link della sitemap, ma ciascun link che dovrebbe stare dentro alla sitemap)...

    in ogni caso volevo anche sapere: se nel robots.txt inserisco una direttiva che dice di escludere tutte le pagine del sito, ma poi nella sitemap indico alcune pagine (non tutte), queste pagine che indico nella sitemap vengono prese in considerazione o no? chi Ŕ che comanda di pi¨? il disallow del robots o la sitemap?

  4. #4
    User L'avatar di problemaPc
    Data Registrazione
    Apr 2012
    LocalitÓ
    Napoli
    Messaggi
    191
    Segui problemaPc su Twitter Aggiungi problemaPc su Google+ Aggiungi problemaPc su Facebook Aggiungi problemaPc su Linkedin
    Vince sempre la sitemap.
    Il file robots Ŕ concepito pi¨ per istruire i crawlers che accedono ciecamente al tuo sito senza consultare prima la sitemap, ma sono pochissimi.
    Quando inserisci una url nella sitemap stai chiaramente invitando lo spider ad accedere alla tua pagina.
    La sitemap.xml ha un autoritÓ maggiore rispetto al file robots.txt.

  5. #5
    Moderatore L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    LocalitÓ
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    Ciao a The Anonymous e benvenuto su forum GT.

    Devo contraddire problemaPc, prevale il comando Disallow del robots.txt, in quanto la sitemap Ŕ solo un suggerimento.

    Io non metterei nulla nel robots.txt, aggiungendo invece alle pagine che non vuoi far indicizzare il metatag robots noindex,follow.
    Ultima modifica di Webmaster70; 24-05-12 alle 17:30

  6. #6
    User L'avatar di problemaPc
    Data Registrazione
    Apr 2012
    LocalitÓ
    Napoli
    Messaggi
    191
    Segui problemaPc su Twitter Aggiungi problemaPc su Google+ Aggiungi problemaPc su Facebook Aggiungi problemaPc su Linkedin
    Per il disallow prevale il robots, per l'allow alcuni crawlers non comprendono la direttiva e leggono la sitemap .. ad esempio Bing e Google non ragionano allo stesso modo.
    Anche sui caratteri jolly come l'asterisco ci sono problemi, ad esempio alcuni crawlers come GoogleBot capiscono l'asterisco, MSNBot (Bing per intenderci) non lo capisce.

    Scusami se sono stato poco chiaro precedentemente.

  7. #7
    ModSenior L'avatar di vnotarfrancesco
    Data Registrazione
    Oct 2009
    LocalitÓ
    Torino
    Messaggi
    14,609
    Segui vnotarfrancesco su Twitter Aggiungi vnotarfrancesco su Google+ Aggiungi vnotarfrancesco su Linkedin
    Citazione Originariamente Scritto da Webmaster70 Visualizza Messaggio
    Io non metterei nulla nel robots.txt, aggiungendo invece alle pagine che non vuoi far indicizzare il metatag robots noindex,follow.
    Sono d'accordo con Webmaster70, fate sempre attenzione all'uso del file robots.
    Per impedire l'indicizzazione meglio i metatag indicati su da Webmaster70.


    Valerio Notarfrancesco
    MODSeo e Tecnologie
    Per consigli e strategie SEO seguimi su Google Plus +Valerio Notarfrancesco - Twitter
    Seconda edizione Seo Power

  8. #8
    Moderatore L'avatar di Blays
    Data Registrazione
    Jul 2009
    LocalitÓ
    Verona
    Messaggi
    784
    Segui Blays su Twitter Aggiungi Blays su Google+ Aggiungi Blays su Linkedin
    Citazione Originariamente Scritto da The Anonymous Visualizza Messaggio
    in ogni caso volevo anche sapere: se nel robots.txt inserisco una direttiva che dice di escludere tutte le pagine del sito, ma poi nella sitemap indico alcune pagine (non tutte), queste pagine che indico nella sitemap vengono prese in considerazione o no? chi Ŕ che comanda di pi¨? il disallow del robots o la sitemap?
    Se stiamo parlando dell'indicizzazione da parte di Google questi casi possono essere testati con l'utilizzo del webmaster tool.
    A me risulta che:
    - se un url Ŕ bloccato dal robots e presente nella sitemap, WMT segnala errori nella sitemap perchŔ ci sono url bloccati
    - con un esclusione di tutte le pagine dal robots, WMT segnala che nemmeno la sitemap Ŕ raggiungibile dal crawler

    Come ti hanno giÓ consigliato potresti utilizzare il metatag robots sulle pagine che non vuoi far indicizzare.

+ Rispondi alla Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB Ŕ Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] Ŕ Attivato
  • Il codice [VIDEO] Ŕ Attivato
  • Il codice HTML Ŕ Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.