Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > Posizionamento Nei Motori di Ricerca > SEO Focus
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

SEO Focus Osservatorio Avanzato - [Sezione ad invito]

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione SEO Focus


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 16-09-07, 06:19   #1 (permalink)
Esperto
 
L'avatar di agoago
 
Data di registrazione: Apr 2005
Messaggi: 480
Robots.txt, interpretazioni soggettive.

Non rimarchero' ne vi parlero' (come faccio ormai da anni) di quanto sia essenziale che il rispetto del robots.txt ottenga (asap) una valenza-valore legalmente riconosciuto in tutto il web.

Invece questa volta, piu' semplicemente faccio presente la posizione di google qui riportatata:

http://www.google.com/support/webmasters/bin/answer.py?answer=40362

nella quale afferma:

URLs are case-sensitive.
For instance, Disallow: /private_file.html
would block
http://www.example.com/private_file.html,
but would allow
http://www.example.com/Private_File.html.

Mi sembrerebbe una cosa assurda se G ne tenesse realmente conto, visto che nessun wm (o quasi) si preoccupa del case sensitive delle proprie url, infatti poi matt afferma:

Robots.txt ...upper vs. lower case doesn’t matter.

Notare la sottigliezza, G ci dice che il contenuto del robots e' case sensitive, ma poi non ci dice ufficialmente se lui terra' conto di questo aspetto.

Insomma se G un domani volesse spiderizzare le serp di live.com:

http://search.live.com/REsults.aspx?q=home

potrebbe farlo senza remore, in quanto il robots di live riporta:

User-agent: *
Disallow: /results

e non

User-agent: *
Disallow: /REsults

-------------------------------

Una cosa che mi ha sempre lasciato perplesso e' l'uso e la dimensione che assume il carattere / nel robots.txt.

Esempio del robots.txt di G:

User-agent: *
Disallow: /news?output=xhtml&
Allow: /news?output=xhtml
Disallow: /news

G ci dice che la pagina:

http://www.google.com/news?output=xhtml
puo' essere spiderizzata, mentre:

http://www.google.com/news?output=xhtml&q=home
no.

Fin qui tutto normale, ora prendiamo in considerazione:

http://www.google.com/news?output=xhtml////&q=home

e vediamo cosa ci dice Google riguardo all' Allow:
"The Allow line works exactly like the Disallow line"

-------------

Ricapitoliamo.
G nel suo robots per prima cosa ci dice di non spiderizzare tutto cio' che inzia e segue questa sua url:

/news?output=xhtml&

poi mette un'eccezione, (correttissimo) e cioe' che si puo' spiderizzare tutto cio' che inzia e segue questa sua url:

Allow: /news?output=xhtml

(ma non se a seguire c'e' il carattere &, come prima specificato)

Infine afferma che in tutti gli altri casi non si puo' spiderizzare le url che iniziano con /news

--------

Il contenuto di:

http://www.google.com/news?output=xhtml&q=home

e' identico al contenuto di:

http://www.google.com/news?output=xhtml////&q=home

con la differenza che la prima url mi e' preclusa alla spiderizzazione, la seconda no.

-----------------------

Insomma l'uso-aggiunta (l'abuso del carattere /) in moltissimi casi mi permettera' di spiderizzare url che viceversa mi sarebbero precluse (precluse solo per deontologia, ma per un vero informatico rispettare la netiquette e' tutto).

E' vero, e' una lotta contro i mulini a vento, ma mi piace ricordare le parole di Guccini:

"Dovrei anche rinunciare ad un po' di dignità,
farmi umile e accettare che sia questa la realtà ?"
__________________
Non difendo le mie idee, potrebbero essere sbagliate.
agoago non in linea   Rispondi citando
Vecchio 17-09-07, 01:52   #2 (permalink)
Esperto
 
L'avatar di pieropan
 
Data di registrazione: Apr 2006
Ubicazione: Aree tribali del nordest
Messaggi: 230
Invia un messaggio tramite Skype a pieropan
Eheh.... intanto ciao agoago.

La sintassi del robots.txt è subdola, è vero, spesso non ci si ragiona abbastanza.

Prendi questo:

User-agent: *
Allow: /

Che fa googlebot in questo caso? Entra? Nahhhhhh
L'allow prende senso per google sono in presenza di un disallow....
Provare per credere.

Ciao, stammi bene.
__________________
Pieropan
pieropan non in linea   Rispondi citando
Rispondi


Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 20:35.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.