Connect.gt

Robots.txt è un file di testo posizionato nella cartella di root di un sito per comandare le attività degli spider.

Indice

1 Uno standard de facto
2 Perchè utilizzare Robots.txt
3 Vietare determinati contenuti agli spider
4 Esempio di Robots.txt
5 Altre Fonti
6 Altri progetti

Uno standard de facto

La vasta diffusione di utilizzo di questo file in tutto il web ha reso Robots.txt uno standard de facto e attualmente gli spider dei più diffusi motori di ricerca aderiscono e rispettano tutte le regole imposte dal protocollo.

Ufficialmente questo standard non appartiene a nessun ente o azienda e non risulta essere in alcun modo implementato ulteriormente.

Perchè utilizzare Robots.txt

La conoscenza delle direttive fornite dal protocollo ed il suo utilizzo tramite il file Robots.txt consentono ad ogni webmaster di istruire gli spider dei motori di ricerca indicando loro come muoversi all'interno del sito, quali contenuti setacciare e quali invece non lo devono essere.

È cosi possibile, per esempio, consentire ad uno spider di accedere una pagina che espone dieci immagini vietandogli al contempo l'accesso ad ogni singola immagine esposta in quella pagina.

Notare bene che il Robots.txt non regola l'indicizzazione.

Vietare determinati contenuti agli spider

Per poter facilmente indicare agli spider come trattare le risorse presenti nel sito, il protocollo prevede tre soli comandi:

User-agent;
Allow;
Disallow;

Vediamoli uno per uno in maggiore dettaglio.

User-agent

Il comando User-agent è utilizzato per differenziare le modalità di accesso ai contenuti discriminando i singoli spider.

Grazie a questa istruzione il webmaster è in grado di scegliere quali risorse debbano essere trattate in funzione dello spider che accede al sito, creando eventualmente percorsi differenti.

Esso è seguito dal nome dello spider da gestire o dal carattere *, ad indicare che le regole sono valide per tutti gli spiders.

Allow

L'istruzione Allow segnala agli spider che le risorse da essa indicate possono essere trattate.

È di fondamentale importanza per gestire comodamente delle eccezioni nelle regole imposte agli spiders.

Per esempio se si volesse consentire l'accesso a due soli file presenti in una cartella del sito si potrebbe utilizzare questa sintassi:

Disallow: /cartella_vietata/*
Allow: /cartella_vietata/file1.gif
Allow: /cartella_vietata/file2.gif

Disallow

L'istruzione Disallow indica fisicamente la risorsa, cartella o file o lista di files, che non deve essere considerata e trattata dagli spider durante le loro attività sul sito.

Questa istruzione può essere utilizzata in cascata per selezionare accuratamente determinate risorse presenti in altre sotto-cartelle.

Anche questo comando è in grado di comprendere il significato del carattere jolly *, che abbinato, ad esempio, ad una estensione di file vieta l'accesso a tutte le risorse di quella tipologia.

Esempio di Robots.txt

Come esempio si consideri il file Robots.txt presente nella root di questo sito:

User-Agent: *
Allow: /
Disallow: /greet.php
Disallow: /forum/admincp/

Questo file consente a tutti gli spiders di accedere a qualunque risorsa presente nel sito ad esclusione della pagina php greet.php, anch'essa posizionata nella root, e delle risorse presenti nella sotto-cartella admincp della sezione forum.

Altre Fonti

Ulteriori approfondimenti :

Altri progetti

Articolo a cura di mirkoagrati 20:43, Dic 20, 2009 (CET)