• Super User

    Secondo Voi questa sitemap va bene?

    Faccio un esempio:

    ww.miosito.com/sitemap.html (nome della pagina)

    Dentro la pagina ci metto:

    ww.miosito.com/ricetta-pasta-lasagne.html Come si prepara
    ww.miosito.com/ricetta-pasta-gnocchi.html Come si preparano
    ww.miosito.com/ricetta-pasta-sugo.html Un sugo gustoso


    Giusto e sbaglio qualcosa?

    Grazie.


  • User

    Ciao, ti rispondo anche perché ho letto l'altro post nella sezione google.

    Quando si parlava di sitemap non si intendeva una pagina che fosse la mappa del sito. Per sitemap si intende un file XML che contiene una lista di url validi per essere visitati dal motore. E' un protocollo, che serve per indicare, oltre che gli indirizzi, l'importanza che rivestono. Inoltre alcuni indirizzi potrebbero non essere raggiungibili dal crawler che segue solo i link e tu potresti indicarli, penso ad esempio all'url di una ricerca col motore interno del sito.

    Per la lista degli url, generalmente la si genera in maniera automatica con dei crawler che partono dal tuo computer, oppure se hai un blog, ad esempio wordpress, con dei plugin.

    Una volta fatto questo file xml, lo carichi sul server e comunichi a google che è li per essere presa, ad esempio con i webmaster tools oppure con il file robots.txt con la direttiva sitemap:sitemap.xml

    Ecco, ti ho dato una panoramica, spero non troppo confusa 🙂

    Non posso postare link, ma qui nel forum di Giorgio c'è un interessante topic riguardo ai vari strumenti on-line e off-line per generare sitemaps. Chi cerca trova...

    Ciao! :ciauz:


  • Super User

    Ciao
    Dopo giorni c he ho studiato la cosa, leggendo anche molte risposte sul forum, (come quella di Mamad) ho deciso di scrivere una sipemap cosi:

    Index (con il link sotto che porta alla home).

    Ricette lasagne (con link della pagina della ricetta).

    E cosi via........

    Una cosa però non ho capito ancora:
    che codice o che frase devo mettere per dire ai motori di ricerca che la index sarà aggiornata ogni 3 giorni?
    La pagina la posso salvare in html? O no?

    Grazie.....:)


  • User

    Ciao,
    perdonami, ma credo che dobbiamo chiarirci sulle definizioni. Credo che tu voglia creare un 'mappa del sito' cioè una pagina con i link a tutte le sezioni del tuo sito. Questo tipo di pagina la salverai giocoforza in HTML, sarà utile (e raggiungibile) anche ai tuoi visitatori e non potrai in nessun modo specificare allo spider di rivisitare i relativi link con qualsivoglia cadenza.

    Per fare ciò devi creare una 'sitemap' in xml con questo formato. Puoi farla a mano se vuoi ma generalmente si usa un programma. Ad ogni modo è fatta così (semplificando molto):

    < xml>< url>< loc>h t t p :// t u o l i n k </loc><lastmod>la data dell'ultima modifica</lastmod><changefreq>la frequenza con cui cambia</changefreq><priority>la priorità della pagina rispetto alle altre</priority></url> ...
    ... e cos' via per tutti i link </xml>

    Questa la dai in pasto a google che reperisce tutti i dati necessari. Questo file ovviamente non è raggiungibile dai visitatori e per loro non è di alcun aiuto, serve solo a te (webmaster) per dialogare con lo spider.

    Spero di aver interpretato bene quello che volevi sapere.
    Ciao. :ciauz:


  • Moderatore

    Ti consiglio Gsitecrawler, per esempio. 😉

    E' un po' vecchiotto, ha 'i suoi tempi', ma te la fa benissimo lui, la sitemap in xml.


  • Super User

    Una sitepmap per gli spider la posso fare facilmente con dei programmi che trovo anche online, come WWW mi ha lincato, ma Io vorrei capire come funziona la cosa, cioè capire cosa sto facendo.:)

    Ora ci provo con quello che ha scritto Mamad:

    < xml>< url>< loc>h t t p :// www. n ono esiste.com </loc><lastmod>1/1/2000</lastmod><changefreq>two-days</changefreq><priority>alta</priority>
    </url> qui devo mettere una a una tutte le pagine?</xml>

    Ditemi voi cosa ho sbaglito se lo fatto:), se potete correggete l'errore/i:)


  • Moderatore

    Capire serve a correggere gli errori dei tool che puoi trovare online, giustamente. O degli stessi cms, che molto spesso - fortunatamente - producono 'da soli' la loro sitemap.

    La sintassi pr una sitemap xml parte con un pezzo di codice che potrebbe essere così:

    [html]<?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="gss.xsl"?>
    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
    [/html]
    Indica la versione del protocollo sitemap utilizzato, il foglio di stile con cui volendo poter visualizzare la mappa xml (è in formato .xsl), indica lo schema xml secondo cui cui a mappa è stata compilata (0.9).

    Come una sorta di 'dichiarazione', tipo quella che fai in xhtml.
    In ogni caso poi apri l' "urlset" in cui ribadisci le informazioni salienti sugli schemi xml utilizzati e supportati (il precedente dello 0.9, lo 0.84).
    [html]<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">[/html]
    Poi inizi ad elencare tutte le url da includere.

    <url><loc>http: //www. sito.ext/article-marketing/contact/</loc><lastmod>2009-02-22</lastmod><changefreq>monthly</changefreq><priority>0.50</priority></url>
    <url><loc>http: //www. sito.ext/article-marketing/members/</loc><lastmod>2009-02-22</lastmod><changefreq>monthly</changefreq><priority>0.50</priority></url>
    <url><loc>http: //www. sito.ext/article-marketing/profile/seoguru-2.html</loc><lastmod>2009-02-22</lastmod><changefreq>monthly</changefreq><priority>0.50</priority></url>
    .........

    Finisci quindi chiudendo l'urlset.

    </urlset>

    La sintassi è semplicissima. Ma i tool sono fondamentali per le 'dimensioni' che queste mappe spesso assumono.

    In ogni caso, anche i migliori tool - o i plugin dei cms - spesso sbagliano.

    Quindi poi la difficoltà principale è quella di 'fare in modo' che lo spider che setaccia il nostro sito per 'mapparlo' includa solo le URL che vogliamo noi, e non tutte indiscriminatamente.

    Spider, del resto, che simula qualcosa di molto simile ai principali bot dei SE.

    Quindi 'fare una sitemap' fatta bene significa anche e soprattutto inibire la scansione di 'alcune parti' del sito agli spider automatici - e in definitiva ai robots dei motori di ricerca.

    Tornando alla sintassi postata sopra:

    • oltre all'url, gli altri attributi indicano:

    -la data dell'ultima modifica del file sul server;

    • il ritmo 'supposto' di aggiornamento di una determinata pagina;
    • la priorità di scansione che vorremmo dedicare a quel file.

    Inutile dire che questi ultimi 3 attributi.... non possono essere utilizzati per fare fesso Google.

    Per la data di modifica la legge comunque direttamente sul server, non la chiede certo alla sitemap.
    La frequenza di scansione la determina da suoi particolarissimi algoritmi, sicuramente la nostra preferenza non conta nulla.

    La priority.... ipoteticamente potrebbe ancora tener conto delle nostre preferenze di 'priorità' all'interno delle varie pagine del nostro sito... ma solo se questa priority è e rimane coerente con la struttura del sito stesso e con la distribuzione dei suoi contenuti.

    Rimane il fatto che mentre i primi due attributi - se omessi - non invalidano la sitemap, la priority potrebbe crerti problemi nel GWT, dopo che hai segnalato la sitemap a Google e nel momento in cui lui ti restituisce i 'risultati della sua analisi'.

    Ad esempio Google considera come 'errore' le sitemap in cui tutti i file hanno la stessa priority.

    Lo dico perchè spesso i cms 'appena installati' producono questo genere di sitemap, che Google digerisce segnalando questo tipo di errore.

    Ne abbiamo discusso mesi fa con SuperCapocc a proposito di phpBB3, ma l'ho riscontrato anche su un altro tipo di cms.

    In molti casi è solo un problema di 'sito vuoto', in cui sono le categorie o i forum senza 3d ad avere la 'stessa priorità' e a causare gli avvisi di warning nel pannello del GWT.

    Sviluppando il sito l'errore svanisce.

    Se fai una sitemap 'fatta a mano' non dare a tutte le pagine la stessa priority.

    Di solito la home page ha priority 1.

    Le altre via viaa scendere.

    0,8

    0,7

    0,5

    0,4

    O altri valori a scelta, su questa scala.

    🙂


  • Moderatore

    @100siti said:

    < xml>< url>< loc>h t t p :// www. n ono esiste.com </loc><lastmod>1/1/2000</lastmod><changefreq>two-days</changefreq><priority>alta</priority>
    </url> qui devo mettere una a una tutte le pagine?</xml>

    Ditemi voi cosa ho sbaglito se lo fatto:), se potete correggete l'errore/i:)

    Oltre alla risposta (forse) più esaustiva postata poco sopra ti correggo subito questo tuo esempio.

    La frequenza di aggiornamento non va bene in quel modo.

    Ecco una lista di comandi accettati:

    • always
    • hourly
    • daily
    • weekly
    • monthly
    • yearly
    • never

    Two-days non va bene.

    E la priority va indicata con valori numerici tra 1.0 e 0.1

    Esempio: 1.0 per la home page, 0.7 per le pagine più importanti, 0.5 per i post o per le pagine 'normali', 0.2 per la pagina 'contatti' (che ne so, per dire, dipende).

    "Alta", "bassa" e "media" non credo funzionino.

    Nonostante tutto la funzione principale della sitemap per i motori è quella di fare l'elenco completo degli url del nostro sito, e attributi e specifiche varie servono a pochissimo, quasi a nulla.

    Fare 'bene' quell'elenco è invece molto importante per migliorare l'indicizzazione del sito, dando più possibiità agli spider di individuare precisamente tutti i vari documenti presenti online.

    O impedire che trovino 'due volte' gli stessi contenuti, per esempio ( -> penalizzazione per contenuti duplicati)

    E - per rimanere al tuo esempio - la sintassi

    <url><loc>http: // www. sito.ext/ etc et etc .html</loc><lastmod>2009-02-22</lastmod><changefreq>monthly</changefreq><priority>0.50</priority></url>

    deve essere ripetuta PER TUTTE le url che vogliamo includere.
    <url>
    <loc></loc>
    <lastmod></lastmod>
    <changefreq></changefreq>
    <priority></priority>
    </url>

    Questo 'format' - compilato con i dati opportuni - va ripetuto per ogni URL.

    Naturalmente il dato fondamentale è quello dentro il tag <loc>, ovvero l'indirizzo web vero e proprio. Quindi la priority, probabilmente. In ultimo gli altri due, del tutto secondari - e ormai completamente bypassati da Google.

    Fai un salto proprio da GG, che ha qui un prontuario molto comodo per una rapida consultazione.

    🙂


  • Super User

    Grazie siete veramente di grande aiuto:)

    Penso che questa ora vadi bene: (ho fatto un copia incolla cambiando alcuni dati)
    <?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www. miosito.com/</loc> <lastmod>2009-03-21</lastmod> <changefreq>weekly</changefreq> <priority>0.8</priority>
    </url>
    <url> <loc>http://www. miosito.com/pagina2</loc> <changefreq>weekly</changefreq><priority>0.7</priority>
    </url>
    <url> <loc>http://www. miosito.com/pagina2</loc> <lastmod>2009-02-21</lastmod> <changefreq>monty</changefreq> <priority>0.6</priority>
    </url>
    <url> <loc>http://www. miosito.com/pagina3</loc> <lastmod>2009-03-21</lastmod> <priority>0.3</priority>
    </url>
    <url> <loc>http://www. miosito.com/pagina4</loc> <lastmod>2008-03-21</lastmod> <priority>0.2</priority>
    </url>
    </urlset>
    Va bene?
    Ma always cosa vuole dire?
    Ogni quanto tempo devo aggiornare se metto always?
    Per dire ogni tanto si può?Grazie:)

    I dati cambiati sono in rosso


  • User

    @100siti said:

    Ma always cosa vuole dire?

    Credo si riferisca al fatto che la pagina è dinamica e cambia tutte le volte che viene caricata.

    Ciao.


  • Moderatore

    @100siti said:

    Va bene?
    Ma always cosa vuole dire?
    Ogni quanto tempo devo aggiornare se metto always?

    OK.

    Per la home page - se aggiorni spesso il sito - ti conviene utilizzare "daily" e priority "1" (solo sulla home, però).

    Ma è un parere del tutto soggettivo, va benissimo anche così.

    "Always" non l'ho mai utilizzato, personalmente.


  • Super User

    Ok grazie ragazzi, siete stati veramente utili:)


  • User Attivo

    @mamad said:

    Inoltre alcuni indirizzi potrebbero non essere raggiungibili dal crawler che segue solo i link e tu potresti indicarli, penso ad esempio all'url di una ricerca col motore interno del sito.

    Ciao ragazzi, ho trovato questo post che forse spiega come mai ho un problema nel creare la mia sitemap. Ho un sito dinamico che crea le pagine html da un database. Ed ho 2500 news e 250 reviews. Però i programmi che fanno il crawl del mio sito mi trovano solo 127 news/reviews. Ma come mai? le pagine sono li, se si va sulla lista delle recensioni ci sono tutte (andando avanti di pagina in pagina).

    Sto impazzendo e non capisco come mai.