Consigli SEO per sito ecommerce

pasky78

Consigli SEO per sito ecommerce

Salve a tutti.
Da quasi un annetto abbiamo messo su un sito di ecommerce .solutionforyou.it
Ma stenta a decollare.
Mi date qualche consiglio SEO?
Grazie mille.

blays

Con una rapida visita al sito ho notato che:

la home praticamente non ha un title
il menu superiore linka a pagine che nulla hanno a che vedere con l'e-commerce
le pagine di categoria non hanno title e description ottimizzati nè testi oltre quelli strettamente legati ai prodotti
il sito è generalmente povero di testi

Partite da queste cose.
Ciao!

federico.sasso

Ciao pasky78.
Ai consigli di Blays aggiungo:

tutti i link in corrispondenza della bustina, quelli con path .../recommend/... per capirsi, che aprono un contenuto del tipo "Info: YOU MUST LOGIN FIRST" dovrebbero avere l'attributo rel="nofollow", e il contenuto con il suddetto messaggio dovrebbe avere meta-tag noindex.
Questo perché così come sono crawlati dagli spider e visti come contenuti inutili e duplicati. Google ne indicizza circa 500.
Fai così:

prima metti il metatag robots a noindex
aspetta che googlebot li visiti di nuovo per capire che deve toglierli dall'indice
poi metti sui link nelle bustine l'attributo rel="nofollo", così gli spider eviteranno di visitarli di nuovo sprecando budget di crawl
...e blocca quei path anche da robots.txt (sempre una volta che sono de-indicizzati)

Blays te l'ha già detto, ma lo rimarco perché è grave: il titolo della Home Page NON può essere "Home"!

I titoli delle pagine di categoria andrebbero anch'essi migliorati (intendo html\title, non gli h1), con una singola parola non si va molto lontano... così come sono tanto vale mettere le pagine a noindex (lasciando nofollow).

A proposito: la paginazione è quasi inutilizzabile, tutta appiccicata così com'è. Migliorarla richiederebbe poco.

Ciao

pasky78

Innanzi tutto vi ringrazio moltissimo per i consigli.

Vorrei premettere che sono un neofita del settore, quindi vorrei chiedervi degli ulteriori chiarimenti.

Ho seguito il vostro consiglio e ho inserito un titolo esaustivo per la Home.

Potreste dirmi che strumento avete usato per capire quanti link duplicati indicizzava Google? Sto parlando delle pagine tipo "Info: YOU MUST LOGIN FIRST".
Se rimuovo il collegamento della bustina dalla pagina, risolvo il problema?

Vi ringrazio anticipatamente.

federico.sasso

ciao pasky78,

per vedere quanti URL di quel tipo sono indicizzati in google, basta cercare - senza le parentesi quadre, è solo una notazione per distinguere dal resto di questo messaggio - su google con questo criterio di ricerca:

[INDENT][site:solutionforyou.it inurl:/recommend/][/INDENT]

I risultati inizialmente mostrati sono solo quattro, ma la pagina ti offre di "ripetere la ricerca includendo i risultati omessi"; a quel punto il numero di risultati diventa 474 (che poi in realtà sono 124 sfogliando un po').
I "risultati omessi" sono di solito un'indicazione di contenuti che il motore di ricerca ritiene "senza spessore", o "duplicati" (e in questo caso rispondono a entrambi i criteri).

federico.sasso

A proposito, vedo che ora hai rimosso i link alle bustine.

Questa modifica in sé può migliorare il to "crawl budget", ossia l'efficienza dell'esplorazione del motore di ricerca che può concentrarsi su altri contenuti per te più strategici da indicizzare (a meno che gli URL non siano raggiungibili per altre vie, non ho fatto una nuova crawlata per esaminarlo)...
...ma non elimina gli URL dall'indice di Google.

La cosa più veloce che potresti fare è mettere nella pagina con la maschera di login il meta tag[INDENT]<meta name="robots" content="noindex, nofollow" />[/INDENT]
così quando googlebot le rivisiterà saprà di doverli de-indicizzare.

Do per scontato che eliminando i link alle bustine tu abbia deciso di non volere la funzionalità.
Casomai ci ripensassi, potresti sempre ripristinarla mettendo su link l'attributo rel="nofollow" e - una volta che gli URL sono de-indicizzati - magari bloccarli anche via robots.txt

Spero d'esserti stato d'aiuto

pasky78

Ciao Federico.
Ho rimosso il link della bustina da tutte le pagine, ora dovrebbe andar bene?

Inoltre sto usando un software per creare la sitemap del sito e vedo che vengono crawlate molte pagine relative al filtro "Ordina per".
In pratica gli articoli vengono mostrati con tutti i tipi di ordinamento possibile.
Mi conviene escludere queste pagine, oppure lascio stare?

Grazie mille.

federico.sasso

@pasky78 said:

Ho rimosso il link della bustina da tutte le pagine, ora dovrebbe andar bene?
vedi risposta soprastante (probabilmente non hai avuto tempo di leggerla quando hai scritto questa domanda)

@pasky78 said:

Inoltre sto usando un software per creare la sitemap del sito e vedo che vengono crawlate molte pagine relative al filtro "Ordina per".
In pratica gli articoli vengono mostrati con tutti i tipi di ordinamento possibile.
Mi conviene escludere queste pagine, oppure lascio stare?.
Molto dipende da cosa ti permette di fare il software che usi per generare le sitemap.
In una Sitemap XML normalmente dovresti indicare solo gli URL "canonici"

federico.sasso

@pasky78 said:

... vedo che vengono crawlate molte pagine relative al filtro "Ordina per".
In pratica gli articoli vengono mostrati con tutti i tipi di ordinamento possibile.
Mi conviene escludere queste pagine, oppure lascio stare?
Ho fatto una breve spiderizzata e ho visto meglio il problema (prima nel rispondere mi sono concentrato più sulla parte relativa alla sitemap); quelle pagine sono crawlate di sicuro anche dai motori di ricerca.

Risposta:
lascia pure la selezione per filtro a uso e consumo degli utenti, ma quel che farei io è:

aggiungere in quei link l'attributo rel="nofollow"
escludere quei path mettendoli in disallow nel robots.txt

Ciao

pasky78

Scusa, suggerisci di inserire il "nofollow" in tutte le pagine? Sono un'infinità.

Non si potrebbe inserire nel componente del filtro? Anche se non so come fare.

Grazie per i consigli.

federico.sasso

Certo. Se modifichi il componente filtro, ripetuto in tutte le pagine, automaticamente lo inserirai in tutte le pagine che lo utilizzano.

pasky78

Io uso Virtuemart, ma non capisco dove devo inserire la stringa "nofollow" per disabilitare il filtro. Forse nel template?

pasky78

Posso ottenere lo stesso risultato senza modifiche nel sito, ma modificando solo il file robots?

federico.sasso

@pasky78 said:

Posso ottenere lo stesso risultato senza modifiche nel sito, ma modificando solo il file robots?
sì

pasky78

Scusa, ho fatto una ricerca su google come hai fattu tu:
site:solutionforyou.it inurl:results

Volevo trovare i risultati indicizzati dal componente filtro, ma non ne ho trovati.
Questo cosa vuol dire, che Google non li ha indicizzati?

Per favore, mi dai qualche spunto su come configurare il file robots?

federico.sasso

@pasky78 said:

Scusa, ho fatto una ricerca su google come hai fattu tu:
site:solutionforyou.it inurl:results

Volevo trovare i risultati indicizzati dal componente filtro, ma non ne ho trovati.
Questo cosa vuol dire, che Google non li ha indicizzati?

Per favore, mi dai qualche spunto su come configurare il file robots?

con [site:solutionforyou.it inurl:/results] ne vedo due,
con [site:solutionforyou.it inurl:/by] ne vedo tre

Non escluderei i /results, impediresti al crawler di visitare tutte le pagine di categoria (a parte la prima)

Bloccherei gli ordinamenti alternativi, per es.:

Disallow: //by,
Disallow: //orderDesc

e così via, bloccando magari anche raggruppamenti per produttore. Lascia però che ogni pagina sia visitabile almento per un tragitto, quello più "strutturato".
Mi raccomando, prima di pubblicare la nuova versione del robots.txt, testala con Google Webmaster Tools ("Blocked URLs")

Se vuoi bloccare davvero le paginazioni, allora devi fornire una lista "completa" per ogni categoria; apprezzata dai bot, i bipedi possono gradirla meno se è troppo lunga.

Spero che queste "imbeccate" ti siano sufficienti, ciao!

pasky78

Si, avevo provato ad usare i caratteri *, ma mi sono fermato perchè da un'analisi del file robots mi diceva che il carattere * non è supportato da tutti i motori.

federico.sasso

@pasky78 said:

Si, avevo provato ad usare i caratteri *, ma mi sono fermato perchè da un'analisi del file robots mi diceva che il carattere * non è supportato da tutti i motori.
Sì, è vero.
Non so ora farti un elenco dei motori che lo supportano. Tieni però conto che Google lo interpreta correttamente, e in Italia ha il 95% delle ricerche web.

pasky78

E per fare un crawler di un sito come lo farebbe google?

federico.sasso

@pasky78 said:

E per fare un crawler di un sito come lo farebbe google?
Nota: sto riscrivendo da capo questa risposta, causa apparente mancato click su "invia risposta rapida!

ciao pasky78,
ti fornisco due risposte, una lunga ed elaborata, l'altra corta con una assunzione non confermata sulla tua domanda. Buona lettura.

Risposta lunga:

Nessuno degli strumenti che posso indicarti si comporta esattamente come Google.
Il crawler di un motore di ricerca ha esigenze un po' diverse da quelle di un analizzatore di siti, e non tutto è documentato.

Per esempio, Google magari la prima volta che vede il tuo sito visita solo la home page, e magari torna dopo una settimana a visitare gli URL linkati dalla home page; anche l'ordine di visita degli URL non è strettamente prevedibile, anche se più o meno è un breadth-first (esplorazione in ampiezza, dove si visitano prima le pagine con meno profondità di link) alterato nella prioritizzazione dal PageRank delle pagine.
Alla lunga Google torna ciclicamente a visitarti con una frequenza che è proporzionale al PageRank, rivisitando tutte le pagine ma rispettando un tempo minimo tra una pagina e l'altra che può anche essere di sei minuti (scende se sa che sei un sito con molte pagine e autorevole).

Google fa così perché la sua priorità è trovare e indicizzare nel minor tempo possibile le pagine più significative di milioni di siti web, per cui non visita "tutto un sito in una botta".

Gli analizzatori di siti invece possono concentrarsi sul singolo sito, con tempi di visita e velocità maggiori.

Le caratteristiche di visita possono essere emulate in gran parte, ma non del tutto. Per esempio googlebot si presenta con un determinato user-agent a un intervallo noto di indirizzi IP; se un sito varia il comportamento se riconosce un IP come di Google, l'emulazione cade.

Ogni tool ha le sue caratteristiche, che possono più o meno coincidere con quelle di Google.

Prendi per esempio Xenu, Screaming Frong e Visual SEO Studio:

user-agent:
ognuno strumento ha il suo, diverso da quello di google.
Screaming Frog permette (credo nella sola versione a pagamento) di fare spoofing dello user-agent, ossia di "mentire" dichiarandosi googlebot. Visual SEO Studio non lo fa per codice etico, e nemmeno Xenu lo permette.
nota 1: tecnicamente è possibile usare un proxy per cambiare al volo uno user-agent, ma i due tool non lo permettono direttamente, né io lo incoraggio.
nota 2: in realtà i siti che si comportanto diversamente se lo user-agent è googlebot sono pochi

rispetto robots.txt
Xenu lo ignora bellamente (e la cosa lo espone a "spider-traps").
Screaming Frog dichiara compatibilità completa con la google nell'interpretazione del file
Visual SEO Studio al momento non riconosce i caratteri speciali * e $ (spiacente, arriveranno).
Visual SEO Studio è l'unico che rispetta crawl-delay (ignorabile per siti tuoi, visitabili allora a velocità piena). Google non riconosce crawl-delay (Bing sì), ma permette di impostarlo da GWT, ed è abbastanza educato in tale senso.

rispetto rel="nofollow"
Xenu lo ignora (l'attributo è apparso dopo)
Screaming Frog non si sa (non lo documenta)
Visual SEO Studio lo rispetta

limiti esplorazione:
Xenu e SF esplorano solo dal dominio (o sottocartella) in giù (SF nella versione a pagamente permette di modificare il comportamento predefinito); Visual SEO Studio cerca di inferire se il sottodominio è parte del tuo sito o un altro ente, come sembra faccia Google (esiste un db pubblico manutenuto da Mozilla con tutte le eccezioni del caso).

Ordine di esplorazione:
Xenu e SF usano una pipeline asincrona per velocizzare la crawlata, e non sono pertanto in grado di garantire l'ordine di esplorazione, che può variare di molto da una volta all'altra. Visual SEO Studio si attiene rigidamente a un ordine di esplorazione breadth-first. Google si comporta in un modo (non documentato) che è una specie di misto dei due: sembra essere un breadth-first alterato in priorità dal PR (se vi sono link esterni a pagine interne, la loro priorità può aumentare) in cui l'ordine non è stretto a causa della separazione fisica dei vari sistemi di elaborazione usati.

Velocità di esplorazione.
Xenu ha una pipeline asincrona efficientissima. Sebbene sia molto veloce, può causare la congestione di un server con insufficienti risorse, potrebbe essere usato per fare anche DOS su un sito tanto è maleducato.
Screaming Frog ha un'archittura simile ma meno efficiente (non per educazione), e permette di diminuire il numero di richieste concomitanti per ridurre la pressione su server meno performanti.
Visual SEO Studio rispetta il crawl-delay, e in mancanza di esso rispetta un intervallo di cortesia minimo di 10s ( per siti di cui si dimostra d'essere amministratori, permette naturalmente di accelerare e anche visitare a velocità piena).
Visual SEO Studio ha una pipeline strettamente seriale, e anche nel caso di velocità piena si adatta ai tempi di risposta del server per non sovraccaricarne le risorse; la serialità delle richieste gli permette rendere il processo di esplorazione strettamente ripetibile e di costruire un grafo dell'architettura di link.
Google ha tempi di esplorazione molto più dilatati, e quando ha già una mappa del tuo sito effettua chiamate intervallate tra due secondi a sei minuti (secondo dimensioni sito, PR e impostazioni di GWT) con il comportamento che ho già descritto.

Le differenze non finiscono qui, e molto spesso i comportamenti dei singoli strumenti - e di G - non sono documentati per cui è difficile esprimersi senza testarli appositamente (es.: normalizzazione degli url, catena di redirect, loop di redirect, redirect a risorse esterne, response code inusuali per robots.txt, dimensioni massime di risorsa scaricabile, etc...)

Lo strumento che conosco meglio - Visual SEO Studio, ovviamente - si fa in quattro per emulare il comportamente di un motore di ricerca e mostrarlo visivamente (con visualizzazione ad albero della struttura di link, dei crawl path, l'emulazione G-Time, etc..) ma ogni strumento è una realtà a sé quando si va nel singolo dettaglio.

Gli strumenti on-line poi sono ancora più terra di nessuno, perché hanno meno documentazione sul loro comportamente, e essendo di solito a pagamento sono difficili da testare.

Risposta breve:

Nel tuo caso specifico, se la necessità è testare una visita dopo aver messo gli * nel robots.txt, ahimé mi fa male dirlo l'unico che ufficialmente sembra supportarli è il mio competitor SF.
Ti consiglio comunque di testare anche con GWT, lì il motore che interpreta il file dovrebbe essere lo stesso usato da Google per visitarti.

Spero di non averti confuso troppo