Salve a tutti,
un mio cliente che sta per aprire un ecommerce mi ha posto una interessante domanda:
Se inserisco la descrizione di un prodotto nel mio sito prelevandola da un pdf già indicizzato, chi si posizionerà meglio?
Subito non ho capito bene la domanda ma poi mi ha spiegato che le aziende del suo settore hanno l'uso di inviargli dei pdf da cui prendere le descrizioni dei prodotti ma spesso queste schede sono già presenti nei motori di ricerca in quanto vengono inseriti in cartelle che poi non vengono contrassegnate con il "nofollow".
Google (pronuncia gùgol) è un motore di ricerca per Internet.
Motori di Ricerca
Motori di Ricerca o Search engine sono programmi realizzati per consentire la ricerca delle informazioni memorizzate in un computer system come il World Wide Web, ma anche in un personal computer.
PDF
File formato che conserva documenti formattati consentendo ad utenti di visionare detti file in modo appropriato da ogni computer fornito del software Acrobat Reader sviluppato da Adobe Systems.
Pdf o pagina html non fa differenza per Google, indicizza entrambi e quando deve mostrare un risultato adotta sempre la stessa logica, ovvero cerca di determinare quale risultato è meglio per la ricerca che ha fatto l'utente, sia esso una pagina html o un documento pdf.
Se lo stesso documento pdf è presente su più siti Google non fa altro che applicare la stessa logica delle pagina html, quindi c'è il rischio di essere penalizzati per contenuto duplicato relativamente ai file pdf.
Però se il pdf fosse solo composto da immagini dove non fosse possibile eseguire l'OCR, allora non ci sarebbero problemi.
A proposito di pdf, proprio questa mattina stavo rivedendo questo video di Matt Cutts.
Io non metterei materiale comunque disponibile in modo identico altrove, però se il cliente li vuole proprio mettere allora escluderei quei pdf dall'indicizzazione facendo restituire al server nell'intestazione http la stringa X-Robots-Tag "noindex"
Se il server fosse Apache:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>
Valerio Notarfrancesco
OCR
Riconoscimento ottico dei caratteri
Robots
Questo file va messo nella root del sito e serve per indicare agli spider dei motori di ricerca cosa non prelevare.
Google
Google (pronuncia gùgol) è un motore di ricerca per Internet.
HTML
HTML (HyperText Markup Language) nasce per mano di Tim Berners-Lee, il costruttore del primo webserver e del primo browser, come estensione di SGML (Standard Generalized Markup Language) nel 1990.
PDF
File formato che conserva documenti formattati consentendo ad utenti di visionare detti file in modo appropriato da ogni computer fornito del software Acrobat Reader sviluppato da Adobe Systems.
Tag
tag sono le marcature del linguaggio che permettono la formattazione della pagina
Server
Ogni coppia hardware-software che fornisce appunto servizi ad utenti chiamati tradizionalmente clienti (clients) attraverso una rete.
http
Protocollo progettato per migliorare la qualità e ottimizzare le prestazioni di sistemi distribuiti per la collaborazione e la condivisione delle informazioni. Utilizzato anche come protocollo generico nelle connessioni internet che devono attraversare strati software quali proxy e gateway.
Il problema è che non è lui a decidere se indicizzare i pdf ma è l'azienda.
Esempio:
La Beta Srl vende un prodotto X e nel suo server crea una cartella dove mette i cataloghi inerenti al prodotto X.
Questi cataloghi non sono per i clienti ma sono per i vari ecommerce che devono vendere il prodotto X sul loro sito e necessitano di una descrizione.
L'ecommerce non puo' star li a creare delle descrizioni diverse per ogni prodotto (sono tanti) e quindi prende il testo del pdf e lo pubblica come descrizione.
C'è da dire però che i pdf indicizzati non hanno link che li supportano e sono visibili solo se si fa una ricerca specifica con quel testo. Magari prendendo la descrizione ed inserendola in pagine che possono contare su diversi link il risultato è diverso, o no?
Link
Collegamento Ipertestuale
PDF
File formato che conserva documenti formattati consentendo ad utenti di visionare detti file in modo appropriato da ogni computer fornito del software Acrobat Reader sviluppato da Adobe Systems.
Server
Ogni coppia hardware-software che fornisce appunto servizi ad utenti chiamati tradizionalmente clienti (clients) attraverso una rete.
Più che inserire quelle descrizioni in pagine con diversi link le inserirei in pagine con all'interno altre informazioni in modo da diluire la parte duplicata e non far scattare il filtro di Google.
Purtroppo è il problema di questi tempi degli e-commerce.
Valerio Notarfrancesco
E-Commerce
L'E-Commerce o il commercio elettronico consiste nella compravendita, nel marketing e nella fornitura di prodotti o servizi attraverso computer collegati in rete
Google
Google (pronuncia gùgol) è un motore di ricerca per Internet.