• Moderatore

    PDF vs HTML

    Salve a tutti,
    un mio cliente che sta per aprire un ecommerce mi ha posto una interessante domanda:

    Se inserisco la descrizione di un prodotto nel mio sito prelevandola da un pdf già indicizzato, chi si posizionerà meglio?

    Subito non ho capito bene la domanda ma poi mi ha spiegato che le aziende del suo settore hanno l'uso di inviargli dei pdf da cui prendere le descrizioni dei prodotti ma spesso queste schede sono già presenti nei motori di ricerca in quanto vengono inseriti in cartelle che poi non vengono contrassegnate con il "nofollow".

    Secondo voi come si comporta Google?


  • ModSenior

    Pdf o pagina html non fa differenza per Google, indicizza entrambi e quando deve mostrare un risultato adotta sempre la stessa logica, ovvero cerca di determinare quale risultato è meglio per la ricerca che ha fatto l'utente, sia esso una pagina html o un documento pdf.

    Se lo stesso documento pdf è presente su più siti Google non fa altro che applicare la stessa logica delle pagina html, quindi c'è il rischio di essere penalizzati per contenuto duplicato relativamente ai file pdf.
    Però se il pdf fosse solo composto da immagini dove non fosse possibile eseguire l'OCR, allora non ci sarebbero problemi.

    A proposito di pdf, proprio questa mattina stavo rivedendo questo video di Matt Cutts.

    Io non metterei materiale comunque disponibile in modo identico altrove, però se il cliente li vuole proprio mettere allora escluderei quei pdf dall'indicizzazione facendo restituire al server nell'intestazione http la stringa X-Robots-Tag "noindex"
    Se il server fosse Apache:

    <Files ~ ".pdf$">
    Header set X-Robots-Tag "noindex"
    </Files>

    Valerio Notarfrancesco


  • Moderatore

    Il problema è che non è lui a decidere se indicizzare i pdf ma è l'azienda.

    Esempio:
    La Beta Srl vende un prodotto X e nel suo server crea una cartella dove mette i cataloghi inerenti al prodotto X.
    Questi cataloghi non sono per i clienti ma sono per i vari ecommerce che devono vendere il prodotto X sul loro sito e necessitano di una descrizione.

    L'ecommerce non puo' star li a creare delle descrizioni diverse per ogni prodotto (sono tanti) e quindi prende il testo del pdf e lo pubblica come descrizione.

    C'è da dire però che i pdf indicizzati non hanno link che li supportano e sono visibili solo se si fa una ricerca specifica con quel testo. Magari prendendo la descrizione ed inserendola in pagine che possono contare su diversi link il risultato è diverso, o no?


  • ModSenior

    Più che inserire quelle descrizioni in pagine con diversi link le inserirei in pagine con all'interno altre informazioni in modo da diluire la parte duplicata e non far scattare il filtro di Google.

    Purtroppo è il problema di questi tempi degli e-commerce.

    Valerio Notarfrancesco