• User Newbie

    Devo bloccare l'accesso del crowler ad alcuni contenuti?

    Presento il problema in sintesi:
    ho il sito ebooksopen.org. Dal sito si possono scaricare ebooks con licenza libera, ad esempio i classici della letteratura. I libri che si possono scaricare li ho impaginati io, aggiungendo una copertina, la divisione in capitoli ed eventuali note a piè di pagina. Il testo dei libri, naturalmente, lo hanno scritto i rispettivi autori. Ogni libro da scaricare ha una sua pagina web da cui effettuare il download. Faccio un esempio:
    da ebooksopen.org/it/libro-senilita-di-italo-svevo/ si può scaricare il libro che è ebooksopen.org/epubs/Senilita-139688236.epub.
    Il contenuto del libro è di fatto il testo scritto da Italo Svevo, suppongo che google lo consideri contenuto duplicato. Per evitare una penalizzazione devo impostare il robot.txt in modo che non vada a leggere la cartella epubs? E, in questo caso, nel link della pagina per eseguire il download ci devo mettere qualche attributo, tipo nofollow, perchè google non lo indicizzi comunque?
    Oppure trattandosi di un epub da scaricare posso lasciare tutto come sta?
    Spero di essere stato chiaro,
    Luciano

    Dominio:
    ebooksopen.org
    Motori:
    Google
    Prima indicizzazione o attività:
    Dominio acquistato nel 2012, sito pubblicato nel 2014
    Cambiamenti effettuati:
    Aggiungo un epub al giorno con relativa pagina di descrizione
    Eventi legati ai link:
    Niente di particolare
    Sito realizzato con:
    PHP + MySQL
    Come ho aumentato la popolarità:
    Nulla
    Chiavi:
    ebooks, libri, copyleft
    Sitemaps:
    Si


  • Admin

    Se vuoi bloccare l'accesso a una cartella devi fare
    Disallow: /epubs/

    Se vuoi evitare invece l'indicizzazione devi usare il noindex nelle intestazioni http degli epubs.

    Ovviamente il disallow esclude il noindex perché il crawler non potrai mai accedere e dunque non potrà mai leggere il contenuto della risorsa.
    Il disallow da solo però non garantisce la non indicizzazione perché il file potrebbe essere linkato da qualche parte.

    Da un punto di vista di contenuto duplicato per il tuo caso va bene il disallow perché così il crawler non leggerai mai il contenuto della risorsa.