• User

    Duplicazione contenuti non voluta: come metterci una pezza?

    Buongiorno a tutti 🙂
    Spero di aver postato nella sezione corretta.

    Ho da poco in gestione un eCommerce con un catalogo di circa 4.000 prodotti.
    Si tratta di un sito online da anni, con traffico in crescita.

    Il 14 aprile, a causa di un problema nella configurazione CMS, sono entrate in indice Google una valanga di pagine prodotto duplicate e il traffico organico è andato via via diminuendo (ad oggi siamo ad un -50/60%).

    Spiego il problema verificatosi.
    In indice erano correttamente presenti 4.000 pagine prodotto.
    www[.]sito[.it]/lingua/categoria/prodotto[.]html

    Dal 14 aprile sono state inserite, per ogni pagina prodotto, due ulteriori copie:

    1. www[.]sito[.it]/m/categoria/prodotto[.]html
    2. www[.]sito[.it]/mobile/categoria/prodotto[.]html

    Il CMS non aveva un controllo sulla sulla lingua e il parametro "m" o "mobile" causava un errore, ma la pagina veniva comunque restituita.
    Google ha scansionato tutto il sito con quelle URL errate e dal 14 in poi non mi trovo più con 4.000 pagine indicizzate, ma con 12.000.
    Peccato che queste 8.000 in più siano pagine duplicate e, tanto per non farsi mancare nulla, con Warning ed errori PHP/MySQL.

    Siamo intervenuti in due modi:

    1. inserendo il rel canonical nelle pagine prodotto (era assente);
    2. reindirizzando con dei 301 le pagine "m" e "mobile" alla corrispondente pagine prodotto.

    [Abbiamo intenzione anche di aggiuntere i tag next e prev nelle pagine categoria.]

    L'intervento è stato fatto ieri, quindi in indice compaiono ancora queste pagine duplicate.

    Ora ho 3 domande:

    1. mi consigliate altri interventi? Dovrei indicare a Google manualmente di rimuovere dall'indice quelle pagine prodotte errate oppure è sufficiente "aspettare" e queste scompariranno?
    2. ammesso che le soluzioni implementate siano sufficienti, quanto tempo occorrerà perchè la situazione torni come prima?
    3. OK che il CMS aveva una falla, ma come è possibile che si siano generati questi link www[.]sito[.it]/mobile/ e www[.]sito[.it]/m/ ? Non sono stati generati dalla piattaforma, ne dal cliente. Non sono stati neppure inviati con una sitemap. Inoltre, tramite l'operatore site, non abbiamo trovato traccia dei suddetti link nell'indice Google... E' possibile che sia stato lo stesso Google a tentare un accesso a www[.]sito[.it]/m/ ? Su Bing (ma mi rendo conto che sia un test poco significativo) questi link non appaiono.

    Grazie e buona giornata a tutti.

    Marcello


  • User

    Beh, in attesa di risposte aggiungo qualche dettaglio in più 🙂

    In data 23 maggio, tramite lo strumento Rimozione URL di Search Console, ho richiesto la rimozione delle pagine www[.]sito[.it]/m/
    In data 24 maggio, tramite lo strumento Rimozione URL di Search Console, ho richiesto la rimozione delle pagine www[.]sito[.it]/mobile/

    Sempre da Search Console --> Indice Google --> Stato dell'indicizzazione vedo ancora le pagine "di troppo" indicizzate. L'ultimo aggiornamento risale al 25 maggio.


  • Moderatore

    Nella Sitemap sono presenti i 4.000 o tutti e 12.000? Anche se vengono reindirizzati, devi rimuoverli anche da lì.


  • User

    @MiWebDesign said:

    Nella Sitemap sono presenti i 4.000 o tutti e 12.000? Anche se vengono reindirizzati, devi rimuoverli anche da lì.

    In sitemap non sono mai stati presenti ed infatti non abbiamo ancora capito da dove si siano generati...


  • Community Manager

    Qualche link relativo al mobile:

    Inoltre ti segnalo questo fantastico test sull'indicizzazione mobile 🙂


  • User

    Giorgio, qualche link relativo alla gestione di contenuti duplicati indesiderati? 😉


  • User

    Mi rispondo da solo, magari torna utile ad altri 🙂

    https:// support.google.com/webmasters/answer/1269119?hl=it

    Nello specifico: "Non utilizzare lo strumento di blocco degli URL per correggere errori di scansione dal tuo account di Strumenti per i Webmaster. "
    Ancora: "Non occorre rimuovere manualmente gli URL perché scompariranno naturalmente con il passare del tempo."


  • Admin

    Il 301 è ok.

    Se vuoi essere ancora più sicuro fai così.

    Imposta un x-robots noindex nell'head delle pagine che risiedono sotto quelle cartelle e richiedi la rimozione da WMT/Search Console.

    Una volta fatto questo non torneranno più.

    Qui alla voce noindex trovi cosa intendo http://seoblog.giorgiotave.it/seo/indicizzazione


  • User

    Grazie Juanin, procedo.

    Non ho ancora capito come abbiano fatto entrare in indice quelle pagine /m/ e /mobile/, ma l'importante è risolvere. 🙂


  • Admin

    I motivi possono essere molteplici, ma come dici tu non curartene...sistema e fai in modo che non succeda più per altre combinazioni.


  • User

    @Juanin said:

    I motivi possono essere molteplici, ma come dici tu non curartene...sistema e fai in modo che non succeda più per altre combinazioni.

    Juanin (!!), una curiosità, e se ricorressi a questo: seoblog.giorgiotave.it/lindicizzazione-google-robots-txt/3870
    Non ne ero a conoscenza e ho visto che l'articolo è datato 2013. Ci sono state evoluzioni recenti?

    E' affidabile/consigliabile?

    Ri-grazie!


  • Admin

    Sì puoi usare anche quello.