• User Attivo

    Problemi Indicizzazione Sito con circa 1 Milione di Articoli

    Buongiorno,

    ho problemi di indicizzazione con un sito il quale è costituito da circa 1 milione di articoli a ciascuno dei quali è associata una pagina, quindi un sito di circa 1 milione di pagine.
    Nonostante la predisposizione di sitemap e tutti gli accorgimenti possibili Google ad oggi mi indicizza solo circa 6.000 pagine ma la cosa più sorprendente è che, attraverso Google Webmaster Tools, ho visto che nel tempo il numero di pagine indicizzate anzichè aumentare diminuisce..

    Da cosa potrebbe dipendere?

    E' possibile che sia sovradimensionato per il motore di ricerca?

    Grazie per la collaborazione


  • User

    Puoi indicare il sito in questione così ci si può dare uno sguardo?


  • User

    Non è il sovradimensionamento che può creare problemi. Piuttosto sono contenuti originali e non presenti in altri siti? Prova anche a indicare una delle pagine non indicizzate


  • User Attivo

    Cerco di spiegarmi meglio: ogni articolo viene importato automaticamente dal software gestionale dell'azienda con un codice univoco ed una breve descrizione (max 100 caratteri). Solo a pochissimi articoli è associata un'immagine, per tutti gli altri (la maggioranza) c'è solo un "segnaposto".
    In sostanza mi ritrovo con circa 1 milione di pagine articolo molto simili tra loro, ossia dove ciò che cambia è solo il codice e la brevissima descrizione di cui sopra...può significare qualcosa? Potrebbe essere che Google vedendole molto simili tra di loro ne ignori la maggioranza e ne indicizzi solo una minima parte? Avere delle pagine con una descrizione più approfondita potrebbe forse portare qualche cambiamento?

    Spero di essermi spiegato.


  • User

    Google non ama gli automatismi. Ci deve essere una redazione perché un sito possa avere successo nel web.
    Inoltre da dove vengono importati questi contenuti? Da quello che dici non mi sembra che un sito di questo tipo possa ottenere visibilità nei motori di ricerca.
    Se mi dici la URL ci do uno sguardo.
    Sin d'ora però ti consiglio di pubblicare articoli interessanti e originali e di almeno 300 parole lasciando stare ogni tipo di automatismo.
    Roberto


  • User Attivo

    hai centrato il motivo, thin o duplicate content, giustamente, il motore di ricerca potrebbe semplicemente ignorare tali pagine.


  • User

    Quasi ovvio che se Google vede 1 milione di articoli duplicati e importati automaticamente, per di più senza immagine, non dia grosso peso al sito.


  • User Attivo

    Si tratta di un e-commerce. Gli articoli vengono importati dal gestionale dell'azienda ma è assolutamente impensabile prevedere descrizioni aggiuntive per ogni articolo se consideriamo un database di 1 milione di articoli....non sarebbe proprio fattibile.
    C'è anche da dire che strada facendo, in questi mesi, su Google Webmaster Tools sono stati spesso indicati errori di connettività del server quindi potrebbe forse dipendere anche da questo, che Google abbia ritenuto il sito poco "stabile" e che lo abbia in qualche modo penalizzato.
    Ma il ns. obiettivo in questo momento non è tanto essere ben posizionati, questo adesso è un aspetto secondario: posso anche capire che Google non dia grosso peso al sito ma non capisco perché non debba "indicizzare" le pagine...questo mi lascia pensare più ad un problema tecnico a livello server che al grado di "gradimento" di Google nei confronti del sito....o no?


  • User Attivo

    A meno che l'hosting non sia stato disponibile per ore e in diversi giorni, non dovrebbe essere la causa principale. La discrepanza tra sitemap e pagine indicizzate è data da diversi fattori.Il caso che hai descritto sembra sia dovuto alla natura dei contenuti, le pagine con thin content vengono spesso ignorate. Si tratta di articoli simili dove la differenza è data da colori,taglie,opzioni ecc. Puoi ottimizzare e risolvere in diverse maniere, dipende dal caso specifico e dal tuo obiettivo.E' davvero necessario indicizzarle tutte? In ogni caso è una cosa che devi gestire anche perchè potrebbe avere ripercussioni sul posizionamento.


  • User Attivo

    Google Webmaster Tools ha evidenziato problemi di accesso abbastanza ripetutamente, senza considerare che la velocità del sito è abbastanza bassa, tant'é che abbiamo anche cambiato server circa 2 mesi fa... Per quanto riguarda le pagine con "thin content" purtroppo non saprei come risolvere in quanto l'azienda commercializza articoli prodotti da diversi fornitori e ciascun articolo è rappresentato unicamente da codice, nome produttore, breve descrizione...nella pagina di ciascun articolo sarebbe prevista anche una "foto" ma per poterle caricare per ciascuno diventerebbe un lavoro impoensabile...lo stiamo facendo progressivamente ma solo su un campione di articoli.


  • User Attivo

    In un ecommerce di grandi dimensioni da non sottovalutare è l'albero dei link interni, a volte la mancata indicizzazione può dipendere dalla difficoltà del motore di ricerca di arrivare alle risorse più in profondità. Altra causa è la banda a disposizione che google ti ha assegnato: non è infinita e per scansionare tutte le risorse può non essere sufficiente. Analizza in maniera accurata i log del web server, lì hai un sacco di info utili.


  • User Attivo

    In realtà Samuelenet stiamo lavorando su più fronti anche sui fattori che stai indicando tu; personalmente penso più ad un problema di configurazione del server e di banda che al "thin content"