• User

    Google News, errori di scansione ed esperimenti compiuti

    Ciao a tutti,
    scrivo per chiedervi un parere circa il fatto che nell'ultimo periodo (metà febbraio) ho verificato che una trentina di articoli a settimana viene stroncato da Google News restituendo un generico errore che aiuta ben poco: "Articolo troppo corto rispetto al testo della pagina".

    Inizialmente** ho pensato** fosse un problema di template, quindi troppi contenuti nei menù del sito che confondevano la scansione e non permettevano di comprendere bene quale fosse il testo e quali i menù. Ma non si spiegherebbe come mai altri articoli, anche più brevi (quindi con un rapporto inferiore tra "testo articolo" e "menù") fossero indicizzati correttamente e altri no.
    Quindi non può essere colpa del template o dei moduli che compongono il sito realizzato in Joomla.

    Poi, leggendo la "guida" di Google News (se quelle quattro righe possono essere chiamate così) ho pensato fosse colpa del plugin che permette i commenti sotto ogni articolo e l'ho disabilitato per qualche giorno. Niente. Anche i nuovi articoli usciti senza plugin di commenti, davano il medesimo errore.

    L'esperimento
    Come tutti sappiamo è possibile verificare se la pagina è uscita su Google News facendo il site:torinofree.it in Google News, così ho provato a monitorare la situazione.
    La prova è stata pubblicare un articolo e, se questo entro 15 minuti non usciva su Google News, rimuoverlo e pubblicarne uno "nuovo" ma dal contenuto html identico (copia-incolla di quello prima).
    L'esito è stato che ripubblicando il medesimo testo, veniva indicizzato correttamente e, a distanza di qualche giorno, generato l'errore sul primo articolo "Articolo troppo corto rispetto al testo della pagina". Quindi l'articolo era stato scansionato e "scartato" sebbene identico a quello poi accettato.

    Un esempio
    Un sesempio di questi articoli "capricciosi" è questo. Quello che si vede è il frutto della seconda pubblicazione di un testo identico alla prima. La prima volta che questo testo è stato pubblicato non è stato indicizzato, la seconda, si.
    torinofree.it/20130311652/breaking_news/rivalta-di-torino-i-consiglieri-comunali-tornano-a-scuola.html

    Perchè 15 minuti di attesa?
    Occorre precisare che, sul sito in questione, Google News intercetta un articolo nuovo entro un massimo di 5 minuti mentre su Google Ricerche impiega meno di 1 minuto. (anche qui ci sarebbe da farsi qualche domanda... ma non è questo il punto). Ho atteso 15 minuti per essere matematicamente certo che Google avesse scansionato il sito e controllato le eventuali novità.

    La sensazione è
    che Google News non gradisca più di X (quanti?!) articoli al giorno da un determinato sito, oppure, se non al giorno, a periodo di tempo tipo "nelle ultime 24 ore". Quindi, tenti di "scartare" in un modo più o meno casuale, un articolo ogni tot se vede che quel sito ne pubblica tanti. Per "tanti" parliamo di una decina al giorno, che dubito cambi la vita a Google e quindi mi lascia qualche dubbio su questa teoria.

    Avete altre idee meno fantasiose oppure ci sono precedenti a voi noti?

    Grazie mille!

    Un saluto,
    Marco


  • Community Manager

    Ciao Galamarco,
    grazie per questa tua case history 🙂

    Hai provato a vedere per i grandi giornali quanti articoli nuovi indicizza...così scopriamo subito se è questo il problema.. 🙂