• User Attivo

    Google Webmaster Tool: problema crawling delle news

    Ciao a tutti, ho un problema.

    Da circa 6 mesi l'indicizzazione di un sito internet iscritto come testata giornalistica in tribunale e come fonte news su Google News, fa fatica a posizionare i propri articoli nel circuito News precedentemente indicato.

    Andando nel Google webmaster tools, sezione diagnostics, livello "News Crawl" visualizzo alcuni errori ti tipologia News Specific errors, uno su tutti "Article disproportionately short".

    Gli articoli della testata non sono sempre corti e comunque risultano essere nella norma ma soprattutto simili nel numero delle parole a numerose altre fonti che si possono trovare online.

    Come è possibile che google reputi le news di questo sito troppo corte?
    Avete idee su come risolvere il problema?

    grazie a tutti


  • User Newbie

    Ciao Stealth.
    Il bot di G.N. scansiona la pagina e cerca di trovare l'articolo in mezzo al "mare di codice" presente.

    Quel messaggio di errore sta a significare che nel totale del testo della pagina (esclusi tag e immagini), i Kb riservati all'articolo (o meglio il numero di caratteri) sono troppo pochi.

    Tu dirai, che importa al googlebot se nel resto della pagina inserisco 20 link a notizie correlate e altri 20 alle notizie dell'ultim'ora: che prenda l'articolo ed escluda il resto.

    Purtroppo, il bot funziona quasi con gli stessi principi del mediapartners di adsense, quindi non è perfetto e si confonde alla grande quando deve estrarre un qualcosa da una maggiore quantità di dati del previsto.

    Parlando in modo pratico, se hai una pagina con html head body ARTICOLO /body /html, basta un articolo lungo almeno 300 caratteri e l'indicizzazione avverrà senza problemi.

    Aumentando il codice "estraneo" alla notizia nella pagina, devi aumentare in proporzione la lunghezza dell'articolo: in media articoli di almeno 1000 battute vengono indicizzati senza problemi. Senza esagerare perché articoli molto lunghi soffrono lo stesso del problema dell'indicizzazione ma per diversi motivi.

    Per ovviare al problema, se hai la possibilità di intervenire sul codice del CMS, potresti calcolare la lunghezza dell'articolo e presentare pagine con meno informazioni di contorno se questi è minore di 500 battute.

    Non conoscendo il sito in questione non posso scendere ulterormente nei dettagli.

    ciao
    Cristiano


  • User Attivo

    Ok, peccato però che io abbia dato in pasto al bot anche una mappa formata da un feed xml con title, data, ora e testo...


  • User Newbie

    Il sitemap per Google News non comprende anche il testo dell'articolo, ma solo url,data e, opzionalmente, la categoria.

    Googlebot passerà comunque nella pagina per recuperare il titolo, la breve descrizione e l'eventuale immagine. Nello stesso tempo scansionerà l'intera pagina e, se troverà i problemi (per lui) che ti ho presentato sopra, non indicizzerà l'articolo.

    ciao
    Cristiano


  • User Attivo

    ok ti ringrazio