• User Attivo

    Verificare quante pagine ha un sito per confrontarle con il numero di pag indicizzate

    Ciao a tutti. 🙂
    Mi occorrerebbe sapere quali sono le pagine effettive di cui è composto un sito: quelle indicizzate su Google sono decisamente troppe e vorrei capire se la mia valutazione è corretta in modo da impostare eventualmente un rel canonical dove necessario.
    Sto provando con xenu , volevo fargli scansionare solo gli url della sitemap ma dev'essere stata inibita la possibilità di seguire la sitemap, perchè non la legge.
    Come faccio per vedere solo le pagine effettive di cui è composto il sito, quali filtri devo impostare su xenu (non potendo seguire gli url della sitemap)? Xenu, coem sapete, mi mostra di tutto: immagini, link in uscita ecc ecc.

    Grazie a tutti, buona serata :).


  • User Attivo

    @Misia said:

    [...]

    Ho appena notato che accanto a ogni url c'è la colonna type: e tra i tipi di url c'è "text/html". Devo considerare pagine effettiva del sito solo quelle text/html?
    Grazie ancora.


  • Moderatore

    Ciao Misia.

    Xenu può produrre una Sitemap, ma non le legge.
    Una cosa che puoi fare per eseguire comunque un test è aprire la tua Sitemap con un editor testuale e fare un "trova e sostituisci" delle stringhe "<loc>" e "</loc>" inserendo al loro posto degli spazi. In questa maniera nella tua Sitemap si creeranno righe composte solamente da un URL (oltre a righe inutili ai fini dell'analisi). A questo punto vai su Xenu, "File" -> "Check URL list" e carichi il tuo file modificato: il programma legge come URL sbagliati tutte le righe nelle quali è rimasto dell'XML ma controlla tutti gli URL della Sitemap. Diciamo che non è particolarmente efficace ed elegante come soluzione.

    Non conosco bene le tue esigenze, ma solitamente non è testando la Sitemap che si trovano URL duplicati; al più si trovano errori nella Sitemap. Quello che puoi fare, invece, è far partire una scansione di Xenu dalla home page. Mano a mano che la scansione procede, tieni il report di Xenu ordinato per URL e lo osservi: in questa maniera capisci subito se il crawler trova serie di URL sulle quali inserire il canonical. Al termine dell'analisi, inoltre, puoi ordinare il report per title e vedere se vi sono ulteriori duplicazioni.

    Per inibire la verifica dei link esterni al sito, puoi togleire la spunta alla voce "Check external links" sotto al campo di inserimento dell'URL.
    Riguardo la tua domanda sulla voce "text/html", invece, la mia risposta è: non hai immagini o pdf sul sito che vorresti fossero indicizate? La duplicazione, poi, non c'è solo per i file HTML, ma possono venire aggiunti parametri impropri anche alle immagini o ai Javascript.

    Provo a darti anche tre consigli, sperando che ti possano essere utili:

    1. Per la duplicazione interna guarda anche la scheda "Miglioramenti HTML" degli Strumenti per Webmaster di Google.
    2. Il canonical fa sempre bene, se implementato correttamente. Non puoi mai sapere come il tuo sito viene linkato dall'esterno.
    3. Xenu è un ottimo programma, ma non viene sviluppato da molto né vi sono prospettive di sviluppo imminenti. Se ti interessano tool di questo tipo di consiglio di provare Screaming Frog (a pagamento se vuoi analizzare più di 500 URL) e l'italiano Visual SEO Studio (ancora in beta e quindi gratuito).

    Spero di esserti stato d'aiuto e di essere stato abbastanza chiaro, in caso contrario resto a disposizione.

    Buon lavoro ed a presto,
    Marco.


  • User

    Quelle indicizzate da Google ti basta site: nome sito.


  • User

    Google non legge solo la sitemaps ma scansiona anche il sito.


  • User Attivo

    @LaBussola said:

    Ciao Misia.

    Spero di esserti stato d'aiuto e di essere stato abbastanza chiaro, in caso contrario resto a disposizione.

    Buon lavoro ed a presto,
    Marco.

    Sei stato chiarissimo, certamente queste dritte mi torneranno utili.
    Ma io non son stata altrettando brava a spiegare la mia esigenza. 🙂
    Le pagine indicizzate da Google del sito che gestisco sono 9500 e so per certo che non ne ha così tante.
    Per individuare i contenuti duplicati utilizzerò le tecniche che mi hai inicato, tuttavia per capire la dimensione del problema vorrei capire quante sono le pagine effettive del sito (anche perchè è una info che mi ha chiesto il cliente e devo fornirgliela).
    Si si , lo so che non si individuano attraverso la sitemap i contenuti duplicati, e che pdf e immagini sono importantii ...
    E' solo una info di cui ho bisogno insomma :). Va bene contare le pagine text/html, oppure è meglio il metodo che mi hai suggerito tu? (quello del <loc>)?
    thanx a lot.
    Buon lavoro a te!
    A presto


  • User Attivo

    @cworld said:

    Quelle indicizzate da Google ti basta site: nome sito.

    Cworl,
    grazie lo stesso per la risposta :), ma ho bisogno di sapere il numero di pagine effettive del sito, non il numero di pagine indicizzate da google. 🙂
    thanx


  • Moderatore

    Ciao Misia.

    Se il tuo cliente vuole sapere quante pagine ha il sito escludendo immagini, pdf e via dicendo allora puoi contare solamente le pagine etichettate con "text/html".

    Ti ricordo che il numero può essere impreciso per 2 ragioni:

    1. Hai pagine sul sito che non sono raggiungibili navigando. In questo caso Xenu, partendo dalla prima pagina, non riesce ad arrivare al contenuto. Il risultato è che al tuo totale mancheranno pagine.
    2. Hai problemi di duplicazione interna. Esempio banale: la tua home è raggiungibile sia con l'URL sito.com che con l'URL sito.com/index.html . In questa situazione Xenu conta due URL differenti ma probabilmente per il tuo cliente si tratta della stessa pagina.

    Il metodo che ti ho suggerito io con il <loc> è utile per verificare la correttezza della Sitemap, non necessariamente per contare di quante pagine è composto il sito.

    Resto a disposizione per ulteriori chiarimenti.

    Buon lavoro,
    Marco.


  • User Attivo

    @LaBussola said:

    ...

    Ah, interessante, grazie mille.
    Scusa se approfondisco ancora:
    quando dici che il metodo con il <loc> è utile per verificare la correttezza della Sitemap, cosa intendi esattamente? Corretta da che punto di vista? Nel senso di completezza delle pagine inserite (tutte quelle del sito)?
    Grazie mille.


  • Moderatore

    Ciao Misia.

    Con il "metodo <loc>" verifichi tutti e solo gli URL della Sitemap. Così facendo non puoi sapere se hai inserito tutte le pagine del sito, tuttavia puoi sapere se gli URL che hai inserito restituiscono tutti un 200 e non un 301 o un 404.
    Ordinando per title i vari risultati, inoltre, puoi vedere velocemente se hai title duplicati in Sitemap.
    Ancora: dalla colonna "in links" puoi vedere se in Sitemap hai pagine orfane, ossia pagine che non ricevono link in ingresso dal resto del sito ed anche questo, tipicamente, è un errore.

    Se hai ancora bisogno sono a disposizione.

    Buon lavoro ed a presto,
    Marco.


  • User Attivo

    @LaBussola said:

    [...]

    Ancora grazie. Se dovessi avere bisogno mi rifarò viva, a buon rendere naturalmente.

    Grazie.