• User Attivo

    [ Duplicate Content Checker] Seo software per ricerca duplicati INTERNI

    Ciao a tutti!

    ero alle prese con un problema di contenuti doppi o MOLTO SIMILI all'interno di un sito abbastanza grande (5.000 pagine)

    Si tratta di un catalogo dove tanti prodotti sono stati messi in più sezioni e categorie, tutti con la stessa descrizione MA con urls, titles, meta e menu della pagina diversi...

    Quindi non si tratta di duplicati perfetti (più facili da beccare con qualche spider) MA di PAGINE SIMILI.

    Mi piacerebbe un soft che confrontasse tutte le pag interne di un sito e mi dicesse quante sono simili tra loro, indicando anche la % di somiglianza (e che analizzi solo il testo visibile, chiaramente, non i tags html).

    Solo così potrei velocemente identificare i duplicati parziali e sistemarli, se no è un lavoro parecchio impegnativo da fare a mano...

    Esiste un software o tool seo che faccia questo lavoro per me?
    Oppure è una specie di "sogno proibito" ? 🙂

    Vi prego, aiutatemi, ieri ho perso 3 ore a cercare qualcosa ed ho trovato solo 1 soft che "dice" di fare questo, ma niente demo... e non voglio buttare via $400 solo per provare...

    Se conoscete qualcosa di utile ditemelo, grazie!!<br /><b>Tipo</b>: <br /> Duplicate Content Checker<br />


  • User Attivo

    Nessuno ha una risposta???

    Aiaiaiaiaia... sto cercando e chiedendo in giro in forums seo internazionali ma niente, per il momento...

    Quindi ho deciso di sviluppare un piccolo tool per conto mio! 🙂


  • User Attivo

    Ricerco anche io qualcosa del genere 🙂


  • User Attivo

    Ciao Ale, e non hai mai trovato qualcosa di simile?

    Io sto scrivendo anche in seo forum internazionali (digitalpoint e altri) ma nessuna risposta fin'ora....

    Quindi ieri il nostro programmatore in house ha completato la prima beta del software, funziona, usa uno dei più famosi algoritmi di comparazione testi (levehnstain o tanimoto, non ricordo alla fine quale dei due ha usato) e raggruppa le pagine simili, con tanto di % di similitudine (in base al primo url simile rilevato).

    SOLO che ha grosso problema.... E' LENTOOOOOO...
    finchè l'ho provato su 10 url, perfetto: in pochi minuti li ha scaricati e comparati.

    Anche con 100 urls non male, 7-8 minuti di attesa.

    Ma, quando gli ho incollato 1.000 urls..... mi è andato in timeout e poi in crash grazie al timeout... sigh 😞

    Oggi il nostro programmatore spingerà di più sul multi thread, vediamo se riesce ad accelelare le cose!
    Io ci spero tanto... devo analizzare un sito con 5.000 urls, non è uno scherzetto...


  • User Attivo

    No non sono riuscito ha trovare nulla, prima utilizzato un servizio di SeoMoz che è ottimo fà esattamente quello che dici tu 😉


  • User Attivo

    aaaaa, allora seomoz lo fa? o lo faceva?
    ma anche con grandi numeri?
    ho trovato un servizio online dove puoi incollare un tot di urls per la comparazione... ma ha dei limiti, ovviamente.
    Poi non so che procedura applichino per fare la comparazione, per esempio noi abbiamo sviluppato un piccolo algoritmo che estrae solo il testo visibile, senza prendere in considerazione la struttura html.

    Inoltre io voglio vedere nel report solo gli urls duplicati o simili, quelli "univoci" non mi interessano, stanno bene così.

    Hai qualche idea per migliorare o aggiungere qualcosa?
    accetto ispirazione 🙂

    se la cosa funziona, volevo farne una v2 che si interfacci a gtranslate per "sgamare" le traduzioni automatiche buttate là solo per fare pagine in più. Ma questo richiederebbe ancora più tempo quindi un codice ancora più veloce e scattante... step by step, vediamo.

    Se vuoi ti posto uno screen del report finale (in html)


  • User

    Ciao ACweb :ciauz: riprendo in mano questo thread : io ho un problema analogo al tuo, devo controllare migliaia di pagine web dello stesso dominio che sono duplicate o molto simili , per caso hai trovato la soluzione ? hai creato lo script e funziona?

    Grazie a chi altri avessero la soluzione..penso sia interessante la questgione anche a molte persone: i cms , blog ecc genearno molti contenuti duplicati...

    :ciauz: