Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > Strumenti e Tools per SEO
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 27-01-12, 13:43   #1 (permalink)
User
 
L'avatar di ACweb
 
Data di registrazione: Jan 2006
Ubicazione: Trieste
Messaggi: 98
[ Duplicate Content Checker] Seo software per ricerca duplicati INTERNI

Ciao a tutti!

ero alle prese con un problema di contenuti doppi o MOLTO SIMILI all'interno di un sito abbastanza grande (5.000 pagine)

Si tratta di un catalogo dove tanti prodotti sono stati messi in più sezioni e categorie, tutti con la stessa descrizione MA con urls, titles, meta e menu della pagina diversi...

Quindi non si tratta di duplicati perfetti (più facili da beccare con qualche spider) MA di PAGINE SIMILI.

Mi piacerebbe un soft che confrontasse tutte le pag interne di un sito e mi dicesse quante sono simili tra loro, indicando anche la % di somiglianza (e che analizzi solo il testo visibile, chiaramente, non i tags html).

Solo così potrei velocemente identificare i duplicati parziali e sistemarli, se no è un lavoro parecchio impegnativo da fare a mano...

Esiste un software o tool seo che faccia questo lavoro per me?
Oppure è una specie di "sogno proibito" ?

Vi prego, aiutatemi, ieri ho perso 3 ore a cercare qualcosa ed ho trovato solo 1 soft che "dice" di fare questo, ma niente demo... e non voglio buttare via $400 solo per provare...

Se conoscete qualcosa di utile ditemelo, grazie!!<br /><b>Tipo</b>: <br /> Duplicate Content Checker<br />
__________________
...mi trovi anche su G+ andando su Alan Curtis
ACweb non in linea   Rispondi citando
Vecchio 31-01-12, 10:27   #2 (permalink)
User
 
L'avatar di ACweb
 
Data di registrazione: Jan 2006
Ubicazione: Trieste
Messaggi: 98
Nessuno ha una risposta???

Aiaiaiaiaia... sto cercando e chiedendo in giro in forums seo internazionali ma niente, per il momento...

Quindi ho deciso di sviluppare un piccolo tool per conto mio!
__________________
...mi trovi anche su G+ andando su Alan Curtis
ACweb non in linea   Rispondi citando
Vecchio 01-02-12, 01:47   #3 (permalink)
 
Data di registrazione: Aug 2006
Messaggi: 704
Ricerco anche io qualcosa del genere
__________________
Giochi flash
Ale90 ora è in linea   Rispondi citando
Vecchio 01-02-12, 09:03   #4 (permalink)
User
 
L'avatar di ACweb
 
Data di registrazione: Jan 2006
Ubicazione: Trieste
Messaggi: 98
Ciao Ale, e non hai mai trovato qualcosa di simile?

Io sto scrivendo anche in seo forum internazionali (digitalpoint e altri) ma nessuna risposta fin'ora....

Quindi ieri il nostro programmatore in house ha completato la prima beta del software, funziona, usa uno dei più famosi algoritmi di comparazione testi (levehnstain o tanimoto, non ricordo alla fine quale dei due ha usato) e raggruppa le pagine simili, con tanto di % di similitudine (in base al primo url simile rilevato).

SOLO che ha grosso problema.... E' LENTOOOOOO...
finchè l'ho provato su 10 url, perfetto: in pochi minuti li ha scaricati e comparati.

Anche con 100 urls non male, 7-8 minuti di attesa.

Ma, quando gli ho incollato 1.000 urls..... mi è andato in timeout e poi in crash grazie al timeout... sigh

Oggi il nostro programmatore spingerà di più sul multi thread, vediamo se riesce ad accelelare le cose!
Io ci spero tanto... devo analizzare un sito con 5.000 urls, non è uno scherzetto...
__________________
...mi trovi anche su G+ andando su Alan Curtis
ACweb non in linea   Rispondi citando
Vecchio 01-02-12, 11:57   #5 (permalink)
 
Data di registrazione: Aug 2006
Messaggi: 704
No non sono riuscito ha trovare nulla, prima utilizzato un servizio di SeoMoz che è ottimo fà esattamente quello che dici tu
__________________
Giochi flash
Ale90 ora è in linea   Rispondi citando
Vecchio 01-02-12, 13:22   #6 (permalink)
User
 
L'avatar di ACweb
 
Data di registrazione: Jan 2006
Ubicazione: Trieste
Messaggi: 98
aaaaa, allora seomoz lo fa? o lo faceva?
ma anche con grandi numeri?
ho trovato un servizio online dove puoi incollare un tot di urls per la comparazione... ma ha dei limiti, ovviamente.
Poi non so che procedura applichino per fare la comparazione, per esempio noi abbiamo sviluppato un piccolo algoritmo che estrae solo il testo visibile, senza prendere in considerazione la struttura html.

Inoltre io voglio vedere nel report solo gli urls duplicati o simili, quelli "univoci" non mi interessano, stanno bene così.

Hai qualche idea per migliorare o aggiungere qualcosa?
accetto ispirazione

se la cosa funziona, volevo farne una v2 che si interfacci a gtranslate per "sgamare" le traduzioni automatiche buttate là solo per fare pagine in più. Ma questo richiederebbe ancora più tempo quindi un codice ancora più veloce e scattante... step by step, vediamo.

Se vuoi ti posto uno screen del report finale (in html)
__________________
...mi trovi anche su G+ andando su Alan Curtis
ACweb non in linea   Rispondi citando
Rispondi
Tags: ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 12:50.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.