Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > Posizionamento Nei Motori di Ricerca > Google
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 05-01-07, 12:42   #1 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 69
Nuovo Brevetto Google: Contenuti duplicati.

Salve a tutti,

Il problema dei contenuti duplicati che sta provocano notevolissimi problemi a migliaia di webmaster viene affrontato quotidianamente con centinaia di Post su WMW.

Le lamentele dei siti con centinaia di pagine nei supplementari sono infinite.

I più penalizzati sono i siti di travel e di e-commerce che utilizzano le descrizioni in xml dei prodotti.

Problemi anche per coloro che utilizzano i server windows, in molti si sono ritrovati un file indicizzato tre volte

www.dominio/hotel/ancona.htm
www.dominio/Hotel/ancona.htm
www.dominio/HOTEL/ancona.htm

Quindi problemi con i contenuti duplicati e problemi con url duplicati

A proposito dei metodi utilizzati da GG per individuare i contenuti duplicati Vi segnalo questo post:

Methods and apparatus for estimating similarity

Beware of duplicate content! A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.


Agli esperti del forum il compito di interpretare e dare consigli.
Google Penalty -30 non in linea   Rispondi citando
Vecchio 05-01-07, 14:31   #2 (permalink)
User Attivo
User Attivo
 
L'avatar di must
 
Data di registrazione: Mar 2005
Ubicazione: Vittoriosa, Malta
Messaggi: 4,309
Invia un messaggio tramite MSN a must
sui contenuti duplicati, fa bene google a segarli dal proprio indice.
mettiamoci nei panni di un utente, non in quelli di un webmaster/seo/e-commerciante/antani: se cerchiamo "keyword" e troviamo 10 risultati che di fatto sono uguali? ho un vantaggio? tenderei ad escluderlo, se il motore ha capito la mia ricerca. ho uno svantaggio? uno sicuramente si: perdo tempo.

poi mi voglio anche mettere per un attimo (non di piú, che poi qualcuno pensa male) nei panni di un motore di ricerca. a parte l'offrire un servizio che non piace all'utente (il quale ha perso tempo a guardare 10 pagine con lo stesso contenuto), spreco anche risorse.

quindi, a mio avviso, bene fa google a voler rimuovere i contenuti duplicati. se poi ci riesce o meno, beh, é il suo lavoro. gli conviene, riuscirci.

sulla duplicazione degli URL, beh, é un bug di google. ma il bug di google é colpa di windows, il quale é nato senza sapere cosa significasse "network", é cresciuto con il capo che diceva "internet? non ha futuro" ed é ora l'accrocchio che tutti conosciamo. magari tra una decina d'anni windows sará migliore. o magari non esisterá piú.
__________________
SEO Birra a Malta: 9 giugno 2012!
must ora è in linea   Rispondi citando
Vecchio 05-01-07, 14:56   #3 (permalink)
 
Data di registrazione: Dec 2006
Messaggi: 177
Il bug degli url di Google è colpa di Windows? Ne dubito fortemente.
Windows non fa differenza tra maiuscole e minuscole (non è case-sensitive), Linux sì (ciò che utilizza Google).

Se un utente linka www.dominio.ext/Pagina e www.dominio.ext/pagina è colpa sua: Google (poichè utilizza Linux e poichè non effettua controlli sulle maiuscole/minuscole) le vede come pagine differenti (con contenuti uguali).

Mi spiegheresti perchè è colpa di Windows?
__________________
Tablet
HyperText non in linea   Rispondi citando
Vecchio 05-01-07, 15:43   #4 (permalink)
Esperto
 
L'avatar di eLLeGi
 
Data di registrazione: Aug 2006
Ubicazione: Napoli
Messaggi: 784
Invia un messaggio tramite MSN a eLLeGi
Quote:
Mi spiegheresti perchè è colpa di Windows?
infatti non è colpa di windows, però metti che ti linkano in maniera sbagliata?
se google fa bene il suo dovere dovrebbe interpretare questo banale errore e accomunarli quando si è reso conto che il server è case insensitive.
__________________
seo Giuseppe Liguori
eLLeGi non in linea   Rispondi citando
Vecchio 05-01-07, 15:47   #5 (permalink)
User
 
Data di registrazione: Jul 2006
Messaggi: 161
Quote:
HyperText
Il bug degli url di Google è colpa di Windows? Ne dubito fortemente.
Io dico che è di windows, per questo motivo
http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html
Quote:
3.2.3 URI Comparison
When comparing two URIs to decide if they match or not, a client SHOULD use a case-sensitive octet-by-octet comparison of the entire URIs, with these exceptions:
- A port that is empty or not given is equivalent to the default
port for that URI-reference;
- Comparisons of host names MUST be case-insensitive;
- Comparisons of scheme names MUST be case-insensitive;
- An empty abs_path is equivalent to an abs_path of "/".
Una soluzione lato Google ci sarebbe
Negli strumenti per i wm, accanto a "dominio preferito", l'impostazione che evita che http://dominio.it e http://www.dominio.it siano considerati cloni, dare la possibilità di specificare che le URL sono case insensitive, e magari pure di segnalare i documenti predefiniti (es. default.asp, index.htm)
In assenza di ciò è meglio stare attenti che tutti i backlink relativi a ogni pagina siano scritti esattamente nello stesso modo.

Quote:
Google Penalty -30
I più penalizzati sono i siti di travel e di e-commerce che utilizzano le descrizioni in xml dei prodotti.
Intendi incorporare nel sito i catologhi prodotti dei negozi affiliati, come per esempio i cataloghi di tradedoubler?
__________________
birignao apodittico
RockyMountains non in linea   Rispondi citando
Vecchio 05-01-07, 16:02   #6 (permalink)
 
Data di registrazione: Dec 2006
Messaggi: 177
Non capisco cosa c'entri, RockyMountains.
Forse ho tradotto male... Me lo puoi spiegare tu?

Comunque poniamo che ci siano due pagine: www.dominio.ext/Pagina e www.dominio.ext/pagina.
Su Linux sono diverse, su Windows sono uguali.
Quindi è meglio avere hosting Windows, se teniamo conto solo di questo aspetto.

E' un bug del sistema di Google che dovrebbe effettuare un controllo, ma nè di Windows nè di Linux.
__________________
Tablet
HyperText non in linea   Rispondi citando
Vecchio 05-01-07, 16:28   #7 (permalink)
User Attivo
User Attivo
 
L'avatar di must
 
Data di registrazione: Mar 2005
Ubicazione: Vittoriosa, Malta
Messaggi: 4,309
Invia un messaggio tramite MSN a must
il bug é di google. la colpa é di windows.

chi viola la rfc? RockyMountains l'ha giá ben mostrato.

poi oh, se volete, possiamo anche dire che il bug sta nella rfc, tanto i manicomi sono stati chiusi...
__________________
SEO Birra a Malta: 9 giugno 2012!
must ora è in linea   Rispondi citando
Vecchio 05-01-07, 16:28   #8 (permalink)
User
 
Data di registrazione: Jul 2006
Messaggi: 161
Il protocollo URL non lo stabilisce né microsoft né google, bensì il W3C, che raccomanda che le URL siano case sensitive leggendo bene pure le eccezioni si capisce che:

http://www.dominio.it/pagina.htm
http://WWW.DOMINIO.IT/pagina.htm
http://www.dominio.it:80/pagina.htm

sono equivalenti, mentre

http://www.dominio.it/pagina.htm
http://www.dominio.it/PAGINA.HTM

sono diversi

Quindi se io client (browser o spider) chiedo a te server web 2 file diversi pagina.htm e PAGINA.HTM e tu mi restituisci sempre lo stesso, sei tu che sbagli.
Il protocollo è una convenzione, c'è poco da discutere una volta stabilito, è come una lingua, non posso inventarmi che con la parola CANE intendo un edificio, qualcuno ha definito con tale parola un animale a 4 zampe che abbia, e io così devo chiamarlo se voglio farmi intendere.
__________________
birignao apodittico
RockyMountains non in linea   Rispondi citando
Vecchio 05-01-07, 20:42   #9 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 69
Grazie per le spiegazioni tecniche.

-----------------------------

In merito al contenuto duplicato ritengo che must abbia ragione, faccio il giornalista e credo che sia giunta l'ora di riempire di contenuti seri i nostri siti...

chi vuol copiare provasse almeno a fare i riassunti

Scherzi a parte, bisogna anche dire che i contenti costano ingenti risorse economiche...
-------------------

A must (e chiaramente non solo a lui) volevo invece chiedere un parere su questa serp :

http://www.google.it/search?num=100&...rca&meta=lr%3D

Sono almeno 50 i link verso wikipedia .

Da almeno tre settimane questa è la situazione su migliaia di kw.

Vi chiedo: Moriremo tutti wikipediani ?

-------------

Il problema dei cataloghi travel per i siti affiliati, si pone per chi ha pagine in xml con contenuti provenienti dai vari Venere, Booking e così via...

Nel mondo sono migliaia i siti che utilizzano questa tecnica, adesso la stragrande maggioranza delle pagine è nei supplementari.....

------------------------
server windows

In passato non è mai successo nulla del genere.

Sarebbe interessante chiedersi sul perchè il problema si ponga proprio adesso.

Qualcuno propone soluzioni lato server windows ?
GG ha fatto anche un altro scherzetto a zio Bill, , praticamente tutti i siti realizzati con Frontpage sono finiti nei supplementari.

E nel mondo, Frontpage lo usano in milioni di utenti...

Io intravedo venti di guerra....
Google Penalty -30 non in linea   Rispondi citando
Vecchio 06-01-07, 03:57   #10 (permalink)
User Attivo
User Attivo
 
L'avatar di must
 
Data di registrazione: Mar 2005
Ubicazione: Vittoriosa, Malta
Messaggi: 4,309
Invia un messaggio tramite MSN a must
Quote:
Google Penalty -30
In merito al contenuto duplicato ritengo che must abbia ragione, faccio il giornalista e credo che sia giunta l'ora di riempire di contenuti seri i nostri siti...

chi vuol copiare provasse almeno a fare i riassunti
qualcuno diceva "copiare da uno é plagio, copiare da molti é ricerca".

Quote:
Vi chiedo: Moriremo tutti wikipediani ?
wikipedia é talmente presente in tante serp che forse sarebbe il caso che google separasse i risultati di wikipedia dal resto delle serp... ad oggi, certamente, é un problema. ma piú grosso potrebbe essere domani. infatti oggi wikipedia lo conoscono soprattutto i poweruser, ma domani che anche la casalinga andrá direttamente su wikipedia ad informarsi su X argomento, ritrovarsi wikipedia in ogni serp potrebbe essere un difetto. per google.

Quote:
Il problema dei cataloghi travel per i siti affiliati, si pone per chi ha pagine in xml con contenuti provenienti dai vari Venere, Booking e così via...

Nel mondo sono migliaia i siti che utilizzano questa tecnica, adesso la stragrande maggioranza delle pagine è nei supplementari.....
e non lo trovi giusto? io si.

Quote:
Qualcuno propone soluzioni lato server windows ?
"eliminare i server windows" é una risposta valida?

Quote:
GG ha fatto anche un altro scherzetto a zio Bill, , praticamente tutti i siti realizzati con Frontpage sono finiti nei supplementari.
certo che se li penalizzava giá dallo scorso millennio io avrei apprezzato di piú...

Quote:
E nel mondo, Frontpage lo usano in milioni di utenti...
e la prima pagina di una serp ha posto solo per 10 risultati :41:
__________________
SEO Birra a Malta: 9 giugno 2012!
must ora è in linea   Rispondi citando
Vecchio 06-01-07, 12:00   #11 (permalink)
User
 
L'avatar di Bondo
 
Data di registrazione: May 2006
Messaggi: 58
E integrare questo ?

http://www.giuseppeliguori.it/index....to-casuale.htm
Bondo non in linea   Rispondi citando
Rispondi
Tags: , , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 13:24.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.