• Super User

    Google Bugs [Filtro antiduplicazione & Url case sensitive]

    Come tutti sapete google si diverte ogni tanto ad inserire nuovi algoritmi per fingere di essere sempre avanti. Ma andare avanti a volte comporta qualche svista da parte dei programmatori ed è così che google è apparentemente diventato case sensitive.

    Ma passiamo ai fatti: stavo perfezionando il mio favoloso spam engine quando ho scoperto che per una keyword ho 2 risultati identici e consecutivi.
    Ecco lo screenshot:

    image

    I due url che potrete trovare [url=http://www.google.it/search?q=villaggio+calafiorita&start=20]qui (se non li vedete magari li trovate qualche pagina prima o dopo) sono:

    http://www.fattori-arcani-gt.info/villaggio-calafiorita.html
    http://www.fattori-arcani-gt.info/VILLAGGIO-CALAFIORITA.html

    Sono identici a parte il fatto che uno dei due è maiuscolo e l'altro è minuscolo. Inoltre anche le 2 pagine sono identiche.

    Siamo di fronte ad un errore grave o ad un errore circoscritto ad un caso particolare? Io penso che siano 2 errori in uno: uno è grave, mentre l'altro è un caso particolare che nasce dall'errore grave.

    L'errore grave è il case sensitive, mentre a causa di questo errore grave è stato apparentemente violato il filtro antiduplicazione (che probabilmente non è case sensitive e quindi considerando i 2 url identici non si aziona e permette che entrambi siano presenti in serp).

    A questo punto non aggiungo altro e aspetto le vostre considerazioni in merito.

    P.S. E' il caso di dirlo: i fattori arcani colpiscono ancora! 😄


  • Super User

    Questo caso era già stato affrontato in un altro topic...
    è un bag circoscritto, in quanto non appena il filtro anti-duplicazione si accorge che le due pagine sono identiche, ne farà sparire una dalle serp.

    L'unica cosa è che non ricordo dov'è il topic...
    :ciauz:


  • Super User

    Ciao kerouac3001 🙂
    Non è un errore di Google. Come ben sai, su server Unix, i nomi delle pagine sono case sensitive, quindi ciao.html e CIAO.HTML sono in effetti due pagine diverse.

    Ciò che hai visto è un fenomeno frequente, che anticipa l'entrata in azione del filtro antiduplicazione di Google, in caso le due pagine siano uguali e solo diversificate dal filename.

    Era successo nel recente passato ad un altro utente e se ne era discusso in un thread apposito. In effetti dopo qualche giorno scattò il filtro antiduplicazione.

    Ora cerco il topic e metto qui l'url.

    Cordialmente,
    Stuart


  • Super User

  • Super User

    curioso sarebbe sapere quando sono entrati nelle serp.

    la mia idea è che un sito da ~11.000 pagine indicizzate alcune vengano prese e POI valutate ovvero date in pasto agli algoritmi che poi farebbero scattare il famoso filtro antidupplicazione.

    Se il tuo sito è riuscito ad entrare nella "fiducia" di gg, le nuove pagine vengono prelevate e pubblicate per poi essere valutate a differenza invece di un sito novello per il quale l'indicizzazione è più lenta in quanto le pagine prima vengono date in pasto agli algoritmi e poi, se i risultati sono positivi, inserite nelle serp.

    Imho una delle due pagine non durerà ancora tanto.
    Se hai una serie di pagine differenti solo per il minuscolo/masiuscolo, nel momento in cui gg si accorge che questo non è un caso sporadico ma abbastanza frequente dovresti uscire dalle sue grazie ed essere valutato per ogni nuova pagina pubblicata (più o meno come un sito novello).

    la fiducia di gg può essere un "concetto" che usa risparmiare risorse e concentrarle verso risorse (siti) che ancora non sa bene come si comportano.

    controllare in tempo reale 1000 siti è diverso da controllare in tempo reale 100 siti e gli altri 900 soltanto una volta al mese.


  • Community Manager

    Attenzione ad Adsense[url=http://www.giorgiotave.it/forum/viewtopic.php?t=10563] contro le regole.

    Tornando al filtro antiduplicazione, posso dire che questo esperimento è interessante.

    Però non mi sentirei di chiamare bug (dechigno) una cosa che non conosciamo. Non è un bug è proprio il suo corretto funzionamento 🙂

    Se io fossi un motore di ricerca di cercare due pagine uguali non mi fregherebbe tanto, ma quando mi trovo con molte pagine uguali allora applicherei il mio filtro (parere personale). Specialmente in questo periodo di "crisi" - leggi mancanza dichiarata di server.


  • Super User

    Infatti non è un bug.
    Due pagine non possono essere giudicate uguali se prima non vengono indicizzate.
    Il passaggio è semplice: prima vengono raggruppate per similarità, e poi -eventualmente- filtrate come duplicate.

    Capita frequentemente.

    Cordialmente,
    Stuart


  • Super User

    In effetti l'immagine accanto all'adsense viene prelevata da yahoo images in base alla query cercata dall'utente 😄 cmq non preoccuparti non mi interessa del ban e neanche se è immorale..non lo faccio a scopi di lucro, ma solo per ricerca, altrimenti col cavolo che vi consentivo l'accesso per vedere l'adsense (dai fattori arcani risulta invisibile 😉 )

    Tornando in tema, Stuart hai dato la stessa risposta che mi ha dato uMor, però a me sembra strano che il filtro aniduplicazioni venga attivato così in ritardo..inoltre considera che se apli la query aggiungendo altri termini tipo: villaggio calafiorita fattori arcani sommo sacerdote

    il risultato viene filtrato.

    non mi è molto chiaro.


  • Super User

    Non viene filtrato 🙂

    http://www.google.it/search?q=villaggio+calafiorita+fattori+arcani+sommo+sacerdote&hl=it&lr=&safe=off&filter=0

    Non te lo fornisce in prima battuta, ma se "ripeti la ricerca includendo i risultati omessi" eccolo che spunta.

    Fosse 'filtrato' non lo vedresti neanche mettendoti a bestemmiare in sanscrito....

    Cordialmente,
    Stuart


  • Super User

    @kerouac3001 said:

    In effetti l'immagine accanto all'adsense viene prelevata da yahoo images in base alla query cercata dall'utente 😄 cmq non preoccuparti non mi interessa del ban e neanche se è immorale..non lo faccio a scopi di lucro, ma solo per ricerca, altrimenti col cavolo che vi consentivo l'accesso per vedere l'adsense (dai fattori arcani risulta invisibile 😉 )

    Mi auto quoto un attimo e vado fuori tema (magari approfondiamo il discorso altrove)

    In realtà non è nemmeno immorale ciò che ho fatto, nè tanto meno nuoce il cliente adwords, però è sicuramente "illegale" dal punto di vista di google che ha tutti i diritti per bannarmi. Spiego perchè non è immorale: la pagina viene ottimizzata per la query di ingresso e quindi offre pubblicità che google ritiene in tema con tale query..quindi il cliente finale riceve un click di un utente pitrenzalmente interessato..è un pò come gli annunci a destra delle serp.

    Basta, sono andato troppo ot..se qualcuno è interessato all'argomento spostiamo il discorso altrove 🙂


  • Super User

    @Stuart said:

    Non viene filtrato 🙂

    http://www.google.it/search?q=villaggio+calafiorita+fattori+arcani+sommo+sacerdote&hl=it&lr=&safe=off&filter=0

    Non te lo fornisce in prima battuta, ma se "ripeti la ricerca includendo i risultati omessi" eccolo che spunta.

    Fosse 'filtrato' non lo vedresti neanche mettendoti a bestemmiare in sanscrito....

    Cordialmente,
    Stuart

    Intendevo quello per filtrato, è comunque una forma di filtro che considera alcuni risultati più idonei di altri e per fare questo deve fare un paragone..a questo punto è ovvio che quel risultato sia stato ritenuto meno idoneo perchè ha gli stessi contenuti di un altro 🙂


  • Community Manager

    [url=http://www.google.it/search?hl=it&c2coff=1&q=site%3Afattori-arcani-gt.info+villaggio+calafiorita+fattori+arcani+sommo+sacerdote+&btnG=Cerca&meta=]Ecco qui

    Poi se segui il link "ripetere la ricerca includendo i risultati omessi" lo vedi.

    Te lo filtra anche se cerchi solo Sommo Sacerdote. Ci sono situazioni in cui lo filtra ed altre no....poi magari si aggiorna.


  • Super User

    Per il momento viene semplicemente ritenuto "molto similare"

    Cordialmente,
    Stuart


  • Super User

    @Stuart said:

    Per il momento viene semplicemente ritenuto "molto similare"

    Cordialmente,
    Stuart

    in sostanza vuoi dire che si tratta di due filtri completamente diversi, uno si occupa di decidere se una pagina è da scartare in una determinata query, l'altro si occupa di scartare una pagina completamente e renderla inaccessibile in ogni caso.

    Comunque è interessante pure la risposta di tymba..se avesse ragione un caso del genere non andrebbe sfruttato


  • Community Manager

    @Stuart said:

    Per il momento viene semplicemente ritenuto "molto similare"

    Si quello intendevo con filtrato.

    Ora kerouac3001 potresti creare 10 pagine con contenuto identico e url simili, poi vediamo che succede nel tempo 😄


  • Super User

    @Giorgiotave said:

    Si quello intendevo con filtrato.

    Ora kerouac3001 potresti creare 10 pagine con contenuto identico e url simili, poi vediamo che succede nel tempo 😄

    sinceramente avrei paura a farlo, a quanto pare è più pericoloso dei contenutiinvisibili o del redirect perchè ti sgama sicuro 😄

    comunque ogni tanto do un occhio a questa query e vediamo quando sparisce la pagina duplicata 🙂


  • Super User

    @kerouac3001 said:

    a quanto pare è più pericoloso dei contenutiinvisibili o del redirect perchè ti sgama sicuro 😄
    Ma le due pericolosità non sono paragonabili 😉 ....contenuti invisibili e redirect comportano BAN totale del sito, il contenuto duplicato solo il filtering-out della pagina considerata clone.

    La quale non viene cancellata dall'indice. Viene inserita in un cluster insieme ad altre pagine duplicate e/o molto simili, e alle pagine considerate buone. A seguito di una ricerca viene proposta all'utente la pagina considerata più rilevante, a livello di pagerank, aggiornamento, posizione nella gerarchia dei link interni al sito.

    E in questo recinto di pagine duplicate verrebbero messe anche pagine di ALTRI siti uguali a villa-calafiorita.html .
    Per questo motivo il furto dei contenuti è una pratica potenzialmente dannosa per il sito che ne è vittima.

    Cordialmente,
    Stuart


  • User

    @kerouac3001 said:

    http://www.fattori-arcani-gt.info/villaggio-calafiorita.html
    http://www.fattori-arcani-gt.info/VILLAGGIO-CALAFIORITA.html

    Sono identici a parte il fatto che uno dei due è maiuscolo e l'altro è minuscolo. Inoltre anche le 2 pagine sono identiche.

    Guardando il contenuto delle due pagine, si nota che non sono esattamente identiche.
    A parte la differenza tra maiuscolo e minuscolo (che comunque potrebbe essere considerata), la due pagine hanno anche un div invisibile, con vari
    link, diversi tra le due pagine e con testo tipo "florence city tourist guide", "occhiali gucci" "backup software" eccetera...
    Immagino che questo testo (per un bot indistinguibile da quello visibile) contribuisca a rendere le due pagine "sufficientemente" diverse.