• User

    Strana case history link

    Salve a tutti.
    Da qualche tempo, su un sito si verifica una cosa strana, o quantomeno strana per me.

    Su questo sito c'è un'intera sezione riguardante i prodotti che è raggiungibile solo mediante dei link creati al volo con dei javascript.
    Per spiegarmi meglio, questo significa che ogni prodotto è identificato da 3 componenti:

    • tipo
    • colore
    • nome

    L'utente associa tipo-colore-nome per poi visualizzare il prodotto. Un codice javascript gestisce questa scelta e fa una location . href verso una url con parametri che permettono poi di visualizzare il prodotto con le caratteristiche scelte.

    Il javascript che costruisce la url valorizzando i parametri e fa la location . href si trova in un file . js esterno.

    Questo funzionamento non è modificabile perchè fa parte della struttura del sito scelta dal cliente.

    Le url di atterraggio dove viene visualizzato il prodotto non sono quindi disponibili da nessuna parte del sito; ho lanciato Xenu per spiderare l'intero sito e nessuna di queste url è 'navigabile' senza un'azione umana di scelta colore, tipo e nome mediante il javascript.

    Dopo questa dovuta premessa ecco la cosa per me strana:
    facendo site:www . nomedominio . it trovo indicizzate le url che crea il javascript al volo :mmm:

    Vorrei chiedervi se mi sfugge qualcosa e se avete case history a riguardo poichè confrontandomi con i colleghi l'unico modo che ci viene a mente per avere questo tipo di url indicizzate è che Google indicizzi le url tracciate da Google Analytics.


  • Super User

    Ciao, semplicemente è possibile che Google ti abbia interpretato il javascript.

    Lo fa da anni, ha cominciato con le URL in chiaro, poi mano a mano è diventato sempre più abile a scovarle dentro alle funzioni.

    Avanzo anche un altra ipotesi, che un utente ti abbia linkato dopo aver cambiato colore, e il sito mantiene quel parametro nella querystring sfogliando il catalogo. Non so se mi son spiegato, comunque se vedo il sito posso dire se ciò può accadere.

    Mentre escludo proprio Google Analytics, non c'entra con la indicizzazione.


  • User

    Quella è la cosa che ho pensato per prima, ma c'è un particolare che non quadra.

    La url indicizzata NON è presente sul sito da nessuna parte, verificato con Xenu, e valorizzare il java significa fare innumerevoli (infiniti) tentativi su valori numerici casuali di tante variabili.

    L'identificazione della url indicizzata è per forza a valle, dopo che è stata generata e riscritta... quindi a valle dello script java e dell'.htaccess... ma non raggiungibile da monte.

    L'unico modo per avere queste url (sono tante) indicizzate che mi viene a mente è analytics il quale le traccia e le mostra nelle statistiche.

    Chi oltre a analytics (e l'utente che le naviga) può conoscerle?

    Non posso dirti il sito perchè si tratta di un brand piuttosto famoso.


  • Super User

    @MarcoSalvadori said:

    La url indicizzata NON è presente sul sito da nessuna parte, verificato con Xenu,

    XENU non interpreta javascript, Google si, parzialmente.

    Non importa che non ci sia, così come l'utente cliccando da qualche parte arriva a quegli indirizzi, pure Google può farlo, andando a vedere dove ci sono degli eventi onclick od onchange, quali funzioni javascript richiamano, quali valori passano, ed infine provando a simularne l'esecuzione.

    @MarcoSalvadori said:

    e valorizzare il java significa fare innumerevoli (infiniti) tentativi su valori numerici casuali di tante variabili.

    Se per quello Google talvolta si mette pure a compilare e inviare dei FORM (solo quelli con metodo GET), con delle parole scelte da lui fra miliardi possibili. Quindi non avrà certo dei problemi a scegliere un numero limitato di colori e di tipi che il sito gli mette a disposizione.


  • User

    Anche immaginando infiniti tentativi per valorizzare le variabili ed indovinare i valori giusti che corrispondo appunto alle url che portano ad un reale prodotto, nel javascript c'è una location.href che punta ad una url non riscritta.

    La url indicizzata da Google è invece quella riscritta che viene tracciata in analytics e viene vista appunto dall'utente.

    Solo l'utente e analytics possono vedere quella url.

    Il java no.


  • Super User

    Inanzitutto java non è l'abbreviazione di javascript ma è un linguaggio completamente diverso.

    La URL non riscritta fa un redirect 301? O un redirect tramite meta http refresh?

    Se si, non c'è nessun problema per Google a seguirlo, lo fa sempre e senza eccezzioni (a differenza dei javascript che a volte interpreta altre no, dipende come son scritti o camuffati).


  • User

    Ovviamente mi riferivo a javascript avendo sempre parlato di quello finora nel post.

    Il redirect non è ne un meta, ne un 301.
    Si tratta di una serie di regole di riscrittura (rewriterule)nell'htaccess


  • Super User

    Non ci intendiamo, chiedevo, indipendentemente da dove sta, avrà un nome sto redirect, che http status code restituisce?

    301, 302, 307, un 200 con javascript nella pagina, un 200 con un meta refresh ecc.

    Comunque senza sapere il nome del sito, e quindi valutare tecnicamente senza intermediazioni mi risulta difficile approfondire, quindi da parte mia termino qui.


  • User

    Sono d'accordo, la discussione sta andando fuori tema 🙂

    Rinnovo la domanda semplice: qualcuno ha mai avuto la sensazione che Google indicizzi url anche mediante il tracking di Analytics?