+ Rispondi alla Discussione
Pagina 1 di 2 12 UltimaUltima
Risultati da 1 a 50 di 56

"Gli è tutto sbagliato, tutto da rifare..." (Bartali)

Ultimo Messaggio di paocavo il:
  1. #1
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542

    "Gli è tutto sbagliato, tutto da rifare..." (Bartali)

    Come alcuni di voi sanno, il mio approccio al SEO si è sempre basato sulle mie conoscenze informatiche.

    E' stato questo punto di vista che mi ha permesso di imparare correttamente le nozioni principali del posizionamento e di dedurre o intuire elementi e fattori usati dai motori di ricerca nel decidere la posizione delle pagine nei risultati di ricerca.

    Penso sia superfluo sottolineare che si tratta di un approccio abbastanza diverso da quello seguito dalla maggior parte dei posizionatori e webmaster: loro partono dall'alto, cercando di risalire verso ciò che i motori di ricerca fanno mentre la mia strada a ritroso è facilitata dal fatto che so in parte ciò che i motori fanno o che hanno interesse a fare.

    In parte si tratta dunque di una strada a ritroso, in parte è una strada parallela a quella degli stessi motori di ricerca, e questo ha i suoi vantaggi pratici in termini di tecniche di posizionamento sviluppabili.

    Negli ultimi anni, tuttavia, il mio approccio al SEO si è "ingegnerizzato" ulteriormente, avvicinandosi ancora di più a ciò che gli stessi ingegneri dei motori fanno.

    Da un lato, questo mi ha permesso di acquisire una visione ancora più precisa ed approfondita del comportamento dei motori, dall'altro mi ha allontanato sempre più dal modus operandi del "SEO medio", così tanto che la maggior parte dei thread sui forum discutono fattori e criteri di posizionamento che io sono consapevole essere estranei a ciò che i motori realmente fanno.

    Questo è un problema. E' un problema sia mio, personale, in quanto ho difficoltà a trovare qualcuno con cui discutere di come questo o quell'elemento possa influenzare la posizione di un documento all'interno delle ricerche, sia un problema del settore SEO in genere, che nonostante gli sforzi e i test fatti rimane comunque molto distante dai criteri che regolano i motori e la composizione dei risultati delle ricerche.

    Tanto per fare un esempio: la maggior parte dei SEO ha un approccio keyword-based al posizionamento e l'ottimizzazione del testo di un documento viene vista solo in funzione dell'inserimento delle keyword nel testo/codice.

    Questo non va bene, per la semplice ragione che i motori in realtà non "cercano testo", ma possiedono una visione dei testi, dei documenti e delle query strettamente matematica. Secondo uno dei modelli più diffusi, ad esempio, i documenti e la query dell'utente vengono identificati con delle coordinate spaziali e l'ordine dei risultati dipende da quanto "geometricamente vicino" alla query (non è così, ma banalizzo) ciascun documento si trova.

    Se si imparano i criteri in base ai quali i motori assegnano le coordinate ai documenti, si trova il modo di comporre i testi in maniera tale che il documento sia più vicino alla query per la quale bisogna posizionarsi. E i risultati sono sempre superiori a quelli ottenibili limitandosi a inserire la keyword principale nel testo del documento.

    Un'ulteriore dimostrazione di quanto l'approccio text-based o keyword-based sia fuorviante si ha quando nei forum si leggono domande del tipo "In percentuale, quanto deve essere diverso il testo di due pagine per non incappare nel filtro anti duplicazione?".

    Signori miei: la percentuale di testo non c'entra un fico secco. Due documenti vengono beccati dal filtro anti duplicazione se sono troppo vicini tra loro, geometricamente parlando.

    Pertanto, riassumendo la situazione, esistono dei modelli reali seguiti dagli ingegneri dei motori di ricerca, la cui conoscenza permette di spiegare e dedurre una moltitudine di cose, ed i modelli seguiti dai webmaster e dai SEO, che sono molto elementari e in gran parte fuorvianti o addirittura errati.

    Voglio essere chiaro: questi modelli elementari non sono il primo passo verso quelli più complessi. I modelli complessi di cui parlo io sono del tutto differenti da ciò che la maggior parte dei SEO conosce. Bisognerebbe disimparare ciò che si sa e apprendere cose completamente diverse.

    A volte esistono casi in cui i SEO ottengono buoni risultati seguendo un modello, trovato empiricamente a forza di tentativi e test. Il problema di questo approccio è che raramente i SEO estraggono dalla tecnica i concetti che la regolano.

    Ad esempio a volte è possibile ottenere buoni risultati sfruttando i sinonimi, ma il SEO si limita ad acquisire questa consapevolezza senza sapere perché i sinonimi funzionano. Scoprire il perché permetterebbe al SEO di sapere che alcuni termini avvicinano il documento alla query ed altri termini lo allontanano: invece di usare sinonimi a caso si ottengono risultati migliori selezionandoli con cura e sopratutto evitando di usare quei termini che allontanano il documento dalla query per la quale ci si vuole posizionare.


    Giungo alla conclusione di questo intervento. E' qualcosa che ho già detto e ripetuto in passato più di una volta, ma che è importante ribadire: stiamo messi male. Ma tanto tanto, eh?

    Il divario tra ingegneri dei motori e SEO è sempre maggiore e se la prossima generazione di SEO non acquisirà un modello concettuale simile a quello usato dai motori, tra dieci anni staremo ancora a chiederci come mai la pagina X non si posiziona per la query Y.

    Vi chiederete perché faccio questo discorso proprio alla comunità di giorgiotave e proprio su questo forum. Risposta: siete i migliori. E dico internazionalmente, senza scherzare.

    Non conosco nessuna comunità così attiva come questa, sopratutto per quanto riguarda i test e le gare, che sono essenziali per acquisire conoscenza.

    L'unica ragione per la quale questa comunità SEO e questi forum non sono i primi del pianeta è solo perché sono in italiano. Se fossero stati in inglese, avrebbero segnato una svolta internazionale nell'approccio col posizionamento.

    Adesso però questo attivismo va convogliato nel verso giusto e pertanto vi faccio un invito: iniziate a studiare l'IR. E' importante. Se siete appassionati di SEO, sappiate che la cosa migliore che potete fare è quella di studiare IR. Altrimenti i continui progressi dei motori di ricerca renderanno il posizionamento sempre più difficile.

    Fate come più preferite: iniziate a progettare un semplice motore di ricerca, imparate le basi sui libri, approfondite le nozioni sulla documentazione esistente online, seguite le conferenze sull'IR.. basta che imparate le basi ed acquisite la visione giusta.

    RandFish su SEOChat ed Orion (Garcia) su Searchenginewatch si sgolano da mesi per far capire quanto sia importante acquisire un modello concettualmente diverso, ma loro non hanno la fortuna di rivolgersi ad una comunità come quella di giorgiotave e gli utenti che li leggono rimangono sordi.

    Non importa se in questo momento non riuscite a comprendere le implicazioni positive e concrete degli studi che vi propongo, voi fatelo! Vi assicuro che via via che imparerete le basi, comprenderete quanto vi stavate limitando (citando Re Artù: "Non sapevo quanto la mia anima fosse vuota finchè non è stata riempita.").

    Ho molto poco tempo da dedicare ai forum, ultimamente. Ma se avete qualche domanda da fare, sono a vostra disposizione.

  2. #2
    Banned
    Data Registrazione
    Apr 2005
    Messaggi
    2,073
    Citazione Originariamente Scritto da LowLevel
    Adesso però questo attivismo va convogliato nel verso giusto e pertanto vi faccio un invito: iniziate a studiare l'IR. E' importante. Se siete appassionati di SEO, sappiate che la cosa migliore che potete fare è quella di studiare IR. Altrimenti i continui progressi dei motori di ricerca renderanno il posizionamento sempre più difficile.
    Innanzi tutto grazie per gli apprezzamenti, certe cose dette da te fanno veramente piacere.

    Io non sono un SEO, mi piace definirmi uno che realizza dei siti e che avrebbe piacere che questi ultimi fossero anche trovati dagli utenti potenziali.
    Proprio per questo non ho una mia idea specifica di "come si fa", ho notato da solo che molte delle cose che si dicono in giro non hanno alcun fondamento, questo provando ed investendo del tempo per capire.

    Siccome ti ritengo una persona molto esperta in questo campo sono sicuramente portato a far tesoro delle tue parole, proprio perchè a me, in prima battuta, piace capire il perchè delle cose, solo in un secondo momento cerco di usare le conoscenze acquisite a beneficio mio e dei miei clienti.

    Ti sarei grato se volessi fornirmi una traccia di studio, qualche libro o sito da dove cominciare il cammino che suggerisci.

    Grazie ancora per quello che hai scritto e per il consiglio che ci hai dato.

  3. #3
    Esperta L'avatar di Mamilu
    Data Registrazione
    Jan 2005
    Località
    Krabi Thailand - VE member
    Messaggi
    1,625

    Re: "Gli è tutto sbagliato, tutto da rifare..." (B

    Citazione Originariamente Scritto da LowLevel
    ... voi fatelo! ...
    OK,
    partiamo con lo studiare l'Information Retrieval e facciamolo!

  4. #4
    Moderatore L'avatar di claudioweb
    Data Registrazione
    Jul 2005
    Località
    Salento
    Messaggi
    3,703
    Credo che nessuno possa eccepire qualcosa a quanto detto.

    Le cose importanti sono quelle che fanno funzionare il tutto, il resto viene di conseguenza.

    Per l' Information Retrieval, google stesso si fa la pubblicita'

    __________________________________________________ ______

    __________________________________________________ ______

    un motivo ci sara'... ()

    Mi chiedo solo quanti dei SEO attualmente in giro abbiano le basi matematiche necessarie, e la voglia, per passare a questo nuovo modo di vedere le cose.

    Posto qualche documento (approfondito) reperibile in rete, che io stesso voglio leggere per approfondire l'argomento.

    _________________________
    Information_Retrieval
    _________________________
    1. Introduction
    2. Models of Information_Retrieval
    3. Techniques for Text Retrieval
    4. Automated Text Categorization
    5. Web Search Engines
    _________________________
    Cross-lingual I R
    Stemming
    Music I R
    Collaborative filtering
    Statistical language models
    Web crawling
    _________________________

    Buono studio a tutti

    Si avvicina la Festa della Mamma.

  5. #5
    User
    Data Registrazione
    Sep 2005
    Messaggi
    451
    Credo che non tutti possano approciare in questo modo all'ottimizzazione, innanzitutto per via delle conoscenze informatiche.

    Come puoi pretendere che un SEO diventi effettivamente tale se non sa la differenza fra apache e iis, fra http e https o se non sa programmare, se non ha basi di networking e quant'altro ?

    Chi non fa SEO come dici tu non penso sia perchè non ha avuto la dritta giusta, ma perchè mancano "troppe cose" per diventarlo.

  6. #6
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da uMoR
    Credo che non tutti possano approciare in questo modo all'ottimizzazione, innanzitutto per via delle conoscenze informatiche.
    Giustissimo. Quindi è importante che quei pochi che possiedono le conoscenze informatiche non perdano tempo a discutere la "percentuale magica delle keyword" o altre amenità simili. E magari contribuiscano in qualche modo a limitare il diffondersi di tali idiozie.

    Breve aneddoto: tempo fa ho conosciuto due ragazzini di scuola media che erano curiosi di sapere come si "arrivava primi" sui motori di ricerca. Gli ho spiegato i concetti base dell'ottimizzazione del testo e del term vector model usando la metafora della battaglia navale che facevano a scuola.

    Son bastati un foglio di carta e dieci minuti, dopo i quali hanno acquisito una consapevolezza del funzionamento dei motori e dell'ottimizzazione dei testi più corretta della stragrande maggioranza dei SEO che ho conosciuto.

    Che scuse ci sono di fronte a simili evidenze? La battaglia navale è troppo difficile da comprendere per gli adulti? Non si possiedono dieci minuti di tempo? L'aritmetica delle scuole medie è troppo complessa? Il foglio di carta e la biro costano troppo?

    uMoR, credi a me: il problema non è la presunta complessità o quantità di cose da studiare, perché l'obiettivo non è quello di diventare matematici ma di capire i fondamenti. Il vero problema è la paura dell'ignoto.

  7. #7
    User L'avatar di GrazieMamma
    Data Registrazione
    Jan 2005
    Località
    Roma
    Messaggi
    414
    Low apprezzo moltissimo le tue parole.

    Le conoscenze informatiche non si acquisiscono facilmente, io ad esempio, non so una ceppa di programmazione, non sono mai stato un'aquila in matematica, come potrei mai diventare un SEO?

    Leggendo le tue parole mi devo arrendere a quello che mi dice Umor, senza conoscenze informatiche non vado da nessuna parte, beh allora ci dovrò rinunicare...

    E' brutto sentirsi impotenti e soprattutto ignoranti, ma da quello che hai detto uno come me è meglio che rinuncia in partenza, sono completamente autodidatta, non ho mai frequentato corsi e quel poco che so l'ho imparato sul campo, ho perso tempo...

  8. #8
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    GrazieMamma, non stavo discutendo dei traguardi raggiunti ma degli ulteriori traguardi raggiungibili, alla luce del fatto che i motori diventano sempre più complessi.

    E' evidente che non si fa nulla di male "accontentandosi" dei propri (e magari eccellenti) risultati.

    Ma è importante avvisare tutti gli altri che si può fare di più e che le situazioni del tipo "aiuto! sono scomparso da Google senza motivo!" sono sempre più frequenti (specie dopo alcuni aggiornamenti dell'indice) ed indicano che dei motori ne sappiamo sempre meno.

    Ignorare o sottovalutare il problema è facile, comodo, veloce, e se si ottengono già buoni risultati col posizionamento è difficile trovare un buon motivo per mobilitarsi. Tuttavia chi si ritrova qualche minuto in più da spendere ed è disposto a vedere nei propri umani ed inevitabili limiti uno sprono a migliorare invece che un'onta da nascondere o un termine per paragonarsi agli altri, sappia che se vuole può investire quel tempo imparando qualcosa di nuovo e di utile.

    Mi spiace che tu abbia letto o estratto dai miei post la frase "non si è SEO se non si studia IR", perché non l'ho scritta, non sono così folle da pensarla e avrei detto una cosa simile solo se l'obiettivo del mio intervento fosse stato quello di offendere la gente. Così non è, poi ognuno è libero di ipotizzare le finalità di ciò che scrivo a seconda di quanto "battagliero" è il proprio temperamento.

  9. #9
    User L'avatar di GrazieMamma
    Data Registrazione
    Jan 2005
    Località
    Roma
    Messaggi
    414
    Capito

    Comunque mi stò divorando tutte le tracce di RandFish, mi devo leggere una cosa come 6000 post ma non ho fretta... stanotte leggerò i primi 10.

    Grazie infinite per quello che stai facendo

  10. #10
    Banned
    Data Registrazione
    Dec 2004
    Località
    Sesto Calende (VA)
    Messaggi
    1,192

    !

    Low, come scrivo sempre... è un piacere leggere i tuoi interventi.

    Citavi sopra del tuo incontro con i due ragazzini... potrebbe essere un "banale" ma utile modo per aprire le menti postarlo qui, non credi ?


  11. #11
    User
    Data Registrazione
    Sep 2005
    Messaggi
    451
    Ma che poi quello che sta dicendo Low non è mica un concetto tanto nuovo..

    http://forum.html.it/forum/showthrea...hreadid=780026

  12. #12
    Esperta L'avatar di Mamilu
    Data Registrazione
    Jan 2005
    Località
    Krabi Thailand - VE member
    Messaggi
    1,625
    Ma che poi quello che sta dicendo Low non è mica un concetto tanto nuovo..
    Senza dubbio.
    La vera novità è che stavolta lo facciamo per davvero, ed in gruppo

    OK, inizio azzardando una interpretazione ed esponendomi subito al pubblico ludibrio:


    Battaglia navale per Motori di Ricerca [ vector model ]

    Immaginiamo una battaglia navale tra un motore di ricerca ed un utente.

    Il motore posiziona [o stiva] le sue navi in uno dei sui campi [o database].
    Immaginiamo che le sue navi siano le seguenti 7 words:
    Velocipedi
    marketing
    • Equestri
    Forum
    • Cavalli
    • Biciclette
    • Posizionamento

    E che il motore, in quel suo particolare campo decida di posizionarle in questo modo:


    Immaginiamo ora che arrivi un utente e lanci le sue bombe [pone una query; Forum per il posizionamento dei velocipedi equestri gialli] e che dette bombe siano le seguenti 5 words
    Forum
    Posizionamento
    • velocipedi
    • equestri
    • gialli




    Con la sua query l’utente avrà colpito in A1 – B4 – C3 – C5 [ o meglio, il motore ha avuto le condizioni per rispondere con dati a quelle 4 bombe] ma avrà mancato con la words gialli che il motore non ha posizionato in quel campo.

    Guardando il campo del motore, se diamo valore 1 alle words che sono state centrate [offrendo una risposta] e valore 0 a quelle che non l’hanno ottenuta, avremo il seguente vector model - IR:
    - Velocipedi – marketing – EquestriForum – Cavalli – Biciclette – Posizionamento
    = 1. 0. 1. 1. 0. 0. 1.


    :sto:
    Ultima modifica di Giorgiotave; 06-08-14 alle 17:20 Motivo: inserite immagini vecchie

  13. #13
    User L'avatar di GrazieMamma
    Data Registrazione
    Jan 2005
    Località
    Roma
    Messaggi
    414
    La nostra Mamilu

  14. #14
    Esperto L'avatar di beke
    Data Registrazione
    Mar 2005
    Località
    Firenze
    Messaggi
    1,316
    Credo che questo sia uno dei topic più importanti aperti in questo forum e lo è sia per l'argomento introdotto da Low (che peraltro dice queste cose da tempo) sia per la risposta degli utenti che stavolta hanno sentito la "scrollata".

    Nel mio piccolo ho iniziato da tempo a seguire i consigli di Low, e mi sono letto con attenzione diversi studi originali, soprattutto dal db della stanford university, dove si trova molto materiale di studenti che, guarda caso, poi sono stati assunti dai vari motori di ricerca.

    Per esempio riguardo ai vettori di termini vi potrebbe interessare questo articolo (e soprattutto il documento originale di Bharat):
    http://www.posizionamento-web.com/ri...-documenti.asp

    Mi dispiace soltanto di essere poco presente sul forum in questi giorni, purtroppo il mestiere di padre si sta dimostrando molto più impegnativo del previsto.

    Comunque sia seguirò sicuramente con attenzione l'evolversi di questo thread e di quelli correlati e spero di riuscire a contribuire in qualcosa.

  15. #15
    Utente Premium L'avatar di KING_Hack
    Data Registrazione
    Mar 2005
    Località
    Aquileia
    Messaggi
    1,719
    Non sono un SEO, ma il post di low mi ha fatto mooolto pensare al fatto che oltre l' ottimizzazione delle keywords, i tag da adottare e le piccole analisi e test che si fanno solitmente come da molte discussioni aperte anche nel forum GT, c'è qualcosa in più, o meglio un punto di vista nuovo rispetto alla visione che si ha ora leggendo i vari post di questo forum: non voglio mettere assolutamente in discussione gli argomenti trattati sul forum GT per l'ottimizzazione nei MdR, ma penso che, come l' ha sottolineato low e lo quoto anche io (da assoluto profano in materia) esiste un punto di vista diverso che può dare la svolta per una comprensione più approfondita sull' argomento SEO e MdR.

    Sono dell'idea che comunque la soluzione è davanti ai nostri occhi ma bisogna capire in che posizione mettersi per vederla meglio

    Finisco col dire che comincerò a studiacchiarmi anche io tutti i documenti linkati su questo 3d perchè è molto interessante e sono sicuro che darà una svolta al modo di pensare e come comportarsi nei confronti dell' ottimizzazione e dando anche una svolta al forum GT trattando in casa questi argomenti.

    Grazie low


    [OT]Ho avuto il mio primo satori in ambito SEO [/OT]

  16. #16
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542

    Re: !

    Citazione Originariamente Scritto da Dell'Orto Fabio
    Citavi sopra del tuo incontro con i due ragazzini... potrebbe essere un "banale" ma utile modo per aprire le menti postarlo qui, non credi ?
    Mi piacerebbe riuscire a renderlo chiaro, il problema è che senza un foglio di carta ed una penna (o una lavagna ed un pennarello), è molto difficile spiegare qualcosa di visuale.

    Tra l'altro, di visuale non c'è solo la spiegazione ma anche la tecnica per la creazione dei testi ottimizzati che si estrapola dalla teoria.

    Alla fine del processo, si estraggono delle regole di massima che permettono di stilare testi che si allontanano il meno possibile dalla query per la quale ci si vuole posizionare.

    Impratichendosi nell'applicazione di queste regole, si giunge ad un punto in cui, preso un generico paragrafo di testo, si è in grado di dire se si allontana molto o poco dalla query (rispetto ad altri paragrafi), in base alla quantità di termini diversi che contiene, alle loro ripetizioni e a quanto ciascun termine usato è raro nel corpus (l'intero archivio di documenti del motore).

    Dovrei iniziare a descrivere i disegni da fare "disegnate un segmento verticale e dividetelo in cinque parti uguali..." oppure mettermi a disegnare con un software ogni passaggio della spiegazione (al segmento di cui sopra se ne aggiunge un secondo orizzontale, poi un terzo diagonale, ad indicare una terza dimensione, ecc.), ma francamente sarebbe un lavoraccio e in questo periodo sono molto a corto di tempo.

  17. #17
    Esperta L'avatar di Mamilu
    Data Registrazione
    Jan 2005
    Località
    Krabi Thailand - VE member
    Messaggi
    1,625
    Ultima modifica di Giorgiotave; 06-08-14 alle 17:21 Motivo: inserite immagini vecchie

  18. #18
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,065
    Visita il canale Youtube di Giorgiotave
    Ciao Low,

    ti ringrazio moltissimo per le tue parole, mi hanno davvero colpito.

    Ho lasciato scorrere due giorni prima di risponderti perchè non riesco a stardi dietro (Information Retrieval, vector model, Booleano, espansione della query, Hilltop, Topic sensitive pagerank, Latent Semantic Indexing, TrustRank, Thesauri). Ho imparato più ora che negli ultimi dodici mesi.

    Abbiamo iniziato studiando molti argomenti, scrivendo articoli e aprendo argomenti per sensibilizzare i SEO.

    Stiamo partendo con i nuovi progetti si un semplice motore di ricerca e un robottino semanticamente intelligente.

    Dobbiamo studiare e applicarci, altrimenti impariamo poco.

    Partiremo anche con altri progetti-gare per studiare e restare aggiornati, volevo ringrarti perchè mi hai dato la possibilità di svegliarmi da questo status-fermo-apprendimento-stagnate per quanto riguarda i motori di ricerca.

    Sappi che hai spinto delle persone che stavano tirando, ora son cavoli amari
    Giorgio Taverniti Blog. FastForward: su YouTube ogni Martedì (SEO) e Giovedì (Social)!

    Tutta la SEO in 23 ore: 9 diversi moduli tematici, 34 lezioni, questo è il Videocorso SEO del 2017!


  19. #19
    Esperto L'avatar di doopcircus
    Data Registrazione
    Nov 2005
    Messaggi
    617
    Davvero interessante questo topic: è da ieri che mi tiro giù e studio testi sull'ir e sto continuando anche in questo momento. L'unica cosa è che molti di quaesti testi passano dal banalissimo all'incomprensibile ( rapporti matematici con sommatorie di logaritmi e costanti dal significatomisterioso).
    Ho visto che c'è un'ampia varietà di sistemi usati e molte tecniche citate mi han fatto pensare a Google ma devo dire che purtroppo non ho trovato traccia di alcuni elementi ( come quello dei sinonimi ) che Low ha citato.
    Probabilmente sono andato a finire su testi troppo generici o, viceversa, in altri casi, troppo specifici.
    Le fonti citate in questo topic me le son già divorate ( almeno i pdf ): avete qualche altro testo da consigliarmi ?
    Grazie!

  20. #20
    Moderatore L'avatar di claudioweb
    Data Registrazione
    Jul 2005
    Località
    Salento
    Messaggi
    3,703
    Citazione Originariamente Scritto da doopcircus
    Le fonti citate in questo topic me le son già divorate ( almeno i pdf ): avete qualche altro testo da consigliarmi ?
    Grazie!
    Stavo aspettando per non esagerare a documenti, ma vista la richiesta esplicita.
    Subito appena sfornati per te... :
    ____________________________________________
    Introduzione ai sistemi di IR e ai GIS
    ____________________________________________
    Componenti di un sistema di IR
    ____________________________________________
    indicizzazione di documenti testuali
    ____________________________________________
    strutture dati per indici testuali
    ____________________________________________
    modelli di base di sistemi di IR (Booleano e Vettoriale)
    ____________________________________________
    linguaggi base di query e algoritmi di valutazione,
    modello probabilistico di IR

    ____________________________________________
    modello fuzzy Booleano esteso di IR
    ____________________________________________
    modelli vettoriali estesi di IR
    ____________________________________________
    meccanismi associativi di retrieval
    ____________________________________________
    metodi di espansione delle query
    ____________________________________________
    rappresentazione e retrieval di documenti strutturati
    ____________________________________________
    Information_Retrieval su Web
    ____________________________________________
    valutazione di sistemi di IR
    ____________________________________________
    Modelli di dati Spaziali nei GIS
    ____________________________________________
    Database geografici e operazioni spaziali
    ____________________________________________
    indici e metodi di accesso per dati spaziali
    ____________________________________________

    Non fare indigestione....

    Si avvicina la Festa della Mamma.

  21. #21
    Esperto
    Data Registrazione
    Mar 2005
    Località
    Genova
    Messaggi
    533
    secondo me bisogna dosare le informazioni che stiamo apprendendo.
    troppa carne al fuoco....

  22. #22
    Esperto L'avatar di doopcircus
    Data Registrazione
    Nov 2005
    Messaggi
    617
    Si, infatti, ringrazio assai per i link che ho già setacciato in gran velocità, ma vorrei anche un minimo di chiave di lettura: non mi spaventano le informazione, ma la mole è elevata, e io vorrei cercare di fare uno studio Google oriented, cercare di capire veramente come funziona Google aldilà dello stranoto sistema del page ranking.
    Comunque grazie mille a Claudioweb per i link: sei una miniera di informazioni !

  23. #23
    Esperto L'avatar di doopcircus
    Data Registrazione
    Nov 2005
    Messaggi
    617
    niente: ho provato e riprovato a trovare un bandolo della matassa ma ancora non son riuscito a trovare in mezzo a quella giungla di appunti e file un testo vagamente divulgativo sui modelli di IR vettoriali, un pò alla stregua di quel che fa questo magnifico sito http://www.iprcom.com/papers/pagerank/ per il pagerank. Se avete consigli e suggerimenti ...
    Ormai Low mi ha messo la pulce nell'orecchio e continuo a fissare i miei paragrafi con aria interrogativa cercando di carpirne la relazione geometrica

  24. #24

  25. #25
    Esperto L'avatar di doopcircus
    Data Registrazione
    Nov 2005
    Messaggi
    617
    Belin, grazie mille low !
    Mi ci metto subito, se non ci capisco neanche qui vorrà dire che sono troppo stupido e andrò a restituire la mia laurea in economia

  26. #26
    User
    Data Registrazione
    Nov 2005
    Messaggi
    30

    Re: "Gli è tutto sbagliato, tutto da rifare..." (B

    Citazione Originariamente Scritto da LowLevel
    ***supercut***
    Non importa se in questo momento non riuscite a comprendere le implicazioni positive e concrete degli studi che vi propongo, voi fatelo! Vi assicuro che via via che imparerete le basi, comprenderete quanto vi stavate limitando (citando Re Artù: "Non sapevo quanto la mia anima fosse vuota finchè non è stata riempita.").

    Ho molto poco tempo da dedicare ai forum, ultimamente. Ma se avete qualche domanda da fare, sono a vostra disposizione.
    Ottimo Low. Per quanto mi sia avvicinato da poco al settore SEO in modo unicamente amatoriale, sono già molto interessato alle questioni matematiche che hai esposto. Io sono un informatico, programmo e amo la matematica: i requisiti sono ok

    Grazie Low.
    In ogni caso l'ambito SEO su certi forum sta diventando assai banale; si possono vedere domande del tipo: ma un link a google aumenta il PR?

    imparoimparoimparo...

  27. #27
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,065
    Visita il canale Youtube di Giorgiotave

    Re: "Gli è tutto sbagliato, tutto da rifare..." (B

    Piccolo OT che sono l'amministratore può fare

    Citazione Originariamente Scritto da Snix

    Ottimo Low. Per quanto mi sia avvicinato da poco al settore SEO in modo unicamente amatoriale, sono già molto interessato alle questioni matematiche che hai esposto. Io sono un informatico, programmo e amo la matematica: i requisiti sono ok
    Bene, vedi di dare il tuo contributo, studia studia studia

    Citazione Originariamente Scritto da Snix
    Grazie Low.
    In ogni caso l'ambito SEO su certi forum sta diventando assai banale; si possono vedere domande del tipo: ma un link a google aumenta il PR?
    Non sono le domande che rovinano un Forum, ma le risposte
    Giorgio Taverniti Blog. FastForward: su YouTube ogni Martedì (SEO) e Giovedì (Social)!

    Tutta la SEO in 23 ore: 9 diversi moduli tematici, 34 lezioni, questo è il Videocorso SEO del 2017!


  28. #28
    Esperto L'avatar di doopcircus
    Data Registrazione
    Nov 2005
    Messaggi
    617
    Allora, dopo essermi studiato diligentemente gli appunti suggeriti da Low mi son fatto qualche ideuccia. Posto che sono appunti IR generici e nontengono conto di tutti gli espedienti utilizzati dai vari motori , come il valore di linkaggio in entrata o, nel caso di Google, il Page Rank ( che per certi versi è quasi la stessa cosa ) ...
    Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :
    wi,j = tfi,j/max tfi,j * log(D/dfi)

    in cui il primo valore è la frequenza normalizzata del termine i nel documento j, cioè la quantità di volte in cui un particolare termine è presente rispetto alla quantità di volte in cui è presente il termine più frequente , mentre il secondo è il log della document inverse frequency, vale a dire che più il termine è raro nel totale dei documenti ( e più sono i documenti ) più il peso aumenta. E fin qui ...

    Questa formula viene definita come anti-spam grazie alla tecnica di normalizzazione della term frequency.
    E qui non capisco tanto: poniamo che io sia uno spammer incallito e che mi sia scelto, per emergere due o tre termini abbastanza specifici, a cui sia associato un log(D/dfi) piuttosto elevato: a quel punto posso fare un bel documento in cui, pari merito o quasi, le tre parole in questione ( magari variate se supponiamo che valga lo stemming ) in misura massiccia in modo da costituire o approssimarsi a maxtfi,j , anche considerando che in teoria un motore evoluto salta a piè pari tutte le stopwords.

    Beh, secondo questa formula ( e sempre ignorando link popularity e simili ) il mio documento dovrebbe riscuotere grande successo presso i motori di ricerca ...

    Poniamo poi che decidessi di buttarmi su un termine inflazionato, tipo "sex" : qualcosa mi dice che la dfi di quel termine non sia molto elevata ma, d'altra parte, siam tutti nella stessa barca. A quel punto faccio un testo in cui tfij e maxtfij coincidano , dando così un peso massimo rispetto a quella key. Beh, a quel punto, se il modello fosse veramente questo, io spammer non avrei grossi problemi.

    Chiaro che una volta che entrano in gioco elementi come link popularity e page rank il mio giochino potrbbe ritorcersi contro di me. Ma allora potrei fare un documento molto corto , tanto si parla di misurazioni relative, un trafiletto di 150 parole a piè di pagine. Poi mi sbatto per fare, che ne so, in flash un bel videogiochino erotico ( ci tengo a dire che non è il mio caso perchè è un campo che non mi interessa, ehm, almeno non in termini di SEO , è solo la chiave più difficile al mondo ), in modo da essere linkato da qualche bel sitino con PR stratosferico dedicato magari alle risorse free. Beh, sarebbe tutto un pò troppo facile, no ?

    Io credo che i modelli reali siano ben più complessi e, beh, low , quando ti va, son pronto per un altra sfliza di appunti

  29. #29
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da doopcircus
    Il modello più affinato che si trova negli appunti, quello finale diciamo, se ho capito qualcosina prevede una formula di "pesatura" di un documento j-esimo rispetto ad un termine i-esimo del tipo :
    wi,j = tfi,j/max tfi,j * log(D/dfi)
    doopcircus, la tua analisi è tutta corretta, ma vieni tratto in inganno dalla funzione di quella formula.

    Non si tratta di "quello finale". Quella formula determina il peso di un singolo termine all'interno di un documento, non il peso globale di un documento rispetto alla query dell'utente, nemmeno nel caso in cui la query dovesse coincidere con il termine.

    Successivamente, l'insieme dei pesi di tutti i termini di un documento stabilisce la posizione di quel documento all'interno di uno spazio multidimensionale.

    In fase di ricerca, il motore calcola la "distanza" tra ciascun documento e la query e riporta i risultati in ordine di "distanza" minore (se si escludono gli altri fattori di ranking, ovviamente).

    "distanza" è volutamente virgolettato in quanto in realtà si usa una misurazione differente. Ma il concetto generale rimane quello della vicinanza geometrica. Nei testi che ti ho segnalato trovi anche la formula per calcolare tali "distanze".

  30. #30
    Esperto
    Data Registrazione
    Mar 2005
    Località
    Genova
    Messaggi
    533
    è una specie di battaglia navale.
    l'insieme dei pesi dei termini di una pagina definisce il peso totale della pagina.
    questa viene posta in uno spazio....dipenderà dallarelazione query/termini pagine a definire il risultato.

    comunque sia, uno spammer incrementando i valori di ogni parola quindi del documento stesso riuscirebbe a salire sulle serp...saranno gli algoritmi di Pr o di antispam ad abbassare il punteggio della pagina...

  31. #31
    Esperto L'avatar di beke
    Data Registrazione
    Mar 2005
    Località
    Firenze
    Messaggi
    1,316
    Si, è proprio a causa dello spam e del caos presente sul web che l'analisi del contenuto non è sufficiente ad ottenere risultati validi.

    Quindi si fanno intervenire altri fattori, come per esempio la LP, il PR, il Trust, punteggi HUB ed AUTHORITY ecc. che modificano i punteggi ottenuti con l'analisi del contenuto fatta a query time.

  32. #32
    User
    Data Registrazione
    Sep 2005
    Messaggi
    451
    saranno gli algoritmi di Pr o di antispam
    Per i filtri di antispam, beh dipende:
    se un testo è calcolato bene è quasi impossibile beccarlo, certo poi ci son quelli sulla struttura i link ecc..

    Più che altro è il TR a fregare lo spam (ma anche i siti seri) e la "distribuzione degli accessi" (vd. tanti post vecchi su html.it).

    Per cui, di per se, fare un testo ottimizzato usando queste strategie serve a ben poco se non è accorpato da n altri fattori.

    Morale della favola questo "sistema" può si avvicinare semanticamente (o statisticamente forse è meglio dire) una pagina ad una query ma se non abbiamo sufficiente valore servirà a ben poco.

    Magari Low ha qualche altro documento da farci leggere in proposito ? :P

  33. #33
    Esperto L'avatar di doopcircus
    Data Registrazione
    Nov 2005
    Messaggi
    617
    Citazione Originariamente Scritto da beke
    ... altri fattori, come per esempio la LP, il PR, il Trust, punteggi HUB ed AUTHORITY ecc. che modificano i punteggi ottenuti con l'analisi del contenuto fatta a query time.
    LP,Trust, punteggi HUB e Authority... ehm ...
    Scusate l'ignoranza ma son novizio.
    Mi spiegate meglio ( ne so qualcosa ma non in termini "scientifici" )

    Comunue l'idea che mi son fatto è che , alla fine dei conti, l'ordine di ranking di google sia ,data una presenza "qualificata" delle keyword nel titolo ( possibilmente da sole e attaccate ) e un'adeguata ( ma non eccessiva ) ponderazione delle parole, all'80% dipendente dal page rank: magari dico una scemata ma questo è quello che mi è sembrato di notare empiricamente, facendo cioè il percorso inverso a quello indicato da Low e che giustamente lui definisce errato.

    Proprio perchè penso abbia completamente ragione sto cercando di adottare il più possibile anche l'approccio dal basso diciamo, cioè lo studio del ragionamento dell' IR ( in attesa delle nuove dritte suggerite da Low) ma comunque l'impressione empirica e quindi potenzialmente basata su un enorme equivoco è che, alla fine dei conti, il PR conta quasi più della ponderazione dei termini ....

    Detto questo siete anche liberi di spararmi


  34. #34
    Banned L'avatar di positano
    Data Registrazione
    Jan 2005
    Messaggi
    344
    uaahh!!! ragazzi il cervello sta incominciando a fumare
    Anche se non posto (ci pensa mio fratello Fabio) molto leggo cmq con attenzione, resto in attesa di contromosse di Low, e perchè no, della cara Mamilù che vedo che con disegnini vari ci sa fare.

  35. #35
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da doopcircus
    Comunue l'idea che mi son fatto è che , alla fine dei conti, l'ordine di ranking di google sia ,data una presenza "qualificata" delle keyword nel titolo ( possibilmente da sole e attaccate ) e un'adeguata ( ma non eccessiva ) ponderazione delle parole, all'80% dipendente dal page rank:
    Nessun motore di ricerca sarebbe così folle da assegnare ad un solo elemento (qualunque esso sia) l'80% del peso dei ranking. Sarebbe un suicidio, tutti i webmaster e SEO si butterebbero a conseguire solo quell'elemento, nella massima quantità possibile, e la qualità dei risultati delle ricerche sarebbe terribile.


    facendo cioè il percorso inverso a quello indicato da Low e che giustamente lui definisce errato.
    Urge una precisazione: quel percorso non è errato ed io non potrei mai affermare una cosa simile.

    In un sistema in cui gli algoritmi sono segreti e si conosce solo il loro prodotto finale, le tecniche per risalire dal prodotto ai criteri che lo determinano sono indispensabili e devono per forza di cose fondarsi su test e soluzioni empiriche.

    Tuttavia, (e questo è ciò che io tento di evidenziare) per riuscire a determinare anche empiricamente attraverso la semplice osservazione che Google utilizza un tipo di espansione delle query sfruttando tecniche di clustering che fanno uso di analisi globali del corpus, bisogna comunque sapere cosa è l'espansione delle query, che cosa si intende per clustering, che tipo di analisi globali esistono, e così via.

    In poche parole: non si può riconoscere qualcosa di cui si ignora l'esistenza.

    La differenza tra il modus operandi che finora i SEO hanno attuato e l'approccio che io ho consigliato di adottare è culturale: se non si è medici, non si può diagnosticare una malattia osservando dei sintomi.

    Partire dai sintomi per risalire alla causa non è un percorso sbagliato. Però è pericoloso farlo se non si possiede almeno un'infarinatura di cultura medica.

  36. #36
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Provo ammirazione per quanto scrive LowLevel.

    Per esempio la frase:

    "Tanto per fare un esempio: la maggior parte dei SEO ha un approccio keyword-based al posizionamento e l'ottimizzazione del testo di un documento viene vista solo in funzione dell'inserimento delle keyword nel testo/codice."

    e', come dire, fotografare ed esporre il vero. Che piaccia o meno.
    Cosi' a seguire.

    Per amor di sincerita' sono fin invidioso di questo suo post, visto che concordo mi chiedo, perche' non l'ho scritto io? Semplice, perche' per quanto sei bravo c'e' sempre qualcuno piu' bravo di te.

    -----------

    Per quanto invece riguarda i "vecchi" documenti di IR vale la pena capirli e studiarli attentamente per poi non usarli, per esempio:

    doc 1: auto (3 times), car (1 times), insurance (3 times)
    doc 2: auto (1 times), car (2 times), insurance (4 times)
    doc 3: auto (2 times), car (3 times), insurance (0 times)

    Rank 1: Doc 2 = 0.8729
    Rank 2: Doc 1 = 0.6882
    Rank 3: Doc 3 = 0

    As we can see, for the query "insurance"

    Document 2 is very relevant.
    Document 1 is less relevant.
    Document 3 is completely irrelevant.

    --------

    Come e' scritta e composta una pagina e' irrilevante al fine del sort. Che sia presente o meno un termine della query nel testo conta poco o nulla.

    Che sia presente o meno un termine della query nei link che puntano ad una data pagina o sito conta poco o nulla.

    Il Tr, per fare un esempio e' vecchio, prima ancora che prenda piede.

    Sono tutti paliativi messi online anno per anno per gabbare seo, utenti ed azionisti.

    ---------


    Un sito, un libro, un' opera d'arte e' fatta di elementi (se unici) che non possono e devono dipendere od essere giudicati per cio' che sono ma da cio' che emanano-rappresentano.

    Se cerco soldati devo trovare: si sta come d'autunno sugli alberi le foglie, e viceversa.

    Anche se soldati non e' presente nella frase, anche se quella pagina non fosse lincata per la key soldati.

    E' dall'analisi costante di cosa vuole e ricerca l'utente che si capisce giorno per giorno, in modo dinamico, cosa conta e cosa no, e' il valore del sito che ci permette di primeggiare nelle serp, e' dal computo di chi non ci linca e non da chi ci linca che si calcola il peso del sito, e' solo grazie ad un sistema ibrido uomo&macchina che vengono espresse le migliori serp, almeno fin tanto che l'ai non sara' a livello del test di turing.

    ----------

    Studiare l'ir e' importantissimo, ma se intendiamo come ir le vecchie formule, e' importantissimo al fine di bannarle.

    Non lo credete. Sono pronto a mettere in discussione qualsiasi formula di Ir che vorrete sottopormi.

    Mi parlate di analisi locale, dimostrero' che non conta nulla rispetto a correlazioni esterne. Discutiamo di correlazioni e dipendenze esterne, allora contrappongo semantica ed originalita' del testo.

    Ampio contenuto originale? Cosa conta rispetto anzianita' del sito...

    ------------

    Ma allora e' la somma di tanti algoritmi che determina il valore di un sito, di una pagina...
    No non lo e'.

    Lo pensavo fino a poco tempo fa, e lo pensavo da anni, influenzato e condizionato perche' gli stessi motori ritenevano che questo ragionamento fosse basilare, essenziale, fosse corretto.

    E' vero: "Gli è tutto sbagliato, tutto da rifare..." (Bartali) ma LowLevel non immagini quanto.

  37. #37
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Agoago, io sono d'accordo con te su moltissimi dei punti che tu evidenzi.

    Tuttavia, usando una metafora matematica, bisogna iniziare dalle tabelline. Non perché le tabelline siano strettamente indispensabili quando si arriva allo studio delle funzioni (tanto ormai si usano le calcolatrici) ma perché sono indispensabili per acquisire una utilissima forma mentis.

    Via via che questa forma mentis viene acquisita e affiancando la teoria ai test, si diventa sempre più consapevoli che le tabelline hanno poco a che fare con ciò che i motori realmente fanno e che l'argomento è molto più complesso della banale applicazione di una formula tf*idf.

    Il punto è: questa consapevolezza deve arrivare con l'approfondimento e lo studio. Ciò che forma è il tragitto percorso, non la destinazione raggiunta. Altrimenti invece della forma mentis che si aspira ad ottenere ci si ritrova nuovamente di fronte ad una serie di regolette di posizionamento da applicare ciecamente, senza ragionare. Questo va evitato perché non porta benefici alle capacità globali del settore SEO.

    Io potrei anche mettermi a scrivere che l'importanza/autorevolezza di un sito già da anni viene calcolata sempre meno sui backlink e sempre più su altri elementi, sconosciuti ai più, ma il mio obiettivo non è quello di regalare pesce alla gente. Io ho voluto solo spronarli ad imparare a pescare e nella famiglia di Giorgiotave ho conosciuto elementi che avrebbero potuto accogliere il mio invito senza pensarci due volte.

    Termino aggiungendo una cosa: la fantasia ci aiuta ad uscire dagli schemi, ci eleva e ci permette di osservare l'intero disegno dall'alto. Ma senza controllo rischiamo di perderci in volo.

    Buon nuovo anno a tutti!

  38. #38
    Moderatore L'avatar di paolino
    Data Registrazione
    Apr 2005
    Località
    San Cipriano Beach
    Messaggi
    5,046
    mi stavo chiedendo i motori di ricerca commerciali quale dei modelli proposti dalla teoria utilizzano....

    è quasi certo che MSN implementa un modello probabilistico ( con i risultati che stiamo vedendo )

    il modello Booleano è poco preciso mentre la logica fuzzy è utilizzabile a patto di avere un bel pò di conoscenze nel DB....

    l'unica possibilità sembra proprio essere il vector space model

    che ne pensate?

  39. #39
    Moderatore L'avatar di claudioweb
    Data Registrazione
    Jul 2005
    Località
    Salento
    Messaggi
    3,703
    Citazione Originariamente Scritto da paolino
    mi stavo chiedendo i motori di ricerca commerciali quale dei modelli proposti dalla teoria utilizzano....

    è quasi certo che MSN implementa un modello probabilistico ( con i risultati che stiamo vedendo )
    Rispondo per quanto riguarda Msn. So di andare totalmente OT, ma le tecniche usate sono simili a quelle che fanno funzionare questo giochino...

    Sono cioè tecniche più complesse che si basano su reti neurali e sistemi di intelligenza artificiale.

    Questa impostazione molte volte fa commettere a Msn gravi errori, ma altrettanto spesso permette di fornire risultati migliori rispetto a Google...

    Inoltre si tratta di un sistema intelligente, che prevede la capacità di apprendimento. Quindi, più passa il tempo, migliori saranno i risultati restituiti.

    Zio Bill non è scemo...

    Ciao

    Si avvicina la Festa della Mamma.

  40. #40
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da paolino
    l'unica possibilità sembra proprio essere il vector space model
    Non è l'unica, ne esistono parecchie.

    Innanzitutto non bisogna dare per scontato che un motore di ricerca si affidi ad un unico modello, sarebbe un grande errore.

    Un modello è un modo di vedere le cose, la tipologia di approccio da seguire per raggiungere un obiettivo. Fasi differenti dei processi usati da un motore di ricerca possono appoggiarsi a modelli differenti.

    A questo si aggiunge il fatto che alcuni modelli, pur fondandosi su concetti diversi, possono condurre agli stessi risultati a seconda di come vengono implementati. Ad esempio il Belief Network Model, che è di tipo probabilistico, può essere implementato in modo da ottenere gli stessi risultati del Vector Model. In un certo senso, il primo modello è progettato su un livello di astrazione maggiore e può dunque "inglobare" modelli più specifici.

    In sintesi, non bisogna vedere i vari modelli come delle soluzioni necessariamente alternative tra di loro, ma come dei criteri di diverso genere che possono lavorare assieme.


    Precisato tutto questo, il vector model rimane indubbiamente uno dei più diffusi e più comodi da usare. Nelle applicazioni più basilari, non richiede calcoli onerosi e rimane un modello molto semplice da capire e che ha il vantaggio di utilizzare un unico spazio in cui sia i documenti sia le query esistono, a differenza di quanto accade in diversi altri modelli.

    Quoto claudioweb per quanto riguarda MSN ed aggiungo che, come dicevo prima, ci troviamo comunque di fronte ad un motore che funziona usando più di un modello. L'apprendimento sviluppato da MSN è infatti di tipo assistito, il che significa che il sistema va "nutrito" da esseri umani in maniera semiautomatica e che questo processo richiede tempo.

    Fino a quando le reti neurali non saranno autonomamente in grado di fornire risultati ottimi, è altamente probabile che vengano in loro aiuto delle tecniche più semplici e "classiche", ad esempio quelle del term vector model, per compensare agli errori.
    Consulente di search marketing. Sto pianificando l'evento SEO Rock.

  41. #41
    Esperto
    Data Registrazione
    Nov 2005
    Località
    Treviso
    Messaggi
    144
    Questo thread per me è una rivelazione e questa community mi sorprende ancora una volta.

    La molla che un po' più di un anno fa mi ha fatto avvicinare alle pratiche SEO e ai motori di ricerca è stato un seminario che ho frequentato durante un viaggio di lavoro in Germania: avevamo una pausa di mezza giornata e ci sono andato più per ingannare il tempo che per altro.

    Il titolo era più o meno "Data Mining testuale e ricerca dei significati" (non ricordo ora il titolo esatto in inglese)

    trovai l'argomento interessantissimo e lo divenne ancor di più quando, tra i principali ambiti di applicazione, vennero indicati i motori di ricerca.

    Di MdR capivo poco, seguivo di tanto in tanto l'ottimo motoricerca.info di Low, ma più per curiosità che altro: non era il mio lavoro nè credevo lo sarebbe diventato.

    Fino a quel momento, a causa di una mia conoscenza superficiale della materia, avevo sempre avuto l'impressione che il lavoro di SEO richiedesse solo alcune pratiche elementari, molta manovalanza, una certa dose di esperienza empirica e altrettanta di fortuna.

    Da allora ho cominciato a documentarmi e pur di imparare in fretta (anche rinunciando ad una fettina di stipendio...) ho colto l'offerta di lavoro di una SEM agency.

    Il background empirico grazie al lavoro (e alla preparazione di un collega in particolare) l'ho ricevuto, ma rimaneva sempre una certa insoddisfazione per un modus operandi basato su soluzioni ricavate esclusivamente dai risultati tangibili e per l'impossibilità di un confronto anche teorico.
    Non basta capire cosa funziona, è molto più soddisfacente capire perchè funziona

    Ora frequento da poco questa community e...scopro che da tempo parlate con entusiasmo proprio di ciò che mi aveva più affascinato del mondo SEO.

    Che dire, complimenti e grazie!

  42. #42
    User
    Data Registrazione
    Apr 2005
    Località
    Verona
    Messaggi
    711
    i documenti indicati da claudioweb non sono più scaricabili, qualcuno che li ha gia scaricati potrebbe metterli in linea?

    grazie

  43. #43
    User L'avatar di angelo_ew
    Data Registrazione
    Nov 2005
    Messaggi
    113
    confermo anch'io.

    Qualcuno li ha a disposizione???

    grazie mille

  44. #44
    User Attivo L'avatar di ArkaneFactors
    Data Registrazione
    Feb 2006
    Località
    Antipodi
    Messaggi
    1,481
    Citazione Originariamente Scritto da claudioweb
    le tecniche usate sono simili a quelle che fanno funzionare questo giochino...
    Citazione Originariamente Scritto da 20Q
    Stavate pensando ad un telefonino.
    Si esibisce in pubblico? Avete detto Non so, Dico Sì.
    È infiammabile? Avete detto Non so, Dico No.
    È fastidioso? Avete detto A volte, Dico No.
    Prende fuoco? Avete detto Non so, Dico No.
    Contraddizioni rilevate
    Non importa se le nostre risposte non corrispondono, poiché con il tempo il gioco modificherà le proprie risposte per riflettere la conoscenza comune. Se pensi che il gioco sia in errore, l'unico modo per risolvere il problema è giocare di nuovo.
    Citazione Originariamente Scritto da Joshua
    Strano gioco. L'unico modo per vincere è non giocare.

  45. #45
    User L'avatar di seogoogle
    Data Registrazione
    Aug 2005
    Messaggi
    193
    wow wow wow che post complimenti.
    Son dubbioso sulla reazione che dovrei avere:
    1. spararmi in testa
    2. mettermi di buon impegno a studiare..

    Ovviamente la seconda ma purtroppo chi di voi è più esperto, e dato che i link di Claudioweb non vanno più, potrbbe dire a noi profanui con lauree (o senza) non matematiche una serie di testi su cui concentrarci.

    Fermo restando che nessuno pretende di trovare in un testo la conoscenza di Low, mi piacerebbe avere delle indicazioni più precise su cosa consigliate di leggere. Se è tutto quanto linkato prima...amen, lo leggerò

  46. #46
    User L'avatar di seogoogle
    Data Registrazione
    Aug 2005
    Messaggi
    193
    Vorrei segnalarvi, e spero sia un sunto di quanto indicato dai vari Low, etc..questo documento realizzato dal famoso RandFish di seochat citato all'inizio del thread da Low:

    http://www.seomoz.org/articles/googl...ata-patent.php

    é una analisi spiegata del famoso paper di google sull IR.

    Magari è utile anche a voi...
    Ciao ciao

  47. #47
    User L'avatar di seogoogle
    Data Registrazione
    Aug 2005
    Messaggi
    193
    Segnalo anche questo:

    http://nlp.stanford.edu/IR-book/pdf/irbook.pdf

    'An introduction to information retrieval'

    Introduction mica tanto dato che son 190 e passa pagine...cmq...ed è pure molto recente. Agli esperti il giudizio.

  48. #48
    User
    Data Registrazione
    Apr 2006
    Messaggi
    224
    Scusate l'ignoranza ma mi sta scoppiando il cervello... sto ancora studiando l'IR ma non riesco a figurarmi la situazione...

    Sono confuso credo di essere fuori strada non riesco a figurarmi l'esempio della battaglia navale che ho trovato anche in wikypedia... per navi cosa si intende? quello che digita l'utente o come classifica google le query?

    Ragiono male nel pensare che un documento dovrebbe contenere termini che si avvicinano più possibile a quello che potrebbe digitare l'utente??? per esempio "ristrutturazioni" dovrebbe essere contenuto in parti strategiche della pagina come riportato nelle guide.... e magari usare anche sinonimi per espandere la ricerca...
    O l'esempio intende creare più documenti che trattano dello stesso argomento racchiusi in una dorectory???

    Mah! sono fuori strada rispetto a quello che si è detto fin' ora ???

    Potete cortesemente semplificarmi l'esempio della battaglia navale che ho capito ma che non risco a figurarmi con Google... sicuramente sono rincoglionito rispetto ai ragazzini che hanno capito al volo portate pazienza... ()

  49. #49
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Nel corso dei mesi non ho avuto molto tempo per osservare le novità sviluppate dai GTaviani su questo argomento.

    L'IR è una disciplina che richiede un bel po' di studio e questo forum l'ha affrontata con uno spirito estremamente determinato, buttandosi a capofitto nella progettazione di un motore di ricerca.

    Ma la progettazione di un motore, per quanto semplice esso possa essere, non è l'unica strada per giungere all'estrapolazione di qualche nozione utile al posizionamento. E sicuramente non è la strada più breve.

    Adesso che ho un po' più di tempo per frequentare il forum, scrivo finalmente il raccontino sulla battaglia navale da più parti richiesto. Con tanto di disegni necessari a visualizzare il problema.



    Facciamo finta di essere un motore di ricerca e vediamo un po' che metodo potremmo usare per capire quanto un documento ha a che fare con una query.

    Per semplificare al massimo le cose, prendiamo in esame un'ipotetica lingua che possiede un vocabolario composto da una sola parola: "cane".

    I documenti scritti in questa lingua possono dunque contenere solo la parola "cane", in un numero variabile di volte.

    Dobbiamo innanzitutto trovare il modo per "misurare" i documenti in base alle parole che essi contengono. Lo facciamo disegnando un segmento verticale e dividendolo con cinque tacche:



    La tacca in fondo al segmento vale zero, quella appena sopra vale uno, e così via, con la tacca in cima al segmento che vale cinque.

    Poniamo il caso di dover "misurare" i seguenti due documenti:

    Il documento A, che contiene una sola vola la parola "cane".
    Il documento B, che contiene quattro volte la parola "cane".

    Come facciamo a "misurare" i due documenti in base alle parole che contengono?

    Semplice: il documento A contiene la parola "cane" solo una volta e pertanto gli assegnamo "altezza uno", disegnandolo vicino alla tacca che vale uno.

    Il documento B contiene invece la parola "cane" 4 volte e quindi gli assegnamo "altezza 4", disegnandolo vicino alla tacca che vale 4.

    Fin qui tutto chiaro? Abbiamo semplicemente tradotto un documento in una posizione lungo un segmento verticale. Più parole "cane" contiene, e più sta in alto.



    Anche una query può essere considerata un documento e nella nostra lingua immaginaria anche le query contengono solo la parola "cane", in una quantità variabile di volte.

    Di conseguenza, anche le query possono essere posizionate lungo il segmento a seconda del numero di volte in cui la parola "cane" compare al loro interno.

    Ad esempio, se l'utente cerca semplicemente "cane", io devo consigliargli il documento A, in quanto il suo contenuto corrisponde esattamente alla query.

    Se invece l'utente cerca "cane cane cane cane", io devo consigliargli il documento B, che corrisponde esattamente a questa seconda query.

    A seconda di quante volte la parola "cane" appare nella query, io devo calcolare qual'è il documento geometricamente più vicino e proporre all'utente una lista di documenti ordinata per vicinanza geometrica dalla query.



    Ovviamente il nostro sistema possiede diverse pecche.

    Prima pecca: il segmento ha solo cinque tacche e quindi non si riesce a misurare correttamente un documento contenente la parola "cane" più di cinque volte. Soluzione: si allunga il segmento e si disegnano più tacche.

    Seconda pecca: un singolo segmento va bene per misurare i documenti scritti in una lingua che possiede una sola parola. Ma per lingue con vocabolari più grandi è necessario usare più di un segmento.

    Vediamo un esempio con una seconda lingua, che possiede due sole parole: "cane" e "gatto".

    Ci vuole un secondo segmento per misurare la quantità di volte in cui la parola "gatto" appare nei documenti.

    Allora lo disegno in orizzontale e creo una specie di schema della battaglia navale, così che un qualsiasi punto sulla scacchiera sia in grado di dirmi sia quante volte un documento contiene la parola "cane" sia quante volte contiene la parola "gatto":



    I documenti da dover analizzare sono stavolta i seguenti:

    Il documento A, che contiene 5 volte la parola "cane" e 4 volte la parola "gatto".
    Il documento B, che contiene 1 volta la parola "cane" e 2 volte la parola "gatto".

    Pertanto la posizione di A è "in alto di 5 e a destra di 4" mentre la posizione di B è "in alto di 1 e a destra di 2" (per il momento guardate solo i punti A e B sul disegno, ignorando i segmenti rossi).



    Che succede quando l'utente cerca, ad esempio, "cane gatto"?

    Succede che la query "cane gatto" (indicata con q) si posiziona alle coordinate 1:1, in quanto contiene una sola volta la parola "cane" ed una sola volta la parola "gatto", e che il documento apparentemente più vicino a q è B.

    E invece no.

    Perché il motore non misura il grado di similarità tra query e documento calcolandola semplice distanza tra i due punti bensì calcolando quanto è ampio l'angolo tra i segmenti rossi che ho disegnato sopra.

    Come potete notare, l'angolo tra i segmenti rossi appartenenti ad A e q è più stretto dell'angolo esistente tra i segmenti di q e B.

    Quindi il motore ritiene che il documento A sia più simile alla query q di quanto lo sia il documento B.

    In pratica il motore misura la similarità in base ai rapporti esistenti tra le varie parole contenute nel documento (o query).



    Iniziamo ad avvicinarci alle prime conclusioni.

    Innanzitutto va notato che il nostro linguaggio composto da due soli termini è ancora distante dai linguaggi reali, che sfruttano decine di migliaia di parole diverse.

    Se volessimo creare un sistema per la misurazione di documenti scritti in un linguaggio con soli 3 termini dovremmo aggiungere un terzo segmento a quelli disegnati sopra. Si otterrebbe una struttura 3D, simile ad un cubo di Rubik, che ospita punti in grado di fornire informazioni sui termini che compongono i documenti scritti nel linguaggio di tre termini.

    Notate però che (dovreste immaginarlo visualmente) se la query è "cane gatto" e se si aggiunge ad un documento contenente solo parole "cane" e "gatto" un terzo termine, il segmento rosso si sposterebbe e il relativo angolo si amplierebbe.

    E si amplierebbe ancora di più aggiungendo nuovi termini/dimensioni (la struttura avrebbe più di 3 dimensioni e la nostra mente non è in grado di immaginarla, ma dal punto di vista geometrico le regole non cambiano).

    Questo ci porta alla prima conclusione: fermo restando che il documento deve contenere i termini usati nella query, aumentando il numero di TERMINI DIFFERENTI nel documento ci si allontana inevitabilmente dalla query.


    Il secondo punto, altrettanto importante, è che nella realtà le tacche dei segmenti non sono mai equidistanti. Un documento che contiene 10 "cane" non è "alto" il doppio di un documento che contiene 5 "cane", ma generalmente lo è molto meno. Ciò è facilmente desumibile dalle varie formule di tf*idf esistenti.

    Questo ci porta alla seconda conclusione: l'influenza di un termine in un documento non è linearmente proporzionale alla quantità di volte in cui il termine appare. Se con una parola ripetuta X volte ottenete un effetto, per ottenere l'effetto doppio non sono sufficienti 2*X ripetizioni, ma molte di più.


    Il terzo punto è che le tacche dei segmenti relativi ai termini più diffusi nel corpus posseduto dal motore, distano l'una dall'altra meno di quanto distano le tacche dei segmenti relativi ai termini meno diffusi.

    Che significa questo? Significa che i segmenti dei termini meno diffusi hanno tacche più distanti tra loro e che (terza conclusione) la presenza di un termine poco diffuso (nel corpus) allontana il documento dalla query più di quanto faccia la presenza di un termine più diffuso.



    Queste sono le basi, sono desumibili anche dalla più semplice delle formule di tf*idf, disponibili a tutti noi fin dagli anni '70. E tante, tantissime altre regole sono deducibili da formule ben più complesse e più recenti.

    Ovviamente a tutte le considerazioni scritte si aggiunge il fatto che il motore poi tiene conto di mille altri parametri.
    Ultima modifica di Giorgiotave; 06-08-14 alle 17:19 Motivo: inserite immagini vecchie

  50. #50
    User Attivo L'avatar di must
    Data Registrazione
    Mar 2005
    Località
    Swieqi, Malta
    Messaggi
    4,327
    Segui must su Twitter Aggiungi must su Google+ Aggiungi must su Facebook Aggiungi must su Linkedin
    Citazione Originariamente Scritto da LowLevel
    Adesso che ho un po' più di tempo per frequentare il forum
    [CUT]

    @tutto il forum: per cortesia, fate caso all'ora in cui ha Enrico ha scritto questo post


    @Low: illuminante, grazie

+ Rispondi alla Discussione
Pagina 1 di 2 12 UltimaUltima

LinkBacks (?)

  1. 17-02-07, 23:04
  2. 15-02-07, 21:45
  3. 16-11-06, 16:35
  4. 09-09-06, 12:53

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.