+ Rispondi alla Discussione
Pagina 1 di 2 12 UltimaUltima
Risultati da 1 a 50 di 59

Analisi semantica delle Keyword

Ultimo Messaggio di antoInf il:
  1. #1
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Analisi semantica delle Keyword

    Ciao a tutti,
    sto studiando un modo per analizzare la semantica delle keyword, perchè voglio delle statistiche sugli accessi raggruppate per categorie(=significati?) di keyword.
    Le categorie però non le devo creare io ma si devono generare automaticamente.
    Ho scritto questo http://www.cavone.com/keywords_analyzer/ e vorrei sapere se vi convince o sto vaneggiando...

  2. #2
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    "Calcola media (m) e varianza (s) dei K, si definiscono "categorie" tutti gli oggetti che hanno: k >= m+2s"

    Qualcosa non mi torna, vuoi stablire una categoria anche in base alla varianza (*2) tra-degli oggetti?

    Spiega meglio, perche' da anni si cerca di stabilire il miglior metodo per creare delle categorie partendo da una lista di keyword.

    ---------

    Per capirci, prendi un elenco di 1.000-10.000 key, e partendo da quelle cerca di creare degli insiemi-gruppi (categorie).

    Stabilisci oggetti e related, esattamente come dici tu. Poi crei le categorie.

    Gli oggetti in comune a piu ' categorie, come li tratti?

    Semplice, dopo aver creato le categorie le ordini per "importanza", gli oggetti comuni a piu' categorie li metterai-suddividerai nelle categorie minori o maggiori, a tua scelta.

    -----------

    Ma torniamo alla questione base, come decidi quale oggetto sara' categoria?

    k >= m+2s

    Non mi sembra applicabile, nessun K supera (realmente) media + varianza, a maggior ragione media + varianza * 2

    Niente di piu' facile che mi stia sbagliando, ma se pensiamo che maggiore valga un K rispetto agli altri e maggiore dovremmo pensare che ne sia la dispersione che crea, e' un cane che si morde la coda.

    Piu' forte sara' un mio k maggiore (rispetto agli altri sara') sara' la dispersione e maggiore sara' la varianza, tanto che k non sara' mai maggiore od uguale ad m+2s.

    -----------

    Ripeto, ora sono stanco e magari dico fesserie, ma quando dici:

    "Le categorie però non le devo creare io ma si devono generare automaticamente. "

    e' come se dicessi:

    voglio creare un testo automatico-artificiale che non sia riconosciuto come tale dai motori.

    ---

    Sono pietre filosofali, chi le scopre passera' alla storia, almeno per quanto riguarda la storia informatica. Dici poco.

    Provarci significa migliorarsi e mettersi in gioco, ma riuscirci e' tutt'altra cosa.

    -----

    Certamente fa piacere ed onore che ci siano italiani che si pongano certi quesiti.

    Questo fatto (idee e quesiti innovativi) non deve stupirci, mediamente i seo italiani sono in assoluto tra i migliori al mondo, se non ci credete fate un giro tra tutti i forum esteri "di seo" che volete, e cercate-trovate discussioni che trattino argomenti che non siano le solite anticipazioni di cosa fara' questo o quel altro motore, o di come disporre i link, o di come strutturare una pagina...

    Argomenti triti e ritriti che servono solo ai gestori dei suddetti forum per fare-accumulare proseliti di bassa qualita'.

    Gli Italiani invece, credendo per loro natura storica di poter essere piu' furbi degli altri, discutono di imprese al limite del impossibile.

    Siti terraformanti, contenuti artificiali, dns ballerini, categorie automatiche, t.b. innovative, spam engine randomizzati, uso dei codici di risposta, e cosi' via.

    ----------

    Un'ultima cosa, criticatemi, se volete, e a ragione.

    Fra un po' ci sara' un evento mica da poco, il ses di milano.
    Bellissimo che lo facciano questo anno in italia.
    Parteciperanno i migliori relatori, italiani e non, gente in gamba.

    Se sarete presenti (e ne vale la pena) fate tesoro di tutte le relazioni, ma in modo distaccato e critico. Critici in positivo ed anche in negativo.

    Le conferenze plenarie, i dibattiti a larga partecipazione, hanno il pregio di mettere a confronto e di far discutere-ragionare tante persone, ma per contro finiscono immancabilmente col omogenizzare il pensiero-stile-tecnica di chi vi partecipa.

    -------

    I motori osservano come si comporta il web e si muovono di conseguenza, il web troppo spesso si basa sugli algoritmi dei motori e si plasma di conseguenza.

    Se a questo aggiungiamo una maxi riunione di esperti del settore, rischiamo di appiattirci, se vi participeremo in modo acritico.

    Del resto e' la fiera del gioco delle parti.






    I motori sono buoni perche' ci danno da campare.

    I seo sono buoni perche' lavorano per aiutare chi non sa come scalare le serp.

    Gli inserzionisti sono buoni perche' danno da campare ai wm, ed ai motori.

    I publisher onesti sono buoni perche' portano accessi agli inserzionisti che danno da campare ai motori ed agli inserzionisti stessi.

    Insomma, una grande meravigliosa famiglia.

    Di questo si parlera', di come tutto scorre come deve scorrere, di come motori, seo, publisher, inserzionisti costituiscano di fatto una sola grande roccaforte.

    -----------

    Il mio timore e' che tutto questo perbenismo interessato comporti-produca come principale conseguenza un appiattimento generale delle "genialita'" italiana.

    Non pretendo, ne credo, di essere migliore di nessun altro, ma grazie anni ed anni di esperienza mi arrogo essere in grado di saper valutare quando un seo scrive qualcosa di grande-geniale o meno.

    Il problema e' che spesso chi scrive la genialata-gegnalata-gegnialata non si rende conto di averlo fatto, ma cosi' va il mondo, amen, ci sara' qualcuno che sfruttera' il suo post al posto suo (gioco di parole).

    Ma di fatto la scrivono...

    ----------

    Concludendo, k >= m+2s ???

    Riconcludendo, il ses di milano vi servira' se sarete in grado di fare tesoro di cosa vi diranno (per quanto riguarda l'ottimizzazione dei siti al fine di scalare le serp) per poi distaccarvene il piu' possibile.

    E' ovvio che solo un mentecatto puo' distribuire consigli e giudizi prima di aver toccato con mano cosa avverra' realmente.

    Nessun problema, sono un cretino, lo ammetto.
    Key e' un cretino.

    --------------


    In compenso sono certo che ci sveleranno ogni trucco per:


    "Come si crea un sito che risulti impostato bene sia per i motori di ricerca che per i visitatori."

    "Questa sessione illustra i metodi migliori per sviluppare l'analisi delle keyword"

    "Il posizionamento a pagamento è una forma di pubblicità sui motori di ricerca che fornisce visibilità in testa ai risultati in cambio di un pagamento."

    "Questa sessione è dedicata a come si realizza un sito adatto ad essere indicizzato dai motori di ricerca e a come alcuni aspetti della struttura tecnologica o del design del sito possano incidere positivamente sul ranking del sito nei risultati naturali dei motori."

    "Le pagine web o l'archivio dei prodotti memorizzati in un database, così come le pagine generate dinamicamente, possono risultare invisibili ai motori di ricerca. Scopri la soluzione a questo problema analizzando tutti gli elementi da considerare quando si gestiscono dei siti dinamici. "

    "Una strategia di linking efficacie è fondamentale, ma quello che funzionava una volta potrebbe non essere più valido nel 2006. Questa sessione affronterà tematiche come la compravendita dei link, l'ottimizzazione della struttura interna dei link e se, nel caso di network di siti, i link reciproci possono essere considerati link spam."

    --------- ecc ecc

    Proprio vero, un decennio che faccio questo mestiere e so di non sapere nulla.

    Per fortuna che la sagra dell'ovvieta' di milano mi-ci salvera', cosi' da sentirmi al caldo, anche io parte infinitesimale di un tutto precotto.

    Si parla di link, di pagine dinamiche, di scelta delle keyword.
    Sono sessioni a tempo determinato. Se scrivo una sciocchezza su un forum chiunque avra' tutta la vita per contestarmela, ma li' e' mordi e fuggi.

    Ti dicono cosa e come fare, e gli ultimi 5 minuti prima della pausa sono per le obbiezioni, neanche il tempo di esporle che sara' il momento di un' altra sessione.

    Un sito adatto ad essere indicizzato dai motori?
    In teoria tutti lo devono essere.

    L'ottimizzazione della struttura interna dei link?
    Per favore, non diamo fiato alle trombe inutilmente, vale tutto ed il contrario di tutto. Di quale motore si parla ? Ce ne sono 3, faranno un distinguo?

    L'ottimizzazione della struttura interna dei link?
    Ma siamo pazzi?
    Anni di studi per ottenere-capire il minimo indispensabile e poi basta iscriversi e tutto sara' svelato?

    "...design del sito possano incidere positivamente sul ranking del sito nei risultati naturali dei motori"

    Incidere positivamente?
    Non si puo' crescere ma al massimo non diminuire, si puo parlare di come non farsi penalizzare, ma non di come incidere positivamente.

    Risultati naturali?
    Ma se scrivono "risultati naturali" significa che esiste anche un risultato forzato, non naturale. Magari ne spiegheranno la differenza tra una sessione e l'altra.... beato chi ci crede.

    -----------

    Basta cattiverie, sono sprecate.

    Partecipate in massa al ses di milano e fate tesoro delle strategie che vi convinceranno... rifiutando-contestando-sminuendo-inficiando-svilendo-denigrando-schifando-respingendo-reppellendo-isolando-allontanando-rinnegando-disconoscendo-ignorando-evitando-superando-scavalcando-deliggimando-ricredendo-scoraggiando-scostandosi-emarginando-condannando-difendendosi-combattendo-battagliando-opponendosi-barricandosi-apatendosi-estraniando-scomunicando-sconsigliando-sputtanando-smerdando-criminallizzando-defecando su tutto il resto.

  3. #3
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    42,765
    Visita il canale Youtube di Giorgiotave
    Hey Agoago,

    che ne dici di riportare le tue riflessioni qui, mi sembra più corretto
    http://www.giorgiotave.it/forum/view...4155&start=105

    Controlla i corsi base di Search On: SEO, Google Ads e Web Analytics.
    Se ti interessa qualcosa di più avanzato ti consiglio il Social Media Strategies e il Search Marketing Connect.

  4. #4
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Wow! Premesso che mi hai fatto commuovere più di una volta, veniamo a noi:

    Gli oggetti in comune a piu ' categorie, come li tratti?
    Semplice, dopo aver creato le categorie le ordini per "importanza", gli oggetti comuni a piu' categorie li metterai-suddividerai nelle categorie minori o maggiori, a tua scelta.
    E se ripetessimo l'algoritmo ricorsivamente, escludendo le "categorie" del livello superiore? Otterremmo delle sotto-categorie...

    Ma torniamo alla questione base, come decidi quale oggetto sara' categoria?

    k >= m+2s

    Non mi sembra applicabile, nessun K supera (realmente) media + varianza, a maggior ragione media + varianza * 2
    In teoria, se la distribuzione è di Gauss (ipotesi da verificare nel linguaggio "pseudo-naturale" delle frasi scritte nella textBox di ricerca...), l'80% dei "campioni"
    (in questo caso le keywords) si distribuisce tra m+-2s...(il "meno" mi preoccupa...)

    In ogni caso i risultati che sto ottenendo sono soffisfacenti, ma stanno uscendo anche cose strane...

    Un'altra soluzione potrebbe essere quella di passare agli spazi vettoriali: una keyphrases appartiene ad una categoria(=significato?) sel il prodotto scalare dei due vettori tende a 1 (ovvero sono vettori "paralleli")...Ma come assegnare ad una frase un "insieme di coordinate"???

  5. #5
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Eureka!

    Ho implementato l'algoritmo indicato nel suddetto articolo!
    I risultati, sulla base delle keyword utilizzate per accedere al mio sito nell'ultima settimana (in versione limitata 8) ), sono disponibili su questa pagina:
    http://www.cavone.com/services/KeyphraseAnalyzer.asp

    Davvero interessante...c'è da fare un pò di pulizia sulle preposizioni semplici e articolate, i verbi, le congiunzioni, le parola inglesi ...

    Quasi quasi lo faccio diventare un Tool disponibile a tutti... a pagamento ovviamente

  6. #6
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da paocavo
    Un'altra soluzione potrebbe essere quella di passare agli spazi vettoriali: una keyphrases appartiene ad una categoria(=significato?) sel il prodotto scalare dei due vettori tende a 1 (ovvero sono vettori "paralleli")...Ma come assegnare ad una frase un "insieme di coordinate"???
    A cosa ti serve l'"insieme di coordinate"? Non puoi semplicemente scegliere dei centroidi ed assegnare la keyphrase al centroide più vicino?

    Molti algoritmi di clustering fanno così, usando tecniche iterative per aggiornare le coordinate dei vettori dei centroidi fino a quando i contenuti degli insiemi (le keyphrase assegnate ai centroidi) non cambiano più.

    Ma questo approccio vettoriale vanificherebbe il lavoro che hai fatto finora, che si basa anche sull'analisi logica delle keyphrase.

  7. #7
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da LowLevel

    Ma questo approccio vettoriale vanificherebbe il lavoro che hai fatto finora, che si basa anche sull'analisi logica delle keyphrase.
    Infatti...continuo con la prima...

  8. #8
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da paocavo
    Infatti...continuo con la prima...
    Ottima decisione. Personalmente, però, rivedrei un attimo il calcolo di K.

    E' possibile che si ottengano risultati migliori applicando una forma di term weighting invece che basandosi solo sul numero delle occorrenze. Bisognerebbe provare.

  9. #9
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da LowLevel
    E' possibile che si ottengano risultati migliori applicando una forma di term weighting invece che basandosi solo sul numero delle occorrenze. Bisognerebbe provare.
    http://www.sims.berkeley.edu:8000/ courses/is202/f98/Lecture17/sld001.htm mi sembra un ottimo punto di partenza...

    Sviluppando l'implementazione dell'algoritmo mi è "avanzato" un dato che non trascurerei: l'Hit count delle KeyPhrases (non Keyword) .
    Posso assumerlo come "fattore arcano" nel calcolo del "peso" delle Keyword costituenti o il peso lo si stabilisce a priori?

  10. #10
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da paocavo
    Posso assumerlo come "fattore arcano" nel calcolo del "peso" delle Keyword costituenti o il peso lo si stabilisce a priori?
    Penso che se deciderai di applicare una formula di term weighting anche semplice (la classica tf*idf va bene), terresti indirettamente conto anche delle keyphrase, visto che con l'aumentare delle istanze di una keyphrase sale inevitabilmente l'hit count dei singoli termini che la compongono.

    Se non hai problemi di spamming, ovvero la necessità di proteggere l'algoritmo dalla presenza eccessiva di troppe keyphrase identiche, puoi anche fregartene della normalizzazione.

    Io normalizzo sempre, di norma. E generalmente introduco anche una funzione che mi eviti le crescite lineari, come un logaritmo. A volte ho usato anche qualche funzione trigonometrica, a seconda del tipo di crescita che mi piace dare alla curva.

  11. #11
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da LowLevel
    Penso che se deciderai di applicare una formula di term weighting anche semplice (la classica tf*idf va bene), terresti indirettamente conto anche delle keyphrase, visto che con l'aumentare delle istanze di una keyphrase sale inevitabilmente l'hit count dei singoli termini che la compongono.
    Grazie infinite! ci provo subito anche se, forse, dovrei tener conto del peso delle keyword in base alla loro funzione grammaticale. Provo ad azzardare:

    PGramm_Key = 0.80 per i complementi (c. oggetto, c. di termine, c. di specificazione, ...)
    PGramm_Key = 0.19 per i verbi
    PGramm_Key = 0.01 per le congiunzioni, le preposizioni semplici ed articolate, ecc...

    E provare con tf*idf*PGramm_Key

  12. #12
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da paocavo
    Grazie infinite! ci provo subito anche se, forse, dovrei tener conto del peso delle keyword in base alla loro funzione grammaticale.
    E' un'idea, ma conta che se la quantità di keyphrase è abbastanza alta, è lo stesso idf ad assegnare meno peso a congiunzioni, articoli e preposizioni.

    In genere in IR si tende ad evitare l'aumento della complessità delle formule e si cerca di progettare formule semplici che funzionino bene solo su grandi quantità di dati.

    Quindi la scelta sta a te: se il tuo obiettivo è quello di ottenere qualcosa che funzioni anche con poche keyphrase, allora l'analisi logica è benvenuta. Se invece devi lavorare su grandi quantità di dati, il contributo dell'analisi logica diventa minimo.

  13. #13
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da LowLevel
    Quindi la scelta sta a te: se il tuo obiettivo è quello di ottenere qualcosa che funzioni anche con poche keyphrase, allora l'analisi logica è benvenuta. Se invece devi lavorare su grandi quantità di dati, il contributo dell'analisi logica diventa minimo.
    I risulati su un campione delle ultime 1000 keyphrases utilizzate per il mio sito sono su http://www.cavone.com/services/KeyphraseAnalyzer.asp

    La formula finale usata è K >= mg + S

    dove mg è la media pesata sui pesi dovuti all'analisi logica.
    S è la deviazione standard. Per i miei scopi và + che bene.
    GRAZIE ancora a tutti.

    PS1: l'articolo è stato tradotto in inglese da Google, appena ho un pò di tempo lo sistemo.

    PS2: Prossimo obiettivo? Un motore di ricerca per il mio sito migliore di quello presente ora (si basa, banalmente 8) , sulla ricerca esatta della stringa passata, all'interno dei Title e Body dei miei articoli.

  14. #14
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Re: Eureka!

    Citazione Originariamente Scritto da paocavo
    Ho implementato l'algoritmo indicato nel suddetto articolo!
    I risultati, sulla base delle keyword utilizzate per accedere al mio sito nell'ultima settimana (in versione limitata 8) ), sono disponibili su questa pagina:
    http://www.cavone.com/services/KeyphraseAnalyzer.asp
    Adesso sono calcolabili, oltre ai dati statistici, gli insiemi di keyprases "related", la relativa "categoria" (significato?), la funzione grammaticale delle keyword-categoria, e la "top keyphrase". Alcuni insiemi/categorie però sono, a loro volta, relazionati: che fare?

  15. #15
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Paocavo vedo che hai abbandonato la precedente formula k >= m+2s (infatti provando a me era sembrata poco pratica) per passare a :

    "La formula finale usata è K >= mg + S

    dove mg è la media pesata sui pesi dovuti all'analisi logica.
    S è la deviazione standard. Per i miei scopi và + che bene.
    GRAZIE ancora a tutti. "

    Tuttavia anche con questa non mi ci ritrovo, nel senso che dal lato pratico analizzando gruppi di 1000 frasi alla volta mi ritrovo con molte decine di parole superiori a mg+s

    Insomma prima non trovavo una categoria che fosse una, adesso ne trovo troppe.

    Non lo dico per rompere le scatole, ma siccome su questo argomento sbatte la testa mezzo mondo seo, riuscire a trovare una buona formula non sarebbe cosa da poco...

    ------

    Sconsiglio la lettura di quanto segue ai puristi, si tratta di roba da smanettoni, per la serie a caccia della pagnotta.

    Ipotizziamo che io abbia in una mia dir 1000 pagine e che voglia suddividerle per un minimo comune denominatore.

    Le 1000 pagine trattano un po' di tutto e non ho voglia di passarmele a mano una ad una per decidere sotto quale "categoria" metterle.

    La pigrizia e' una brutta bestia ma a volte aiuta ad aguzzare l'ingegno.

    1) conto qunate volte appare una parole per ogni pagina, per esempio per 1000 pagine avro' una classifica generale di 22.000 parole.

    2) parto dalla prima parola in classifica, ipotizziamo che la parola suoneria appaia in tutto nella mia dir 10.000 volte, e per di piu' sia presente in ogni mia pagina (esempio estremo, per far capire come funziona il tutto). A questo punto calcolo: valore key/ numero delle pagine nella quale appare la key suoneria.
    Pertanto in questo caso: 10.000/1000 = 10

    3) Tutte le pagine che hanno-contengono 10 o piu' volte la parola suoneria le sposto dalla dir principale nella sottodir suoneria.

    4) Loop

    Oviamente con loop intendo dire che si riinizia da capo, a fare tutti i conteggi. Adesso nella mia dir principale le pagine non saranno piu' 1000 ma magari solo 590, e non e' detto che la key che prima era seconda in classifica (dopo suoneria) adesso sia diventata prima.

    Questo perche' se la seconda key in classifica appariva spesso in unione con la prima probabilmente, dopo che ho spostate tutte le pagine che contenevano la prima key suoneria (con un valore = o > alla media) nella sottodir suoneria, anche il secondo termine avra' subito un duro colpo, e magari adesso apparira' come quinto...

    Procedo in loop fin tanto che non raggiungo una fase che non mi permetta piu di creare sottodir ben popolate, diciamo almeno un cinquantesimo del valore iniziale.

    Pertanto se non saro' piu' in grado di assegnare ad una sottodir almeno 20 pagine il loop finisce.

    Le rimanenti pagine non catalogabili le lascio nella dir principale, una sorta di gruppo misto del parlamento.

    Sistema semplice ed efficace, senza pretesa alcuna, ma molto pratico soprattutto per chi lavora nel setttore dello spam sui motori.

  16. #16
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da agoago
    ...Insomma prima non trovavo una categoria che fosse una, adesso ne trovo troppe.
    Non lo dico per rompere le scatole, ma siccome su questo argomento sbatte la testa mezzo mondo seo, riuscire a trovare una buona formula non sarebbe cosa da poco...
    All'aumentare del numero di keyphrases (dell'ordine di 10000) i risultati ottenuti sono accettabili e le differenze tra media aritmentica e media pesata (con i pesi "grammaticali" suggeriti) si assottigliano sempre più.

  17. #17
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da agoago
    ...
    Sistema semplice ed efficace, senza pretesa alcuna, ma molto pratico soprattutto per chi lavora nel setttore dello spam sui motori.
    Qualcosa del tipo:

    Codice:
    // Analysis
    pageCounter = 0
    for each page in directory
        for each word in page
    	if NotIsCommon(word) then
    	   wordcounter(word).Hit ++
               wordcounter(word).Pages.add(page.name)
    	end if
        next
        pageCounter++
        Weight(word) = wordcounter(word).Hit/pageCounter  
    next
    
    // File Moving
    for each word in wordcounter
        for each page in word.Pages
            if page.word.Hit > Weight(word) then
               category = page.word 
               MovingFile(page,category)        
            end if
        next
    next

  18. #18
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Citazione Originariamente Scritto da paocavo
    Citazione Originariamente Scritto da agoago
    ...
    Sistema semplice ed efficace, senza pretesa alcuna, ma molto pratico soprattutto per chi lavora nel setttore dello spam sui motori.
    Qualcosa del tipo:

    Codice:
    // Analysis
    pageCounter = 0
    for each page in directory
        for each word in page
    	if NotIsCommon(word) then
    	   wordcounter(word).Hit ++
               wordcounter(word).Pages.add(page.name)
    	end if
        next
        pageCounter++
        Weight(word) = wordcounter(word).Hit/pageCounter  
    next
    
    // File Moving
    for each word in wordcounter
        for each page in word.Pages
            if page.word.Hit > Weight(word) then
               category = page.word 
               MovingFile(page,category)        
            end if
        next
    next

    Esatto, avevo messo un passaggio in piu' per gestire quei casi molto frequenti, soprattutto a fine loop, nel caso valore key e numero delle pagine nella quale appare la key siano identici per 2 o piu' key.

    In questo caso dico: se kay A appare 100 volte in 10 pagine e key B appare 100 volte su 10 pagine, calcola quele delle 2 key sia distribuita in modo piu' omogeo.

    Pertanto se la key A, per sempio, appare 91 volte in una pagina ed 1 volta in 9 pagine (totale 100 su 10) e la key B appare magari 50 volte su 1 pagina, 42 su un altra, ed 1 volta sulle rimanenti 8 allora previlegio la B.

    A dire il vero uso anche un altro accorgimento a monte di ogni parola, nel senso che per ogni parola, a priori, escludo dai valori tutti quelli estremi verso l'alto.

    Pertanto se la parola contata 10.000 volte su 1000 pagine appare magari in 10 pagine per dire 50 o piu' volte, cioe' almeno 5 volte oltre la media, allora levo dai valori iniziali quelle 10 pagine ed avro': 9.300 volte su 990 pagine. Posso fare anche un paio di cicli in questo senso, per tutte le key.

    Dopo di che procedo normalmente come da schema iniziale.

    So che e' un sistema banale, ma come molti so anche che quando si tratta di discutere di massimi sistemi sui forum e' una cosa (pane per il cervello), quando si tratta di pagare l'affitto e' tutta un'altra faccenda.

  19. #19
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Aggiungo, credo che il problema maggiore per identificare le categorie sia dato dal fatto che si cerchi sempre di trovare il miglior "sistema", e non un si cerchi di sfruttare l'unione di piu' tecniche.

    Voglio dire, ammettiamo che 4 wm affrontino il problema, ed ognuno di essi a modo suo proponga una soluzione valida, accettabile, diversa dalle altre 3.

    Ecco, a mio giudizio, forse l'unione, l'accorpare (magari sommando i risultati delle 4 soluzioni diverse) i valori di tutte e 4 le soluzioni potrebbe portare veramente ad un risultato ideale.

    Ognuno sostiene il proprio metodo, lo migliora ed affina nel tempo come per dimostrare, a se stesso ed agli altri, che sia quello il migliore, e non pensa che unendo-sommando punti di vista e risultati diversi, anche molto diversi tra di loro, si potrebbe raggiungere un compromesso finale assolutamente migliore nei fatti di tutte le tecniche prese singolarmente.

    Probabilmente e' questa cosa che ci "frega" veramente, non eventuali errori nelle formule con varianze, centroidi o banali frequenze.

  20. #20
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da agoago
    Probabilmente e' questa cosa che ci "frega" veramente, non eventuali errori nelle formule con varianze, centroidi o banali frequenze.
    Ovviamente lo scambio di idee non può che essere costruttivo (il solo fatto che esiste qualcun altro che si pone domande ed obiettivi simili alle proprie non può che far piacere e ci fa sentire meno "folli"...)

    L'unione (o l'"intersezione" ) di idee e soluzioni è sicuramente una strada da percorrere senza però dimenticare gli obiettivi iniziali che ci si era preposti: nel mio caso si tratta di categorie di Keyphrases inserite nella textbox di Google, nel tuo caso categorie di contenuti testuali presenti nelle pagine web. Immagino che gli algoritmi da utilizzare siano differenti data la diversità nelle complessità: grammaticale, spaziale e computazionale...

  21. #21
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Altri tools

    Googlando ho trovato questi tool
    li conoscete gia? che ne pensate?

  22. #22
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Risultati finali (?)

    Premesso che l'obiettivo era raggruppare le keyprases inserite nei motori di ricerca per giungere al nostro sito (per meri motivi statistici) gli ultimi sviluppi sull'algoritmo proposto ed i risultati della sua implementazione
    sono disponibili nel link indicato nel primo post di questo 3D.

    Magia delle magie...alla fine della fiera è risultato che le "Top Keyphrases" sono, in pratica, i nomi delle pagine web del sito!

  23. #23
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Re: Risultati finali

    reply by error

  24. #24
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Paocavo scrive:

    "PS: Magia delle magie...alla fine della fiera è risultato che le "Top Keyphrases" sono, in pratica, i nomi delle pagine web del sito! "

    Studio tutto il tuo sistema con attenzione perche' sembra molto interessante, lo testo e poi riportero' (anche io) cosa mi avra' restituito come risultati.

    Certo che se anche i miei risultati concordassero con i tuoi (e non mi stupirei... "i nomi delle pagine web del sito") sarebbe tutta da studiare, da discutere.

    La discussione sarebbe se i i motori si "basano" sul lavoro dei wm o viceversa, o magari con reciprocita'.

    Di certo molto interessante.

  25. #25
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Paocavo scrive:

    "PS: Magia delle magie...alla fine della fiera è risultato che le "Top Keyphrases" sono, in pratica, i nomi delle pagine web del sito! "

    Studio tutto il tuo sistema con attenzione perche' sembra molto interessante, lo testo e poi riportero' (anche io) cosa mi avra' restituito come risultati.

    Certo che se anche i miei risultati concordassero con i tuoi (e non mi stupirei... "i nomi delle pagine web del sito") sarebbe tutta da studiare, da discutere.

    La discussione sarebbe se i i motori si "basano" sul lavoro dei wm o viceversa, o magari con reciprocita'.

    Di certo molto interessante.

  26. #26
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da agoago
    La discussione sarebbe se i i motori si "basano" sul lavoro dei wm o viceversa, o magari con reciprocita'.

    Di certo molto interessante.
    Attendo i tuoi risultati! 8)

  27. #27
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da agoago
    La discussione sarebbe se i i motori si "basano" sul lavoro dei wm o viceversa, o magari con reciprocita'.

    Di certo molto interessante.
    Attendo i tuoi risultati! 8)

  28. #28
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Re: Risultati finali (?)

    Come determinare le sotto-categorie (?):
    - Si ordinano le categorie per Ki decrescente e si evidenziano i relativi MUKP ("Top Keyphrase")
    - Si definiscono sottocategorie (di livello k) le categorie che compaiono nei MUKP "precedenti" nell'elenco ordinato precedente (di livello k-1).
    La procedura per il calcolo delle categorie è, evidentemente, ricorsiva.
    Sulla base dell'interessante articolo di Andrea_TSW sulle reti semantiche potremmo dire che quelli che definisco "keyphrases sets" non sono altro che mini domini di conoscenza e la procedura per il calcolo delle sotto-categorie un possibile algoritmo per la determinazione di una Rete Semantica. Arduo?

  29. #29
    an
    an è offline
    User Newbie
    Data Registrazione
    May 2006
    Messaggi
    2

    Reti semantiche

    Mi sposto in questo forum dove possiamo parlare più per esteso.
    I tuoi domini di conoscenza non sono reti semantiche perchè le reti semantiche hanno la proprietà di avere i nodi collegati fra loro.

    Le reti di cui parlavo nell'articolo sono reti di apprendimento in quanto riescono ad aggiungere nuovi nodi ed archi modificando i pesi di questi relazioni. Un esempio di di sistemi di questo tipo sono le reti neurali.

    Mi sono letto i post precedenti e ho testato il tuo esempio che trovo molto interessante.
    Se volessi applicare una rete semantica al tuo programma punterei su una "definitional network", una rete che considera le relazioni IS-A; tanto per capirci "configurare server dhcp" e "configuare server linux" sono entrambi figli di "configurazione server".

    Parlando del tuo sistema in particolare ho notato una cosa forse marginale ma che ho trovato interessante: tutti i sistemi che conosco implementano il concetto di "stop words", cioè si da per scontato che articoli, preposizioni etc. non diano significato aggiunto al testo e quindi vengono eliminati. Tu invece li mantieni anche se con peso marginale; in effetti penso che sia una scelta giusta, perchè a google fa differenza se li scrivi o no in una ricerca.

    Buon esempio del fatto che a volte è utile provare a fare una cosa senza voler a tutti i costi seguire la strada già asfaltata.

  30. #30
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Re: Reti semantiche

    Citazione Originariamente Scritto da an
    I tuoi domini di conoscenza non sono reti semantiche perchè le reti semantiche hanno la proprietà di avere i nodi collegati fra loro.

    Le reti di cui parlavo nell'articolo sono reti di apprendimento in quanto riescono ad aggiungere nuovi nodi ed archi modificando i pesi di questi relazioni. Un esempio di di sistemi di questo tipo sono le reti neurali.
    Probabilmente non sono stato chiaro nel post precedente, per rete semantica non intendo i domini di conoscenza ma la procedura (ricorsiva) descritta per la determinazione delle "categorie" e sotto-categorie genera, credo, una rete semantica. Ad esempio:
    Cat 1 livello: Linux
    Cat 2 livello: Wireless Linux
    Cat 3 livello: configurare Scheda Wireless Linux
    Cat 3 livello: Scheda Wireless D-Link Linux

    Mi sono letto i post precedenti e ho testato il tuo esempio che trovo molto interessante.
    Se volessi applicare una rete semantica al tuo programma punterei su una "definitional network", ...

    ...
    Buon esempio del fatto che a volte è utile provare a fare una cosa senza voler a tutti i costi seguire la strada già asfaltata.
    Infatti lo sforzo iniziale è stato proprio quello di pensare in prima persona senza googlare sull'argomento, dopodichè mi sto mettedo a studiare che cosa dicono i grandi pensatori dell'intelligenza artificiale o ... come diceva Alan M. Turing: "Intelligenza Meccanica"

  31. #31
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin

    Re: Risultati finali (?)

    Citazione Originariamente Scritto da paocavo
    -Data la totalità, ad una certo istante di tempo, delle keyphrases (KP) ricevute:
    ...
    - si determina l'insieme "related" di KP che contengono la KW
    - All'interno di ciascun insieme related le KP sono caratterizzate anche dalla loro molteplicità KPM (numero di volte che si è ricevuta la medesima Keyphrase)
    - Per ogni insieme Related esiste la KP con molteplicità massima (la definiamo MUKP=Most Used Keyprase)
    ...
    Scusate se mi quoto da solo ma ritengo che gli insiemi "related" ottenuti (o, come li dice P. Norvig, "bags of words" ...col senno di poi), una volta ordinati per KPM decrescente, possono essere delle ottime fonti di keyword da utilizzare per i propri annunci ADWords.
    L'utilità di tali keyword è dimostrata dal fatto che sono quelle effettivamente utilizzate dagli stessi utenti del sito e non quelle "pensate" dal webmaster o da altri sistemi (es. https://adwords.google.com/select/KeywordToolExternal).
    E' vero che se il webmaster è anche un buon SEO allora le cose dovrebbero coincidere ma...spesso si riscontrano delle sorprese e si scopre che siamo indicizzati bene anche per altre keyword a cui non avevamo posto attenzione o per una semplice combinazione di fattori..arcani!

  32. #32
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    ...lo studio continua...
    memorizzando tutti i risultati in un database si ottengono report molto interessanti come quello che si evince dalla seguente query:

    Codice:
    SELECT keyword, keyphrase, hits, first_time, last_time
    FROM category INNER JOIN BagOfWords ON category.id_category = BagOfWords.id_category
    ORDER BY hits DESC;
    dove la tabella delle categorie, ovviamente, è ottenuta automaticamente
    sulla base della analisi suddetta...

  33. #33
    User
    Data Registrazione
    Mar 2006
    Messaggi
    130
    Scusate, mi intrometto un secondo per esprimere un mio dubbio sull'argomento (che mi interessa particolarmente, anche se sicuramente non sono cosi' esperto come voi e molto probabilmente sto' per dire un mucchio di fesserie)...

    Il mio dubbio, ma magari dico un'idiozia, è dovuto al fatto che nella nostra lingua abbiamo parole con significato differente a seconda del contesto, e quindi o a priori si conosce il contesto in cui analizzare i termini, o altrimenti come si può generalizzare l'analisi?
    Negli esempi che avete riportato, i test sono fatti nel contesto dell'informatica (o chiamiamolo anche macro-contesto) e questo risolve già l'incognita... ma immaginate l'analisi della frase:

    "installare una rete"

    Senza conoscerne il contesto potrebbe essere sia in ambito informatico, che nel'ambito fai-da-te (esempio idiota, ma era per farmi capire)...

    Quindi come si puo' analizzare questa soluzione senza saperne il contesto?

    Ok, ho delirato a sufficienza... scusatemi e perdonate l'intrusione.....

  34. #34
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da CZero
    Negli esempi che avete riportato, i test sono fatti nel contesto dell'informatica (o chiamiamolo anche macro-contesto) e questo risolve già l'incognita... ma immaginate l'analisi della frase:

    "installare una rete"
    Senza conoscerne il contesto potrebbe essere sia in ambito informatico, che nel'ambito fai-da-te (esempio idiota, ma era per farmi capire)...
    Quindi come si puo' analizzare questa soluzione senza saperne il contesto?
    Ciao CZero!
    concordo con quanto hai detto ma se rileggi il primo post di questo 3D l'obiettivo principale di studio è l'analisi delle keyword per giungere ad un (determinato) sito web quindi è implicita la restrizione ad un determinato "macro-contesto". Ad ogni modo l'algoritmo proposto può essere esteso (come è stato accennato per il discorso sulle sotto-categorie) per la determinazione di reti semantiche.
    Probabilmente il fatto che una determinata frase può significare differenti cose vorrà dire che siamo davanti ad un nodo di una struttura ad albero

  35. #35
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da CZero
    Scusate, mi intrometto un secondo per esprimere un mio dubbio sull'argomento (che mi interessa particolarmente, anche se sicuramente non sono cosi' esperto come voi e molto probabilmente sto' per dire un mucchio di fesserie)...
    Ma non sei l'autore del sito dedicato agli strumenti semantici per WebMasters? Complimenti per la modestia!! 8)

  36. #36
    User
    Data Registrazione
    Mar 2006
    Messaggi
    130
    ...ecco vedi, che mi ero perso per strada un pezzo

    Il sitoche dici è il mio, un progetto nato un po' di mesi fa sul quale sto' lavorando (a rilento perche' ho poco tempo)... pero' il mio approccio è stato quello di partire da una base dati e analizzare dei dati che ricevo... il probema grosso di questi dati è individuare gli errori (parole scritte male e simili)... e cmq, per ora ho deciso di crearmi dei dizionari da cui partire, per poi passare alle categorie/contesti e quindi all'analisi...

    Sono giunto alla concllusione che senza un bel dizionario non si va da nessuna parte!

  37. #37
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    E' esattamente come dite.

    Il primo passo e' di raggruppare in sottocategorie un insieme ben determinanto.

    Il secondo sarebbe quello di raggruppare in sottocategorie insieni generici, ed in questo caso entrano in gioco sinonimi, contrari, semantica e via dicendo.

    Diciamo che siamo nella prima fase, che di suo e' gia' abbastanza complicata, appena superato questo primo difficile lavoro dovremo affrontare il secondo aspetto, che si preannuncia ben peggiore!

  38. #38
    User
    Data Registrazione
    Mar 2006
    Messaggi
    130
    ci sarebbe anche una cosa che non va trascurata troppo... e cioe' il db, perche', per esperienza, ti ritrovi a manipolare in un attimo centinaia di migliaia di record... e questo nn è bello per le prestazioni...
    Uno sbaglio che feci all'inizio fu di sottovalutare questo aspetto e cambiare poi in corsa la struttura è stato un bel casino :S

  39. #39
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da CZero
    ci sarebbe anche una cosa che non va trascurata troppo... e cioe' il db, perche', per esperienza, ti ritrovi a manipolare in un attimo centinaia di migliaia di record... e questo nn è bello per le prestazioni...
    Uno sbaglio che feci all'inizio fu di sottovalutare questo aspetto e cambiare poi in corsa la struttura è stato un bel casino :S
    Infatti...è fondamentale una progettazione ad hoc del modello relazionale che sta alla base del DB. Per far ciò è però necessario aver fatto prima per bene l'analisi funzionale (la sequenza delle "operazioni") del problema...spesso facciamo il contrario ..

  40. #40
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da agoago
    ...
    Il secondo sarebbe quello di raggruppare in sottocategorie insiemi generici, ed in questo caso entrano in gioco sinonimi, contrari, semantica e via dicendo...
    Prima di passare ad insiemi generici ricordo che:
    come ho detto nel primo post del 3D lo scopo di questa analisi era raggruppare le visite provenienti da ricerche sui MDR in categorie "auto-detected" di keywords in modo da avere un report sintetico su quali siano le sezioni di un sito web che "tirano" di più.
    Completata questa fase con buoni risultati mi propongo ora il seguente nuovo obiettivo:
    1) Dato che un keyphrase può comparire in diffenti categorie è possibile determinare un categoria "principale" per una data KeyP? Se si come?
    Un idea potrebbe essere quella di tener conto di:
    1.a) La posizione della parola che identifica la categoria all'interno della keyphrase.
    1.b) La "forza" della categoria, cioè il numero di keyphrases che costituiscono la corrispondente BagOfWords.

    Infatti se da un lato il contenuto informativo (entropia?) di una Keyphrase
    utilizzata nei motori di ricerca è molto spesso confinato nelle primissime posizioni all'interno della frase, dall'altro non si dovrebbe trascurare l'effetto di "specializzazione" introdotto da categorie "deboli"...

  41. #41
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Come Paocavo ben sa, mi sto dedicando a questo bellissimo studio su come creare delle categorie in base ad un elenco di key, tematiche e no.

    Devo dire che pensavo fosse piu' semplice.

    Innanzitutto mi sono scontrato con i limiti hardware e di programmazione, uso un pc solo per questa analisi e mi si inchioda regolarmente.

    Poi ho problemi di ordine matematico, ho notato che non riesco a trovare un algoritmo che vada bene sempre, ho come l'impressione che in una prima fase dovro' analizzare il tipo di key (lunghezza, numero, ecc ecc) e poi decidere quale algoritmo usare a seconda della lista di key.

    Inoltre vado ciucco con le lingue, uso sempre key inglesi e cosa sembra funzionare per la lingua inglese non va per quella italiana, un vero disastro.

    In compenso ero partito per fare un semplice test per vedere se i miei valori erano simili a quelli di Paocavo, ora mi sto appassionante perche' e' veramente un argomento bellissimo, oltre ogni mia piu' rosea aspettativa.

    Auguro a chi ha un po' di tempo di provarci, perche' e' veramente stimolante e a mio giudizio puo' dare anche grosse soddisfazioni in campo seo.

  42. #42
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da agoago
    Innanzitutto mi sono scontrato con i limiti hardware e di programmazione, uso un pc solo per questa analisi e mi si inchioda regolarmente.
    Effettivamente sono in ballo strutture dati abbastanza articolate, oltre ad un buon processore e tanta RAM il lavoro si facilita se, a seguito di una progettazione Object Oriented, si adottano in maniera massiccia Collection di Oggetti e recordset disconnessi per gli ordinamenti e raggruppamenti...


    Poi ho problemi di ordine matematico, ho notato che non riesco a trovare un algoritmo che vada bene sempre, ho come l'impressione che in una prima fase dovro' analizzare il tipo di key (lunghezza, numero, ecc ecc) e poi decidere quale algoritmo usare a seconda della lista di key.
    In fase di decisione della "categoria principale" sono necessarie, sopratutto per le keyword + importanti soluzioni euristiche: il sistema deve proporre le categorie "candidate" sulla base di dati statistici (data mining) e poi si lascia la possibilità di decidere all'amministratore.



    Per le categorie meno importanti l'applicazione decide in questo modo:
    a) Considera la posizione e la forza di ciascuna categoria presente in una keyphrase allora la categoria "principale" è quella più debole e che sta più a "sinistra" all'interno della frase.

    Inoltre vado ciucco con le lingue, uso sempre key inglesi e cosa sembra funzionare per la lingua inglese non va per quella italiana, un vero disastro.
    Ovviamente gli algoritmi cambiano perchè cambia la grammatica, anche se sto preparando un test ad-hoc per le key di AgoAgo...(a presto i risultati 8) ). Il test è ad hoc per il sistema di alimentazione: invece che prendere i dati dai miei log li prelevo da un file di testo.

    In compenso ero partito per fare un semplice test per vedere se i miei valori erano simili a quelli di Paocavo, ora mi sto appassionante perche' e' veramente un argomento bellissimo, oltre ogni mia piu' rosea aspettativa.
    Auguro a chi ha un po' di tempo di provarci, perche' e' veramente stimolante e a mio giudizio puo' dare anche grosse soddisfazioni in campo seo.
    Quoto, è un campo veramente affascinante!

  43. #43
    Esperto L'avatar di Everfluxx
    Data Registrazione
    Jun 2006
    Località
    Subpadania
    Messaggi
    1,263
    Domanda: a cosa serve tutto ciò?

    A costruire spamengine più avanzati?

  44. #44
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da Everfluxx
    Domanda: a cosa serve tutto ciò?
    come ho detto nel primo post del 3D lo scopo di questa analisi era raggruppare le visite provenienti da ricerche sui MDR in categorie "auto-detected" di keywords in modo da avere un report sintetico su quali siano le sezioni di un sito web che "tirano" di più.

    Effetti e scopi secondari non sono esclusi... 8) dipende da cosa devi fare,
    sta poi alla (in)coscienza del webmaster l'utilizzo dei risultati per tecniche di posizionamento poco "ortodosse", anche se qualcuno tempo fa parlava di DIV "seo-oriented"...

  45. #45
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Se siete interessati a qualche algoritmo di clustering non dipendente dalla lingua usata nei testi delle keyphrase, vi consiglio di dare un'occhiata a tutta la famiglia degli algoritmi k-means.

    Io ho ottenuto discreti risultati ignorando ogni aspetto linguistico ed usando una semplice lista di stop words.

  46. #46
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da LowLevel
    Se siete interessati a qualche algoritmo di clustering non dipendente dalla lingua usata nei testi delle keyphrase, vi consiglio di dare un'occhiata a tutta la famiglia degli algoritmi k-means.

    Io ho ottenuto discreti risultati ignorando ogni aspetto linguistico ed usando una semplice lista di stop words.
    Ho dato un'occhiata agli algoritmi di clustering k-means e devo dire che sono molto interessanti (appena avrò un pò di tempo cerchrò di implementarne uno ad-hoc) .

    In un certo senso l'algortimo che ho proposto in questo 3D è un algoritmo di clustering k-means, nel senso che:
    1) Considero media e deviazione standard del set iniziale.
    2) La "metrica" è quella on/off (il centroide esiste/non esiste nella KeyP)
    3) Categorie <=> Cluster
    4) Sub-centroidi <=> Categorie "principali"
    dovrò lavorare sui "raffinamenti" ovvero sulla determinazione dei Sub-centroidi con iterazioni ricorsive...

    Infatti, aggiungendo le stop-words inglesi al sistema sembra che i risultati non siano da scartare, vero agoago?
    PS: Ci stiamo scambiando algoritmi e set di keyphrase per confrontare i risultati. Le sue KeyP sono inglesi e generiche, le mie italiane e "tematizzate"

  47. #47
    L'avatar di LowLevel
    Data Registrazione
    Mar 2005
    Località
    Milano
    Messaggi
    1,542
    Citazione Originariamente Scritto da paocavo
    2) La "metrica" è quella on/off (il centroide esiste/non esiste nella KeyP)
    Hmm... a meno che io non abbia compreso, credo che su questo punto il tuo algoritmo differisca parecchio con quello che si può ottenere con un k-means.

    Correggimi se sbaglio: lanciando il tuo tool si nota che ogni categoria raccoglie keyphrase contenenti sempre la keyword che identifica la categoria.

    Nel k-means non è così: la keyword o keyphrase che identifica la categoria non necessariamente appare nelle keyphrase assegnate alla categoria.

  48. #48
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da LowLevel
    ...
    Correggimi se sbaglio: lanciando il tuo tool si nota che ogni categoria raccoglie keyphrase contenenti sempre la keyword che identifica la categoria.
    ...
    In effetti è proprio così! non per niente ho detto "in un certo senso..." l'algoritmo appartiene alla classe suddetta: certo, la metrica utilizzata è quella più triviale ma è pur sempre una metrica .

    Appena ho un pò di tempo passerò a quelle euclidee degli spazi n-dimensionali

  49. #49
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    A tal proposito segnalo questi due link, mi sembrano un buon punto di partenza (se qualcun altro si volesse divertire...):

    1) Classificoogle: High Level Feature-Based HTML Document Classification

    2) k-means Cluster Analysis Algorithm. - Algorithms Source Code in Java


  50. #50
    Moderatore L'avatar di paocavo
    Data Registrazione
    Mar 2006
    Località
    Lecce, Italy
    Messaggi
    1,016
    Aggiungi paocavo su Facebook Aggiungi paocavo su Linkedin
    Citazione Originariamente Scritto da LowLevel
    Se siete interessati a qualche algoritmo di clustering non dipendente dalla lingua usata nei testi delle keyphrase, vi consiglio di dare un'occhiata a tutta la famiglia degli algoritmi k-means.

    Io ho ottenuto discreti risultati ignorando ogni aspetto linguistico ed usando una semplice lista di stop words.
    Ciao,
    ho iniziato a documentermi sull'argomento "clustering K-means" e a tal proposito sto scrivendo degli appunti
    Nell'implementazione dell'algoritmo però rimangono aperte alcune questioni: Come scegliere il numero iniziale di cluster? I centroidi iniziali devono essere scelti o calcolati?
    Potrei utilizzare la suddetta procedura per le categorie al fine di considerarle "cluster" per poi applicare le iterazioni K-means?

+ Rispondi alla Discussione
Pagina 1 di 2 12 UltimaUltima

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.