Ti sei perso il VI Convegno gt? Forse puoi rimediare... www.convegnogt.it X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > GT Club > Live gt & Interviste
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti


Chiudi la discussione
 
LinkBack (1) Strumenti di discussione
Vecchio 12-06-06, 00:57   #196 (permalink)
 
L'avatar di LowLevel
 
Data di registrazione: Mar 2005
Ubicazione: Milano
Messaggi: 1,542
Invia un messaggio tramite MSN a LowLevel Invia un messaggio tramite Skype a LowLevel
Quote:
micky
1) supponiamo voglia creare un sito ricco di contenuti, assolutamente non da SEO ma da alleato stretto dei motori.
Chi mi suggerisce, il più possibile matematicamente parlando (), i contenuti e le sezioni da sviluppare.
Non sarà la matematica a darti risposte di questo genere. La matematica interviene ad un livello più basso, fornendoti gli strumenti per comprendere che cosa sta realmente facendo un motore di ricerca quando ne analizzi i comportamenti.

E' vero che una volta individuati i criteri (matematici) di un motore la matematica può venire utile per fornirti strumenti per ottimizzare un sito o il network al quale un sito appartiene, tuttavia non bisogna commettere l'errore di credere che una qualunque fase del SEO possa essere rappresentata da un modello matematico.

Regola generale: se ciò che devi analizzare ha fondamenti matematici, come molti degli algoritmi utilizzati in IR, allora può avere un senso ricorrere ai numeri. In caso contrario, è bene evitare di tirare in ballo la matematica, perché ciò che otterresti sarebbe solo una perdita di aderenza con la realtà e risultati pericolosamente fuorvianti.


Nota anche che avere una soluzione matematica non significa anche riuscire ad applicarla. Ad esempio, io ti sto per indicare una strada matematica per la scelta dei contenuti da sviluppare ma tu non riuscirai a percorrerla facilmente, in quanto serve anche una mole di informazioni che non è facile acquisire.

Esiste una "robetta" chiamata SVD (Singular Value Decomposition), è probabile che tu la conosca in quanto ho letto che hai una laurea in matematica. A tal proposito, scusami in anticipo per l'approssimazione con cui spiego: le mie basi matematiche sono appena sufficienti per capire come funzionano i modelli di IR e gli algoritmi che mi interessano.

La SVD prende in esame una matrice A m*n e la scompone nel prodotto di tre altre matrici. Una di queste tre matrici (S) è di tipo diagonale e contiene i singular value di A (per la descrizione delle altre due matrici ti consiglio di leggere questa voce di Wikipedia).

Prendendo in esame solo i k (k < min(n, m)) singular value più grandi e solo k colonne della seconda matrice e k righe della terza, è possibile costruire un'approssimazione di rank k di A, A'.

A' è uno spazio vettoriale che possiede interessanti proprietà:

1) quei vettori che in A risultavano distanti tra loro rimangono distinti anche in A';

2) quei vettori che in A risultavano più vicini vengono ulteriormente "accorpati" in A';

3) A' possiede un rank inferiore ad A, ovvero si tratta di uno spazio con meno dimensioni di A, e questo lo rende decisamente più maneggevole.


Che cosa ha a che fare tutto ciò con i motori di ricerca? Semplice, la SVD è utilizzata da un modello in uso in IR chiamato "Latent Semantic Indexing" (LSI).

Nella LSI non si fa altro che creare la matrice di partenza A costruendola con le relazioni tra termini (righe) e documenti (colonne). Ogni elemento della matrice contiene un valore >=0 che indica il peso di quel termine all'interno di quel documento.

Eseguendo la SVD su una matrice così costruita, la scomposizione produce tre matrici che rappresentano rispettivamente le correlazioni tra i termini e dei generici "concetti", le correlazioni tra i documenti ed i suddetti "concetti" e una terza matrice, quella diagonale introdotta sopra, che mette in relazione le altre due.

A questo punto, nel momento in cui si vuole calcolare l'approssimazione di A riducendo il rank nel modo sopra descritto, i vettori che rappresentano i documenti si avvicinano tra loro in funzione di quanto "semanticamente" correlati i documenti sono tra loro.

Il risultato è che i vettori di due documenti che trattano dell'argomento X si avvicinano tra loro anche se non usano affatto gli stessi termini ma grazie alle co-occorrenze negli altri documenti del corpus che i termini usati dal primo documento presentano con i termini usati dal secondo documento.

Ovviamente la tecnica della SVD non possiede in sé il concetto di "termine" o di "documento" né tantomeno ha idea di cosa sia un "concetto" tuttavia, per il modo in cui essa funziona, si ottiene dalla matrice A (piena quasi esclusivamente di "0"), una matrice di rank inferiore, molto più compatta, in cui tutto il "rumore" è stato eliminato.

Non è un caso che la SVD venga utilizzata anche in altri ambiti per alcuni algoritmi di de-noising e, in grafica, per alcuni algoritmi di de-blurring/sharpening.


Come puoi sfruttare queste indicazioni per decidere su quali termini puntare nelle tue singole pagine o nelle sezioni del tuo sito? Non puoi. Non facilmente, intendo.

In teoria dovresti innanzitutto avere un grande corpus di documenti, creare la matrice termine-documento inserendo anche i vettori relativi ai documenti che hai sviluppato tu ed un vettore che simula una query inserita dall'utente, assegnare a ciascun elemento un peso calcolato in base ad una formula di term weighting anche semplicissima come la tf*idf, applicare la SVD (guarda qui), ridurla ed infine andare a guardare nella matrice ottenuta in che posizione si trovano i documenti da te sviluppati rispetto al documento-query che avevi simulato.

Semplice, no?

Scherzi a parte, è improbabile che tu possa fare ciò (sebbene non impossibile), però puoi comunque estrarre da tutto ciò una considerazione di massima: i motori di ricerca più evoluti vanno ben oltre la semplice misurazione delle keyword inserite dall'utente all'interno dei documenti del corpus.

Di fatto, i termini cercati dall'utente è utile che siano presenti nei documenti sviluppati non perché siano importanti per il ranking ma perché sono importanti nella fase di recall del motore di ricerca.

In altre parole: il documento entra a far parte dei risultati di una ricerca se contiene i termini cercati o se ci sono link con quei termini che puntano ad esso, ma nel momento in cui è entrato la sua posizione non viene determinata tanto dalla presenza dei termini quanto dalla composizione dell'intero testo della pagina.

E' per questo che è importante sapere quali termini co-occorrono, nel corpus, con quelli per i quali vuoi posizionare una pagina. Ed i tool di suggerimento keyword possono esserti utili proprio in questo.


Il mio consiglio: fregarsene del tutto (in questa fase) della matematica e sviluppare buone capacità di scrittura. Quei termini e quegli argomenti correlati verranno in mente da sé, magari con l'aiuto di un buon dizionario di sinonimi o di strumenti simili a WordNet.




Quote:
2) meglio creare un sito multilingua o più siti in lingue diverse (considerando la maggior naturalezza con cui una home viene linkata rispetto a pagine interne(miosito.com/jp/index-japan.php). In tal caso come si pongono i sottodomini?
Beh, il massimo sarebbe un sito diverso per ogni lingua, con un dominio "regionale", su un server ospitato nella nazione di riferimento, promosso anche in base ai metodi di promozione che funzionano meglio nella specifica nazione. Ovviamente questo approccio rende la gestione del network più complessa.


Quote:
3) cos'è di preciso la sandbox e come posso evitare di finirci dentro? Una volta dentro come posso uscire più alla svelta (ci sono teorie che dicono che è meglio dare una parvenza di sito definitivo, altre invece che dicono proprio il contrario). Quanto incide il fattore traffico per l'uscita dalla stessa?
Nessuno sa con precisione che cosa sia la sandbox. Posso solo osservare che alcuni siti del tutto privi di traffico non hanno avuto problemi a posizionarsi per le key (medio-competitive) sulle quali puntavano.

La mia opinione è che Google ha bisogno di alcune informazioni per poter stabilire la posizione di alcuni siti e che non tutti i nuovi siti sono in grado di acquisire velocemente quelle caratteristiche che Google usa per estrarre quelle informazioni.

Personalmente presterei molta attenzione alla tipologia e qualità dei siti da cui arrivano i backlink e alla qualità dei backlink stessi. Leggo molti webmaster convinti di avere buoni backlink, ma quando poi controllo si scopre che la loro qualità è molto bassa.

'Sta putt-biiiiiiiiip che un link su una pagina a PR alto è sicuramente un buon link bisognerà sradicarla dalla testa della gente, altrimenti non si va avanti...



Quote:
4) link popularity a parte (e ti chiedo se i link verso pagine interne sono, come sospetto un fattore importantissimo di ranking),
Sono importanti i backlink tematizzati che puntano a pagine tematizzate. Generalmente le home page sono meno tematizzate rispetto alle pagine interne.


Quote:
quali sono i fattori esterni su cui puntare maggiormente? Ad esempio può essere importante il fatto che gli utenti cercano il nome del sito, o la digitazione diretta nell'url? (e quindi regolarmi di conseguenza cercando di scegliere un nome opportunamente ricordabile? L'aggiunta ai preferitiAltri?
Al momento: backlink di qualità. Per il futuro: backlink di qualità e qualunque elemento o iniziativa induca direttamente o indirettamente gli utenti ad approdare sul sito senza passare dai motori di ricerca.


Quote:
5)
puoi dare un voto da 1 a 10 a ciascuno di questi fattori, dopo di che mi levo dalle scatole :

contenuti
struttura interna del sito
link popularity
presenza in dmoz
anzianità del sito
server
traffico
presenza di link esterni autorevoli
digitazione diretta del sito nell'url
ricerca del nome di dominio nei motori
Niente voti (avrebbe poco senso), ma ti indico quelli che sono importanti e che lo saranno sempre più: contenuti, server di qualità, traffico, l'insieme di backlink e outlink.



Aggiunto: Grazie a Giorgio per averci concesso la possibilità di scrivere su questo topic ormai chiuso. Per fare ciò ha dovuto assegnarci temporaneamente lo status di moderatori ed io non so come abbia fatto a fidarsi di me: la tentazione di cliccare su pulsanti a caso è stata forte.
LowLevel non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Vecchio 12-06-06, 13:59   #197 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,265
Invia un messaggio tramite Skype a Giorgiotave
Quote:
LowLevel
Aggiunto: Grazie a Giorgio per averci concesso la possibilità di scrivere su questo topic ormai chiuso. Per fare ciò ha dovuto assegnarci temporaneamente lo status di moderatori ed io non so come abbia fatto a fidarsi di me: la tentazione di cliccare su pulsanti a caso è stata forte.


Lascio il thread in rilievo per qualche giorno. Ora vediamo come sfruttare al meglio le risposte di Low e delle sue Colleghe.

Oltre a fare una raccolta, sarebbe fantastico se un Micky a caso aprisse dei thread di approfondimento su alcuni temi veramente interessanti a cui hanno dato risposta Low e LeCollegheDiLow

__________________
Giorgio Taverniti Blog - Il mio account Twitter!

Che aspetti? Diventa MODERATRICE del Forum gt !!!
Giorgiotave non in linea  
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Vecchio 12-06-06, 15:53   #198 (permalink)
must
Non iscritto
 
Messaggi: n/a
abuso dei miei superpoteri di moderatore per ringraziare Low e colleghe per questo Live. grazie grazie grazie
 
Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!Segnalo this Post!OKNO this Post!
Chiudi la discussione
Tags: , , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum

LinkBacks (?)
LinkBack to this Thread: http://www.giorgiotave.it/forum/live-gt-interviste/11862-cinque-ore-live-con-lowlevel-e-colleghe.html
Scritto da For Type Data
» [LowLevel] Il Trustrank…perchè lo associamo a Google? - SEO Blog GT This thread Pingback 12-06-08 16:28



Tutti gli orari sono GMT +3. Attualmente sono le 07:43.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.