Google: due pesi e due algoritmi?

beke

Google: due pesi e due algoritmi?

Ho letto solo ieri sera questo interessantissimo thread che vi consiglio di spulciare:

http://forum.html.it/forum/showthread.php?s=3c15aa5d5f30e85fe6654fde67b5bd25&threadid=817951

dove principalmente Agoago e Stefano Sirri discutono di un argomento molto interessante e da cui estrapolo queste frasi di Agoago

Questo lo farei per esclusione. prendo le prime 500.000 key cercate in un mese e per queste key uso il sistema classico. Quelle non comprese in questo elenco le considero key "anomale", "non key" e per queste usero' una distribuzione degli accessi tramite catalogazione parzialmente indipendete dai miei algoritmi classici.

Diciamo che e' possibile che applichino questa tecnica per semplificare la catalogazione delle pagine dei siti per le "non key".
Forse per attribuire in modo "democratico" l'esatto numero di accessi ai siti in base al loro valore teorico, per le key intervegono algoritmi da brevetto, per le non key il valore del sito.

Vorrei però procedere con il ragionamentoin una direzione diversa da quella che ha preso il thread in questione e vi domando:

Avete mai l'impressione che Google utilizzi algoritmi diversi per key diverse?

In un ottica di risparmio delle risorse del motore non sarebbe logico impiegare tutta quella potenza di calcolo necessaria ad elaborare dati complessi, come quelli storici di cui stiamo venendo a conoscenza dal documento dei brevetti di Google, solo dove ne valga la pena?

Cioè solo nelle key più ricercate?

Le "vere" Key?

E per tutte le altre utilizzare algoritmi meno sofisticati?
Quelli più veloci da elaborare anche se più vulnerabili alle tecniche SEO?

diego

penso ankio sia così perchè con certe key vedi certi siti che sono in prima posizione con delle ottmizzazioni diciamo scadenti tipo la ripetizione della key innumerevoli volte in un commento insomma cose che se fai in un altro tipo di settore non osi nemmeno pensare...

webmastercf

@beke said:

In un ottica di risparmio delle risorse del motore non sarebbe logico impiegare tutta quella potenza di calcolo necessaria ad elaborare dati complessi, come quelli storici di cui stiamo venendo a conoscenza dal documento dei brevetti di Google, solo dove ne valga la pena?

Cioè solo nelle key più ricercate?

Le "vere" Key?

E per tutte le altre utilizzare algoritmi meno sofisticati?
Quelli più veloci da elaborare anche se più vulnerabili alle tecniche SEO?

Secondo me google non ha di certo difficoltà economiche ad acquistare macchine in grado di gestire senza problemi la quantità di calcoli di cui necessita.
Oltretutto i settori che hanno bisogno di enormi risorse di calcolo non sono certo i motori di ricerca, ma le previsioni del tempo e le simulazioni per i test nucleari.
Il discorso su html è interessante, ma sono pur sempre delle congetture.

paolino

Beh tempo fa stavo seguendo un 3d su seochat e si discuteva proprio di questo. In pratica Google seleziona delle key molto significative a suo parere e partendo da queste seleziona gli authority site, gli hub e da questi i siti ritenuti da lui +importanti.

E' ormai alquanto evidente che ci siano delle key che Google considera "scadenti" e per le quali si mostra molto molto superficiale applicando la minor quantità di filtri possibili. Del resto un esempio eclatante lo si può vedere sul mercato italiano per le key adult

beke

Del resto un esempio eclatante lo si può vedere sul mercato italiano per le key adultOvverosia?
Non ho mai posizionato in quel settore e quindi non so cosa succede...

beke

@WebMasterCF said:

Secondo me google non ha di certo difficoltà economiche ad acquistare macchine in grado di gestire senza problemi la quantità di calcoli di cui necessita.
Oltretutto i settori che hanno bisogno di enormi risorse di calcolo non sono certo i motori di ricerca, ma le previsioni del tempo e le simulazioni per i test nucleari.Ottimizzare le risose, tenendo conto che nel suo archivio Google conta più di 8 miliardi di pagine continuamente rivisitate e che probabilmente risponde ad un numero di query al minuto che ho paura solo ad immaginare, non è un vezzo ma una necessità per chiunque non abbia origine divina

Secondo me, ovviamente.

stealth

l'ho anche postato su HTML.
google usa 6 algoritmi.
questa info è aggiornata al 2004.

beke

Interessante

E' una tua deduzione basata su test effettuati?

Puoi/vuoi parlarne?

stealth

per motivi di privacy posso solo dire che l'informazione me l'ha data un mio conoscente canadese...è uno vicino a Google.

webmastercf

@Stealth said:

per motivi di privacy posso solo dire che l'informazione me l'ha data un mio conoscente canadese...è uno vicino a Google.

Informazioni del genere possono solo uscire da chi lavora dentro google.
Sarebbe impossibile per chiunque simulare il motore o fare dei test talmente attendibili da capire che ci sono 6 algoritmi differenti utilizzati da loro.
Ma il motivo per cui vengono usati 6 algoritmi è il risparmio di risorse o è un altro?

stealth

policy.
ora non so cosa stiano facendo...e al momento non mi interessa.

ricordiamoci che google è un esperimento, è un test.....di conseguenza gli algoritmi sono molti.

scusate ragazzi, non posso proseguire :bho:
al massimo PVT

giorgiotave

@Stealth said:

per motivi di privacy posso solo dire che l'informazione me l'ha data un mio conoscente canadese...è uno vicino a Google.

Stealth se è di Toronto un giorno possiamo farci un salto, vitto e alloggio lo pago io

agoago

L'uso di diversi algoritmi per la catalogazione nasce dalle necessita' di ottimizzare non tanto le risorse del motore stesso ma fornire i migliori risultati possibili nelle serp.

Un buon cuoco sa cuninare bene e prepara i piatti secondo le migliori ricette e con i migliori ingredienti. Andate a mangiare nel miglior ristorante italiano e ditemi cosa ne pensereste se vi servissero prima il dolce, poi un contorno ed infine gli antipasti.

Il senso grossomodo e' lo stesso.

Prima di catalogare un sito mi chiedo: quanto vale questo sito?
Prima di catalogare i siti per una data key mi chiedo: quanto vale questa key?

Se il sito in esame e' un ottimo sito lo mettero' come primo, se e' istituzionale allora sara' una portata da antipasto, come dire insalata di mare o affettati.

La key e' un po' come il valore del ristorante o del pranzo-cena, se vado in un posto da pochi euro mi basta mangiare, magari posso saltare anche antipasto e primo e sbafare solo un secondo. In un posto di lusso, in un pranzo importante come quello di un matrimonio ogni portata sara' ben scelta ed ordinata.

In realta non credo tanto che ci siano molti algoritmi diversi, ma che gli algoritmi siano usati in modo dinamico, con delle tabelle o delle formule dinamiche.

Se una key vale pochissimo (una non key) allora contera' molto (per esempio) il valore di ripetizione e posizione della key e pochissimo il valore del sito. In caso di key media punteremo su un buon codice, una buon sito, una buona distrizuzione delle key. In caso di key pesantissima contera' UNICAMENTE (90%, numero a caso per dire molto) il peso del sito.

Pertanto e' preferibile parlare di algoritmi dinamici e non di multi-algoritmi.

A questo punto si entra in un terreno pericoloso (per i motori). Qualcosa di dimanico e' un qualcosa che varia nel tempo, continuo o discreto che sia.

Un obbiettivo dei motori e' passare da una catalogazione discreta (per dire un mese) a quella continua. Come dire da tanti piccoli pc a qualche mini computer.

Pertanto a noi molti algoritmi (o meglio l'uso degli stessi) oggi sembrano statici perche' le cose si muovono poco alla volta, mensilmente o meno. Ma questo non nega il fatto che il sistema possa veramente essere dinamico.

Bon, aria fritta, tralasciamo ipotesi e teorie ma proviamo a credere per un momento che le serp si formino in base ad algoritmi dinamici (ci possono essere algoritmi che concorrono dinamicamente basandosi per esempio in base alle condizioni del tempo, se fa brutto spingo un dato dominio, se fa bello un altro, se c'e' la guerra un sito di notizie in tempo reale tipo cnn, se c'e' pace un sito per i diritti umani tipo amnesty, ecc ecc).

Cosa significa questo? Che un domani solo i siti dinamici potranno dare risposte vincenti a motori dinamici. Se l'arco di tempo discreto (o come si chiama) e' un mese mi muovero' di conseguenza mese per mese, se un domani fosse giornaliero allora variero' il mio sito, stravolgero' il mio sito giornalmente.

Detta cosi' sembra una di quelle cose che fanno tanto fighetta ma che poi gira e rigira nessuno potrebbe sfruttare. Allora veniamo al dunque con esempi pratici.

I motori odiano i numeri. I numeri non hanno minuscola, o la prima lettera maiscola ed il resto minuscolo (che poi se fai il rovescio con le lettere rischi di apparire come spammer o magari come marchio strano-registrato ed allora invece sarai premiato), i numeri si associano a qualsiasi tema, i numeri somo presenti in ogni lingua in modo proporzionale... cavolo quanti algoritmi che non possono sfruttare i motori con i numeri....

A questo punto apro 10 siti (lo stessogiorno) tipo 358329058209358285435943.com
Poi per ogni sito faccio 100 pagine con codice diverso per ogni pagina di ogni sito, ma tutte contenenti lo stesso numero di key, e le stesse key numeriche (esempio sempre le stesse 50 key), esempio di una key uguale per ogni pagina 328953829562983... e poi aspetto.

Tempo un paio di mesi mi avranno spiderizzato 1000 pagine con codice diverso ma con la stessa struttura di link per pagine e per sito, ogni pagina avra' magari da 10 a 1000 key ripetute, ma saranno sempre le stesse 50 key numeriche che non esistono o non contano per il motore (non key, nessuno le ricerca, ci sono nelle pagine ma nesssuno le cerca). Esempio: 35930259037509 o 357392750923 o 25723572390750 o 532750237

ORA SE UN MOTORE CONSIDERASSE UN NUMERO DI TANTE CIFRE COME UNA KEY NORMALE ALLORA NOI POTREMMO SCOPRIRE TEMPO 0 QUALE CODICE O QUALE DENSITY, O QUALE DISTRIBUZIONE VIENE PREMIATA DAL MOTORE.

MA UNA "NON KEY" SARA' TRATTATA CON UN ALGORITMO DIVERSO (magari serp random) E NON POTREMO CAPIRE NULLA DA QUESTI TEST.

Allora per fregarlo decido di creare 1000 pagine con 50 key senza senso, a girare. Per esempio "cane giallo e rosso", "gatto belante ballando", ecc ecc. Faccio girare queste key con codice diverso ecc ecc e poi cerco: "cane giallo e rosso" e pertanto dovrei trovare l'ordine che il motore ha stabilito per le mie 1000 pagine che contengo tutte "cane giallo e rosso". Se lo facesse "seguendo un suo senso logico, reale" potrei capire tantissimo sui suoi algoritmi di ordinamento e pertanto il motore ragiona: NO KEY? ALLORA NO SERP CLASSICA, MA SERP "RANDOM" e cosi' non mi freghi, non mi studi, non mi capisci.

Ok, fin qua tutto logico, ma cosa fare per le key pesantissime, le key tipo
sesso, sex, hotel ecc ecc.

Idem come sopra, una key pesantissima e' trattata come una non key, sono agli estremi della stessa gaussiana (non retta, ma gaussiana)

Non posso usare i soliti algoritmi viceversa chiunque copiasse una delle prime pagine, tra le pagine nelle serp, di un sito che non appartenesse a siti istituzionali capirebbe come io motore lavoro. Io seo escludo tutti i siti a pr 6 o piu', escludo tutti quelli vecchissimi, tutti quelli che hanno piu' di un tot di link esterni, e poi mi faccio-ricreo una mia personale serp filtrata da quanto sopra che mi fa capire quala sito sia da copiare o studiare per essere primo (con altre key al posto di sesso, sex ecc ecc).

Quanto sopra non centra con la dinamicita' degli algoritmi, ma ho perso il filo del discorso, ci ritornero'.

Comunque i motori hanno parecchi bachi, un post su questo forum (se non mi sbaglio) ne aveva evidenziato uno grosso come una casa. Riguardava questa pagina kerouac3001.altervista.org. I motori spesso non sanno come trattare i link senza key o i link padre figlio nipote ecc ecc.

I motori prima ti bannano, poi ti catalogano. Se linco 1000 volte un sito chiamato spaziogratis la key spazio gratis sara' premiata, ma i filtri di ban mi penalizzeranno a tal punto da bannarmi. Ma se il mio link non ha la key-link allora l'algoritmo di ban non bannera' in quanto sa che nessuno vedra' quel link (lui si aspetta per un link una key link)... ma l'algoritmo che premia contera' una marea di link verso spaziogratis e premiera' per la key spaziogratis.

Inoltre gli articoli (il lo la ecc ecc) vari sono "non key" e non diluiscono la key spaziogratis (anche se nome del dominio di un link).

Per i pazzi che vogliano fare qualche test consiglio:

[<a href=http://key1.com>](http://key.com></a>

oppure

<a)</a>

oppure

e via dicendo.

beke

Come molti post di Ago: da stampare e incorniciare

raele.l.angelo

Come molti post di Ago: da stampare e incorniciare

Concodo con la teoria delle key e non key: ragionando da motore, se devo restituire delle serp di qualita' per una key che viene cercta 1000 volte al giorno con 30 milioni di risultati, utilizzo appieno tutte le mie funzionalita', se invece mi trovo una non key, cercata 1 volta al mese con 10.000 risultati potrei "fregarmene" di utilizzare tutte le mie potenzialita' (tipo per una non key potrei non usare il filtro antispam per esempio) tanto per la quantita' di volte che viene cercata e il tipo di mercato di nicchia, magari basterebbe soltanto l'algorimto principale basato su contenuti, KD, ecc, per avere cmq serp di qualita'.

Secondo me poi oltre alla "qualita'" delle serp, si deve tenere in considerazione anche la velocita' di risultati: ok stiamo cercando solo testi e non facendo conti per applicazioni nucleari o nel campo della medicina, ma se non ricordo male GG si impose nel web anche grazie al fatto che era il piu' veloce mdr al tempo o sbaglio.?

Si potrebbe vedere come si comporta facendo po di paragoni con yahoo verificando tempi di risposta e numero di risultati su key come meteo, hotel, sex, free, ecc. e su non key e vedere quello che viene fuori. (almeno potremmo capire se anche la "velocita'" e' ricercata, oltre alla "qualita'" delle serp)

PS: quando facciamo un salto a Toronto?

giorgiotave

@agoago said:

ORA SE UN MOTORE CONSIDERASSE UN NUMERO DI TANTE CIFRE COME UNA KEY NORMALE ALLORA NOI POTREMMO SCOPRIRE TEMPO 0 QUALE CODICE O QUALE DENSITY, O QUALE DISTRIBUZIONE VIENE PREMIATA DAL MOTORE.

MA UNA "NON KEY" SARA' TRATTATA CON UN ALGORITMO DIVERSO (magari serp random) E NON POTREMO CAPIRE NULLA DA QUESTI TEST.

Allora per fregarlo decido di creare 1000 pagine con 50 key senza senso, a girare. Per esempio "cane giallo e rosso", "gatto belante ballando", ecc ecc. Faccio girare queste key con codice diverso ecc ecc e poi cerco: "cane giallo e rosso" e pertanto dovrei trovare l'ordine che il motore ha stabilito per le mie 1000 pagine che contengo tutte "cane giallo e rosso". Se lo facesse "seguendo un suo senso logico, reale" potrei capire tantissimo sui suoi algoritmi di ordinamento e pertanto il motore ragiona: NO KEY? ALLORA NO SERP CLASSICA, MA SERP "RANDOM" e cosi' non mi freghi, non mi studi, non mi capisci.

Grazie agoago vado a fare il backup del DB

Stavo appena appena ragionando su qualcosa di simile, diciamo che ora ho la strada giusta per continuare il ragionamento.