Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Ripostiglio > Sezioni Storiche > Teecno
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

Teecno Costruzione, sviluppo e promozione del nostro MdR

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione Teecno


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 23-10-06, 15:55   #1 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 11
Invia un messaggio tramite MSN a ^woznihack^
Proposta nuovo algoritmo per lo Spider

Buongiorno a tutto il forum di giorgiotave.it.
proprio ieri, googlando un pò alla ricerca di progetti open source italiani, ho trovato un gruppo di user del forum di giorgiotave.it che ha fatto una fantastica proposta per realizzare un motore di ricerca open source tutto spaghetti e mandolino.
si, forse v sarete accorti che sto parlando di questo forum e di questo progetto e v dico che appena ho cominciato a leggere i primi 3d ho detto "questo è il progetto che fa al caso mio, pieno di stimoli e molto avvincente".
Finita la pappardella di routine, inizio a collaborare attivamente a questo progetto proponendo un nuovo (modifica del precedente) algoritmo per lo spider di Teecno.
Stamattina in classe ho approfittato delle ore di letteratura per studiare l'algoritmo attualmente utilizzato in spider.php e ho notato che per indicizzare un sito all'interno del motore, bisogna per forza suggerirlo tramite il form.
L'algoritmo che ho pensato invece, prevede sia l'indicizzazione manuale sia quella semi-automatica. Principalmente l'algoritmo divide in due parti il lavoro dello spider:
- salva nel db il link suggerito con il relativo contenuto della pagina e mediante una funzione ricorsiva recupera tutti i link presenti nella pagina per N volte (numero di "passate") scelto dai programmatori;
- ogni X giorni (o minuti, ore, mesi....ecc) prelevando uno ad uno i link dal database creato tramite la prima fase, si creano le KEYWORDS con l'algoritmo TF*IDF.

Per entrambe le fasi, momentaneamente si può utilizzare codice scritto in PHP , tuttavia.. per la seconda fase (la più lunga) si potrebbe incorrere in problemi di TIMEOUT da parte del server (ostacolo facilmente superabile utilizzando dei redirect consecutivi) quindi in futuro sarebbe meglio implementare codice PERL o PYTHON sia per velocizzare le operazioni, sia per automatizzarle (CGI-BIN).

Detto ciò, lascio alla comunità il miglioramento di questa idea di base (dopotutto l'OpenSource funziona così no?).

Complimenti a tutti per il lavoro finora effettuato e spero di poter contribuire con codice "mio" al progetto in futuro, dato che momentaneamente sono impegnatissimo.
Dai ragazzi.. continuiamo così, questo progetto ROXA .. e magari tra qualche anno saluteremo dall'alto il motore di ricerca con 2O !!!
OPEN SOURCE IS LIFE!!!
^woznihack^ non in linea   Rispondi citando
Vecchio 23-10-06, 19:39   #2 (permalink)
User
 
L'avatar di phakko
 
Data di registrazione: Jun 2006
Ubicazione: Roma
Messaggi: 64
Invia un messaggio tramite MSN a phakko Invia un messaggio tramite Skype a phakko
si xò è un po complesso il problema del timeout come fai a sapere quando a finito di eseguire il file?
__________________
Fabio Cicerchia - COORDINATORE TEECNO
phakko non in linea   Rispondi citando
Vecchio 23-10-06, 20:47   #3 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 11
Invia un messaggio tramite MSN a ^woznihack^
il problema del timeout è praticamente risolto..ho già usato questo metodo per altre mie applicazioni.
in pratica facendo delle prove, supponendo di chiamare TP il tempo medio che ci mette lo scritp ad effettuare il parsing di un link alla ricerca delle keywords e supponendo di chiamare T il tempo di timeout del server, T/TP darà il numero massimo dei link che possono essere parsati per volta. Facendo un altra semplice divisione NUMERO TOTALE LINK / MAX LINK PARSATI PER VOLTA si ottengono il numero di redirect necessari per completare l'operazione di parsing di tutti i link. poi con i redirect e il passaggio dei parametri via GET o POST si parsano uno ad uno i link del database.
Vuoi un metodo + semplice di questo??
^woznihack^ non in linea   Rispondi citando
Vecchio 23-10-06, 21:00   #4 (permalink)
User
 
L'avatar di phakko
 
Data di registrazione: Jun 2006
Ubicazione: Roma
Messaggi: 64
Invia un messaggio tramite MSN a phakko Invia un messaggio tramite Skype a phakko
ingegnoso
__________________
Fabio Cicerchia - COORDINATORE TEECNO
phakko non in linea   Rispondi citando
Vecchio 23-10-06, 23:13   #5 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
Ciao ^woznihack^,

hai detto PYTHON? o C?

Ringraziandoti per questo apprezzamento al progetto vorrei, prima di farti partire in 4 (sono convinto che darai molto), farti leggere qualcosa.

C'è un progetto
Spider già in corso.

E' importantissimo che tu legga prima questo.

Quando hai finito di leggere entrambi...ritorna qui






Giorgiotave non in linea   Rispondi citando
Vecchio 24-10-06, 08:46   #6 (permalink)
User
 
Data di registrazione: Oct 2006
Messaggi: 11
Invia un messaggio tramite MSN a ^woznihack^
ho finito di leggere entrambi i post .. ho già risposto ad Osvi per comunicargli la mia disponibilità a collaborare al suo progetto e magari quella di unire le idee per creare uno spider "semi-autonomo" in php. Buona giornata a tutti!!
^woznihack^ non in linea   Rispondi citando
Rispondi
Tags: , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 14:12.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.