Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi

Visualizza un messaggio singolo
Vecchio 17-08-06, 11:14   #10 (permalink)
tonyx
Moderatore
 
L'avatar di tonyx
 
Data di registrazione: Apr 2006
Ubicazione: Ischia
Messaggi: 244
Invia un messaggio tramite MSN a tonyx
Quote:
nbriani
- Quanto pesano mediamente i siti indicizzati sul server? (in semplici termini di occupazione di spazio) ?
- Quanto dura e quanto stressa il server la spiderizzazione dei documenti ?
- Come pensate di programmare lo spider (sia su nuove pagine sia su doc già indicizzati) ?
-Per ora indicizziamo singoli documenti che vengono messi in un db mysql, per il peso ti posso dire che per ora indicizzando 72 documenti il peso è di poco più di 2 mega, per ora non viene applicato nessun algoritmo di compressione, non so poi se mysql ne adotta uno suo per gestire queste informazioni.
-La durata della spiderizzazione dei documenti varia in base alla lunghezza dei documenti anzalizzati, e va da pochi secondi ad un massimo di 15 - 20. Un esempio pratico, la home di http://admaiora.blogs.com/maurolupi/ pesa circa 116Kb viene indicizzata in circa 8 secondi. Questo tempo dipende anche dall' Hardware della macchina che non conosco.
- Attualmente lo spider prende l'url se questo già è presente nel db lo aggiorna, altrimenti lo indicizza, e per ora è un processo manuale, parte quando gli viene fornito l'url del documento.
Si può modificare il codice della pagina affinche legga da un file di testo o un database una lista di siti e li vada ad indicizzare. Inoltre si può far partire lo spider in modo programmatico (una sorta di schedulizzazione) affinche legga le pagine nel db che hanno una data più vecchia o uguale a 3 giorni fà e ci ritorni sopra per aggiornarle. Queste sono tutte idee ancora da realizzare ma si può fare di tutto, anzi se ne avete di nuove proponetele.
__________________

Conoscete Ischia? E' bellissima! - Antonio Iervolino - Seo Tools
tonyx non in linea   Rispondi citando