Quote:
|
nbriani
- Quanto pesano mediamente i siti indicizzati sul server? (in semplici termini di occupazione di spazio) ?
- Quanto dura e quanto stressa il server la spiderizzazione dei documenti ?
- Come pensate di programmare lo spider (sia su nuove pagine sia su doc già indicizzati) ?
|
-Per ora indicizziamo singoli documenti che vengono messi in un db
mysql, per il peso ti posso dire che per ora indicizzando 72 documenti il peso è di poco più di 2 mega, per ora non viene applicato nessun
algoritmo di compressione, non so poi se mysql ne adotta uno suo per gestire queste informazioni.
-La durata della spiderizzazione dei documenti varia in base alla lunghezza dei documenti anzalizzati, e va da pochi secondi ad un massimo di 15 - 20. Un esempio pratico, la home di
http://admaiora.blogs.com/maurolupi/ pesa circa 116Kb viene indicizzata in circa 8 secondi. Questo tempo dipende anche dall' Hardware della macchina che non conosco.
- Attualmente lo spider prende l'url se questo già è presente nel db lo aggiorna, altrimenti lo indicizza, e per ora è un processo manuale, parte quando gli viene fornito l'url del documento.
Si può modificare il codice della pagina affinche legga da un file di testo o un database una lista di siti e li vada ad indicizzare. Inoltre si può far partire lo spider in modo programmatico (una sorta di schedulizzazione) affinche legga le pagine nel db che hanno una data più vecchia o uguale a 3 giorni fà e ci ritorni sopra per aggiornarle. Queste sono tutte idee ancora da realizzare ma si può fare di tutto, anzi se ne avete di nuove proponetele.