![]() |
![]() |
|
| Condividi questo contenuto nei Social Network: |
|
Tweet |
|
|
|
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito. |
||||
|
|||||||||
Hey Amico Visitatore, Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione Teecno |
|
|
LinkBack | Strumenti di discussione |
|
|
#1 (permalink) |
|
Esperto
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
|
spider "osvi"
uso questo thread per la versione "osvi" dello spider
lo spider quando pronto sarà in grado di: - leggere gli header inviati dal server (301 aggiorno gli url nel db, 503 taggo come ricontrollare, 200 scarico, ecc) - gestire il robots.txt (parser già scritto va solo ricontrollato e ottimizzato) - eliminare i commenti dal codice e tutte le cose inutili - prendere le parole e metterle in un array (con ricorrenza importanza ecc) - prendere i link e analizzare le sottopagine (gestendo il nofollow) - testo e titolo <a> - spider rss (vedi post di Giorgio) pensavo di usare una tabella del database con le pagine da esaminare, che ne dite? ah per inserire nel database.. non ho ben capito (anche perchè non ho letto il codice php e soprattutto la teoria per bene) come funzionano le tabelle del lessico ecc, quindi se a qualcuno andrà di scrivere un po' di documentazione, o semplicemente spiegarmelo, oppure fare una classe dove gli passo il vettore, ... ![]() |
|
Ultima modifica di Giorgiotave : 07-09-06 21:37. |
|
|
|
|
|
|
|
|
#2 (permalink) |
|
Ciao Osvi
![]() Che ne dici se gli facciamo rendere anche il testo dei link? (lo fai già? Un'altra cosa ![]() Che ne pensi se tramite gli rss, creassimo uno spider in grado di estrapolare i seguenti dati: titolo dell'argomento link nome del link Questo per assegnare un punteggio ai link. Fammi sapere. Tony è alla prese con il SubVersion, è un pò un casino ma ce la farà ![]() | |
|
__________________
Giorgio Taverniti Blog - Il mio account Twitter! Che aspetti? Diventa MODERATRICE del Forum gt ![]() Importante evento sul Web Marketing: 5 sale, 27 argomenti, 33 esperti presenti, streaming e video registrati...a soli 149€
|
|
|
|
|
|
|
#3 (permalink) |
|
Esperto
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
|
lo so che configurare subversion è un impresa biblica
forse è meglio se usiamo source forge, oppure opensvn, all'inizio almeno.. anche per non appesantire troppo il server di teecnohai ragione per il testo dei link (sia dell'ancora sia del title) però per come è strutturato il database non saprei come metterlo mmmh devo ragionare un po' su una nuova struttura per il database per gli rss: non ho ben capito cosa vuoi fare :sto: uno spider rss? |
|
|
|
|
|
#4 (permalink) | ||
|
Quote:
![]() Poi compriamo anche un secondo server per Teecno, che useremo con i siti che usano Teecno come motore interno, ma ti questo ne parleremo tra qualche giorno in un altro topic ![]() Quote:
Si. Praticamente dagli Rss noi estrapoliamo i dati. Questo per vari motivi: - creare un motore che usi anche gli RSs per aggiornarsi (e poi uno specifico per le news )- creare un archivio mensile di link (per assegnare i punteggi) In questo modo osvi, noi sappiamo che questo mese una risorsa è stata linkata con la chiave X, X volte. L'articolo aveva la chiave nel Title anche. Capisci....possiamo giocarci, imparare e studiare molte cose ![]() No? ![]() Oltre a questo, puntare sugli Rss | |||
|
__________________
Giorgio Taverniti Blog - Il mio account Twitter! Che aspetti? Diventa MODERATRICE del Forum gt ![]() Importante evento sul Web Marketing: 5 sale, 27 argomenti, 33 esperti presenti, streaming e video registrati...a soli 149€
|
|||
|
|
|
|
|
#6 (permalink) | |
|
Quote:
ora ti rispondo al privato ![]() | ||
|
__________________
Giorgio Taverniti Blog - Il mio account Twitter! Che aspetti? Diventa MODERATRICE del Forum gt ![]() Importante evento sul Web Marketing: 5 sale, 27 argomenti, 33 esperti presenti, streaming e video registrati...a soli 149€
|
||
|
|
|
|
|
#7 (permalink) |
|
User Attivo
User Attivo
|
|
|
__________________
SEO Birra a Malta: 9 giugno 2012! |
|
|
|
|
|
|
#8 (permalink) |
|
Esperto
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
|
si infatti non sarà un problema
![]() avevo già notato che con il codice attule vengono spazzate via lo spider è in programmazione non lo sto facendo ad oggetti come spiegato nell'altro thread, cmq una conversione in futuro sarebbe indolore (maledetta debian ma php5 quando lo rilasci?) ancora è troppo presto anche per uno snapshot, cmq volevo dire ci sto lavorando non è che ho aperto il thread solo per fare qualcosa vi aggiorno appena ho qualcosa di "alpha" |
|
|
|
|
|
#9 (permalink) |
|
Osvi tutto bene dalle tue parti?
![]() | |
|
__________________
Giorgio Taverniti Blog - Il mio account Twitter! Che aspetti? Diventa MODERATRICE del Forum gt ![]() Importante evento sul Web Marketing: 5 sale, 27 argomenti, 33 esperti presenti, streaming e video registrati...a soli 149€
|
|
|
|
|
|
|
#10 (permalink) |
|
Esperto
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
|
purtroppo, devo essere sincero - non ho avuto né tempo né modo
spero di poter sfornare qualcosa di "usabile" appena possibile... non saprei dirti una data (che probabilmente non rispetterei) prometto però che domenica riguardo il codice già scritto e preparo uno schema di cosa fare, come continuare, ecc ti faccio sapere ![]() [ot]qualcuno sa come dezendare uno script php?[/ot] |
|
|
|
|
|
#11 (permalink) | |
|
Quote:
![]() Sopratutto il come continuare, grazie mille e fai con calma Osvi ![]() Giorgio | ||
|
__________________
Giorgio Taverniti Blog - Il mio account Twitter! Che aspetti? Diventa MODERATRICE del Forum gt ![]() Importante evento sul Web Marketing: 5 sale, 27 argomenti, 33 esperti presenti, streaming e video registrati...a soli 149€
|
||
|
|
|
|
|
#13 (permalink) |
|
Esperto
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
|
primo aggiornamento: ho cambiato lo schema del database
sistemo il codice di spider.php (senza aggiungere migliorie) rendendolo compatibile col nuovo schema e pubblico |
|
__________________
Firefox browser |
|
|
|
|
|
|
#14 (permalink) |
|
Okey Perfetto
![]() | |
|
__________________
Giorgio Taverniti Blog - Il mio account Twitter! Che aspetti? Diventa MODERATRICE del Forum gt ![]() Importante evento sul Web Marketing: 5 sale, 27 argomenti, 33 esperti presenti, streaming e video registrati...a soli 149€
|
|
|
|
|
| Tags: quotosviquot, spider |
| Strumenti di discussione | |
|
|