Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Ripostiglio > Sezioni Storiche > Teecno
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti

Teecno Costruzione, sviluppo e promozione del nostro MdR

Hey Amico Visitatore,
Condividi con noi le tue idee e la tua conoscenza Aprendo una nuova discussione nella sezione Teecno


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 28-08-06, 14:45   #1 (permalink)
Banned
 
L'avatar di cibino
 
Data di registrazione: Apr 2006
Ubicazione: treviso
Messaggi: 2,236
Invia un messaggio tramite MSN a cibino Invia un messaggio tramite Skype a cibino
[domanda]il punto della situazione

chiedevo qual era il punto della situazione...cioè se era possibile iniziare a fare delle query di test per verificare l'efficacia del motore.
io ne ho fatta una, però, prima di riportarla, volevo informarmi sul fatto che il motore fosse o meno in fase beta.
cibino non in linea   Rispondi citando
Vecchio 28-08-06, 15:03   #2 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
Il motore non fornisce ancora risultati per gli utenti

Ma solo per noi. Dobbiamo spiderizzare tanti documento e fare un algo che calcoli i link, poi sarà attivo
Giorgiotave non in linea   Rispondi citando
Vecchio 28-08-06, 15:18   #3 (permalink)
Banned
 
L'avatar di cibino
 
Data di registrazione: Apr 2006
Ubicazione: treviso
Messaggi: 2,236
Invia un messaggio tramite MSN a cibino Invia un messaggio tramite Skype a cibino
benissimo!!!
attendo premuroso...
cibino non in linea   Rispondi citando
Vecchio 28-08-06, 16:04   #4 (permalink)
User
 
Data di registrazione: Feb 2005
Messaggi: 522
Alcune domande sul vostro progetto

Non volevo aprire un altro post inutile...

Cmq per prima cosa, complimenti per il vostro progetto !!

Volevo chiarezza sul funzionamento del motore Teecno

La spiderizzazione dei siti web come avviene ? Immettete direttamente voi i link da spiderezzare o avete studiato qualcosa per poterlo fare ?

Ho letto che il progetto è Open Source, quindi ogni volta che migliorate il motore di ricerca viene data la possibilità di scaricarsi il codice aggiornato?

Per il momento è tutto !! Se mi vengono in mente altre curiosità vi faccio sapere !!

Ciao ciao e buon lavoro !!
seven non in linea   Rispondi citando
Vecchio 28-08-06, 16:06   #5 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
Quote:
seven
Non volevo aprire un altro post inutile...

Cmq per prima cosa, complimenti per il vostro progetto !!

Volevo chiarezza sul funzionamento del motore Teecno
Grazie Seven!

Quote:
seven
La spiderizzazione dei siti web come avviene ? Immettete direttamente voi i link da spiderezzare o avete studiato qualcosa per poterlo fare ?
Daremo presto a tutti la possibilità di farlo...dobbiamo migliorare lo spider che per ora si trova qui

http://www.teecno.it/spider.php

Provalo...ha un bug ma funziona.

Quote:
seven
Ho letto che il progetto è Open Source, quindi ogni volta che migliorate il motore di ricerca viene data la possibilità di scaricarsi il codice aggiornato?

Per il momento è tutto !! Se mi vengono in mente altre curiosità vi faccio sapere !!

Ciao ciao e buon lavoro !!
Si ovvio

Giorgiotave non in linea   Rispondi citando
Vecchio 28-08-06, 17:17   #6 (permalink)
Esperto
 
Data di registrazione: Apr 2006
Messaggi: 94
Ciao,

ho appena scoperto teecno, complimenti per il coraggio ;-)
Avete dei piani piu' concreti o state solo sperimentando ?
Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)

Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?
Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?) :-D

Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.

Spero comunque che il progetto faccia dei significativi passi avanti
(anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali ;-)

Saluti,

F.
__________________
Shades by Everfluxx
Ray71 non in linea   Rispondi citando
Vecchio 28-08-06, 17:22   #7 (permalink)
Esperto
 
L'avatar di osvi
 
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
secondo me è meglio continuare in php
python ha molti meno utenti (per esempio anche io stesso non lo conosco)

sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp )
sento un po' la mancanza di php5, soprattutto per spider.php
osvi non in linea   Rispondi citando
Vecchio 28-08-06, 18:02   #8 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
Ciao F. Ray71

Quote:
Ray71
Ciao,

ho appena scoperto teecno, complimenti per il coraggio ;-)
Grazie mille

L'obiettivo, come detto è:

Quote:
Il progetto inoltre non si pone l’obiettivo di diventare un grosso motore di ricerca, di scavalcare quello e quell’altro, non prendiamoci in giro.


Il progetto vuole semplicemente dare la possibilità a tutti di poter studiare come funziona un motore di ricerca tutti insieme e di divulgare queste informazioni e renderle fruibili per crescere tutti insieme.

Quote:
Ray71
Avete dei piani piu' concreti o state solo sperimentando ?
Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.

Non è per gli utenti ovviamente....ancora Speriamo lo sia presto (che non significa tre mesi )

Quote:
Ray71
Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)
Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

Ovviamente ci sono da contare tutte le pagine interne.

La prima cosa da pensare (e qui ci potresti dare il tuo parere ) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.

L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.

Per le query dell'utente non lo so...non è il nostro obiettivo ora. Oggi abbiamo ricevuto 350 query, ma è il giorno del lancio, ancora un paio di giorni e dovrebbero calare.

Quando sarà qualcosa di concreto inizierò con una promozione maggiore ed ho già individuato come farlo.


Quote:
Ray71
Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?
Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare

Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.

Ma la programmazione in php la lasciamo, proprio perchè è il linguaggio più usato e quindi cerchiamo di farlo capire a tutti.

Ovvio, il risultato finale, lo vogliamo fare in un altro linguaggio

Quote:
Ray71
Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?) :-D
Rudimentalissimo, se me lo concedi.

Non si presenta come User-Agent (si, TeecnoBot) e questo crea problemi con le pagine come Wikipedia.

Inoltre il progetto Robots.txt non è ancora attivo e lo faremo presto.

Oltre a questo lo dobbiamo migliorare molto, è un esperimento.

Quote:
Ray71
Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.
Si, ma dobbiamo cercare chi sa farlo

Ne siamo fermamente consapevoli

Quote:
Ray71
Spero comunque che il progetto faccia dei significativi passi avanti
(anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali ;-)

Saluti,

F.
Grazie, lo speriamo anche noi e speriamo di fornire qualcosa di più concreto mese dopo mese.

Ovviamente sono graditissimi i tuoi consigli

Giorgio
Giorgiotave non in linea   Rispondi citando
Vecchio 28-08-06, 18:04   #9 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
Quote:
osvi
secondo me è meglio continuare in php
python ha molti meno utenti (per esempio anche io stesso non lo conosco)

sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp )
sento un po' la mancanza di php5, soprattutto per spider.php
Perfetto

Me lo invii? Emmebar ti attiva subito

Dicevo, rimaniamo in php, ma cerchiamo qualcuno che programmi in Python per tradurre il tutto

Ma il php rimarrà sempre, poi ci sono tante cartelle e c'è spazio per tutti
Giorgiotave non in linea   Rispondi citando
Vecchio 28-08-06, 18:51   #10 (permalink)
Esperto
 
L'avatar di osvi
 
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
mail inviata

uhm faccio un paio di test sul robots
(per adesso faccio cose semplici, prima di fare il codice degli algoritmi devo studiare non bene benissimo varie parti che mi mancano)
osvi non in linea   Rispondi citando
Vecchio 28-08-06, 19:09   #11 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
http://www.teecno.it/osvi/

C'è qualche bug...ma lodevole! Credo che si può implementare il discorso cache

Era uno dei progetti

Anche se è solo un test.

Osvi, apri un thread dove spieghi le modifiche che hai fatto.

Presto ci sarà anche un altro utente che mostrerà la sua versione.

Dovremmo prevedere anche dei zip per ogni utente. Ora scegliamo il tipo specifico di licenza
Giorgiotave non in linea   Rispondi citando
Vecchio 28-08-06, 20:06   #12 (permalink)
Esperto
 
L'avatar di osvi
 
Data di registrazione: Jul 2006
Ubicazione: Siena
Messaggi: 1,077
ok
5 minuti e lo faccio
intanto ho scritto la prima parte del parser robots
http://webmatters.it/teecno2/robots.php
pulisce linee e toglie i commenti
manca solo la parte "leggi solo Teecnobot e *"
osvi non in linea   Rispondi citando
Vecchio 28-08-06, 20:14   #13 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
C'è un altro utente che forse stasera riesce ad implementare la lettura del Robots.txt

Giorgio
Giorgiotave non in linea   Rispondi citando
Vecchio 28-08-06, 20:28   #14 (permalink)
Esperto
 
Data di registrazione: Apr 2006
Messaggi: 94
Quote:
Giorgiotave

Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.
Un buon punto di partenza per farsi un idea delle "altre" cose da fare, puo' essere questo (immagino che lo abbiate gia' letto, comunque).

Ovviamente ha ben poco a che vedere con il Google di oggi, ma da un idea di quali sono gli aspetti principali di cui tenere conto.

Quote:
Giorgiotave
Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

Ovviamente ci sono da contare tutte le pagine interne.
Infatti, servono degli "spider" autonomi, non pagine web, ma programmi che girano 24/24 esplorando il web e raccogliendo URLs.

Per i blog, e' forse anche piu' facile: basta registrarsi ai feed RSS.

Quote:
Giorgiotave
La prima cosa da pensare (e qui ci potresti dare il tuo parere ) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.
Per es. si potrebbe considerare, in futuro, di avere piu' di un DB: uno a sola lettura con tutto l'indice e uno separato per i log.

Quote:
Giorgiotave
L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.
Nell'articolo Larry e Sergey parlano di 24 Milioni di URL racimolati in poco piu' di una settimana, ma con una "batteria" di ragni che processava 48 pagine al secondo.
Questo dovrebbe essere fattibile facilmente con le macchine che ci sono oggi.
Inoltre, a quei tempi (dieci anni fa!) 150Gb erano un'enormita' oggi sono (quasi) bruscolini, quindi gestire questo numero di pagine non dovrebbe essere complicatissimo (il problema e', semmai, scegliere quali tenere e quali buttare, e questo e' forse un problema molto piu' complicato oggi che dieci anni fa)


Quote:
Giorgiotave

Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare

Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.
Almeno all'inizio, il crawling di "Backrub" era scritto in Java, ma credo che oggi Python sia una buona scelta, essendo veramente semplice da imparare, molto versatile e abbastanza veloce.
__________________
Shades by Everfluxx
Ray71 non in linea   Rispondi citando
Vecchio 28-08-06, 20:34   #15 (permalink)
 
L'avatar di Giorgiotave
 
Data di registrazione: Oct 2004
Ubicazione: Monasterace
Messaggi: 34,892
Invia un messaggio tramite Skype a Giorgiotave
Grazie Ray71 per questi consigli.

Ora vediamo un attimino di analizzarli con calma e prendere delle decisioni e poi aprire i vari progetti.

Si abbiamo letto quel documento

Grazie davvero
Giorgiotave non in linea   Rispondi citando
Rispondi
Tags: , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 14:10.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.