+ Rispondi alla Discussione
Risultati da 1 a 20 di 20

[domanda]il punto della situazione

Ultimo Messaggio di bayle il:
  1. #1
    Banned L'avatar di cibino
    Data Registrazione
    Apr 2006
    Località
    treviso
    Messaggi
    2,236

    [domanda]il punto della situazione

    chiedevo qual era il punto della situazione...cioè se era possibile iniziare a fare delle query di test per verificare l'efficacia del motore.
    io ne ho fatta una, però, prima di riportarla, volevo informarmi sul fatto che il motore fosse o meno in fase beta.

  2. #2
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,718
    Visita il canale Youtube di Giorgiotave
    Il motore non fornisce ancora risultati per gli utenti

    Ma solo per noi. Dobbiamo spiderizzare tanti documento e fare un algo che calcoli i link, poi sarà attivo

  3. #3
    Banned L'avatar di cibino
    Data Registrazione
    Apr 2006
    Località
    treviso
    Messaggi
    2,236
    benissimo!!!
    attendo premuroso...

  4. #4
    User
    Data Registrazione
    Feb 2005
    Messaggi
    532

    Alcune domande sul vostro progetto

    Non volevo aprire un altro post inutile...

    Cmq per prima cosa, complimenti per il vostro progetto !!

    Volevo chiarezza sul funzionamento del motore Teecno

    La spiderizzazione dei siti web come avviene ? Immettete direttamente voi i link da spiderezzare o avete studiato qualcosa per poterlo fare ?

    Ho letto che il progetto è Open Source, quindi ogni volta che migliorate il motore di ricerca viene data la possibilità di scaricarsi il codice aggiornato?

    Per il momento è tutto !! Se mi vengono in mente altre curiosità vi faccio sapere !!

    Ciao ciao e buon lavoro !!

  5. #5
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,718
    Visita il canale Youtube di Giorgiotave
    Citazione Originariamente Scritto da seven
    Non volevo aprire un altro post inutile...

    Cmq per prima cosa, complimenti per il vostro progetto !!

    Volevo chiarezza sul funzionamento del motore Teecno
    Grazie Seven!

    Citazione Originariamente Scritto da seven
    La spiderizzazione dei siti web come avviene ? Immettete direttamente voi i link da spiderezzare o avete studiato qualcosa per poterlo fare ?
    Daremo presto a tutti la possibilità di farlo...dobbiamo migliorare lo spider che per ora si trova qui

    http://www.teecno.it/spider.php

    Provalo...ha un bug ma funziona.

    Citazione Originariamente Scritto da seven
    Ho letto che il progetto è Open Source, quindi ogni volta che migliorate il motore di ricerca viene data la possibilità di scaricarsi il codice aggiornato?

    Per il momento è tutto !! Se mi vengono in mente altre curiosità vi faccio sapere !!

    Ciao ciao e buon lavoro !!
    Si ovvio


  6. #6
    Esperto
    Data Registrazione
    Apr 2006
    Messaggi
    94
    Ciao,

    ho appena scoperto teecno, complimenti per il coraggio ;-)
    Avete dei piani piu' concreti o state solo sperimentando ?
    Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)

    Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?
    Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?) :-D

    Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.

    Spero comunque che il progetto faccia dei significativi passi avanti
    (anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali ;-)

    Saluti,

    F.
    Shades by Everfluxx

  7. #7
    Esperto L'avatar di osvi
    Data Registrazione
    Jul 2006
    Località
    Siena
    Messaggi
    1,077
    secondo me è meglio continuare in php
    python ha molti meno utenti (per esempio anche io stesso non lo conosco)

    sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp )
    sento un po' la mancanza di php5, soprattutto per spider.php

  8. #8
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,718
    Visita il canale Youtube di Giorgiotave
    Ciao F. Ray71

    Citazione Originariamente Scritto da Ray71
    Ciao,

    ho appena scoperto teecno, complimenti per il coraggio ;-)
    Grazie mille

    L'obiettivo, come detto è:

    Il progetto inoltre non si pone l’obiettivo di diventare un grosso motore di ricerca, di scavalcare quello e quell’altro, non prendiamoci in giro.


    Il progetto vuole semplicemente dare la possibilità a tutti di poter studiare come funziona un motore di ricerca tutti insieme e di divulgare queste informazioni e renderle fruibili per crescere tutti insieme.

    Citazione Originariamente Scritto da Ray71
    Avete dei piani piu' concreti o state solo sperimentando ?
    Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

    E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.

    Non è per gli utenti ovviamente....ancora Speriamo lo sia presto (che non significa tre mesi )

    Citazione Originariamente Scritto da Ray71
    Che previsioni avete sul volume (milioni di URL nel DB ? decine di queries al secondo?)
    Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

    Ovviamente ci sono da contare tutte le pagine interne.

    La prima cosa da pensare (e qui ci potresti dare il tuo parere ) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.

    L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.

    Per le query dell'utente non lo so...non è il nostro obiettivo ora. Oggi abbiamo ricevuto 350 query, ma è il giorno del lancio, ancora un paio di giorni e dovrebbero calare.

    Quando sarà qualcosa di concreto inizierò con una promozione maggiore ed ho già individuato come farlo.


    Citazione Originariamente Scritto da Ray71
    Ho scaricato i sorgenti, vedo che siamo ancora agli inizi, ma c'e' qualche piano di passare a linguaggi piu' versatili, almeno per il crawling e l'indicizzazione ?
    Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare

    Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.

    Ma la programmazione in php la lasciamo, proprio perchè è il linguaggio più usato e quindi cerchiamo di farlo capire a tutti.

    Ovvio, il risultato finale, lo vogliamo fare in un altro linguaggio

    Citazione Originariamente Scritto da Ray71
    Spider.php e' molto rudimentale, per es. non mi sembra che rispetti i robots.txt o che si presenti con un User-Agent specifico (TeecnoBot ?) :-D
    Rudimentalissimo, se me lo concedi.

    Non si presenta come User-Agent (si, TeecnoBot) e questo crea problemi con le pagine come Wikipedia.

    Inoltre il progetto Robots.txt non è ancora attivo e lo faremo presto.

    Oltre a questo lo dobbiamo migliorare molto, è un esperimento.

    Citazione Originariamente Scritto da Ray71
    Ma non credo che si possa fare molto altro in php, Python sembra invece un linguaggio piu' versatile (e altrettanto semplice da usare) per questo tipo di applicazioni.
    Si, ma dobbiamo cercare chi sa farlo

    Ne siamo fermamente consapevoli

    Citazione Originariamente Scritto da Ray71
    Spero comunque che il progetto faccia dei significativi passi avanti
    (anche se non credo che vi partecipero' attivamente, sono comunque disponibile per consulenze occasionali ;-)

    Saluti,

    F.
    Grazie, lo speriamo anche noi e speriamo di fornire qualcosa di più concreto mese dopo mese.

    Ovviamente sono graditissimi i tuoi consigli

    Giorgio

  9. #9
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,718
    Visita il canale Youtube di Giorgiotave
    Citazione Originariamente Scritto da osvi
    secondo me è meglio continuare in php
    python ha molti meno utenti (per esempio anche io stesso non lo conosco)

    sto facendo delle modifiche (http://webmatters.it/teecno2/ in attesa di ftp )
    sento un po' la mancanza di php5, soprattutto per spider.php
    Perfetto

    Me lo invii? Emmebar ti attiva subito

    Dicevo, rimaniamo in php, ma cerchiamo qualcuno che programmi in Python per tradurre il tutto

    Ma il php rimarrà sempre, poi ci sono tante cartelle e c'è spazio per tutti

  10. #10
    Esperto L'avatar di osvi
    Data Registrazione
    Jul 2006
    Località
    Siena
    Messaggi
    1,077
    mail inviata

    uhm faccio un paio di test sul robots
    (per adesso faccio cose semplici, prima di fare il codice degli algoritmi devo studiare non bene benissimo varie parti che mi mancano)

  11. #11
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,718
    Visita il canale Youtube di Giorgiotave
    http://www.teecno.it/osvi/

    C'è qualche bug...ma lodevole! Credo che si può implementare il discorso cache

    Era uno dei progetti

    Anche se è solo un test.

    Osvi, apri un thread dove spieghi le modifiche che hai fatto.

    Presto ci sarà anche un altro utente che mostrerà la sua versione.

    Dovremmo prevedere anche dei zip per ogni utente. Ora scegliamo il tipo specifico di licenza

  12. #12
    Esperto L'avatar di osvi
    Data Registrazione
    Jul 2006
    Località
    Siena
    Messaggi
    1,077
    ok
    5 minuti e lo faccio
    intanto ho scritto la prima parte del parser robots
    http://webmatters.it/teecno2/robots.php
    pulisce linee e toglie i commenti
    manca solo la parte "leggi solo Teecnobot e *"

  13. #13
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,718
    Visita il canale Youtube di Giorgiotave
    C'è un altro utente che forse stasera riesce ad implementare la lettura del Robots.txt

    Giorgio

  14. #14
    Esperto
    Data Registrazione
    Apr 2006
    Messaggi
    94
    Citazione Originariamente Scritto da Giorgiotave

    Quello che hai visto e scaricato è una sperimentazione. I piani li abbiamo messi qui

    E' una lista "delle cose da fare", ma ovviamente non sono tutte. Diciamo che con molti progetti finiti di quelli siamo già a buon punto per qualcosa di più concreto.
    Un buon punto di partenza per farsi un idea delle "altre" cose da fare, puo' essere questo (immagino che lo abbiate gia' letto, comunque).

    Ovviamente ha ben poco a che vedere con il Google di oggi, ma da un idea di quali sono gli aspetti principali di cui tenere conto.

    Citazione Originariamente Scritto da Giorgiotave
    Sul numero di documenti nel DB, diciamo che contiamo di spiderizzare i siti partendo da varie directory e classifiche, con un occhio di riguardo per i blog.

    Ovviamente ci sono da contare tutte le pagine interne.
    Infatti, servono degli "spider" autonomi, non pagine web, ma programmi che girano 24/24 esplorando il web e raccogliendo URLs.

    Per i blog, e' forse anche piu' facile: basta registrarsi ai feed RSS.

    Citazione Originariamente Scritto da Giorgiotave
    La prima cosa da pensare (e qui ci potresti dare il tuo parere ) è l'ottimizzazione del DB a secondo della struttura che vedi nei File che hai scaricato.
    Per es. si potrebbe considerare, in futuro, di avere piu' di un DB: uno a sola lettura con tutto l'indice e uno separato per i log.

    Citazione Originariamente Scritto da Giorgiotave
    L'intenzione è di mettere nel DB tantissimi siti Italiani, non so quando, ma si, milioni di URL. Però ripeto, prima di iniziare a farlo, dobbiamo ovviamente pensare all'ottimizzazione.
    Nell'articolo Larry e Sergey parlano di 24 Milioni di URL racimolati in poco piu' di una settimana, ma con una "batteria" di ragni che processava 48 pagine al secondo.
    Questo dovrebbe essere fattibile facilmente con le macchine che ci sono oggi.
    Inoltre, a quei tempi (dieci anni fa!) 150Gb erano un'enormita' oggi sono (quasi) bruscolini, quindi gestire questo numero di pagine non dovrebbe essere complicatissimo (il problema e', semmai, scegliere quali tenere e quali buttare, e questo e' forse un problema molto piu' complicato oggi che dieci anni fa)


    Citazione Originariamente Scritto da Giorgiotave

    Si si, questa è una priorità. Vorremo trovare qualcuno che ci possa aiutare

    Perchè sappiamo che ci sono linguaggi più potenti e vorremmo proprio tradurlo.
    Almeno all'inizio, il crawling di "Backrub" era scritto in Java, ma credo che oggi Python sia una buona scelta, essendo veramente semplice da imparare, molto http://www.giorgiotave.it/wikigt/os/Versatile" title="Anticamente usato come sinonimo di girevole, che può ruotare.

    In senso figurato, instabile o incostante." target="_blank" class="gal">versatile e abbastanza veloce.
    Shades by Everfluxx

  15. #15
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    40,718
    Visita il canale Youtube di Giorgiotave
    Grazie Ray71 per questi consigli.

    Ora vediamo un attimino di analizzarli con calma e prendere delle decisioni e poi aprire i vari progetti.

    Si abbiamo letto quel documento

    Grazie davvero

  16. #16
    User
    Data Registrazione
    Feb 2005
    Messaggi
    532
    Ecco un altra domandina...
    Al momento la posizione dei link nella serp da cosa viene determinato ?

    Qual'è il bug che mi parlavi Giorgio !!

  17. #17
    Moderatore L'avatar di tonyx
    Data Registrazione
    Apr 2006
    Località
    Ischia
    Messaggi
    248
    Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

    Lo spider è la questione chiave di un database di un motore di ricerca.
    Conoscete Ischia? E' bellissima! - Antonio Iervolino

  18. #18
    Esperto
    Data Registrazione
    Apr 2006
    Messaggi
    94
    Citazione Originariamente Scritto da tonyx
    Concordo in pieno sull' indicazione di Ray71 per quanto riguarda lo spider tramite script php è accettabile solo come esempio, io sono un fissato del c++ e secondo me è il linguaggio (anche se più difficile del python) che permette di realizzare qualsiasi applicazione ottimizzandola pure.

    Lo spider è la questione chiave di un database di un motore di ricerca.
    Suggerisco Python perche' e' molto semplice da usare (specie se si parte dal php).
    Va anche considerato che le prestazioni non dovrebbero essere un grosso problema: la maggior parte del tempo e' nel networking, quindi partire subito in C++ non darebbe grossi vantaggi, anzi, in Python ci sono gia' varie librerie standard per la gestione degli url e delle connessioni http, e un minimo di spider si scrive in mezza giornata, in C++ invece potrebbero volerci delle settimane prima di avere qualcosa di funzionante.

    Una volta fatto un prototipo in Python, si puo' usare per un po' e rimandare il passaggio al C++, se proprio necessario, in un secondo tempo.
    Shades by Everfluxx

  19. #19
    Moderatore L'avatar di tonyx
    Data Registrazione
    Apr 2006
    Località
    Ischia
    Messaggi
    248
    Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo
    Vi faccio sapere
    Conoscete Ischia? E' bellissima! - Antonio Iervolino

  20. #20
    User L'avatar di bayle
    Data Registrazione
    Jun 2006
    Località
    Lucca
    Messaggi
    350
    Citazione Originariamente Scritto da tonyx
    Io Python lo conosco poco, ma certamente come dici tu è più facile, mi informo meglio e vedo se riesco a realizzare un prototipo
    Vi faccio sapere
    Io col Python ho avuto una piccola esperienza e devo dire che si impara in 2 settimane se uno ci si mette. Non fatevi fregare però, ci si possono fare tutte le cose che si vogliono.

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.