• User

    Leggere informazioni da una pagina web

    Ciao a tutti,

     abbiamo la necessità di effettuare un algoritmo per il rilevamento di prezzi da alcuni siti.
    

    Ora, dovremmo costruire degli algoritmi mirati.

    La domanda è questa: esiste un pattern o un metodo già pronto che consenta di meccanizzare questo tipo di processo di .Net ?

    grazie mille


  • Moderatore

    Se intendete rilevare dei prezzi, o più in generale dei dati, direttamente da pagine web allora credo proprio di no...

    Costurire inoltre degli algoritmi mirati su alcuni siti vorrebbe dire modificare l'algoritmo tutte le volte che il sito cambia modalità di presentazione dei dati stessi...
    Potrebbe essere una spesa non indifferente...

    Comunque costruire un algoritmo non è molto difficile, una pagina web in lettura si presenta come HTML, accomunabile ad un XML...
    Si potrebbe studiare un programma che presenta ad un essere umano una struttura dati, cioé la pagina web, e che possa gestire delle regole di "aggancio" per automatizzare il recupero dei dati...

    L'HTML è un linguaggio di scripting a "marcatori" (TAG), ma ciascun sito può usarli come meglio crede...

    Spero di aver dato un supporto valido e Vi auguro una buona ricerca...


  • User

    si, appunto. Il discorso è trovare un metodo generalizzato per individuare i punti di aggancio... Pensi che esistono delle regole o teorie in merito o bisogna di volta in volta andare alla meno peggio ?


  • Moderatore

    Il modo in cui un determinato sito presenti i dati è impredicibile, mentre sappiamo esattamente come potrà essere strutturato un file HTML e quali potrebbero essere eventuali punti di riferimento da "agganciare"...

    Se ad esempio un sito contenesse tutti gli articoli in alcuni DIV con una determinata classe CSS, allora sarebbe sufficiente cercare tutti quei DIV e raccoglierne il contenuto...
    Altrimenti potrebbe essere veramente impraticabile...

    La cosa scoraggiante è che lo stesso sito a distanza di un mese potrebbe decidere di modificare leggermente lo stylesheet, per qualsiasi motivo..., ed il nostro algoritmo basato sulla classe CSS di cui sopra va "a farsi benedire"...
    Sarà necessario un intervento per aggiustare il tiro, in alcuni casi magari semplice, perché è solo cambiato il nome della classe, ma in altri potrebbe essere proprio un cambio strutturale della pagina...

    Insomma, certo che si può fare, ma i presupposti non sono fatti per garantirne robustezza e semplicità di manutenzione...


  • User

    si, anche a questo avevo pensato... che stress


  • User

    Pensavo ad una cosa... E' possibile accedere ad una pagina ed interrogarla come se si trattasse di un file XML (nodo, sottonodo, etc.) ???

    Qualcuno ha idea se è possibile?