• User

    Content Grab - tool per "grabbare" i contenuti da altri siti

    Salve,
    in questo periodo, come anche l'altro anno, il corso di Web Mining del Master in Web Technology dell'Università dell'Aquila ha organizzato un seo contest un pò particolare rispetto al vecchio e conosciuto "Funzino Apocrifo".

    A noi studenti questa volta è stato chiesto di realizzare dei seo web tool che potessero essere in qualche modo utile alla comunità SEO.

    Sono qui per parlare naturalmente del progetto che io (insieme al mio gruppo) abbiamo realizzato (forse qualche altra miglioria andrebbe fatta ;)).

    Tale progetto, come indica il nome del topic, si intitola "Content Grab" e lo scopo della sua creazione è proprio quello di "grabbare" i contenuti presenti su altri siti web (nel termine "rubare" come io l'ho inteso :D).

    Questa piattaforma php, una volta installata sul proprio server locale, permette di specificare un indirizzo web da cui prelevare i contenuti.

    L'utilizzo di questo software è connesso alla conoscenza delle espressioni regolari grazie alle quali l'utente può definire la porzione di codice della pagina dalla quale vuol prendere il contenuto.

    Una volta che tale contenuto è stato prelevato viene memorizzato nel db.

    Una funzionalità degna di nota è la possibilità di poter recuperare dati divisi anche in più pagine...ES: se volessimo recuperare tutte le persone che fanno di cognome "guerra" a L'aquila useremmo sicuramente il servizio di paginebianche.it . Tali risultati sicuramente saranno divisi in più pagine...ora entra in gioco il content grab: grazie alla sua funzionalità può recuperare dati sparsi in più pagine.

    Vorrei che provaste il nostro tool nella speranza che vi possa essere utile.
    L'indirizzo dal quale potete scaricare il tool è il seguente: http: //contentgrab.ottimizzazione.biz

    **Un consiglio: tra oggi e domani pubblicheremo la versione 2.0 FUNZIONANTE e con tutte le funzionalità implementate quindi per il momento NON SCARICATE la versione 1.0

    **Appena uscirà la ver 2.0 vi informerò così la potrete testare.

    Libero


  • User Newbie

    è stata pubblicata la versione 2.0 di content grab, a giorni uscirà anche una mni guida che aiuterà i programmatori meno esperti.

    Per ora l'unico centro di assistenza per l'utilizzo del tool è presente sul forum di contentgrab contentgrab.ottimizzazione.biz/forum/content-grab-f2/webtool-content-grab-versione-2-0-t4.html

    Vogliamo migliorare il tool perchè a nostro parere potrebbe essere molto utile, già abbiamo pensato a diverse migliorie, ma aspettiamo anche vostre opinioni e punti di vista.


  • Bannato User Attivo

    il tutto si può riassumere in:
    [php]foreach($GLOBALS['pattern_rule'] as $key=>$value){
    foreach($value as $k=>$v){
    preg_match_all($k, $UrlContent, $matches, PREG_PATTERN_ORDER);
    $j = 1;
    for($i=0; $i<count($matches[$v]); $i++){
    //echo $matches[$v];
    $this->content_extract .=$matches[$v]
    ;
    $j++;
    }
    }

                }[/php]il resto è contorno e 700 righe di licenza per ogni file php (non si potevano evitare o mettere in un txt?). Sinceramente mi sembra poco per valutarlo, mi aspettavo qualcosa di più corposo. Senza offesa chiaramente, sono rompiscatole per natura:D soprattutto dopo una giornata di lavoro:(

  • User

    si sul fatto della licenza hai ragione (il fatto è che ho letto su wikipedia di fare così cmq ho accorciato).

    Poi non è tutto vero come dici tu. Il tutto non può essere riassunto in quelle 10 righe di codice.

    Ci sono altre funzionalità proprio per permettere all'utilizzatore di voler grabbare solo alcune parti di contenuto semplificando il lavoro, nel senso che sono presenti opzioni che, opportunamente settate, possono far si che l'utente eviti l'inserimento di una propria espressione regolare

    Ad esempio se uno volesse grabbare solo i metetag basterebbe settare i relativi metatag a 1 nel file config.php senza stare li a scriversi una espressione regolare. Lo stesso vale per i link, il codice javascript ecc.

    Poi considera che ci sono altre funzioni che non posso essere tolte, come la validazione dell'url e l'addslash dei caratteri "pericolosi".

    Cmq mi hai portato ad un riflessione, forse potrei accorciare il codice (anzi sicuramente si), il fatto è che, come ben sappiamo, la creazione di un'applicazione web è di tipo evolutiva ed è difficile ottimizzare alla perfezione il codice almeno in fase di test. Proprio per questo abbiamo postato qui il nostro progetto così da poterlo analizzare insieme.

    Grazie per l'idea. E' stata davvero utile

    mi aspettavo qualcosa di più corposo
    Stiamo implementando naturalmente altre funzionalità. Se avete altre idee proponete