• User Newbie

    Motore ricerca full text su pdf e doc

    da un cliente mi è stato richiesto di realizzare per il proprio sito un motore di ricerca full text che riesca a ricercare anche tra documenti pdf doc che caricherà nel sito

    non avendo mai sviluppato motori di ricerca ho cercato di fare una ricerca in internet per vedere che tipo di soluzioni possono essere adottate, senza però trovare esempi chiari di come funzionerebbe il sistema

    non ho capito se serve un programma su server che si occupa di tradurre i vari pdf in testo da inserire poi in un database per effettuare successivamente le ricerche, o se questa traduzione da file a testo va fatta con php...

    inoltre i quesiti che non sono riuscito a risolvere sono:

    1. quanto un sistema del genere possa rallentare un sito che già con il suo cms lavora sul suo database
    2. quali problematiche ci possono essere nel gestire vari formati (pdf doc ecc..) calcolando che ho già visto esserci numerose problematiche riguardanti i vari formati di testo unicode, latin ecc...

    in parole povere cerco qualcuno che avendo già esperienza nel settore mi sappia dire cosa serve per sviluppare un motore di ricerca di questo tipo per capire in termini di ore di lavoro e conoscenze cosa comporterebbe