Volevo aggiungere qualche riflessione.
- Una piccola riflessione sul secondo
algoritmo, il Tf*IDF.
Questo algoritmo, come già spiegato in precedenza, usa nella formula il parametro D, che è il numero dei documenti totali, quindi cosa succede:
per ogni nuovo documento inserito questo valore D aumenta di 1 unità
quindi per i precedenti documenti BISOGNA RIPETERE IL CALCOLO DEL PESO, inquanto uno dei parametri è cambiato.
Come fare?
Io penso che la soluzione ottimale sia far partire il ricalcolo come se fosse un aggiornamento ad esempio 1 volta a settimana.
-Spam
Questi due algoritmi sia quello dei pesi sempici sia quello Tf*IDF sono sucettibili al
keyword spamming, ovvero tante più keyword sono presenti nella pagina tanto più alto sarà il loro peso, non è stata trattata per niente una alternativa che combatta lo
spam, questo perchè siamo agli inizi e per ora è un test, quindi VI PREGO NON INDICIZZATA PAGINE CON SPAM.
Saluti
Tony.