• User Attivo

    Le regole grammaticali ed i motori di ricerca

    Ciao ragazzi,
    oggi parlavo di alcune regole grammaticali con mia sorella, quanto incidono in un motore di ricerca?
    Secondo voi hanno predisposto delle "IF" per alcune regole(dai scherzo!)? 🙂 ...
    Conoscono la lingua prima di ricercare i termini?Cosa ne pensate?


  • Community Manager

    @adrianodistasi said:

    ...
    Conoscono la lingua prima di ricercare i termini?Cosa ne pensate?

    Con Google PhraseRank la lingua la faremo noi 😄

    Sposto in SEOFocus, vediamo cosa dicono i paocavo e gli agoago 🙂

    :ciauz:


  • Moderatore

    I motori di ricerca, attualmente, restituiscono... quello che trovano!
    Pertanto se una query è sgrammaticata restituiranno i risultati che più si adattano letteralmente (o sintatticamente) alla richiesta effettuata. Quindi restituiranno prima i siti che hanno commesso errori.

    Se quindi ritenete che il vostro target sia di persone che conoscono poco la lingua italiana e la sua grammatica allora scrivete in maniera "sgrammaticata"...
    In realtà, imho, non si tratta di sgrammaticature ma di adeguamento ad un entità che non è statica ma si evolve nel tempo: la lingua parlata... che poi diventa scritta.

    L'analisi semantica, semmai la fanno/faranno, sarà impiegata, credo, nel calcolo del ranking di sito non per una data keywords ma globalmente nel calcolo di:

    • Phraserank (& Trustrank?)
    • Attinenza del sito agli anchor dei relativi BL (buoni)
    • Attinenza dei contenuti delle pagine ai relativi Title & URL

    in due parole: Spam Detection

    Tutto ciò sarà vero fino a quando l'obiettivo principale dei MdR sarà quello massimizzare il matching tra richiesta dell'utente e documenti indicizzati.
    Quando, poi, passeranno a massimizzare l'obiettivo di "comprendere" ciò che intendeva dire l'utente con la sua query allora si che sarà importante la grammatica in quanto è importante (ma non fondamentale) nella comprensione di un testo scritto.

    PS:

    
    ...
     if (document.paragraph*.phrase[j].indexOf(this.subject) < 
         document.paragraph*.phrase[j].indexOf(this.verb))  
    {
      PR++            
    }
    ...
    
    

    :lol::lol::lol:😉
    :ciauz:


  • User Attivo

    Sommo a quanto detto da paolo (che virtualmente abbraccio) che i motori di ricerca sono ancora particolarmente permalosi e diffidenti.

    E' il caso tipico dei testi in dialetto o di particolari e poco conosciuti testi in "slang".

    Il wm scrive-riporta un testo in una lingua densa di termini poco noti al motore.

    Il motore, sempre attento al rapporto costi benefici, non riconosce quelle nuove-strane parole come un qualcosa che... seppur visto raramente, essendo (quel testo) sito in pagine attendibili (quel testo) poteva essere ritenuto testo si' nuovo, ma un nuovo degno di fiducia.


    Mi spiego meglio.

    Immaginiamo che un wm faccia migliaia di documenti pieni di parole scritte, una ad una, sorteggiandone le lettere.

    Esempio:

    "fwetgfegf fqwdfhvcbdgre sgwetwrq efwetwetqqf fefqrqr jytkjitritr jtrur"

    Ora un motore spiderizza il testo:

    "fwetgfegf fqwdfhvcbdgre sgwetwrq efwetwetqqf fefqrqr jytkjitritr jtrur"

    --

    Bene, il motore legge questo testo assurdo e lo archivia nei suoi db.

    Il motore non sa se un domani ci saranno query contenenti la parlola (per esempio): fqwdfhvcbdgre, e pertanto non sa se nessun o pochi utenti cercheranno la parola (entro breve) qwdfhvcbdgre.

    Il motore pertanto archiviera' quel testo come testo inutile o peggio ancora come testo di spam, testo creato artificialmente.


    Perche' avviene questo?
    Perche' viceversa sarebbe troppo semplice.
    Io wm potrei creare documenti formati da parole composte da lettere e numeri random.
    Cosi' facendo potrebbe "raccogliere" gli accessi di tutti quegli utenti che sbagliano a scrivere le query.

    In una parola, quel wm diventerebbe ricco in breve tempo.


    I motori non possono permettere questo tipo di spam, ed allora accettano una loro % massima (per sito, per documento) di testo a loro poco conosciuto.


    Come si traduce tutta questa filippica?

    Il senso e' che se degli utenti cercano parole nuove ed il motore trova quelle nuove-originali parole dentro un nuovo documento allora non ci sono problemi.

    Ma se un motore trova dentro un documento nuove parole che nessuno ha mai cercato ecco che allora che il motore ragiona cosi':

    Aspettiamo un po' di tempo....

    Ho aspettato un po'... nessuno le ha cercate allora: testo = spam, viceversa (in seguito) le hanno cercate allora: testo = utile.


    Eccezioni ce ne sono.

    Il parlato differisce dallo scritto.
    I testi parlati sono scritti nel web in minor misura dei testi scritti (sembra un gioco di parole, ma il senso e' quello).

    Tuttavia i motori si fanno forti, sfruttano (a fini scientifici) di molti corpora universitari in venduta (alla faccia di chi crede che tutte le universita' condividuano le lore risorse gratuitamente), tra questi i corpora di testo parlato.

    Pertanto sanno distinguere tra parole non presenti sul web perche' inventate e parole non presenti sul web ma esistenti nello slang di tutti i giorni.


    E' un problema tremendo di tutto il web.
    Il web e' fonte incredibile di informazione, ma tanto e' potente quanto e' ad escusivo uso e consumo di chi puo' pertemettersene i benefici.

    Se vivi in montagna spesso sei tagliato fuori, se sei povero non puoi permetterti il collegamento adsl, se non sei un motore non puoi permetterti i 40.000$ dollari annui che ti danno accesso ad alcuni corpora.


    E poi sui quotidiani ogni tanto appare la notizia che qualcuno ha bucato l'universita' di turno.

    Gia' bello che l'abbiano bucata e basta, sono dei galantuomini.

    A chi pretende di vendermi a 40k$ un pezzo di sapere gli formatterei anche la casa, altro che bucargli i permessi.