• User Attivo

    Ai content

    L'assioma:
    Un' intelligenza artificiale non potra' mai esser certa di riconoscere se un testo e' stato creato da un'altra intelligenza artificiale.


    Pertanto un motore di ricerca (in futuro, man mano che passa il tempo) non sara' teoricamente in grado di distinguere con certezza se un documento-sito originale e' stato creato-scritto con un software o manualmente.
    Potra' stabilirlo solo tramite verifica umana.

    Siccome un controllo manuale non puo' competere (in termini di produzione-lavoro-verifica, non qualitativamente parlando ovviamente) con un sistema meccanico-artificiale-automatico, i documenti prodotti artificialmente conquisteranno sempre piu' mercato.

    Teoricamente gli "ai contents" potrebbero alla lunga saturare il web, tanto da annullare (nelle serp) ogni altro contenuto che non provenga da siti semi o "istituzionali".


    In pratica (e non solo piu' in teoria) ci sono altissime probabilita' che tutti i motori di ricerca entro pochi anni, non siano piu' in grado di dare risultati accettabili per query con key formate da 3 parole od oltre.

    L'unica loro contromisura' sara' inizialmente quella di spingere wm ed utenti nel segnalargli questo nuovo genere di siti.
    Sara' tuttavia una contromisura inutile, perche' comprare un nome di dominio, crearne il contenuto via ai ed hostarlo gia' oggi costa cosi' poco che basteranno pochi giorni in serp per recuperare tutti i costi e guadagnarci abbondantemente.
    Senza contare che non sara' facile per un motore verificare "a mano" magari un milione di "siti segnalati" in un paio di mesi.

    Di certo una bella sfida, soprattutto all'inizio.
    Poi nel tempo sempre piu' facile.


    Comodo oggi (per i motori) usare l'ai per ordinare il lavoro manuale dei wm.
    Vedremo domani ai contro ai.

    Finche e' durata si son goduti la festa, con canti e balli.
    Ma dal 2008 i suonatori inizieranno a tornare a casa, e con loro i festeggianti.


  • Moderatore

    in effetti ho visto un gran movimento nella comunità AI e ci sono degli algoritmi in giro molto interessanti di cui uno è questo http://adios.tau.ac.il/

    personalmente trovo che le markov chain siano difficili da settare in maniera adeguata, forse perchè mi ostino ad implementare un algoritmo con ordine costante, mentre l'algoritmo di sopra fa uso di markov chain di ordine variabile

    però i risultati che sto vedendo non sono malaccio, anzi a volte, da essere umano, faccio fatica a distinguerli dai risultati "naturali"

    penso che fino ad oggi fosse la potenza di calcolo dei computer il vero ostacolo, io uso un'implementazione in Python delle markov chain su un P4 con 3 GB di RAM e 850 MB di dati testuali e, a parte la fase di bootstrap del programma, la generazione richiede dai 3 ai 12 secondi per testi di 800-1000 parole

    invece la vedo dura per i motori che nonostante abbiano risorse di calcolo considerevoli, hanno anche una mole di dati ultra-considerevole da elaborare

    inoltre ho notato che anche sul fronte linking si stanno muovendo parecchio le acque a causa della diffusione dei CMS, in primis Wordpress, stanno aumentando i casi di backlink indotti attraverso tecniche di SQL Injection....

    non per fare nomi ma cercando nella SERP "casino online" ho visto almeno 5-6 siti tutti appartenenti allo stesso individuo che hanno ottenuto backlink in questo modo, parliamo di decine di migliaia di backlink


  • User Attivo

    @paolino said:

    inoltre ho notato che anche sul fronte linking si stanno muovendo parecchio le acque a causa della diffusione dei CMS, in primis Wordpress, stanno aumentando i casi di backlink indotti attraverso tecniche di SQL Injection....

    non per fare nomi ma cercando nella SERP "casino online" ho visto almeno 5-6 siti tutti appartenenti allo stesso individuo che hanno ottenuto backlink in questo modo, parliamo di decine di migliaia di backlink

    Ciao, verissimo. Aggiungi al gambling online il settore pharmacy.
    Tanto che per scoprire il parassitaggio non è piu' conveniente verificare un eventuale ban o una penalizzazione secca (che non c'è più, bei tempi quelli del -30/9xx!)... bisogna fare site:tuodominio.tld viagra | cialis | poker online | casino | pharmacy.

    Tutti quelli che hanno CMS dovrebbero fare periodicamente questi controlli, perchè il prezzo è salato: google ti sgonfia le ruote se sei parassitato.

    Tra pochi giorni presenterò un caso concreto in cui è stato possibile misurare esattamente cosa comporta in termini di traffico essere parassitati da spam.

    Ciao, a presto.


  • Community Manager

    Quella dei CMS è una bella lotta e secondo me...Google la spunterà con algoritmi che premiamo l'aggiornamento di un blog.

    Già abbassando di molto il valore di Blog/CMS che non si aggiornano di 4 mesi, secondo me tutti questi link perderanno valore.

    Basta pensare solo al caso di penalizzazione per link a siti spam. Raffinando l'algoritmo, aggiornandolo/integrandolo con il web di oggi (e sono sempre aggiornati loro) riusciranno facilmente a trovare una soluzione.

    Per l'AI content invece, agoago la vede troppo da ottimista secondo me. Ottimista dalla parte dell'AI Content.

    Secondo me dureranno pochissimo questi siti 🙂

    Ci sono vari ostacoli da superare, non indifferenti.

    • avere la fiducia di Google entrando nella tabella giusta (Big Table)
    • riuscire ogni volta ad aumentare la popolarità sfuggendo alle leggi del BadRank
    • riuscire ad innovare sempre per ogni sito non mostrando aspetti ripetuti

    Google ha dalla sua anche il grosso database dei dati storici e la sua grande velocità di calcolo.

    Andando avanti sarà sempre più difficile entrare nella tabella corretta e conquistare fiducia e secondo me basterà poco per studiare l'AI content. Perchè ricordiamoci che il riconoscimento dei testi non è solo che una parte dei dati controllati da Google.

    Creare l'AI conten è facile, ma la vera sfida sarà creare l'AI Webmaster.

    Agoago, io ho un paio di idee e di test da fare, che ne dici di una birra al Compleanno GT? 😄


  • User Attivo

    Io credo che il punto della questione sia questo: il mercato è ampio, basta una piccola fetta per fare miracoli. Ovvio che l'ai content non si adegua a settori come l'hosting o come il seo, dove spopolano i blog e simili. Ma ci sono tanti settori in cui i blog non esistono, ma solo siti di poche pagine vetrina per le aziende di quel settore, qui il discorso cambia..

    "Creare l'AI conten è facile"

    Beh insomma 😄

    " ma la vera sfida sarà creare l'AI Webmaster."

    Completamente d'accordo, quoto in pieno.


  • User Attivo

    Giorgio scrive:

    "Per l'AI content invece, agoago la vede troppo da ottimista secondo me"

    No Giorgio, per carita', lungi da me il credere che sia facile, anzi!

    Semplicemente, da anni ormai, ho posto la teoria sopra-innanzi a tutto, pratica compresa.

    Ed analizzando (da lato teorico) il mondo motori seo web ne ho dedotto che:

    "Un' intelligenza artificiale non potra' mai esser certa di riconoscere se un testo e' stato creato da un'altra intelligenza artificiale."

    Con questa affermazione (discutibilissima, come sempre) desidero porre un punto preciso di partenza per future congetture, analisi.

    Che poi un perfetto "ai content" sia nella pratica di facile o improbabile realizzazione... poco o nulla importa.

    Ma se l'assioma e' corretto, se e' teoricamente inattacabile, allora fra un giorno, fra un anno o fra 100 i motori di ricerca tutti dovranno confrontarsi con una nuova realta' che per loro sara' ingestibile, se non in modo manuale con costi folli.

    Tutto qui.


  • Community Manager

    @agoago said:

    "Un' intelligenza artificiale non potra' mai esser certa di riconoscere se un testo e' stato creato da un'altra intelligenza artificiale."

    @agoago said:

    Ma se l'assioma e' corretto, se e' teoricamente inattacabile, allora fra un giorno, fra un anno o fra 100 i motori di ricerca tutti dovranno confrontarsi con una nuova realta' che per loro sara' ingestibile, se non in modo manuale con costi folli.

    L'assioma è corretto preso a parte. Ma Mettendolo con le conclusioni:

    Un' intelligenza artificiale non potra' mai esser certa di riconoscere se un testo e' stato creato da un'altra intelligenza artificiale...QUINDI *gli "ai contents" potrebbero alla lunga saturare il web, tanto da annullare (nelle serp) ogni altro contenuto che non provenga da siti semi o "istituzionali".
    In pratica (e non solo piu' in teoria) ci sono altissime probabilita' che tutti i motori di ricerca entro pochi anni, non siano piu' in grado di dare risultati accettabili per query con key formate da 3 parole od oltre. (By agoago)
    *
    E' questo che rende quell'assioma non corretto e attaccabilissimo.

    Perchè Google ci ha insegnato che l'ordinamento delle sue serp è influenzato da tantissimi fattori che nel tempo lui ha manipolato, aumentando/diminuendo/azzerando la loro potenza relativamente alla forza globale.

    Oggi ad esempio, è molto influente non avvicinare un sito a risorse di spam ed in tutto questo giocano una grande forza i link.

    Ma domani non sappiamo come l'algoritmo di Google sarà influenzato.

    Per ipotesi potrebbe benissimo sfruttare i dati Analytics/Toolbar/Search History/Adsense/Feedburner/Blogger/Hosting per incanalare informazioni relative al comportamento degli utenti nel sito, ed a questo punto estrarre dati sulla permanenza, sulla navigazione, sull'iscrizione ai feed e via dicendo.

    Oggi i link...domani gli utenti?

    Tuttavia, anche se dovesse restare così l'algoritmo (ma è Google stesso che ci ha insegnato altro), e l'AI Content riuscisse a superare gli algoritmi testuali, cioè quelli che analizzano il testo (dato che Google si basa poi su quello che c'è oggi nel web come testo...è anche più facile), non sarebbe che un piccolo risultato. Grande per l'AI Content, piccolo per il SEO/Utente che cerca di aggirare il motore.

    Quante persone ci sono in grado di fare AI Content?

    Ammettiamo di riuscire a creare un sito con 10.000.000 di pagine tutte generate in automatico (oppure se vuoi X siti con 1000 o vedi te). Google non riesce a riconoscerle e le passa. La struttura del sito è buona.

    Alcune domande:

    1. Quanto ci mettono queste pagine a farsi risucchiare in automatico dall'algoritmo del BadRank ed influenzare tutto il network?

    2. Quanto Google stesso ci mette a chiudere la valvola dei contenuti e struttura ed aumentare quella del TrustRank / BadRank?

    3. Quanto Google alzerà la valvola dell'esperienza degli utenti nelle pagine web.

    4. Quanti algoritmi usa Google che gli AI Content non conoscono e che non sono legati al testo? E quanti Algo ha in serbo?

    5. Quali innovazioni tecnologie ed informatiche oggi non vengono seguite ed applicate oggi nei Laboratori di Google o Università alle quali è collegato?

    6. Quanto ci metteranno gli Ai Content a segarsi le gambe da soli?

    Google è così avanti sia in Hardware che in Software che è impossibile stabilire quanto è avanti 🙂

    Se questo è corretto, inattaccabile, allora oggi è impossibile dire che un nuovo sistema metterà in ginocchio le serp 😄

    Ma questo non significa però che tutti i siti di Ai Content verranno bloccati in automatico, ma neanche che Google faticherà con questi siti.

    Secondo me saranno ben pochi e per poco tempo gli AI Content a fare accessi da Google, ma a rischio del proprio Network costato anni di fatica a costruirlo.

    E questo non perchè sono "solo" AI Content 😉

    :ciauz:


  • Moderatore

    @agoago said:

    "Un' intelligenza artificiale non potra' mai esser certa di riconoscere se un testo e' stato creato da un'altra intelligenza artificiale."

    Mi ricorda il test di Turing...

    :ciauz:


  • User Attivo

    Quoto in pieno Giorgio e aggiungo che google avrà di sicuro chissà quali algoritmi pronti all'utilizzo, da tirar fuori non appena necessario..


  • User Attivo

    Innanzitutto credo che alcuni siti / documenti AI possono essere utili per gli utenti, che quindi saliranno giustamente nel motore di ricerca. Per quanto riguarda i documenti spam, si vede già la chiara tendenza di non analizzare il documento stesso però l'ambiente dove viene inserito e la sua percezione dalla community d'internet. Siccome l'algoritmo che analizza il valore semantico di documento nella grossa maniera si basa sull'insieme di documenti che il motore ha nei datacenters per cambiare veramente il ragionamento di motore di ricerca ci vogliono milioni di documenti AI creati nei IP diversi, tutti preferibilmente linkati oltre che tra loro, anche dai siti “naturali” è considerati affidabili. Oltre questo processo di introduzione dei tale documenti dovrebbe essere rallentato nel tempo, cosi per non fregare i filtri temporanei di Google (un documento di alberghi a milano AI e creato da un uomo puo anche essere considerato semanticamente lo stesso, però se uno viene pubblicato insieme alla stessa data con milione dei altri documenti Google dovrebbe riuscire a beccarlo).

    Quindi oltre che l'analisi semantica, dove i discorsi di AI sono sicuramente molto utili, abbiamo da fare con il numero sempre crescente di fattori che sono independenti dalla base di algoritmo. Tanto a livello teorico si può fare tutto, Google deve agire solamente con lo scopo di fare il lavoro di “criminali virtuali” più difficile possibile. Fin quando sarà più facilmente salire usando le tecniche white-grey-hat che creando una rete di siti AI, direi che possiamo dormire tranquillo.


  • User Attivo

    Giorgio scrive:

    "E' questo che rende quell'assioma non corretto e attaccabilissimo.

    Perchè Google ci ha insegnato che l'ordinamento delle sue serp è influenzato da tantissimi fattori che nel tempo lui ha manipolato, aumentando/diminuendo/azzerando la loro potenza relativamente alla forza globale."

    Giorgio, siamo entrambi d'accordo che un buon sistema di AI superera' sempre un discreto sistema di AI.

    E G e' un ottimo sistema.

    Perche' come ricordi tu, non e' limitato a pochi algoritmi semantici, ma ha 1000 cartucce a disposizione, link spontanei, scelte degli utenti, etc etc

    Il motore deve sempre e comunque dare un premio iniziale ad ogni nuovo sito o documento che dir si voglia.
    I motori sono eccezionali nel ordinare siti storici, ma sanno anche che gli utenti sono sempre in cerca di cose nuove.

    Non potendo (per ovvie ragioni) stravolgere le serp delle key maggiori danno allora l'opportunita' ad ogni wm di avere quel minimo di visibilita' per key minori.
    Qualsiasi seo eo wm sa che dopo aver messo on line il suo sitino nuovo di pacca che parla magari della sua famiglia (cani e furetti compresi) appena passa lo spider dopo un po' arriveranno anche i primi accessi.

    Scoprira' allora che gli utenti lo trovano per key assurde, tipo micia maria concetta e cose del genere....
    Ma solo dando un po' di visibilita' agli ultimi arrivati il motore potra' offrire a quei siti l'opportunita' di poter essere lincati spontaneamente, la voglia di continuare ad aggiornare il loro sito e via dicendo.

    La regola non vale per tutti i motori e se vale non vale in egual misura.
    Per esempio Yahoo quando si trova innanzi un sito nuovo che ritiene da "sfigati" fa una cosa molto semplice.
    Lo spiderizza di continuo ma le pagine non le inserisce in serp se non dopo molti mesi, moltissimi, anche oltre un anno.

    La home subito, ma il resto diventi vecchio.
    Se nel frattempo il sito acquisice visibilita, link ecc ecc ecco che i mesi diventano settimane o giorni.

    E' un sistema semplice quanto efficace.
    Lo "spammer" si rompe le balle perche' non vede mai risultati, e quando li vede ha magari gia' chiuso i domini non rinnovandoli.

    Di contro chi lo sa poi vive di rendita.

    Comunque, tornando al discorso, ho troppa stima dei motori per pensare che (nel breve) non possano fronteggiare l'ai content con la stessa efficacia adottata per doorway, spamengine ecc ecc.

    Tuttavia sono convinto (e come al solito poi si scoprira' che toppavo!) fortemente convinto che la lotta all'ai content porra' alcuni motori di ricerca davanti ad una scelta che non avrebbero mai voluto prendere.

    E cioe' in che modo e se dover penalizzare maggiormente il nuovo a favore dello storico.

    Comunque vada...


  • User Attivo

    @Micgaw said:

    Innanzitutto credo che alcuni siti / documenti AI possono essere utili per gli utenti, che quindi saliranno giustamente nel motore di ricerca. Per quanto riguarda i documenti spam, si vede già la chiara tendenza di non analizzare il documento stesso però l'ambiente dove viene inserito e la sua percezione dalla community d'internet. Siccome l'algoritmo che analizza il valore semantico di documento nella grossa maniera si basa sull'insieme di documenti che il motore ha nei datacenters per cambiare veramente il ragionamento di motore di ricerca ci vogliono milioni di documenti AI creati nei IP diversi, tutti preferibilmente linkati oltre che tra loro, anche dai siti ?naturali? è considerati affidabili. Oltre questo processo di introduzione dei tale documenti dovrebbe essere rallentato nel tempo, cosi per non fregare i filtri temporanei di Google (un documento di alberghi a milano AI e creato da un uomo puo anche essere considerato semanticamente lo stesso, però se uno viene pubblicato insieme alla stessa data con milione dei altri documenti Google dovrebbe riuscire a beccarlo).

    Quindi oltre che l'analisi semantica, dove i discorsi di AI sono sicuramente molto utili, abbiamo da fare con il numero sempre crescente di fattori che sono independenti dalla base di algoritmo. Tanto a livello teorico si può fare tutto, Google deve agire solamente con lo scopo di fare il lavoro di ?criminali virtuali? più difficile possibile. Fin quando sarà più facilmente salire usando le tecniche white-grey-hat che creando una rete di siti AI, direi che possiamo dormire tranquillo.

    Concordo al 100%.


  • Super User

    Si potrebbe sempre creare una soluzione ibrida spam (mediante ai content o quello che vi pare) & minisito bello e navigabile (via cloaking) che riceverebbe pure link spontanei... ogni riferimento è puramente casuale :D! Tempi di permanenza e fattore linking andrebbero a farsi benedire... Del resto è pure spaventosamente più facile essere lincati se i contenuti in gioco sono consistenti...

    Ora, è vero che Google è Giove e gli spammer atomi di materia, ma è altrettanto vero che il compito che ha Google, o un qualsiasi altro motore, è un compito spaventosamente difficile, un problema di ottimizzazione vincolata con vincoli potenziali in ogni testa di un potenziale spammer del pianeta...


  • Moderatore

    lo spam se dev'essere fatto va fatto bene, nel senso che basta un passo falso e gli algoritmi capiscono di trovarsi di fronte ad un sito che bara....

    il cloaking è ottimo per chi sponsorizza contenuti affiliati, tanto alla fin fine perdi un dominio che t'è costato si e no 2 settimane di lavoro

    è importante però che il sistema di cloaking sia molto robusto, altrimenti ti acchiappano in 2 minuti....molti sistemi beahvioural o basati su IP/Useragent non svolgono il loro compito in maniera ottimale....

    ci sono degli accorgimenti che possono allungare la vita di un sito che fa uso di cloaking in maniera notevole....

    ad ogni modo è importante capire qual'è il target....un esempio lampante è questo forum....se non avesse contenuti validi nessuno lo guarderebbe, tutti andrebbero altrove.....le tecniche blackhat sono applicabili con successo ai settori commerciali, per esempio il turismo....alla fin fine l'utente cerca solo una camera d'albergo o un viaggio lowcost, non ha bisogno di un articolo di 10 pagine che gli spiega i pro e i contro dei voli low cost o che gli parlo dei 2 anni di ritardo dell'A380 😄