• User Attivo

    Pagine Duplicate Involontarie: errore di Google

    Non si sa come, ma il googlebot è riuscito tramite l'ip ad indicizzare gran parte di un sito con il suo indirizzo diretto...

    Faccio un esempio: il sito si chiama www.pincopalla.com, bene è correttamente indicizzato con molte pagine ecc ecc...

    Ma allo stesso tempo non si sa come, googlebot è riuscito ad entrare direttamente nell'ip di questo sito con esempio:
    **
    http://124.456.45.71/~pincopalla_account/**

    ed ha indicizzato centinaia di pagine che sono le stesse del dominio www.pincopalla.com, praticamente ho una lunga serie di pagine duplicate ed ho l'impressione che molte del dominio principale siano in risultati supplementari per questo motivo...

    Ora, nel robots.txt ho inserito il comando Disallow: /~pincopalla_account/
    Logicamente dovrebbe cancellare tutte le pagine nella cartella pincopalla_account eliminando tutti i duplicati...
    oppure ho fatto una caxxata?

    A rigor di logica il dominio principale dovrebbe rimanere intatto, oppure per qualche logica particolare di googlebot mi rimuoverà dall'indice tutto il sito?

    Non dovrebbe, credo...

    a voi il giudizio, è la prima volta che mi capita una cosa simile...


  • Community Manager

    Ciao 444523,

    ma il robots.txt dove lo hai inserito?


  • User Attivo

    @Giorgiotave said:

    Ciao 444523,

    ma il robots.txt dove lo hai inserito?

    Mi aspettavo questa domanda... infatti il dubbio per qualche secondo era venuto anche a me...

    dunque il robots.txt è stato ovviamente inserito nella root del sito ed è raggiungibile sia da domino.com/robots.txt che a quel punto anche da
    che da ip/ ~pincopalla_account/

    In pratica sarebbe anche nella root dell'account con ip, appena googlebot lo legge dovrebbe non indicizzare più la cartella ~pincopalla_account/

    Hai qualche dubbio in merito? Vi farò da cavia, probabilmente è qualcosa che capita davvero di rado... visto che nessuno tranne Giorgio ha risposto...


  • User Attivo

    se fai così te li blocca entrambi.

    per prima cosa devi trovare i link che ha fatto andare google su quell'ip direttamente.
    io scommetterei su un menu di admin o una webmail poi i link relativi hanno fatto il resto...

    per il resto riscriverei con dei 301 tutte le richieste a ip/pagina -> dominio/pagina.

    dovresti poter essere capace di farlo... credo 🙂


  • User Attivo

    @dsom said:

    se fai così te li blocca entrambi.

    per prima cosa devi trovare i link che ha fatto andare google su quell'ip direttamente.
    io scommetterei su un menu di admin o una webmail poi i link relativi hanno fatto il resto...

    per il resto riscriverei con dei 301 tutte le richieste a ip/pagina -> dominio/pagina.

    dovresti poter essere capace di farlo... credo 🙂

    Avevo questo dubbio... ma ho verificato con il test inserito negli strumenti di google webmaster e in effetti mi blocca solo quella cartella che in realtà non esiste come percorso ufficiale nel dominio...
    tutte le altre cartelle, che sono i veri link inseriti in Google, quelli ufficiali, insomma, il test me li dà come liberi d'essere scansionati...

    Almeno il loro test robots.txt mi dà questo risultato...

    Quanto tempo occorre prima che si verifichino i primi cambiamenti nelle serp? Immagino almeno qualche mese... qualcuno ha esperienza?


  • User Attivo

    @444523 said:

    dunque il robots.txt è stato ovviamente inserito nella root del sito ed è raggiungibile sia da domino.com/robots.txt che a quel punto anche da
    che da ip/ ~pincopalla_account/ù

    scusa ma se è raggiungibile da li non lo becca pure google...?

    cmq la tempistica varia, per la rimozione di un dominio intero può impiegare anche mesi, questo tramite segnalazione di rimozione dall'indice a google.

    con il robots però credo sia molto più breve, tipo recentemente a far spiderizzare una pagina precedentemente bloccata con un nofollow noindex ci ha messo 2 settimane, non so quante a bloccare un intero sito.


  • User Attivo

    @dsom said:

    scusa ma se è raggiungibile da li non lo becca pure google...?

    Scusa... sono un po' tardo nel capire, non ho compreso la domanda.

    Prima il robots.txt non c'era, ora, inserito nella root del sito è raggiungibile sia dal dominio/robots.txt che ovviamente Ip/nome_account/robots.txt...

    Sì certo che lo raggiunge, basta inserirlo nella root...

    Nonostante il test mi dia raggiunginile il sito con l'indirizzo ufficiale e relative cartelle ho un po' paura di usare il metodo della "rimozione url"... preferisco attendere e vedere che succede...


  • User Attivo

    allora, vediamo se capisco : tu hai messo un robots.txt (con scritto cosa?) in

    /user/pincopalla_account/public_html/ o roba simile immagino

    qusto è quindi raggiungibile da

    http://124.456.45.71/~pincopalla_account/robots.txt
    http://pincopalla.com/robots.txt

    ora, non so cosa ci hai scritto dentro, ma per me se è cosi' si dovrebbe bloccare tutto 🙂

    per questo ti dicevo di fare rewrite.

    PS : non farei la rimozione dell'url, ti davo solo la tempistica per quella operazione.


  • User Attivo

    @dsom said:

    allora, vediamo se capisco : tu hai messo un robots.txt (con scritto cosa?) in

    /user/pincopalla_account/public_html/ o roba simile immagino

    qusto è quindi raggiungibile da

    http://124.456.45.71/~pincopalla_account/robots.txt
    http://pincopalla.com/robots.txt

    ora, non so cosa ci hai scritto dentro, ma per me se è cosi' si dovrebbe bloccare tutto 🙂

    Sì, esatto, più o meno così...
    nel robots.txt, oltre ad altri comandi di non seguire file .php (il sito è interamente in html con rebuild giornalieri) ho immesso il comando di non indicizzare esattamente la cartella ~pincopalla_account

    Facendo una verifica sulle cartelle, direttamente dal domino, es: www.miodomino.com/cibi_avariati è perfettamente raggiungibile. così come tutte le cartelle seguendo l'url che incomincio con il dominio...

    la cartella ~pincopalla_account che sotto di sè duplica tutte le pagine è invece bloccata sempre dal test che si può fare nel mio account di Google...

    Oh, possiamo sempre scommetterci un caffè... tanto non baro, se mi blocca il sito si sentiranno le imprecazioni fin sul forum... ma non credo che accadrà...
    :D:D:D

    D'altronde posso verificare subito se il sito è bloccato, sempre nell'account webmaster c'è la sezione delle pagine scansionate mensilmente, se vedo che si blocca cancello subito tutto...

    **edit---------------------
    che poi sono proprio un morto di sonno, nell'account webmaster c'è proprio una sezione che ti segnala eventuali pagine bloccate dal robots.txt, basta dare un'occhiata lì e si capisce subito dalle prime scansioni cosa succede...

    un giorno o l'altro con questa mia distrazione finirò sotto una macchina...
    **


  • User Attivo

    @444523 said:

    Sì, esatto, più o meno così...
    nel robots.txt, oltre ad altri comandi di non seguire file .php (il sito è interamente in html con rebuild giornalieri) ho immesso il comando di non indicizzare esattamente la cartella ~pincopalla_account

    Facendo una verifica sulle cartelle, direttamente dal domino, es: www.miodomino.com/cibi_avariati è perfettamente raggiungibile. così come tutte le cartelle seguendo l'url che incomincio con il dominio...

    la cartella ~pincopalla_account che sotto di sè duplica tutte le pagine è invece bloccata sempre dal test che si può fare nel mio account di Google...

    Oh, possiamo sempre scommetterci un caffè... tanto non baro, se mi blocca il sito si sentiranno le imprecazioni fin sul forum... ma non credo che accadrà...
    :D:D:D

    D'altronde posso verificare subito se il sito è bloccato, sempre nell'account webmaster c'è la sezione delle pagine scansionate mensilmente, se vedo che si blocca cancello subito tutto...

    **edit---------------------
    che poi sono proprio un morto di sonno, nell'account webmaster c'è proprio una sezione che ti segnala eventuali pagine bloccate dal robots.txt, basta dare un'occhiata lì e si capisce subito dalle prime scansioni cosa succede...

    un giorno o l'altro con questa mia distrazione finirò sotto una macchina...
    **

    ho capito,
    quindi tu non hai messo in pincopalla un "Disallow : *" ma un "disallow /nomecartella/"

    quindi se ci entra dal dominio, non può trovare la cartella (che è il dominio stesso), se ci entra dall'ip viene invece trovata e viene bloccata.

    ok cosi funge 🙂

    EDIT:

    curiosità : hai capito come ha preso l'ip ha controllato eventuali interfacce webmail o admin linkate via ip?


  • User Attivo

    @dsom said:

    ho capito,
    quindi tu non hai messo in pincopalla un "Disallow : *" ma un "disallow /nomecartella/"

    quindi se ci entra dal dominio, non può trovare la cartella (che è il dominio stesso), se ci entra dall'ip viene invece trovata e viene bloccata.

    ok cosi funge 🙂

    EDIT:

    curiosità : hai capito come ha preso l'ip ha controllato eventuali interfacce webmail o admin linkate via ip?

    Eh, dovrebbe funzionare, ma ho trovato un problema...
    per funzionare sull'ip il robots.txt deve'essere a questo livello
    ip/robots.txt
    e non ip/nome_account/robots.txt

    Ho cercato in Internet e alcuni server hanno proprio ip/robots.txt che è perfettamente visibile dall'esterno... io non riesco a renderlo visibile all'esterno, forse sbaglio posto...

    azz... vediamo se qualcuno mi aiuta sul loro forum... a meno che qualche anima buona non sia già esperta qui...
    :D:D:D

    Per l'ip trovato da Google dev'essere un'immagine che era collegata all'ip e non al dominio, quando ho fatto il trasferimento del sito l'ho ri-costruito tramite ip e poi aluni link ho dimenticato di modificarli... non capisco però come dall'immagine linkata all'ip abbia poi preso qualche migliaia di pagine...


  • User Attivo

    @444523 said:

    Eh, dovrebbe funzionare, ma ho trovato un problema...
    per funzionare sull'ip il robots.txt deve'essere a questo livello
    ip/robots.txt
    e non ip/nome_account/robots.txt

    ecco, io ci avevo pensato in realtà, ma mi son detto "se funziona, mi sbaglierò :D"
    rimangono i suggerimenti di prima fondamentalmente 🙂


  • User Attivo

    @444523 said:

    A rigor di logica il dominio principale dovrebbe rimanere intatto, oppure per qualche logica particolare di googlebot mi rimuoverà dall'indice tutto il sito?

    Scusate se mi intrometto ma se hai questo dubbio (se cancelli il sito dovrai aspettare un bel po prima di rivederlo ho letto da qualche parte almeno 6 mesi) perchè non fai una prova su una dir o su una singola pagina eliminadola, sempre tramite robot ma attraverso http://services.google.com/urlconsole/controller?cmd=reload&lastcmd=login
    il servizio di G stesso?
    Questo servizio ti consentirà di vedere (mi pare nelle 24h) il risultato.

    ciao,
    nicola


  • User Attivo

    @dsom said:

    ecco, io ci avevo pensato in realtà, ma mi son detto "se funziona, mi sbaglierò :D"
    rimangono i suggerimenti di prima fondamentalmente 🙂

    Sì adesso è inserito bene... ce l'ho fatta!
    Il bello è che un utente abituale di linux ci avrebbe messo 30 secondi mentre si mangiava un pezzo di pizza al pomodoro, beveva un po' di cocacola e si guardava un film porno in contemporanea...

    io ci ho messo 1 ora a capire che il file robots.txt và inserito tramite ssh in var/www/html

    ora funziona tutto, e anche i vari test tramite l'account di Google mi confermano che il dominio principale e relativi indirizzi sono liberi d'essere scansionati...
    mentre ip/cartella_account ora è completamente bloccato impedendo la duplicazione del sito...

    Vabbe' ho imparato qualcosa... se non ci saranno sorprese nelle prossime scansioni... vedremo. Cmq sembra tutto ok...


  • User Attivo

    @olanic said:

    Scusate se mi intrometto ma se hai questo dubbio (se cancelli il sito dovrai aspettare un bel po prima di rivederlo ho letto da qualche parte almeno 6 mesi) perchè non fai una prova su una dir o su una singola pagina eliminadola, sempre tramite robot ma attraverso http://services.google.com/urlconsole/controller?cmd=reload&lastcmd=login
    il servizio di G stesso?
    Questo servizio ti consentirà di vedere (mi pare nelle 24h) il risultato.

    ciao,
    nicola

    Grazie Olanic per il tuo intervento...
    tieni presente che anche fosse sbagliata la mia idea, Google non ti cancella tutto il sito di colpo...

    Gli strumenti webmaster nel tuo account di Google ti permettono di vedere già dalle prime scansioni se gli url "regolari" vengono bloccati... e sembrerebbe di no perchè puoi fare anche dei test in anticipo...

    sicuramente (avendo la stessa paura tua) non farò la rimozione url... per quello eventualmente aspetto che le cose siano chiare al 100%...


  • User Attivo

    Riprendendo questa discussione
    http://www.giorgiotave.it/forum/posizionamento-nei-motori-di-ricerca/35235-pagine-duplicate-involontarie-errore-di-google.html

    mi sono fatto coraggio ed ho usato la sezione rimozione url/sito di Google.
    Ho creato l'account ri-sottomesso il robots.txt del sito duplicato ip/cartella chiedendo a Google di rimuovere tutta la cartella fantasma dell'ip dove è collegato il dominio...

    Una cosa impressionante: le pagine duplicate/fantasma erano circa 1500... ed erano lì da quasi 2 mesi... sono sparite in 2 ore! Ho fatto diversi controlli, non ci sono più... in 2 ore tutto cancellato da Google.

    In 2 ore... e chi si apsettava una velocità stratosferica simile...

    sono rimasto davvero colpito!
    ⭕o:o


  • Super User

    Grazie 444523 per la tua testimonianza,

    ho unito il nuovo thread a quello originale per non tenere aperti più topic che parlano della stessa problematica.

    Ti ho inviato un pm per informarti dello spostamento.

    .Stuart


  • User Attivo

    😉