• User

    Google e i Crawler che fanno ciò che vogliono

    Ciao a tutti e innanzi tutto buon ferragosto.

    Qualche giorno fa stavo controllando lo stato dell'indicizzazione su Google quando mi sono accorto che avevo ben 1660 errori 404 per la maggior parte (più meno il 99.9%) riconducibili a pagine che non esistono, ne mai sono esiste, sul mio sito; roba del tipo miosito.it/housing, miosito.it/ref4 e molte altre simili. Rapida verica del sito per vedere fosse tutto apposto, un paio di chat con l'assistenza clienti del hosting partner al fine di verificare che anche dalla loro parte fosse tutto apposto e via con lo strumento di rimozione url ma nonostante ciò non solo adesso Google lamenta che pagine importanti sono state cancellate ma continua a tirarmi fuori questi misteriori errori 404, che non posso neanche rimettere in cancellazione, quindi in pratica non ha cancellato un tubo.

    Le sitemap lo ritrasmesse ieri e le ho pure controllate per verificare non contenessero altro che collegamenti validi ma nonostante questo ... sono sempre li.

    Qualche idea?
    Adriano


  • Moderatore

    Ciao websources,
    come prima cosa cercherei di capire da dove vengono i link alle pagine inesistenti; dovresti vederlo nella sezione "Errori di scansione" di Webmaster Tools, cliccando su una delle pagine non trovate e poi sulla scheda "Con link da".


  • User

    @gianrudi said:

    ...

    Fatto. Da dove vengono non so dirtelo o meglio il link è sempre un qualcosa del tipo miosito.it/pagina-del-tutto-inesistente-e-che-sicuramente-non-ho-mai-creato/ e puntano alla pagina 404. Tra le altre vorrei precisare che in sacco di queste pagine hanno titoli riconducibili ad argomenti che neanche tratto sul blog quindi non saprei sul serio dirti da dove escono.


  • Moderatore

    Quelle pagine che figurano nella scheda "Con link da", del tipo miosito.it/pagina-del-tutto-inesistente-e-che-sicuramente-non-ho-mai-creato/, per google sono invece esistenti, o almeno sono esistite. L'indicazione significa infatti che a un certo momento il bot di google ha eseguito la scansione di quella pagina e vi ha trovato un link a un'altra pagina, quella sì inesistente, che ha dato errore 404. Quindi, se vogliamo credere al Webmaster Tools quella pagina è esistita, è stata certamente scansionata dal bot di google e probabilmente anche indicizzata.

    Suggerirei quindi di verificare se effettivamente la pagina linkante non esiste più, prima di tutto cliccando sul link che compare nella scheda "Con link da", se non l'hai già fatto, e poi con una ricerca su google con il comando inurl, del tipo [INDENT]inurl:miosito.it/pagina-del-tutto-inesistente-e-che-sicuramente-non-ho-mai-creato[/INDENT]
    se la pagina compare tra i risultati di ricerca ma non è (più) raggiungibile, puoi cercare di vedere il contenuto scansionato cliccando sulla freccina verde e poi su Copia cache.

    Se anche così non riesci a recuperare informazioni su tali pagine, la questione va probabilmente approfondita al livello del sito, dove potrebbe esserci qualche problema di sicurezza.
    Mi sembra infatti improbabile che il Webmaster Tools ti segnali di aver scansionato pagine che davvero non sono mai esistite, potrebbe essere un segnale di allarme sull'integrità del sito. Nota che non è sempre ovvio, e neanche facile, sapere quali pagine esistono davvero sul proprio sito e quali no, com'è stato trattato per esempio in questa discussione.


  • User

    Avevo pensato anche io a una cosa simile dunque ti dico cosa ho fatto:

    1. Ho cliccato su ogni "Con link da" e portano tutti alla mia pagina 404 quindi le pagine non esistono.
    2. Riverificato gli url e i loro contenuti e ... ne sono certissimo visto in cucina neanche un uovo fritto sono capace di fare ... sicuramente non posso essermi messo a scrivere le ricette della nonna; lo escludo nel modo più assoluto; poi su un sito che ha il mio nick come dominio non centrano proprio per niente 🙂
    3. La cache di tali pagine risulta vuota.
    4. Con vari tool ho verificato l'integrità del sito e pare apposto. Inoltre ho interessato anche il mio hosting per avere informazioni a più alto (o basso) livello su possibili accessi non autorizzati, è questo che stai pensando vero?, e mi hanno risposto che avrò tutte le informazioni entro Lunedi.
    5. Mi sono spulciato il database e di quella roba non c'è traccia.

    Altri consigli in attesa che Lunedi mi mandino a dire qualcosa di certo?


  • Moderatore

    Dato che il bot di google ha potuto leggere e scansionare pagine di ricette sul tuo sito, e tu non ce le hai messe, deve averlo fatto qualcun altro e questo pone un problema di sicurezza, non necessariamente grave ma sicuramente da approfondire.

    Quando dici che la copia cache risulta vuota, se intendi che hai trovato l'url della pagina abusiva nei risultati di ricerca di google, cliccato su Copia cache e l'hai trovata vuota, in tal caso vorrebbe dire che la pagina è stata anche indicizzata, e la data e ora dell'istantanea della pagina, se ci sono, potrebbero anche darti un'idea di quando è avvenuto il fatto.
    Potrebbe essere utile, perchè se hai la possibilità di consultare i log del server potresti trovare l'accesso del bot alla pagina abusiva intorno a quell'ora e ricavare qualche informazione in più. In ogni caso un esame dei log del server nel giorno della rilevazione dell'errore 404, e nei giorni precedenti, potrebbe servire.

    Un'altra cosa che farei è cercare su google il percorso e l'eventuale query string dell'url abusivo (la parte dopo miosito.it/) anche a frammenti se ci sono dei trattini, per vedere se è possibile trovare in rete notizia di altri casi simili.

    Sull'origine del problema non saprei dire, tra le ipotesi metterei anche un plugin attivato temporaneamente e poi disattivato, cosa che spiegherebbe la scomparsa delle pagine abusive, ma potrebbe anche essere un altro problema completamente diverso.


  • User

    P.S. Non ti quoto perchè stando a quanto hai fatto oggi non serve.

    La questione del problema di sicurezza me la ero già posta al punto che sto rifacendo in locale tutto il blog esaminando bene i sorgenti dei plugin che scarico (come giustamente dici potrebbe arrivare da li) visto che per fortuna php assieme a java, c++ e python è uno dei linguaggi che conosco meglio. Tenderei tuttavia a scartare questa strada per il semplice motivo che i plugin di WordPress sono estremamente usati ed è altamente improbabile che un plugin capace di veicolare delle pagine abusive riesca a passare inosservato ergo sarebbe stato già segnalato da qualche decina di milioni di utenti o giù di li.

    Gli url abusivi li ho trovati sotto Scansione -> Errori di scansione negli strumenti per webmaster e cliccandoci sopra (nel popup che si apre) portano tutti alla pagina 404 del mio sito. Date e ore non ce ne sono e non ci sono neanche nei log utente (così li chiamano) che mi fornisce il mio hosting ed anche loggandomi via ssh essendo in un ambiente di chroot ovviamente non arrivo a niente e per questo motivo ho richiesto i loro log di accesso che magari riportano qualche informazioni più esaustiva.

    Su Google al momento non ci sono più percorsi di query string, almeno quelli a me noti sino a oggi pomeriggio, avendo impostato la loro cancellazione sempre dagli strumenti per webmaster dove tra le altre il loro bot si è fatto in giretto cancellandoli.

    Non mi rimane che aspettare Lunedì a questo punto.


  • Moderatore

    Se dagli strumenti per webmaster la situazione appare ripulita, e le pagine linkanti non esistono più, il problema potrebbe anche non ripresentarsi.

    Meglio così, se così fosse, ma sarebbe anche interessante capire cosa può essere successo. Facci sapere, se possibile.


  • User

    Contaci che ti faccio sapere anche perché sicuramente da qualche parte c'è anche un errore mio.

    Non so se e quanto è rientrata la situazione. Adesso in strumenti per webmaster mi trovo ancora il conteggio degli errori 404 esattamente come prima ma le pagine sono state cancellate. Aspettiamo aggiornino le cache di Google e che mi dica qualcosa l'hosting ... lunedì a sto punto.


  • User

    Mi sa che lo chiudo il sito anche peché la pazienza è finita da un pezzo.

    Ormai non ne posso più di Google che non mi indicizza. Da Novembre ho l'account AdSense in corso di verifica e nelle SERP sembra le mie pagine ci siano, qualche volta ne trovo una (più per sedere che per altro a questo punto) mentre altre no e dagli strumenti di stupidità e idiozia, pardon per Webmaster, pare ci siano solo errori inesistenti su pagine inesistenti o adderittura su dei Custom Post Type che il mio tema neanche implementa per giunta.

    Mi da solo errori su errori su errori e aiutatemi a dire errori; manco avessi un sito di 2000 pagine; sono solo 40 poco più. Non riesco più a capire se mi vuole con nomesito.tld e con le tre w davanti, (su uno mi da errori, sul altro no ... se provo a fare qualsiasi modifica ovviamente vuole sempre il dominio in modo diverso ... se è con www lo vuole senza e vice versa e c'è sempre un errore) si inventa letteralmente degli errori nei metadati (ovviamente i metadati sono corretti anche perché è un pò impossibile che su 40+ articoli uno random ... sempre diverso ... sia senza metadati mentre gli altri vanno bene ... almeno fosse sempre lo stesso ma forse è troppo facile per loro) e in generale non mi sta indicizzando ne mai mi ha indicizzato. Sembra quasi non mi vogliano.

    A ... notare che fino a Gennaio/Febbraio era tutto ok (account AdSense a parte) ed avevo persino la foto nelle SERP poi ... puff sparito tutto e sono 6 mesi che sto buttando tempo. Avrò avuto troppe visite in quel periodo che adesso mi stanno penalizzando?

    Qualche idea su come risolvere tenendo presente che tra una settimana poco più mi scade il dominio e al momento non sono molto intenzionato a rinnovarlo???

    Butto li una domanda. Non sto usando plugin di cache ma sono su Cloudflare?? Potrebbe centrare qualcosa?? Mi auto rispondo ... No non centra un tubo ... ma chiedere altri pareri non costa nulla.


  • Super User

    Beh, a questo punto mi sa che qualche sospetto su Cloudflare ci sta tutto.


  • User

    Anche se lo sto tenendo disabilitato da giorni?


  • Moderatore

    Veramente sembrerebbe ancora attivo: negli header di risposta compare tuttora cloudflare-nginx come server, e anche il ping rinvia all'ip di Cloudflare.

    In ogni caso gli eventuali effetti della disabilitazione potrebbero richiedere più di qualche giorno prima di essere visibili a livello di webmaster tools.


  • User

    Si va beh ma che palle. Mi sa che inizio a cancellare tutto e vada dove dico io Google che mi sono già parecchio rotto i maroni con sti dementi che neanche è possibile contattarli in qualche modo.


  • User

    Ok. Nell'ordine ho cancellato:

    1. Account AdSense
    2. Account Analytics
    3. Canale Youtube
    4. Indirizzo gmail
    5. Tutti i contatti su Google
    6. Tutte le foto archiviate su picassa.

    --- Spero non sia rimasta altra traccia di me sui loro server.

    1. Account twitter
    2. Account github
    3. Account Facebook compresa la pagina
    4. Account Pinterest
    5. Account Cloudflare
    6. Il sito

    Mo stiamo a vedere se riesco a rifare tutto da 0 con maggior fortuna altrimenti ... beh so chiorbo io e non ci si fa nulla.