• User Attivo

    Gestione errori 404 dopo eliminazione tag e categorie

    Buongiorno a tutti, dopo aver fatto un po' di pulizia di tag e categorie inutili (circa 800 voci) mi sono ritrovato con una comunicazione da google riguardo un forte aumento di errori 404. Non ho provveduto a fare redirect perché sapevo che link a tag e categorie non ne avevo in nessun sito quindi mi son detto: eliminiamo e via! Ho fatto la mia bella pulizia ed ora tutto è più ordinato, però avendo google indicizzato quasi tutte le url ora mi da questo aumento di 404 credo riferendosi unicamente alle sue stesse pagine. Ho inviato una nuova sitemap e cancellato tutte le precedenti, google sta indicizzando correttamente le nuove url ma dopo circa 20 giorni il grafico degli errori 404 non cala.. come mai? Non dovrebbe calare man mano che google elimina le url non più esistenti dal suo indice?

    Vedo che nell'area webmaster di google sotto al grafico con gli errori 404 c'è una spunta "segna come corretti", faccio bene se li spunto tutti e li segno come corretti?

    Grazie in anticipo!!!
    Daniele:ciauz:


  • User Attivo

    Potresti impostare dei redirect 301 alle sezioni più simili. Non maldarli tutti in home altrimenti rischi il "soft redirect" che è penalizzante. L'altra possibilità è di escludere quelle url con il file robot.txt.


  • User Attivo

    @Grifter72 said:

    Potresti impostare dei redirect 301 alle sezioni più simili. Non maldarli tutti in home altrimenti rischi il "soft redirect" che è penalizzante. L'altra possibilità è di escludere quelle url con il file robot.txt.

    Grazie Grifter, opterei per la seconda opzione in quanto le sezioni simili sono centinaia.. Per "escludere quelle url" intendi bloccare la scansione su di esse con un codice tipo quello di questo articolo?
    softwareparadiso.it/web_e_pc/file_robots.html

    Oppure il codice da utilizzare è un altro? In tal caso saresti così gentile da postarmi un esempio? Grazie 1000:)


  • User Attivo

    Quello va bene. Una volta che lo hai fatto, puoi cancellare gli errori dal GWT. Se lo fai prima, poi ti si riformano.


  • User Attivo

    Quindi, non essendo cartelle ma url vado giù in questa forma per 800 volte:

    Disallow: /incontri-potenza-basilicata/
    Disallow: /faq-siti-di-incontri/
    Disallow: /tag/chat-donne/
    Disallow: /tag/chat-ragazze/

    Dopodiché vado nel GWT e spunto "segna come corretti".. ok?

    Ma google non dovrebbe accorgersi prima o poi anche da solo che queste url sono state rimosse?

    Grazie ancora Grifter, gentilissimo!


  • User Attivo

    Ok


  • User Attivo

    @Grifter72 said:

    Ok

    Ciao Grifter72, ho fatto come mi hai consigliato, ho infilato nel robots.txt oltre un migliaio di url che non esistono più ma che google continua a "contestarmi".. Secondo te tra qualche mese potrò riportare il robots.txt in condizioni originali? Considerato che queste url non sono riprese da altri siti/motori ed ho già provveduto all'invio di una nuova sitemap?

    Grazieeeeeeeeeee:)


  • User Attivo

    Ogni tanto mi saltano fuori errori di url che ho cancellato anche più di 10 anni fa. Ho un "versus.php3" dinamico che mi perseguita. O te ne freghi e le lasci sul GWT o le ridirezioni come ti ho gia scritto. Se le togli con il file robots.txt è possibile che poi, quando smetti di bloccarle, ricompaiano.


  • User Attivo

    @Grifter72 said:

    Ogni tanto mi saltano fuori errori di url che ho cancellato anche più di 10 anni fa. Ho un "versus.php3" dinamico che mi perseguita. O te ne freghi e le lasci sul GWT o le ridirezioni come ti ho gia scritto. Se le togli con il file robots.txt è possibile che poi, quando smetti di bloccarle, ricompaiano.

    OK grazie.. allora lasciamole a tempo indeterminato sul file robot.. riguardo il fregarmene lo fare volentieri ma temo che un migliaio di 404 siano sufficienti a compromettere la DA di un sito..


  • User Attivo

    Puoi anche generare un errore 410 (Gone) per le pagine rimosse. In questo modo Google "imparerà" che le hai volutamente rimosse e che non esistono più.


  • User Attivo

    @altraSoluzione said:

    Puoi anche generare un errore 410 (Gone) per le pagine rimosse. In questo modo Google "imparerà" che le hai volutamente rimosse e che non esistono più.

    Grazie, Interessante soluzione, posso farlo sempre da file robots.txt o comunque in modo pratico? Essendo oltre 1000 url star li a creare cose tipo redirect per ogni url sarebbe un'impresa titanica..


  • User Attivo

    @Daniwebmaster said:

    Grazie, Interessante soluzione, posso farlo sempre da file robots.txt o comunque in modo pratico? Essendo oltre 1000 url star li a creare cose tipo redirect per ogni url sarebbe un'impresa titanica..

    Puoi farlo con .htaccess:

    Redirect 410 /percorso/pagina/rimossa
    

    Oppure, se usi Joomla, c'è l'apposito componente Redirect.


  • User Attivo

    @altraSoluzione said:

    Puoi farlo con .htaccess:

    >Redirect 410 /percorso/pagina/rimossa
    >```
    
    Oppure, se usi Joomla, c'è l'apposito componente Redirect.
    
    Quindi nell'htaccess invece di..
    
    Disallow: /incontri-potenza-basilicata/
    Disallow: /faq-siti-di-incontri/
    Disallow: /tag/chat-donne/
    Disallow: /tag/chat-ragazze/
    ecc..
    
    Devo mettere..
    
    Redirect 410 /incontri-potenza-basilicata/
    Redirect 410 /faq-siti-di-incontri/
    Redirect 410 /tag/chat-donne/
    Redirect 410 /tag/chat-ragazze/
    ecc..
    
    Giusto? Senza i due punti dopo 410.. Potrebbe essere un'ottima soluzione anche per Grifter visto che anche a lui ogni tanto rispuntano..
    
    Grazie!

  • User Attivo

    L'ho già provata ma tornano. Il mio problema però è che quelle url sono linkate da altri siti. Per te potrebbe funzionare.


  • User Attivo

    @Grifter72 said:

    L'ho già provata ma tornano. Il mio problema però è che quelle url sono linkate da altri siti. Per te potrebbe funzionare.

    Esatto, fortunatamente linkate da altri siti avevo solo un paio di url e contattando i proprietari dei siti linkanti sono riuscito a farmeli sostituire. Qualora non ci fossi riuscito avrei pensato a creare dei redirect con qualche plugin, in modo di dirottare i click a pagine funzionanti.. potrebbe essere una soluzione.


  • User Attivo

    No, attenzione che stai confondendo robots.txt con .htaccess
    Il primo contiene le direttive per i motori di ricerca il secondo, invece, contiene le direttive per Apache.

    I redirect 410 devi metterli nel .htaccess ma se non sai come fare lascia perdere perché rischi di bloccare il sito.

    @Daniwebmaster said:

    Quindi nell'htaccess invece di..

    Disallow: /incontri-potenza-basilicata/
    Disallow: /faq-siti-di-incontri/
    Disallow: /tag/chat-donne/
    Disallow: /tag/chat-ragazze/
    ecc..

    Devo mettere..

    Redirect 410 /incontri-potenza-basilicata/
    Redirect 410 /faq-siti-di-incontri/
    Redirect 410 /tag/chat-donne/
    Redirect 410 /tag/chat-ragazze/
    ecc..

    Giusto? Senza i due punti dopo 410.. Potrebbe essere un'ottima soluzione anche per Grifter visto che anche a lui ogni tanto rispuntano..

    Grazie!


  • User Attivo

    @altraSoluzione said:

    No, attenzione che stai confondendo robots.txt con .htaccess
    Il primo contiene le direttive per i motori di ricerca il secondo, invece, contiene le direttive per Apache.

    I redirect 410 devi metterli nel .htaccess ma se non sai come fare lascia perdere perché rischi di bloccare il sito.

    No tranquillo, so lavorare con entrambi è solo che ho fatto confusione (ogni tanto mi capita).. Quindi ok, il redirect 410 va nel file .htaccess ed il disallow nel file robots.txt.. chiarissimo.. e se usassi entrambi i metodi?


  • User Attivo

    @Daniwebmaster said:

    No tranquillo, so lavorare con entrambi è solo che ho fatto confusione (ogni tanto mi capita).. Quindi ok, il redirect 410 va nel file .htaccess ed il disallow nel file robots.txt.. chiarissimo.. e se usassi entrambi i metodi?

    Hanno due scopi diversi.
    Se metti il Disallow, Google non leggerà la pagina, di conseguenza non "prenderà visione" del redirect 410.
    Quindi, o l'uno o l'altro 🙂


  • User Attivo

    @altraSoluzione said:

    Hanno due scopi diversi.
    Se metti il Disallow, Google non leggerà la pagina, di conseguenza non "prenderà visione" del redirect 410.
    Quindi, o l'uno o l'altro 🙂

    Giusta considerazione, quindi, nel mio caso sarebbe meglio fare imparare una volta per tutte a google che queste pagine non esistono più utilizzando il redirect 410..


  • Moderatore

    Ciao a tutti,
    facciamo un attimo di chiarezza 😉

    Mettere le url in disallow nel robots.txt ha un impatto pressochè nullo per il tuo scopo in quanto quelle url son già archiviate e come ti diceva giustamente altrasoluzione inibisci anzi la possibilità al motore di vedere il destino al quale decidi di sottoporle.
    Quello che puoi fare è dare le direttive all'htaccess a seconda dell'utilità delle url.
    L'url è linkata dall'esterno da fonte utile? 301 a nuova pagina
    L'url è linkata dall'esterno da fonte NON utile? 410
    L'url non è linkata dall'esterno ed è inutile? 410
    L'url non è linkata dall'esterno ma in qualche modo fa traffico utile? 301 a pagina attualmente online con contenuto similare migliorativo.
    Da search console invece puoi rimuovere temporaneamente le url per accelerare il processo di eliminazione dagli indici con 410, mentre per eliminare gli errori segnalati devi per forza di cose cancellare gli errori, in modo tale che al prossimo passaggio dello spider potranno ricrearsi gli eventuali "successivi".
    Spero sia tutto chiaro 😉
    Buone Feste