+ Rispondi alla Discussione
Risultati da 1 a 16 di 16

Wordpress - bloccare ai motori le pagine TAG, Autori e Footer

Ultimo Messaggio di Bobo il:
  1. #1
    User
    Data Registrazione
    Oct 2006
    Messaggi
    255

    Wordpress - bloccare ai motori le pagine TAG, Autori e Footer

    Salve, dovrei creare un robots.txt per bloccare ai motori le pagine TAG, Autori e Footer del mio sito in WP, qualcuno potrebbe aiutarmi ?

  2. #2
    Moderatore L'avatar di Juanin
    Data Registrazione
    Nov 2006
    Località
    Bologna
    Messaggi
    4,611
    Segui Juanin su Twitter Aggiungi Juanin su Google+ Aggiungi Juanin su Facebook Aggiungi Juanin su Linkedin Visita il canale Youtube di Juanin

    Robots.txt per bloccare autori e tag wordpress

    Ciao kekko24

    Codice:
    User-Agent: *
    Allow: /
    Disallow: /tag/
    Disallow: /author/
    Non capisco invece cosa intendi con pagine Footer.

  3. #3
    User
    Data Registrazione
    Oct 2006
    Messaggi
    255
    1
    intanto grazie. Io nel template WPress, nel tema, ho una serie di pagine che vengono richiamate, per formare la pagina finale degli articoli del sito.

    Ad esempio, footer.php nella cartella /wp-content/themes/ dove c'è anche functions.php, viene richiamata per ogni pagina, e rappresenta la parte più bassa della pagina. Ho paura che essendo richiamata in ogni pagina, ed essendo un testo lungo, google lo percepisca come testo duplicato tra le pagine del sito. Per questo volevo bloccarlo ai motori.

    -

    2
    In pagine con troppi link in uscita, conviene inserire il nofollow ?
    Sul mio sito ho alcune pagine con 300 parole di testo e 20/25 links a pagine a tema.


  4. #4
    Moderatore L'avatar di Juanin
    Data Registrazione
    Nov 2006
    Località
    Bologna
    Messaggi
    4,611
    Segui Juanin su Twitter Aggiungi Juanin su Google+ Aggiungi Juanin su Facebook Aggiungi Juanin su Linkedin Visita il canale Youtube di Juanin
    1.

    Se vuoi escludere quel testo perché inutile toglilo proprio perché non puoi escludere porzioni di testo via robots.txt.

    2.

    Dipende. Se sono utili non sono per forza troppi e visto che dici 20/25 dipende come sono. Sono una lista di siti oppure sono inglobati nel testo?

  5. #5
    User
    Data Registrazione
    Oct 2006
    Messaggi
    255
    1
    io volevo bloccare l'intero file footer.php



    2
    Sono una lista di siti con 3 o 4 parole che descrivono il link. I link sono verso siti a tema, spesso verso pagine di forum.

  6. #6
    Moderatore L'avatar di Juanin
    Data Registrazione
    Nov 2006
    Località
    Bologna
    Messaggi
    4,611
    Segui Juanin su Twitter Aggiungi Juanin su Google+ Aggiungi Juanin su Facebook Aggiungi Juanin su Linkedin Visita il canale Youtube di Juanin
    1
    Il file footer.php è incluso dinamicamente via template quindi diventa parte della pagina e dunque agli occhi del motore è testo facente parte della pagina HTML finale.

  7. #7
    User
    Data Registrazione
    Oct 2006
    Messaggi
    255
    perfetto grazie, dunque devo abbreviarlo
    Grazie ancora Juanin

  8. #8
    User
    Data Registrazione
    Jun 2007
    Messaggi
    260
    A mio avviso non dovrebbe essere usato il robots.txt per impedire l'indicizzazione di quelle pagine, molto meglio


    <meta name="robots" content="noindex">

  9. #9
    Moderatore L'avatar di Juanin
    Data Registrazione
    Nov 2006
    Località
    Bologna
    Messaggi
    4,611
    Segui Juanin su Twitter Aggiungi Juanin su Google+ Aggiungi Juanin su Facebook Aggiungi Juanin su Linkedin Visita il canale Youtube di Juanin
    Ciao Bobo,

    senza dubbio il noindex va bene (se non vuol fare indicizzare), ma kekko24 ha chiesto come bloccare le pagine allo spider tramite robots

  10. #10
    User
    Data Registrazione
    Jun 2007
    Messaggi
    260
    Hai perfettamente ragione, ma mi permettevo di suggerire di valutare altri modi per evitare la comparsa nelle SERP di questa situazione:

    giorgiotave.it/forum/wordpress/193796-non-e-disponibile-una-descrizione-strano-avviso-da-google.html

    Io per un'impostazione simile mi ritrovo migliaia di pagine indicizzate in questo modo, che quindi presumo che periodicamente lo spider visiti togliendo tempo e risorse al sito. Bloccando con i meta tag, al contrario, le pagine non vengono proprio indicizzate.

  11. #11
    Moderatore L'avatar di Juanin
    Data Registrazione
    Nov 2006
    Località
    Bologna
    Messaggi
    4,611
    Segui Juanin su Twitter Aggiungi Juanin su Google+ Aggiungi Juanin su Facebook Aggiungi Juanin su Linkedin Visita il canale Youtube di Juanin
    No Bobo in realtà è proprio l'opposto.

    Se usi il robots lo spider smette di passare perché glielo hai espressamente impedito mentre usando il noindex dici di non indicizzare, ma non vieti il passaggio.

    In sostanza con il robots.txt gli chiedi di non passare in quelle pagine (ma non di non indicizzarle perché potrebbero esserci altre vie per cui possono essere messe nell'indice) mentre con il meta NOINDEX dici espressamente di non mettere nell'indice tali pagine, ma gli consenti di vederne il contenuto e quindi lasciando ad esempio il FOLLOW fai sì che il pagerank fluisca anche se tali pagine vengono escluse dall'indice.

    Di conseguenza se vuoi preservare il tuo Crawl Budget il robots è l'ideale mentre se vuoi evitare l'indicizzazione allora è necessario il NOINDEX per averne la certezza.

  12. #12
    User
    Data Registrazione
    Jun 2007
    Messaggi
    260
    Non sono totalmente d'accordo: prova a vedere lo screenshot a questa pagina

    plus.google.com/113867674728455110556/posts/RUs9iY4aQas

    questo succede quando blocchi con robots.txt ed è la dimostrazione che la pagina (intesa come URL) è indicizzata. Mi sono trovato in un caso simile un po' particolare, provo a riassumere brevemente.

    Sito su WordPress
    Nel robots.txt è presente (ahimè) anche questa riga:

    Disallow: /*?*Di default Wordpress attiva come link per un reply ad un commento un indirizzo di questo tipo:

    nomesito.com/permalink/?replytocom=10276#respond


    Ho letteralmente migliaia di pagine indicizzate che nelle SERP mi riportano l'indicazione "Non è disponibile una descrizione per questo risultato a causa del file robots.txt del sito. Leggi ulteriori informazioni.", cioè una pagina per ogni commento inserito. (Ho scritto "ahimè" perchè in realtà la pagina di destinazione ha il canonical della pagina di origine, ma purtroppo il robots risale a qualche anno fa quando l'avevo trovato e copiato senza farmi troppe domande leggendo che sarebbe dovuto essere l'ideale in ottica SEO.)

    Nel plugin SEO di Yoast c'è un'opzione per evitare di attivare link di risposta come quello indicato, dopo averlo attivato (e quindi dopo che sono scomparsi i tag <a> alle pagine di risposta) le pagine sottoposte giornalmente a scansione dallo spider (e le altre statistiche presenti sui Webmaster tool) sono letteralmente state stravolte, a dimostrazione che il Crawl Budget ne viene interessato ugualmente.

    Come descritto invece nella pagina

    support.google.com/webmasters/bin/answer.py?hl=it&answer=93710

    "Se Google rileva il metatag noindex in una pagina, eliminerà completamente la pagina dai risultati di ricerca, anche se altre pagine contengono link ad essa."


    Il risultato di tutto questo è che

    1. Se blocchi con il robots.txt la pagina è presente nell'indice di Google e può comparire nelle SERP senza descrizione,
    2. Se blocchi con il meta tag la pagina NON è presente nell'indice.


    Ovviamente se qualcosa non ti torna fammi sapere, data la situazione in cui mi trovo (con tutte quelle pagine indicizzate ma bloccate) spero di cuore che mi sfugga qualcosa.

  13. #13
    Moderatore L'avatar di Juanin
    Data Registrazione
    Nov 2006
    Località
    Bologna
    Messaggi
    4,611
    Segui Juanin su Twitter Aggiungi Juanin su Google+ Aggiungi Juanin su Facebook Aggiungi Juanin su Linkedin Visita il canale Youtube di Juanin
    Ciao Bobo È esattamente quello che ho scritto sopra.

    Il problema che descrivi tu è molto banale nel senso che tu avendo messo /*?* impedisci in pratica allo spider di andarsi a leggere il contenuto della pagina e di conseguenza se le pagine sono già state indicizzate lui non potrà più rimuoverle semplicemente perché non può più accedere a quella pagina a causa del robots. Quindi se blocchi una pagina che dentro ha il noindex lo spider non arriverà mai a leggere il noindex.

    Torna tutto esattamente. Se vuoi preservare Crawl budget il robots va bene mentre se vuoi deindicizzare una pagina già indicizzata no (a meno di usare GWT).

  14. #14
    User
    Data Registrazione
    Jun 2007
    Messaggi
    260
    Non mi sono spiegato: le pagine le ha indicizzate negli anni nonostante il robots.txt.
    Il robots.txt descritto è stato uguale fin dal primo giorno di vita del post.

  15. #15
    Moderatore L'avatar di Juanin
    Data Registrazione
    Nov 2006
    Località
    Bologna
    Messaggi
    4,611
    Segui Juanin su Twitter Aggiungi Juanin su Google+ Aggiungi Juanin su Facebook Aggiungi Juanin su Linkedin Visita il canale Youtube di Juanin
    Sì ti sei spiegato Bobo.

    Se leggi quello che ho scritto ho detto che con il robots non previeni la non indicizzazione, ma solo il crawling!

  16. #16
    User
    Data Registrazione
    Jun 2007
    Messaggi
    260
    Ok, avevo letto di corsa! :-)

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.