• User

    Robots.txt ha bloccato URL inviata dalla Sitemap. Come sbloccarla?

    Salve a tutti. Ho da pochi giorni creato il file robots.txt per il mio sito web ma ho riscontrato un problema su Strumenti per i Webmaster di Google. Ho notato che è stato bloccato un URL e la causa è un blocco imposto dal robots.txt, ma io non ho intenzione di bloccare quel determinato URL. Potreste darmi una mano per risolvere il problema? Il mio robots è il seguente

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
     
    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /
    # digg mirror
    User-agent: duggmirror
    Disallow: /
    
    

    mentre l'URL bloccata è questa:```
    guideitech.com/internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/


  • Moderatore

    ciao guideitech, benvenuto nel Forum GT

    Visto così non sembra doverlo bloccare (ho controllato anche la sitemap per vedere se il sottodominio dell'url fosse corretto).
    Potrebbe fare riferimento a una vecchia versione della sitemap.

    Prova con "Visualizza come Google" dell'URL incriminato.


  • User

    Ciao, grazie per la disponibilità. Da "visualizza come Google" mi dà come errore "negata da robots.txt".
    PS ieri ho cambiato plugin per gestire la sitemap, che ora ha un nome diverso rispetto alla precedente. Dovrei aggiornare anche il robots.txt oppure sa in automatico dove prendere la nuova sitemap? dovrei eliminare la preceente sitemap?


  • Moderatore

    @guideitech said:

    PS ieri ho cambiato plugin per gestire la sitemap, che ora ha un nome diverso rispetto alla precedente. Dovrei aggiornare anche il robots.txt oppure sa in automatico dove prendere la nuova sitemap? dovrei eliminare la preceente sitemap?
    Nel robots.txt puoi aggiungere l'URL della sitemap a beneficio degli altri motori di ricerca, ma Google sa già dove pescarla perché glielo dici tramite GWT.
    In GWT elimina dalla lista la vecchia sitemap (io ho esaminato quella in /sitemap.xml, non so se sia la nuova o la vecchia) e aggiungi la nuova e inviala.
    Ciao


  • User

    La nuova sitemap è la seguente: guideitech.com/sitemapindex.xml
    Non c'è nessun modo per evitare che il robots blocchi quell'articolo?


  • Moderatore

    Il robots.txt mostrato non dovrebbe bloccare l'URL.
    Prova a testare l'URL da GWT -> Url bloccati

    Il sito impostato su GWT è nella versione con o senza www?


  • Community Manager

    Ciao guideitech e benvenuto sul forum gt 🙂

    Dovrebbe essere correttamente bloccata quell'url dall'istruzione che hai dato qui:

    Disallow: */feed
    

    Se non vado errato, dovrebbe bloccare l'URL che hai indicato:

     guideitech.com/internet**/feed**ly-sostituto-valido-di-google-reader-che-esce-di-scena/
    

    Se vuoi bloccare solo esclusivamente quell'URL usa questa istruzione

    Disallow: */feed$
    

    Con il $ chiedi ai motori di ricerca di terminare l'istruzione quindi non ti blocca tutto il resto.

    Se invece vuoi lasciare com'è ma dare accesso specifico devi usare questa istruzione:

    
    Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/
    Disallow: */feed
    

    Mentre Google da precedenza alle istruzioni a seconda della lunghezza del path della URL, tutti gli altri motori di ricerca danno precedenza all'ordine di lettura del Robots.txt partendo ovviamente dall'alto.

    Li chiamano standard....:():

    P.s. corretto il messaggio dopo la segnalazione di Federico Sasso che si può leggere subito dopo questo post.


  • Moderatore

    Giorgio,
    ho letto la tua risposta e ho pensato... "è sbagliata"... poi l'ho riletta ed ho pensato "cavolo"...
    La riga che blocca è secondo me quest'altra:

    Disallow: */feed
    

    con l'asterisco.
    Il robots.txt l'avrò guardato 10 volte e m'era sfuggita!
    Ti devo una birra 🙂


  • Community Manager

    Ciao Fede,
    hai ragione! Ho fatto copia incolla del codice in modo errato, comunque si è quella con l'asterisco 😉

    Modifico il mio post in modo che se da non mandare in confusione nessuno.

    Grazie della correzione 😄


  • User

    Grazie per l'aiuto. Inserendo ```
    Allow: /internet/feedly-sostituto-valido-di-google-reader-che-esce-di-scena/

    . Quindi ogni volta che scrivo un articolo e nel titolo è presente la parola "feed" esso verrà bloccato dal robots.txt?

  • Community Manager

    Si 🙂

    La cosa migliore sarebbe questa istruzione:

    Disallow: */feed$

    Prova togliendo l'Allow e vedi se te lo blocca 🙂


  • User

    Con l'istruzione che dici tu mi dà errore "non nel dominio". Lascerò il robots con l'allow di quell'url. Grazie per i consigli.


  • Community Manager

    Strano...Federico che ne pensi?

    Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro 😉


  • User

    @Giorgiotave said:

    Strano...Federico che ne pensi?

    Comunque sono contento che abbiamo risolto, anche se vorrei trovarti una soluzione migliore per il futuro 😉
    Avevo sbagliato a scrivere qualcosa. Ora con ```
    *Disallow: */feed$


  • Moderatore

    @Giorgiotave said:

    Strano...Federico che ne pensi?
    Intendi l'errore "non nel dominio"?
    Non ho capito quale strumento di GWT lo segnala, e in seguito a che modifica esattamente.

    Il motivo per cui avevo chiesto se usasse il profilo GWT con www o senza era per capire se per caso guideitech non usasse la versione senza www : sarebbe visto come un dominio diverso, obbediente a un robots.txt diverso.

    Un po' di elementi:
    Gli URL nella sitemap hanno tutte il www (e il sito stesso fa redirect su tale versione); il robots.txt non fa il redirect, ma si presenta apparentemente uguale.

    Nota: i feed di guideitech mi sembra finiscano tutti con lo slash /, quindi la riga dovrebbe a mio parere essere:

    Disallow: */feed/$
    

    Ciao

    [UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]


  • User

    ho omesso il www perché altrimenti non riuscivo ad inserire link. Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
    In questo modo non dovrei avere più nessun problema? Perché quando non avevo il file robots.txt, "Strumenti per webmaster" di google mi segnalava che alcuni articoli avevano due url e ricercando questi articoli su google e cliccando su di essi, l'url non era quella classica bensì un'url che rimandava a feedburner.


  • Community Manager

    @Federico Sasso said:

    [UPDATE: leggo solo ora la risposta di guideitech; @guideitech, felice tua abbia risolto]

    Ci ha fregati 😄

    @guideitech said:

    Aggiungo lo slash al disallow per farlo diventare Disallow: */feed/$ .
    In questo modo non dovrei avere più nessun problema?

    Perfetto, sono molto contento!