• User Attivo

    configurazione corretta dei file robots.txt e htaccess con wordpress

    Ciao a tutti,

    chiedo agli esperti conferma se le seguente configurazione dei file robots e htaccess per wordpress sono corrette.

    Grz, Sp.

    **Robots
    **

    
    # BEGIN XML-SITEMAP-PLUGIN
    sitemap: nomesito.YYY/sitemap.xml.gz
    sitemap: nomesito.YYY/sitemap.xml
    # END XML-SITEMAP-PLUGIN
    
    
    User-agent: *
    
    Disallow: /wp-
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback/
    Disallow: /feed/
    Disallow: /comments/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /page/
    Disallow: /*?*
    Disallow: /*?
    Disallow: /*fb_xd_fragment*
    Disallow: /tag/
    
    
    Allow: /wp-content/uploads/
    
    

    Htaccess

    
    #Gzip
    <ifmodule mod_deflate.c>
    AddOutputFilterByType DEFLATE text/text text/html text/plain text/xml text/css application/x-javascript application/javascript
    </ifmodule>
    #End Gzip
    
    
    # BEGIN Expire headers
    <ifModule mod_expires.c>
    ExpiresActive On
    ExpiresDefault "access plus 5 seconds"
    ExpiresByType image/x-icon "access plus 2592000 seconds"
    ExpiresByType image/jpeg "access plus 2592000 seconds"
    ExpiresByType image/png "access plus 2592000 seconds"
    ExpiresByType image/gif "access plus 2592000 seconds"
    ExpiresByType application/x-shockwave-flash "access plus 2592000 seconds"
    ExpiresByType text/css "access plus 604800 seconds"
    ExpiresByType text/javascript "access plus 216000 seconds"
    ExpiresByType application/javascript "access plus 216000 seconds"
    ExpiresByType application/x-javascript "access plus 216000 seconds"
    ExpiresByType text/html "access plus 600 seconds"
    ExpiresByType application/xhtml+xml "access plus 600 seconds"
    </ifModule>
    # END Expire headers
    
    
    # BEGIN Cache-Control Headers
    <ifModule mod_headers.c>
    <filesMatch "\.(ico|jpe?g|png|gif|swf)$">
    Header set Cache-Control "public"
    </filesMatch>
    <filesMatch "\.(css)$">
    Header set Cache-Control "public"
    </filesMatch>
    <filesMatch "\.(js)$">
    Header set Cache-Control "private"
    </filesMatch>
    <filesMatch "\.(x?html?|php)$">
    Header set Cache-Control "private, must-revalidate"
    </filesMatch>
    </ifModule>
    # END Cache-Control Headers
    
    
    # BEGIN Turn ETags Off
    FileETag None
    # END Turn ETags Off
    
    

  • User Attivo

    Ciao,

    per quanto riguarda l'htaccess devi vedere se va bene per le tue esigenze, non per Wordpress. Quell'htaccess non contiene nulla di specifico per Wordpress, è in base alla composizione del proprio sito che si decide come stabilire la cache dei componenti. Le regole che hai inserito tu vanno bene per la maggioranza dei siti web, sono quelle che si trovano nei vari blog di informatica.

    Per quanto riguarda il robots hai due problemi:

    • Google è l'unico motore di ricerca a non tenere conto dell'ordine in cui vengono usate le clausole Allow e Disallow. Yahoo! e Bing vogliono prima Allow e poi Disallow, quindi nel tuo caso arrivati al wp-content, Yahoo! e Bing non tengono in considerazione della wp-content/uploads;
    • Il carattere jolly * (asterisco) non è consentito nella clausola Disallow.

    Saluti.

    EDIT: a proposito, dimenticavo una cosa. Se usi FileZilla come client FTP o NotePad++ come editor di testo, assicurati che FileZilla trasferisca il robots.txt in modalità ASCII e che Notepad++ lo apra in codifica ASCII e non LATIN o UTF-8.


  • User Attivo

    Grazie Francesco? Quindi il robots.txt corretto dovrebbe essere così:

    
    # BEGIN XML-SITEMAP-PLUGIN
    sitemap: nomesito.YYY/sitemap.xml.gz
    sitemap: nomesito.YYY/sitemap.xml
    # END XML-SITEMAP-PLUGIN
    
    User-agent: *
    
    Allow: /wp-content/uploads/
    
    Disallow: /wp-
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/
    Disallow: /trackback/
    Disallow: /feed/
    Disallow: /comments/
    Disallow: /page/
    Disallow: /tag/
    
    

    giusto?

    SpT


  • User Attivo

    Giusto.


  • Admin

    No. Completamente sbagliato.

    Il robots.txt deve essere così

    
    User-agent: *
    Disallow:
    
    

    Il motivo lo ho spiegato qui.


  • User

    ciao
    il mio robots.txt è il seguente:

    User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Sitemap: (qui ce lo url sitemap xml)

    E' sbagliato o c'è da rivedere qualcosa?
    Ho letto il tuo articolo ma utilizzando SEF di Joomla vorrei sapere se hai scritto qualcosa in merito oppure hai delle info da darmi 🙂


  • Admin

    Ciao giochibonus il tuo è relativo a Joomla e non Wordpress.

    Così a occhio mi sembra eccessivo anche il tuo considerando anche che mettere nel robots.txt la cartella di admin non è per nulla una best practice.
    Puoi leggere qui per farti una idea