Un Evento Unico. 5 Sale. 27 Interventi. SEO, SOCIAL, E-Commerce, Mobile, Turismo.
CLICCA QUI e SCOPRI DI PIù X Chiudi
 
Forum GT: Condividiamo idee e conoscenza Forum GT: Condividiamo idee e conoscenza


Condividi questo contenuto nei Social Network:
Ti stiamo aspettando: Registrati subito e gratis. Entra a far parte di una delle comunità più attive in Italia. Se hai dimenticato i tuoi dati li puoi recuperare subito.


Vai indietro   Forum per Webmaster: Condividiamo Idee e Conoscenza > Seo e Tecnologie > Posizionamento Nei Motori di Ricerca > Indicizzazione
Benvenuto! Forum Regole FAQ Lista utenti Calendario Segna come letti


Rispondi
 
LinkBack Strumenti di discussione
Vecchio 03-11-11, 12:40   #1 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Unhappy Tanti url soggetto a restrizioni da robots.txt

Ho un sistema vBulletin 4.1.3 in bridge con Wordpress. Ho generato una sitemap di WP e segnalata ai motori di ricerca, e va alla grande.

Ho generato con l'apposito tool di vBulletin la sitemap del forum, che genera il file xmlsitemap.php da segnalare ai vari search engine. Questa mappa di tipo indice dà errore al webmaster tool di google, notificando con una X rossa lo stato della mappa.

Inoltre ho restrizioni da robots.txt per più di 1500 url, per la maggior parte tratti dal forum.

il mio file robots è questo...ho sbagliato qualcosa? Avete qualche idea?

Codice:
Sitemap: /sitemap.xml
Sitemap: /forum/xmlsitemap.php

User-agent: BoardTracker
Disallow: /

User-agent: Gigabot
Disallow: /

User-agent: Twiceler
Disallow: /

User-agent: Slurp
Crawl-delay: 2

User-agent: msnbot
Crawl-delay: 2

User-agent: *

Disallow: /wp-
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /cgi-bin/

Allow: /wp-content/uploads/

Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/
Disallow: */feed/
Disallow: */trackback/
Disallow: */comments/

Disallow: /*?*
Disallow: /*?

Disallow: /tag/           
Disallow: /category/

Disallow: /editpost.php
Disallow: /gamercard.php
Disallow: /inlinemod.php
Disallow: /member.php
Disallow: /memberlist.php
Disallow: /newreply.php
Disallow: /newthread.php
Disallow: /payments.php
Disallow: /printthread.php
Disallow: /private.php
Disallow: /profile.php
Disallow: /report.php
Disallow: /search.php
Disallow: /sendmessage.php
Disallow: /showpost.php
Disallow: /usercp.php
Disallow: /usernote.php

User-agent: Mediapartners-Google
Allow: /member.php
Allow: /private.php
Allow: /usercp.php

Allow: /
Amaca non in linea   Rispondi citando
Vecchio 03-11-11, 17:47   #2 (permalink)
Moderatore
 
L'avatar di Webmaster70
 
Data di registrazione: Jun 2009
Ubicazione: Bologna
Messaggi: 1,090
Ciao Amaca, il robots.txt contiene errori formali, una riga vuota infatti significa fine del blocco precedente (che invece inizia con User-Agent), probabilmente Google lo corregge in automatico, in ogni caso li eliminerei.

Poi ci sono alcune righe superflue, perché ribadiscono inutilmente quando già detto in altre righe.

Riguardo al forum, non fa uso di tecniche di URL rewriting, vero?

Cioè hai delle URL parametriche di questo tipo:
/forum/thread.php?id=1234

Se la risposta è SI, il problema probabilmente sta nelle righe:
Disallow: /*?*
Disallow: /*?

Sotto ti riporto il codice commentato, io eliminerei tutte le righe dove trovi i miei commenti, e poi lo controllerei tramite l'apposito tool negli strumenti per webmaster di Google.

---------------------------------------

Sitemap: /sitemap.xml
Sitemap: /forum/xmlsitemap.php

User-agent: BoardTracker
Disallow: /

User-agent: Gigabot
Disallow: /

User-agent: Twiceler
Disallow: /

User-agent: Slurp
Crawl-delay: 2

User-agent: msnbot
Crawl-delay: 2

User-agent: *
<- ERRORE: RIGA VUOTA
Disallow: /wp-
Disallow: /wp-admin/ <- SUPERFLUO
Disallow: /wp-includes/ <- SUPERFLUO
Disallow: /wp-content/ <- SUPERFLUO
Disallow: /cgi-bin/
<- ERRORE: RIGA VUOTA
Allow: /wp-content/uploads/
<- ERRORE: RIGA VUOTA
Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/
Disallow: */feed/
Disallow: */trackback/
Disallow: */comments/
<- ERRORE: RIGA VUOTA
Disallow: /*?* <- SUPERFLUO, inoltre vedi sotto
Disallow: /*? <- FORSE E' QUESTA RIGA CHE IMPEDISCE L'INDICIZZAZIONE DEL FORUM
<- ERRORE: RIGA VUOTA
Disallow: /tag/
Disallow: /category/
<- ERRORE: RIGA VUOTA
Disallow: /editpost.php
Disallow: /gamercard.php
Disallow: /inlinemod.php
Disallow: /member.php
Disallow: /memberlist.php
Disallow: /newreply.php
Disallow: /newthread.php
Disallow: /payments.php
Disallow: /printthread.php
Disallow: /private.php
Disallow: /profile.php
Disallow: /report.php
Disallow: /search.php
Disallow: /sendmessage.php
Disallow: /showpost.php
Disallow: /usercp.php
Disallow: /usernote.php

User-agent: Mediapartners-Google
Allow: /member.php <- SUPERFLUO
Allow: /private.php <- SUPERFLUO
Allow: /usercp.php <- SUPERFLUO
<- ERRORE: RIGA VUOTA
Allow: /

Ultima modifica di Webmaster70 : 03-11-11 17:51.
Webmaster70 non in linea   Rispondi citando
Vecchio 03-11-11, 18:30   #3 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Intanto Webmaster ti ringrazio tanto per la risposta super dettagliata.

Sono alle prime armi con i robots e sicuramente avrò fatto tanti errori.

esatto per gli url parametrici, non uso url rewrite. quindi potrebbe essere proprio quello il problema! provo immediatamente a settarlo come mi hai consigliato, ti faccio sapere se ho delle novità.

Per quanto riguarda la sitemap del forum, invece? secondo te come mai mi da la X rossa sullo stato? dici che puo dipendere dal file robots?
Amaca non in linea   Rispondi citando
Vecchio 03-11-11, 18:41   #4 (permalink)
Moderatore
 
L'avatar di Webmaster70
 
Data di registrazione: Jun 2009
Ubicazione: Bologna
Messaggi: 1,090
Accanto alla X dovrebbe esserci un link con il nome della sitemap, cliccalo e nella pagina di dettaglio dovresti leggere di che errore si tratta (forse è la presenza di tante URL escluse dal robots.txt).
Webmaster70 non in linea   Rispondi citando
Vecchio 03-11-11, 18:50   #5 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Ah ecco!! non mi ero accorto che si poteva controllare nel dettaglio!

E' esattamente come dici:

"URL limitato da robots.txt
Abbiamo rilevato un errore durante l'accesso alla tua Sitemap. Accertati che la tua Sitemap rispetti le nostre linee guida e che sia possibile accedervi utilizzando il percorso da te fornito, quindi reinviala."

e sotto i vari url bloccati.

Ho modificato il robots.txt, ho modo di segnalarlo subito al sistema o devo attendere per forza che i crawler controllino da soli?
Amaca non in linea   Rispondi citando
Vecchio 03-11-11, 19:13   #6 (permalink)
Moderatore
 
L'avatar di Webmaster70
 
Data di registrazione: Jun 2009
Ubicazione: Bologna
Messaggi: 1,090
Bene!

Pazienta un po', entro 24 ore circa si accorgerà dei cambiamenti al robots.txt, e potrai verificarlo sempre li negli strumenti per webmaster.

Dopo invia di nuovo la sitemap.

Anche se una prova puoi farla già adesso, non si sa mai.
Webmaster70 non in linea   Rispondi citando
Vecchio 04-11-11, 00:32   #7 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Perfetto, attendo che il robots sia aggiornato! incrocio le dita!

Intanto grazie in anticipo per l'aiuto!!!

Ultima modifica di Webmaster70 : 07-11-11 00:54. Motivo: Inizia le frasi con le maiuscole, grazie.
Amaca non in linea   Rispondi citando
Vecchio 07-11-11, 00:36   #8 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Buone nuove, ma non del tutto!

nella home del webmaster tool prima mi diceva che c'erano errori indicandomelo con una scritta in rosso, e una volta entrato nel sito specifico, ritrovavo lo stesso errore su una banda rossa che evidenziava il problema. Ora quegli errori non ci sono piu, quindi sembra che sia apposto, anche perche l'errore della sitemap che avevo prima, ora non c'è piu, è settata correttamente e la bella V in verde lo conferma.

Unico problema: negli errori di scansione trovo tutto esattamente come prima, con i 1600 e rotti url bloccati da robots, nonostante siano stati scannerizzati il 5 novembre, quindi teoricamente era gia tutto apposto, poichè gia da un paio di giorni è tutto corretto.

E' normale? devo aspettare un po di tempo o ancora c'è qualche problema di configurazione?
Amaca non in linea   Rispondi citando
Vecchio 07-11-11, 00:55   #9 (permalink)
Moderatore
 
L'avatar di Webmaster70
 
Data di registrazione: Jun 2009
Ubicazione: Bologna
Messaggi: 1,090
Puoi fare il copia e incolla di alcune di quelle righe?
Togli però http:// e il nome del tuo dominio, così non diventano link attivi e mantieni la privacy.
Webmaster70 non in linea   Rispondi citando
Vecchio 07-11-11, 10:14   #10 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
questi sono quelli nella colonna "soggetto a limitazioni da robots", e ne ho altri 1600. ho visto che la prima pagina di link sono stati visionati dal crawler il 5 novembre, ma gli altri piu vecchi non sono stati ricontrollati...ma rimane il fatto che ne sono usciti di nuovi il giorno che avevo settato tutto bene.

/forum/showthread.php?301-One-piece-pop-silvers-rayleigh&p=1266
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?194-P.O.P.-quot-Sailing-Again-quot-Chopper
URL limitato da robots.txt 05/nov/2011
/forum/tags.php?tag=catherine
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=446&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=450&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/tags.php?tag=site
URL limitato da robots.txt 05/nov/2011
/forum/tags.php?tag=guida
URL limitato da robots.txt 05/nov/2011
/forum/external.php?type=RSS2&forumids=67
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=112&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?t=456&goto=newpost
URL limitato da robots.txt 05/nov/2011
/forum/showthread.php?298-Ciao-a-tutti!
URL limitato da robots.txt 05/nov/2011


questi invece sono nella colonna "nella sitemap", e listati ce ne sono sui 124


/forum/showthread.php?349-vendo-Thousand-Sunny-
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/showthread.php?15-DX08-Batman(1989)-1-6th-scale-Joker
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/forumdisplay.php?26-Varie
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/forumdisplay.php?52-Cinema-e-TV
URL limitato da robots.txt
non disponibile
05/nov/2011
/forum/showthread.php?336-Mikuru-Asahina-1-8-(Figure)
URL limitato da robots.txt
non disponibile
05/nov/2011
Amaca non in linea   Rispondi citando
Vecchio 10-11-11, 12:03   #11 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono? Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:

/category/americane/recensioni-americane
/category/video
/wp-admin/admin-ajax.php

i file in questione sono riferiti a wordpress.
Amaca non in linea   Rispondi citando
Vecchio 12-11-11, 19:06   #12 (permalink)
Moderatore
 
L'avatar di Webmaster70
 
Data di registrazione: Jun 2009
Ubicazione: Bologna
Messaggi: 1,090
Quote:
Amaca Visualizza il messaggio
Sto vedendo che col passare dei giorni, piano, molto piano stanno diminuendo i link soggetti a restrizioni. Erano arrivati a 1650 e ieri a 1635 e oggi a 1619...è segno buono?
Si.

Quello è come un normale file di log (o registro) eventi (di solito errori), e quindi funziona in questo modo.

Quando si verifica un errore viene aggiunta una riga, la quale poi non viene eliminata quando l'errore viene corretto, bensì quando passa tot tempo dalla sua registrazione e/o il registro raggiunge una certa capienza.

Quindi è normale che adesso si "sgonfi" lentamente.

Quote:
Amaca Visualizza il messaggio
Nonostante questo mi rimane giornalmente 2 o 3 link bloccati di questo genere:
/category/americane/recensioni-americane
/category/video
/wp-admin/admin-ajax.php

i file in questione sono riferiti a wordpress.
Sta semplicemente facendo quello che gli hai ordinato tu tramite robots.txt:
Quote:
Amaca Visualizza il messaggio
Disallow: /wp-
Disallow: /category/

Ultima modifica di Webmaster70 : 12-11-11 19:10.
Webmaster70 non in linea   Rispondi citando
Vecchio 13-11-11, 13:40   #13 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Infatti sta continuando a scendere pian piano giornalmente!!!! ah, quindi ho bloccato stupidamente le catogorie! Errori da principiante

Non so come ringraziarti Webmaster! sei un grande!!! non sarei mai riuscito a risolvere la questione senza di te e sta mitica community, sempre i numeri uno!!!

un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.

c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?
Amaca non in linea   Rispondi citando
Vecchio 14-11-11, 09:52   #14 (permalink)
User
 
L'avatar di Amaca
 
Data di registrazione: Feb 2010
Messaggi: 23
Quote:
Amaca Visualizza il messaggio
un'ultima piccola cosa: sto notando che mi arriva tantissimo traffico su una pagina del forum che praticamente è vuota. probabilmente ho settato male il forum che ha inserito un url scorretto nella sitemap.

c è un modo sui webmaster tool di ricercare quel particolare url per poterlo analizzare e trovare magari qualche indizio?
Ok ho risolto quel discorso li! Era una cavolata

Per le categorie in realtà mi sono ricordato il motivo per cui le bloccavo...avevo letto in giro che avendo molte categorie, c era il rischio di creare contenuti duplicati, poichè le categorie andavano a pescare articoli a volte uguali...potrebbe essere saggio continuare a bloccarle oppure no?
Amaca non in linea   Rispondi citando
Vecchio 16-11-11, 00:26   #15 (permalink)
Moderatore
 
L'avatar di Webmaster70
 
Data di registrazione: Jun 2009
Ubicazione: Bologna
Messaggi: 1,090
Si Amaca, categorie e tags possono creare problemi di contenuti duplicati.

Metterle in disallow nel robots.txt è una soluzione, ma per me non è quella ottimale. Io farei così.

- Usa o le categorie o i tags, non entrambi.

- Se usi i tags, non assegnarne più di 4-5 per ogni articolo, cercando di riutilizzare gli stessi.

- Nelle pagine tags o categorie non mostrare tutto l'articolo, ma solo titolo + abstract, oppure solo titolo.

- Togli le righe relative a tags e categorie nel robots.txt.

Quanto detto sopra è un mio convinto parere, e non una assodata prescrizione sulle quali tutti concordano, vedi tu.
Webmaster70 non in linea   Rispondi citando
Rispondi
Tags: , ,



Strumenti di discussione

Regole di scrittura
Non puoi postare nuove discussioni
Non puoi rispondere alle discussioni
Non puoi allegare file
Non puoi editare i tuoi post

BB code is Attivo
smilies è Attivo
[IMG] il codice è Attivo
Il codice HTML è Disattivato
Trackbacks are Attivo
Pingbacks are Attivo
Refbacks are Disattivato
Vai al forum



Tutti gli orari sono GMT +3. Attualmente sono le 07:47.




Forum GT - © 2004-2009 GT idea S.r.l P.iva 02418200800 - Privacy/Disclaimer

SEO by vBSEO 3.2.0 ©2008, Crawlability, Inc.