+ Rispondi alla Discussione
Risultati da 1 a 21 di 21

Elenco user agent inutili

Ultimo Messaggio di luca1317 il:
  1. #1
    User L'avatar di GrazieMamma
    Data Registrazione
    Jan 2005
    Località
    Roma
    Messaggi
    414

    Elenco user agent inutili

    Ragazzi che ne dite se tutti insieme tiriamo giù una lista di user agent "consuma banda" e sostanzialmente inutili?

    In questi giorni stò ottimizzando al meglio le mie risorse (server e connessione)

    Ho visto che html.it ha una buona lista di user agent indesiderati nel robots.txt , che ne dite se ne creiamo una insieme?

  2. #2
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    37,560
    Visita il canale Youtube di Giorgiotave
    Ottima Idea
    Giorgio Taverniti Blog.

    L'ultima puntata di FastForward farà incavolare molti..: Innova o muori! L'era della Application Economy

  3. #3
    User Attivo L'avatar di kerouac3001
    Data Registrazione
    Apr 2005
    Località
    Roma (ma Palermitano sugnu)
    Messaggi
    1,524
    Cioè tipo yahoo?
    Ultima modifica di Anika; 01-05-11 alle 14:28 Motivo: messa la lettera maiuscola all'inizio della frase.

  4. #4
    User
    Data Registrazione
    Apr 2005
    Località
    Turin
    Messaggi
    123
    Avete voglia di spiegarmi cosa sono gli user agenti e a cosa servono?
    Grazie.

  5. #5
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    37,560
    Visita il canale Youtube di Giorgiotave
    Intende gli spider dei motori che arrivano nel tuo sito e lo controllano. Molti non servono e possono essere esclusi, chi fa una lista?
    Giorgio Taverniti Blog.

    L'ultima puntata di FastForward farà incavolare molti..: Innova o muori! L'era della Application Economy

  6. #6
    kyo
    kyo è offline
    User L'avatar di kyo
    Data Registrazione
    May 2005
    Messaggi
    62
    Io ne ho due tra i piu esclusi dai siti piu grossi..

    User-agent: EmailCollector (Scansiona il Web alla ricerca di E-mail).
    Disallow: /
    User-agent: Teleport (Software per lo scaricamento di interi siti).
    Disallow: /
    Ultima modifica di Anika; 01-05-11 alle 14:28 Motivo: Lettere maiuscola all'inizio della frase
    Verifica regole firma

  7. #7
    User L'avatar di GrazieMamma
    Data Registrazione
    Jan 2005
    Località
    Roma
    Messaggi
    414
    Bene, se ne conoscete altri quotate!

    User-agent: webmirror
    Disallow: /

    User-agent: webcopy
    Disallow: /

    User-agent: WinHTTrack
    Disallow: /

    User-agent: website extractor
    Disallow: /

    User-agent: SuperBot
    Disallow: /

    User-agent: SuperBot/2.6
    Disallow: /

    User-agent: WebReaper
    Disallow: /

    User-agent: Black Hole
    Disallow: /

    User-agent: Titan
    Disallow: /

    User-agent: NetMechanic
    Disallow: /

    User-agent: CherryPicker
    Disallow: /

    User-agent: EmailCollector
    Disallow: /

    User-agent: DISCo Pump 3.1
    Disallow: /

    User-agent: NetAttache
    Disallow: /

    User-agent: NetAttache Light 1.1
    Disallow: /

    User-agent: EmailSiphon
    Disallow: /

    User-agent: WebBandit
    Disallow: /

    User-agent: EmailWolf
    Disallow: /

    User-agent: ExtractorPro
    Disallow: /

    User-agent: CopyRightCheck
    Disallow: /

    User-agent: Crescent
    Disallow: /

    User-agent: SiteSnagger
    Disallow: /

    User-agent: ProWebWalker
    Disallow: /

    User-agent: CheeseBot
    Disallow: /

    User-agent: Alexibot
    Disallow: /

    User-agent: Teleport
    Disallow: /

    User-agent: Wget
    Disallow: /

    User-agent: MIIxpc
    Disallow: /

    User-agent: Telesoft
    Disallow: /

    User-agent: Website Quester
    Disallow: /

    User-agent: WebZip
    Disallow: /

    User-agent: moget/2.1
    Disallow: /

    User-agent: WebZip/4.0
    Disallow: /

    User-agent: WebStripper
    Disallow: /

    User-agent: WebStripper/2.02
    Disallow: /

    User-agent: WebSauger
    Disallow: /

    User-agent: WebCopier
    Disallow: /

    User-agent: NetAnts
    Disallow: /

    User-agent: Mister PiX
    Disallow: /

    User-agent: WebAuto
    Disallow: /

    User-agent: TheNomad
    Disallow: /

    User-agent: WWW-Collector-E
    Disallow: /

    User-agent: RMA
    Disallow: /

    User-agent: libWeb/clsHTTP
    Disallow: /

    User-agent: asterias
    Disallow: /

    User-agent: httplib
    Disallow: /

    User-agent: turingos
    Disallow: /

    User-agent: spanner
    Disallow: /

    User-agent: InfoNaviRobot
    Disallow: /

    User-agent: Harvest/1.5
    Disallow: /

    User-agent: Bullseye/1.0
    Disallow: /

    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
    Disallow: /

    User-agent: CherryPickerSE/1.0
    Disallow: /

    User-agent: CherryPickerElite/1.0
    Disallow: /

    User-agent: WebBandit/3.50
    Disallow: /

    User-agent: NICErsPRO
    Disallow: /

    User-agent: Microsoft URL Control - 5.01.4511
    Disallow: /

    User-agent: DittoSpyder
    Disallow: /

    User-agent: Foobot
    Disallow: /

    User-agent: WebmasterWorldForumBot
    Disallow: /

    User-agent: SpankBot
    Disallow: /

    User-agent: BotALot
    Disallow: /

    User-agent: lwp-trivial/1.34
    Disallow: /

    User-agent: lwp-trivial
    Disallow: /

    User-agent: Wget/1.6
    Disallow: /

    User-agent: BunnySlippers
    Disallow: /

    User-agent: URLy Warning
    Disallow: /

    User-agent: Wget/1.5.3
    Disallow: /

    User-agent: LinkWalker
    Disallow: /

    User-agent: cosmos
    Disallow: /

    User-agent: moget
    Disallow: /

    User-agent: hloader
    Disallow: /

    User-agent: humanlinks
    Disallow: /

    User-agent: LinkextractorPro
    Disallow: /

    User-agent: Mata Hari
    Disallow: /

    User-agent: LexiBot
    Disallow: /

    User-agent: Offline Explorer
    Disallow: /

    User-agent: Web Image Collector
    Disallow: /

    User-agent: The Intraformant
    Disallow: /

    User-agent: True_Robot/1.0
    Disallow: /

    User-agent: True_Robot
    Disallow: /

    User-agent: BlowFish/1.0
    Disallow: /

    User-agent: JennyBot
    Disallow: /

    User-agent: MIIxpc/4.2
    Disallow: /

    User-agent: BuiltBotTough
    Disallow: /

    User-agent: ProPowerBot/2.14
    Disallow: /

    User-agent: BackDoorBot/1.0
    Disallow: /

    User-agent: toCrawl/UrlDispatcher
    Disallow: /

    User-agent: WebEnhancer
    Disallow: /

    User-agent: TightTwatBot
    Disallow: /

    User-agent: suzuran
    Disallow: /

    User-agent: VCI WebViewer VCI WebViewer Win32
    Disallow: /

    User-agent: VCI
    Disallow: /

    User-agent: Szukacz/1.4
    Disallow: /

    User-agent: QueryN Metasearch
    Disallow: /

    User-agent: Openfind data gathere
    Disallow: /

    User-agent: Openfind
    Disallow: /

    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /

    User-agent: Xenu's
    Disallow: /

    User-agent: Zeus
    Disallow: /

    User-agent: RepoMonkey Bait & Tackle/v1.01
    Disallow: /

    User-agent: RepoMonkey
    Disallow: /

    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /

    User-agent: Webster Pro
    Disallow: /

    User-agent: EroCrawler
    Disallow: /

    User-agent: LinkScan/8.1a Unix
    Disallow: /

    User-agent: Kenjin Spider
    Disallow: /

    User-agent: Cegbfeieh
    Disallow: /

  8. #8
    kyo
    kyo è offline
    User L'avatar di kyo
    Data Registrazione
    May 2005
    Messaggi
    62
    Ammazza quanti sono.. ma cosa sono e quello che fanno non si sa?

    Aggiungiamo pure varianti del classico teleport ma non so se sono dannosi a tal punto..

    User-agent: TeleportPro
    Disallow: /

    User-agent: Teleport Pro/1.29.1718
    Disallow: /

    User-agent: Teleport Pro/1.29.1632
    Disallow: /

    User-agent: Teleport Pro/1.29.1590
    Disallow: /

    User-agent: Teleport Pro/1.29
    Disallow: /
    Ultima modifica di Anika; 01-05-11 alle 14:29 Motivo: Messa la lettera maiuscola all'inizio delle frase
    Verifica regole firma

  9. #9
    User L'avatar di GrazieMamma
    Data Registrazione
    Jan 2005
    Località
    Roma
    Messaggi
    414

    Perfetto!

    Qualcuno offre di più? dai che non mi va di comprare un terzo server per questi succhia banda da 4 soldi...

    User-agent: EmailCollector (Scansiona il Web alla ricerca di E-mail).
    Disallow: /

    User-agent: Teleport (Software per lo scaricamento di interi siti).
    Disallow: /

    User-agent: webmirror
    Disallow: /

    User-agent: webcopy
    Disallow: /

    User-agent: WinHTTrack
    Disallow: /

    User-agent: website extractor
    Disallow: /

    User-agent: SuperBot
    Disallow: /

    User-agent: SuperBot/2.6
    Disallow: /

    User-agent: WebReaper
    Disallow: /

    User-agent: Black Hole
    Disallow: /

    User-agent: Titan
    Disallow: /

    User-agent: NetMechanic
    Disallow: /

    User-agent: CherryPicker
    Disallow: /

    User-agent: EmailCollector
    Disallow: /

    User-agent: DISCo Pump 3.1
    Disallow: /

    User-agent: NetAttache
    Disallow: /

    User-agent: NetAttache Light 1.1
    Disallow: /

    User-agent: EmailSiphon
    Disallow: /

    User-agent: WebBandit
    Disallow: /

    User-agent: EmailWolf
    Disallow: /

    User-agent: ExtractorPro
    Disallow: /

    User-agent: CopyRightCheck
    Disallow: /

    User-agent: Crescent
    Disallow: /

    User-agent: SiteSnagger
    Disallow: /

    User-agent: ProWebWalker
    Disallow: /

    User-agent: CheeseBot
    Disallow: /

    User-agent: Alexibot
    Disallow: /

    User-agent: Teleport
    Disallow: /

    User-agent: Wget
    Disallow: /

    User-agent: MIIxpc
    Disallow: /

    User-agent: Telesoft
    Disallow: /

    User-agent: Website Quester
    Disallow: /

    User-agent: WebZip
    Disallow: /

    User-agent: moget/2.1
    Disallow: /

    User-agent: WebZip/4.0
    Disallow: /

    User-agent: WebStripper
    Disallow: /

    User-agent: WebStripper/2.02
    Disallow: /

    User-agent: WebSauger
    Disallow: /

    User-agent: WebCopier
    Disallow: /

    User-agent: NetAnts
    Disallow: /

    User-agent: Mister PiX
    Disallow: /

    User-agent: WebAuto
    Disallow: /

    User-agent: TheNomad
    Disallow: /

    User-agent: WWW-Collector-E
    Disallow: /

    User-agent: RMA
    Disallow: /

    User-agent: libWeb/clsHTTP
    Disallow: /

    User-agent: asterias
    Disallow: /

    User-agent: httplib
    Disallow: /

    User-agent: turingos
    Disallow: /

    User-agent: spanner
    Disallow: /

    User-agent: InfoNaviRobot
    Disallow: /

    User-agent: Harvest/1.5
    Disallow: /

    User-agent: Bullseye/1.0
    Disallow: /

    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
    Disallow: /

    User-agent: CherryPickerSE/1.0
    Disallow: /

    User-agent: CherryPickerElite/1.0
    Disallow: /

    User-agent: WebBandit/3.50
    Disallow: /

    User-agent: NICErsPRO
    Disallow: /

    User-agent: Microsoft URL Control - 5.01.4511
    Disallow: /

    User-agent: DittoSpyder
    Disallow: /

    User-agent: Foobot
    Disallow: /

    User-agent: WebmasterWorldForumBot
    Disallow: /

    User-agent: SpankBot
    Disallow: /

    User-agent: BotALot
    Disallow: /

    User-agent: lwp-trivial/1.34
    Disallow: /

    User-agent: lwp-trivial
    Disallow: /

    User-agent: Wget/1.6
    Disallow: /

    User-agent: BunnySlippers
    Disallow: /

    User-agent: URLy Warning
    Disallow: /

    User-agent: Wget/1.5.3
    Disallow: /

    User-agent: LinkWalker
    Disallow: /

    User-agent: cosmos
    Disallow: /

    User-agent: moget
    Disallow: /

    User-agent: hloader
    Disallow: /

    User-agent: humanlinks
    Disallow: /

    User-agent: LinkextractorPro
    Disallow: /

    User-agent: Mata Hari
    Disallow: /

    User-agent: LexiBot
    Disallow: /

    User-agent: Offline Explorer
    Disallow: /

    User-agent: Web Image Collector
    Disallow: /

    User-agent: The Intraformant
    Disallow: /

    User-agent: True_Robot/1.0
    Disallow: /

    User-agent: True_Robot
    Disallow: /

    User-agent: BlowFish/1.0
    Disallow: /

    User-agent: JennyBot
    Disallow: /

    User-agent: MIIxpc/4.2
    Disallow: /

    User-agent: BuiltBotTough
    Disallow: /

    User-agent: ProPowerBot/2.14
    Disallow: /

    User-agent: BackDoorBot/1.0
    Disallow: /

    User-agent: toCrawl/UrlDispatcher
    Disallow: /

    User-agent: WebEnhancer
    Disallow: /

    User-agent: TightTwatBot
    Disallow: /

    User-agent: suzuran
    Disallow: /

    User-agent: VCI WebViewer VCI WebViewer Win32
    Disallow: /

    User-agent: VCI
    Disallow: /

    User-agent: Szukacz/1.4
    Disallow: /

    User-agent: QueryN Metasearch
    Disallow: /

    User-agent: Openfind data gathere
    Disallow: /

    User-agent: Openfind
    Disallow: /

    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /

    User-agent: Xenu's
    Disallow: /

    User-agent: Zeus
    Disallow: /

    User-agent: RepoMonkey Bait & Tackle/v1.01
    Disallow: /

    User-agent: RepoMonkey
    Disallow: /

    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /

    User-agent: Webster Pro
    Disallow: /

    User-agent: EroCrawler
    Disallow: /

    User-agent: LinkScan/8.1a Unix
    Disallow: /

    User-agent: Kenjin Spider
    Disallow: /

    User-agent: Cegbfeieh
    Disallow: /
    User-agent: TeleportPro
    Disallow: /

    User-agent: Teleport Pro/1.29.1718
    Disallow: /

    User-agent: Teleport Pro/1.29.1632
    Disallow: /

    User-agent: Teleport Pro/1.29.1590
    Disallow: /

    User-agent: Teleport Pro/1.29
    Disallow: /

  10. #10
    Esperto L'avatar di Rinzi
    Data Registrazione
    Feb 2005
    Località
    Roma
    Messaggi
    5,444
    non so se li avete già segnalati

    User-agent: Xenu's Link Sleuth 1.1c
    Disallow: /

    User-agent: Xenu's
    Disallow: /

    User-agent: Offline Explorer
    Disallow: /

    User-agent: WebmasterWorldForumBot
    Disallow: /

    User-agent: WebStripper
    Disallow: /

    User-agent: WebStripper/2.02
    Disallow: /

    User-agent: WebSauger
    Disallow: /

    User-agent: WebCopier
    Disallow: /

    User-agent: WebReaper
    Disallow: /

    User-agent: webmirror
    Disallow: /

  11. #11
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    37,560
    Visita il canale Youtube di Giorgiotave
    Io consumo molto, un bel test mettere il robots.......
    Giorgio Taverniti Blog.

    L'ultima puntata di FastForward farà incavolare molti..: Innova o muori! L'era della Application Economy

  12. #12
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Il robots con molti ua e' utilissimo al fine del risparmio banda se non si usa adsense. Viceversa si rischia di uccidere un server. E' un problema grosso e credo difficilmente risolvibile.

  13. #13
    L'avatar di Giorgiotave
    Data Registrazione
    Oct 2004
    Località
    Monasterace
    Messaggi
    37,560
    Visita il canale Youtube di Giorgiotave
    Ago come mai?
    Giorgio Taverniti Blog.

    L'ultima puntata di FastForward farà incavolare molti..: Innova o muori! L'era della Application Economy

  14. #14
    Esperto L'avatar di agoago
    Data Registrazione
    Apr 2005
    Messaggi
    481
    Citazione Originariamente Scritto da giorgiotave
    Ago come mai?
    Era solo una provocazione, una questione di principio. AdS ha un suo spider, ti analizza la pagina e mostra gli annunci attinenti ai suoi contenuti. Come tutti gli spider "sarebbe" tenuto a verificare continuamente il robots.txt del sito (almeno ogni volta che il Mediapartners-Google passa e legge una pagina). Ma non lo fa se non raramente, quasi sempre per pagine lette la prima volta.

    Questo comportamento e' ...

    E' un discorso lunghissimo e non ho voglia di iniziare una lotta contro i mulini a vento, non ho una Dulcinea del Toboso per la quale ne velga la pena.

    Condannereste un innocente pur di condannare 100 colpevoli?
    Se implemento un filtro, che penalizza quel sito che riceve-eccede in breve tempo in link ricevuti, levo una miriade di siti di spam, ma so che in qualche caso anche un sito che riporta una "novita' assoluta" rischiera', con buone probabilita', di essere bannato per "immediato eccesso di successo".

    Mediapartners-Google e' uno spider e pertanto dovrebbe rispondere alle "leggi" per gli spider.

    Peccato che queste "leggi" siano ad uso e consumo dei motori stessi.
    Faccio un esempio. Vi immaginate qualche regola non legata al fattore tempo??

    Devi pagare il canone televisivo. Vuol dire che lo pago un anno e poi mai piu?. Devi fare il biglietto per parcheggiare. Lo faccio oggi e poi sono a posto per la vita? Per entrare al cinema compra il biglietto. Bene, ne compro uno e poi entro a sbafo a vita?

    No, non esiste, il tempo scorre e tutto e' in base al tempo. Questo quando non sei a casa tua. Se "usi", accedi a cose altrui dovrai rinnovare di volta in volta il contratto tra le 2 parti, tu e chi ti fa accedere ai suoi beni.

    Allora uno spider ogni volta che accede ad una mia pagina dovrebbe verificare la mia volonta', la mia scelta di farlo accedere o meno a quella mia pagina.

    Ma i motori non specificano il tempo di considerazione di un robots.txt e soprattutto non hanno memoria.
    Non ti dicono che controllano il robots.txt al massino 1 volta al giorno, e se ti sta bene cosi' allora ok viceversa amen.

    Lo controllano quando e come vogliono loro. E se io non volessi dalle 3 alle 4 farmi spiderizzare una pagina? Beh direte, se non accetti le loro regole nessuno ti obbliga a farti spiderizzare.

    Ok ma se un altro utente inserisce nel loro add url la mia url?

    Beh, allora potrai decidere di lasciarli fuori a vita grazie al robots.txt

    Ma se volessi essere inserito? Allora vado e leggo cosa dice lo standard per i robots, e mi adeguo, ma io mi adeguo mentre i motori si adeguano al mio robots solo quando decidono di leggerlo.

    Ma dovrebbero leggere il robots.txt SEMPRE prima di spiderizzare una mia pagina. SEMPRE. Sempre perche' lo standard non specifica un tempo e pertanto la logica del buon padre di famiglia consiglia: sempre.

    Ma non lo fanno. Perche' non lo fanno? Perche' non ne sono obbligati. Il robots.txt e' solo un'indicazione, un suggerimento, nulla di piu'.

    Ed allora se nessuno sul web e' "obbligato" a seguire cerrettamente un'indicazione di massima che senso ha pensare che mettere un elenco infinito di ua "perniciosi" possa avere un senso?

    Se i motori considerano ed usano a loro uso e consumo i robots come pensare che gli ua meno "seri" vi si attengano?

    Si rischia solo di fare robots.txt pesanti che rallenteranno gli spider seri senza frenare in alcun modo gli ua minori.

  15. #15
    User Attivo
    Data Registrazione
    Dec 2004
    Località
    abito sulla luna e ogni volta che mi telefono è un'interrurbana
    Messaggi
    2,413
    Non so perchè, ma ieri sera quando mi stavo addormentando ormai sulla tastiera l'ultimo post che ho letto è stato questo e mi sono chiesto proprio chi obbliga uno spider a considerare i robots?
    Mi sembra troppo facile e troppo semplice, in un mondo in cui devi cercare di proteggerti a più non posso perchè c'è sempre qualcuno che tenta di fregarti, qualcuno che tenta di bucare quello che hai fatto o le tue difese.

    Io chiedo a giganti dello spam, a "siti" senza molti peli sulla lingua di non considerare alcune sezioni del sito semplicemente con un file di testo piccolo piccolo.

    Mi puzza molto.

    Con questa riflessione mi sono addormentato e questa mattina ho trovato quacun'altro che avvalora la mia tesi.
    Ultima modifica di Anika; 01-05-11 alle 14:21 Motivo: Attenzione, le frasi vanno iniziate con la lettera maiuscola.

  16. #16
    User L'avatar di corvo
    Data Registrazione
    Jul 2005
    Messaggi
    436
    testato per quello che più mi premeva Teleport, risultati:
    cinque minuti a scrivere il robots meglio utilizzabili per l'allevamento di coccodrilli, scarica il sito che è una bellezza.... nonostante il ban ai vari "emailcollector" lo spam non si conta... mie conclusioni "affrettate" il robots serve per evitare errore 404 e a poco altro

  17. #17
    User
    Data Registrazione
    Sep 2009
    Messaggi
    114
    Feci una prova tempo fa con il file robot: risultato...non serve allo scopo.

    Per fare quello che dite bisognerebbe agire lato server analizzando l'HTTP_USER_AGENT.

    Teleport pro 1.62 ad esempio restituisce HTTP_USER_AGENT: mozilla/4.0 (compatible; msie 7.0; windows nt)

    se in asp scrivi 2 righe di codice:

    Codice:
    crawler = LCase(Request.ServerVariables("HTTP_USER_AGENT"))
    if instr(crawler , "compatible") then response.redirect("vai-a-pagina-inesistente")
    il crawler di turno non pescherà nessun dato della pagina che cerca ma sarà reindirizzato ad una pagina di nostra scelta o inesistente.

    Bisognerebbe analizzare la cosa avendo una forbita lista di HTTP_USER_AGENT dei vari crawler.

  18. #18
    Moderatore L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    @Luca

    Con quel codice escludi pure tutti i browser IE:

    Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
    Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
    Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1)
    Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1)

    Condivido invece sull'approccio, di non limitarsi al robots.txt, ma anche controllare il browser ad ogni richiesta di pagina.

  19. #19
    User
    Data Registrazione
    Sep 2009
    Messaggi
    114
    Citazione Originariamente Scritto da Webmaster70 Visualizza Messaggio
    @Luca

    Con quel codice escludi pure tutti i browser IE:

    Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
    Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
    Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1)
    Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1)

    Condivido invece sull'approccio, di non limitarsi al robots.txt, ma anche controllare il browser ad ogni richiesta di pagina.
    il mio era ovviamente un esempio infatti ripeto che bisognerebbe analizzare la cosa avendo una forbita lista di HTTP_USER_AGENT dei vari crawler.

  20. #20
    Moderatore L'avatar di Webmaster70
    Data Registrazione
    Jun 2009
    Località
    Bologna
    Messaggi
    1,091
    Aggiungi Webmaster70 su Facebook Aggiungi Webmaster70 su Linkedin
    E io ripeto, se il mio esempio non era così esplicito, che bisogna testarlo con gli user agent di tutti i browser.

    Se Teleport si camuffa da IE (come nel tuo esempio, e spesso software del genere lo fanno) attenzione a non escludere IE.

  21. #21
    User
    Data Registrazione
    Sep 2009
    Messaggi
    114
    Feci a suo tempo delle prove per escludere teleport e simili con il robots e fallì miseramente...

    Non so se il fallimento sia stato dato da un "impegno approssimativo e veloce" da parte mia o dall'abilità di questi software a non tener conto dei robots.

    Sono interessato comunque a studiare la cosa...mi piacerebbe vedere alcune riflessioni ma soprattutto alcune prove in questo 3d.
    Ultima modifica di Anika; 05-05-11 alle 03:15 Motivo: Lettera maiuscola all'inizio della frase

+ Rispondi alla Discussione

Tag per Questa Discussione

^ Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •  
  • Il codice BB è Attivato
  • Le faccine sono Attivato
  • Il codice [IMG] è Attivato
  • Il codice [VIDEO] è Attivato
  • Il codice HTML è Disattivato
  • Trackbacks Attivato
  • Pingback Attivato
  • Refback Attivato

SEO by vBSEO 3.6.0 PL2 ©2011, Crawlability, Inc.