• User Attivo

    Robots.txt per impedire l'accesso a programmi vari

    Salve ragazzi,

    Siccome ho notato un certo traffico di programmini vari, sia deputati alla raccolta di e-mail ai fini di spam, sia allo scaricamento di parte o siti interi, mi sono ricordato di avere da qualche parte un elenco di tali programmi che è possibile disabilitare dal classico robots.txt

    Siccome mi pare che siano tutti di quella categoria e cioè programmi vari che prelevano siti, pagine, e-mail e quant'altro vorrei che chi li conosce m i confermasse che in questa lista non ci sono spider di motori di ricerca anche se non mi pare e in ogni caso non sono di sicuro importanti, se me ne è sfuggito qualcuno me lo dite?

    un altra domandina: nel caso io utilizzi questo robots.txt con l'elenco dei programmi ai quali impedire l'accesso, secondo voi va ripetuto lo stesso il comando:

    User-agent: *
    Disallow:

    per lasciare passare gli spider tradizionali??

    Denghiu.

    :ciauz:

    a voi l'elenco (one):

    User-agent: *
    Disallow:

    User-agent: Microsoft URL Disallow: /

    User-agent: webmirror Disallow: /

    User-agent: webcopy Disallow: /

    User-agent: WinHTTrack Disallow: /

    User-agent: website extractor Disallow: /

    User-agent: * Disallow: /focus/

    User-agent: SuperBot Disallow: /

    User-agent: SuperBot/2.6 Disallow: /

    User-agent: WebReaper Disallow: /

    User-agent: Black Hole Disallow: /

    User-agent: Titan Disallow: /

    User-agent: NetMechanic Disallow: /

    User-agent: CherryPicker Disallow: /

    User-agent: EmailCollector Disallow: /

    User-agent: DISCo Pump 3.1 Disallow: /

    User-agent: NetAttache Disallow: /

    User-agent: NetAttache Light 1.1 Disallow: /

    User-agent: EmailSiphon Disallow: /

    User-agent: WebBandit Disallow: /

    User-agent: EmailWolf Disallow: /

    User-agent: ExtractorPro Disallow: /

    User-agent: CopyRightCheck Disallow: /

    User-agent: Crescent Disallow: /

    User-agent: SiteSnagger Disallow: /

    User-agent: ProWebWalker Disallow: /

    User-agent: CheeseBot Disallow: /

    User-agent: mozilla/4 Disallow: /

    User-agent: mozilla/5 Disallow: /

    User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT) Disallow: /

    User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95) Disallow: /

    User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 98) Disallow: /

    User-agent: Alexibot Disallow: /

    User-agent: Teleport Disallow: /

    User-agent: TeleportPro #Disallow: /

    User-agent: Teleport Pro/1.29.1718: /

    User-agent: Teleport Pro/1.29.1632: /

    User-agent: Teleport Pro/1.29.1590: /

    User-agent: Teleport Pro/1.29: /

    User-agent: Wget Disallow: /

    User-agent: MIIxpc Disallow: /

    User-agent: Telesoft Disallow: /

    User-agent: Website Quester Disallow: /

    User-agent: WebZip Disallow: /

    User-agent: moget/2.1 Disallow: /

    User-agent: WebZip/4.0 Disallow: /

    User-agent: WebStripper Disallow: /

    User-agent: WebStripper/2.02 Disallow: /

    User-agent: WebSauger Disallow: /

    User-agent: WebCopier Disallow: /

    User-agent: NetAnts Disallow: /

    User-agent: Mister PiX Disallow: /

    User-agent: WebAuto Disallow: /

    User-agent: TheNomad Disallow: /

    User-agent: WWW-Collector-E Disallow: /

    User-agent: RMA Disallow: /

    User-agent: libWeb/clsHTTP Disallow: /

    User-agent: asterias Disallow: /

    User-agent: httplib Disallow: /

    User-agent: turingos Disallow: /

    User-agent: spanner Disallow: /

    User-agent: InfoNaviRobot Disallow: /

    User-agent: Harvest/1.5 Disallow: /

    User-agent: Bullseye/1.0 Disallow: /

    User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95) Disallow: /

    User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 Disallow: /

    User-agent: CherryPickerSE/1.0 Disallow: /

    User-agent: CherryPickerElite/1.0 Disallow: /

    User-agent: WebBandit/3.50 Disallow: /

    User-agent: NICErsPRO Disallow: /

    User-agent: Microsoft URL Control - 5.01.4511 Disallow: /

    User-agent: DittoSpyder Disallow: /

    User-agent: Foobot Disallow: /

    User-agent: WebmasterWorldForumBot Disallow: /

    User-agent: SpankBot Disallow: /

    User-agent: BotALot Disallow: /

    User-agent: lwp-trivial/1.34 Disallow: /

    User-agent: lwp-trivial Disallow: /

    User-agent: Wget/1.6 Disallow: /

    User-agent: BunnySlippers Disallow: /

    User-agent: Microsoft URL Control - 6.00.8169 Disallow: /

    User-agent: URLy Warning Disallow: /

    User-agent: Wget/1.5.3 Disallow: /

    User-agent: LinkWalker Disallow: /

    User-agent: cosmos Disallow: /

    User-agent: moget Disallow: /

    User-agent: hloader Disallow: /

    User-agent: humanlinks Disallow: /

    User-agent: LinkextractorPro Disallow: /

    User-agent: Mata Hari Disallow: /

    User-agent: LexiBot Disallow: /

    User-agent: Offline Explorer Disallow: /

    User-agent: Web Image Collector Disallow: /

    User-agent: The Intraformant Disallow: /

    User-agent: True_Robot/1.0 Disallow: /

    User-agent: True_Robot Disallow: /

    User-agent: BlowFish/1.0 Disallow: /

    User-agent: JennyBot Disallow: /

    User-agent: MIIxpc/4.2 Disallow: /

    User-agent: BuiltBotTough Disallow: /

    User-agent: ProPowerBot/2.14 Disallow: /

    User-agent: BackDoorBot/1.0 Disallow: /

    User-agent: toCrawl/UrlDispatcher Disallow: /

    User-agent: WebEnhancer Disallow: /

    User-agent: TightTwatBot Disallow: /

    User-agent: suzuran Disallow: /

    User-agent: VCI WebViewer VCI WebViewer Win32 Disallow: /

    User-agent: VCI Disallow: /

    User-agent: Szukacz/1.4 Disallow: /

    User-agent: QueryN Metasearch Disallow: /

    User-agent: Openfind data gathere Disallow: /

    User-agent: Openfind Disallow: /

    User-agent: Xenu's Link Sleuth 1.1c Disallow: /

    User-agent: Xenu's Disallow: /

    User-agent: Zeus Disallow: /

    User-agent: RepoMonkey Bait & Tackle/v1.01 Disallow: /

    User-agent: RepoMonkey Disallow: /

    User-agent: Zeus 32297 Webster Pro V2.9 Win32 Disallow: /

    User-agent: Webster Pro Disallow: /

    User-agent: EroCrawler Disallow: /

    User-agent: LinkScan/8.1a Unix Disallow: /

    User-agent: Kenjin Spider Disallow: /

    User-agent: Cegbfeieh Disallow: /


  • Super User

    Ciao,
    sovente i programmi come gli email harvester, si camuffano in vario modo, e bypassano piacevolmente il robots.txt, accedono al tuo sito usando refer fasulli (mai avuto iaea.org tra i refer?), o si fingono browser IE (come il citato, nell'elenco, EmailSiphon).

    Un metodo assai più sicuro per bannare quel tipo di software vampiro si ottiene tramite Htaccess, sfruttando il mod_rewrite

    Per bloccare uno User agent

    RewriteCond %{HTTP_USER_AGENT} "ExtractorPro"
    RewriteRule .* - [F,L]
    

    Per bloccare un Ip e tutta la sua allegra classe:

    RewriteCond %{REMOTE_ADDR} "^63\.148\.99\.2(2[4-9]|[3-4][0-9]|5[0-5])$"
    RewriteRule .* - [F,L]
    

    Per bloccare accessi da refer sospetti:

    RewriteCond %{HTTP_REFERER} iaea\.org
    RewriteRule .* - [F,L]
    

    Ovviamente un htaccess può contenere infinite delle istanze sopra riportate, quindi essere adattato alla lunga -e utile!- lista che hai proposto 🙂

    Cordialmente,
    Stuart


  • Community Manager

    Bellissimo questo Thread, grazie a Marco per averlo aperto e riportato la lunga lista e a Stuart per averlo approfondito.

    :ciauz:


  • Super User

    sicuramente il metodo suggerito da Stuart è più sicuro 🙂


  • Bannato Super User

    Stuart, Giorgio.... Esiste una guida, preferibilmente in lingua italiana per tutti i comandi di .htaccess ?

    🙂 :ciauz:


  • Super User

    @Dell'Orto Fabio said:

    Stuart, Giorgio.... Esiste una guida, preferibilmente in lingua italiana per tutti i comandi di .htaccess ?

    🙂 :ciauz:
    in inglese
    http://www.freewebmasterhelp.com/tutorials/htaccess/

    in italiano
    http://www.tuxcommunity.net/modules.php?name=Conteudo&file=index&pa=showpage&pid=16

    consiglio
    cerca su Google i singoli comandi ....


  • Super User

    scusa Stuart, ma se cammuffano l'user-agent non sfuggono ANCHE a .htaccess? :mmm:

    o intendevi che, ammesso che l'user agent non venga cammuffato, alcuni se ne fregano del robots.txt ma NON possono ignorare htaccess? 🙂


  • User Attivo

    @Stuart said:

    Un metodo assai più sicuro per bannare quel tipo di software vampiro si ottiene tramite Htaccess, sfruttando il mod_rewrite

    Si vero Stuart è sicuramente più sicuro con il rewrite, grazie per il consiglio, anche io ritengo facilmente scavalcabile il semplice robots.txt, in ogni caso mi pare che costi poco metterlo, qualcuno di questi programmi, magari i meno aggiornati li bloccherà.

    Ricordo che anche autorevoli siti lo usano ancora, però in questo campo chi si occupa di grabbare e-mail e copiare interi siti è sempre al lavoro per adattare e migliorare i suoi software, sono cose che gli rendono abbastanza, basti pensare a quei CD colmi di indirizzi mail suddivisi per categorie che arrivano, guardacaso in posta con lo spam se li vuoi acquistare.

    :ciauz:


  • Super User

    @Tambu said:

    se cammuffano l'user-agent non sfuggono ANCHE a .htaccess?
    Purtroppo si...
    in questo caso devi fare attenzione ai tuoi logs, guardando la coerenza dei referer e degli Ip. Un traffico 'innaturale' deve farti alzare il livello di guardia. Solitamente quando gli harvester trovano qualche trucchetto, se ne parla nei groups: http://groups.google.it/group/alt.spam

    @Tambu said:

    o intendevi che, ammesso che l'user agent non venga cammuffato, alcuni se ne fregano del robots.txt ma NON possono ignorare htaccess? 🙂
    La lista fornita da MarcoTuscany copre una più che consistente fetta di mercato, e l'htaccess non è bypassabile da qualsiasi programma utilizzi gli user agenti elencati.

    In aggiunta, per chi vuole, di sotto ci sono gli user agent dei classici download manager (pragrammi che permettono la copia in locale dell'intero sito). Non sono spam, ma ciucciano banda che è un piacere...

    GetRight/3.x.x 
    GetRight/4.5xx 
    GetRight/4.x 
    GetRight/4.x[a-e] 
    GetRightPro/6.0beta2
    
    Go!Zilla 3.x 
    Go!Zilla/4.x.x.xx
    
    DA 3.5 (www.lidan.com)
    DA 4.0
    DA 4.0 (www.downloadaccelerator.com)
    DA 5.0 
    DA 7.0  
    
    

    Ce ne sono molti altri comunque, se riesco a fare una bella lista completa la posto qui.

    E per finire, una gustosa citazione di come siano diventati 'bravi' (siamo in 'Posizionamento nei motori di ricerca', eviterei ogni discussione su quanto sia etico ciò che viene suggerito.........comunque secondo me non lo è! :2:

    @FAQ di Download Accelerator Plus said:

    How to use Download Accelerator Plus to download files from sites that do not support the use of download managers? - [ossia quei siti che lo hanno bloccato da htaccess . Nda]
    Open DAP, click the "Tools" menu -> "Options", enter "Connection" on the screen that you get and select your browser from the drop down list of the "User Agent" in order to allow it to download files from sites that do not support the use of download managers. To return to Default Values, select DA 7.0 again.

    http://www.speedbit.com/FAQ.asp

    ()

    Cordialmente,
    Stuart


  • User Attivo

    Come vi regolate per attacchi (exploit) al vostro sito da ip diversi?
    Saluti

    Dario


  • User

    Se avete accesso diretto alla configurazione del vostro webserver, solitamente è disponibile una funzione di limitazione della banda, che può esser utile dove l'utilizzo di un htaccess non può parare. Nel caso di apache2, mod_cband fa il suo dovere limitando:

    • L’uso totale di banda in un determinato periodo
    • La velocità massima di download
    • Il numero massimo di richieste al secondo
    • Il numero massimo di connessioni per ip

    Così gli harvester non bloccati da htaccess continueranno a girare indisturbati per il sito, ma almeno lo faranno in maniera più "soft".


  • User

    grazie a tutti anche da parte mia 😉