• User

    enorme aumento traffico ...causato da Bing bot

    ho un sito .com in lingua italiana, online da oltre 6 anni.
    circa 800 pagine e da tempo ormai non aggiorno più.

    negli ultimi 30 giorni il traffico è aumentato in modo pazzesco: con conseguente consumo enorme di banda!

    ho fatto dei controlli (tramite plesk del server) sui files log (da cui vedere anche l' Ip):
    sono passato da un file log giornaliero di circa 2-3mb, a file log da 50-100 mb!

    ma ho avuto ancora ulteriore sorpresa nel verificare che le richieste provengono in massima parte da IP con riferimento al bot di Bing:
    TTP/1.1 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm)

    sta capitando qualcosa di simile per caso anche a qualche vostro sitoweb?


  • ModSenior

    Io non noto un aumento di consumo di banda da parte del crawler di Bing.
    Hai mica modificato le impostazioni all'interno del centro di controllo di Bing (crawl control)?

    Valerio Notarfrancesco


  • User

    salve vnotarfrancesco,

    no. non uso il crawl control di bing!


    a titolo di esempio, il log di un giorno in particolare è arrivato a ben 104 MB e conteneva riferimenti a circa 230.000 richieste al server.
    di queste 230.000 richieste, ben 226.000 provengono da IP con rifemento http://www.bing.com/bingbot.htm

    in particolare:
    99.000 richieste da 157.55.3x.xxx
    27.000 richieste da 65.55.55.231
    70.000 richieste da 157.56.9x.xxx

    come puoi vedere sono davvero numeri NOTEVOLI (ancor di più se confrontati al traffico medio quotidiano del sitoweb a cui si sta facendo riferimento)

    vostro pare/idea?
    cosa sta succedendo?


  • ModSenior

    E' un consumo eccessivo infatti.
    L'unica soluzione è impostare una frequenza inferiore dal pannello di controllo del centro webmaster di Bing.
    Se invece non ti interessa proprio Bing blocca l'accesso al sito di quegli indirizzi ip.

    Valerio Notarfrancesco


  • User

    @vnotarfrancesco said:

    E' un consumo eccessivo infatti.
    L'unica soluzione è impostare una frequenza inferiore dal pannello di controllo del centro webmaster di Bing.
    Se invece non ti interessa proprio Bing blocca l'accesso al sito di quegli indirizzi ip.

    Valerio Notarfrancesco

    grazie per i suggerimenti.

    scusami

    il centro webmaster di Bing sarebbe questo
    http://www.bing.com/toolbox/webmaster

    ???


  • ModSenior

    Si esatto.

    Valerio Notarfrancesco


  • User

    @vnotarfrancesco said:

    Si esatto.

    Valerio Notarfrancesco

    grazie.

    ho nel frattempo inviato una mail così:

    da qui
    http://www.bing.com/toolbox/webmaster
    sulla destra c'è il link "Supporto tramite posta elettronica"
    https://support.discoverbing.com/eform.aspx?productKey=bingwebmaster&ct=eformts&scrx=1

    vediamo se e cosa rispondono...!

    altrimenti dovrò registrarmi 😕


  • User

    **news! risposta da parte di Bing già ricevuta questa notte!

    eccola:**

    You mentioned that bingbot has been overcrawling your website for the past week. Let us help you.

    We have many different types of these crawlers as they are configured to seek/obtain different types of content. These crawlers visit your site often as your site has a good reputation ranking score, plus configured with rich content.

    Should you desire less page fetching, then we recommend that you apply/ADJUST crawl-delay value on your robots.txt file. Please note we support a maximum value of 30, which means that one crawler-bot will fetch only one page document every 30 seconds. Should multiple bots arrive at your site roughly at the same time, you will witness simultaneous fetching, with each crawler-bot honoring your configured value. If this value is changed, please allow a few days to elapse, as our different types of web crawlers will acquire this new directive and will honor it upon future index re-crawls.

    If you have not done so, I also recommend that you add the following addition to your robots.txt file, as we have rebranded our web crawler to "bingbot". Granted, we still honor directives written towards the msnbot. I have provided a few URL links to our community blog which discusses this change more in depth.

    Proposed addition:

    User-agent: bingbot

    Crawl-Delay: 10 (example)

    Bingbot is coming to town

    http://www.bing.com/community/site_blogs/b/webmaster/archive/2010/09/03/bingbot-is-coming-to-town.aspx

    Another suggestion is to use our online Webmaster Tools, as this allows content owners to administer their indexed content included in the Bing search engine results page. Furthermore, we have just added a new enhancement which you might find appealing. The "Crawl Settings" allow configurable delay preferences by the hour, plus telling us to back-off during peak business hours, and be more aggressive during off-peak hours.

    Bing Webmaster Tools: http://www.bing.com/toolbox/webmasters/

    Regards


  • ModSenior

    Grazie per aver riportato la risposta di Bing. 🙂

    Valerio Notarfrancesco


  • User

    aggiorno ulteriormente:

    nel frattempo ho dialogato ancora con l'assitenza Bing (via mail).

    mi hanno chiesto di inviare loro:

    • almeno un file log (in modo da analizzare meglio la questione)
    • il file robots.txt

    mi hanno risposto così:

    We understand that our bots are overcrawling your website. We apologize for the inconvenience this issue has caused you.

    To rectify the issue, please create a robots.txt file and upload it to your root directory, your robots.txt file should contain the following directive:

    User-agent: bingbot

    Crawl-Delay: 30

    User-agent: msnbot

    Crawl-Delay: 30

    This is to set up a crawl delay for bingbot and msnbot. We also recommend adjusting the crawl frequency using Bing Webmaster Tools. You can set up which time is most suited for our bots to visit your website, you can select the hours when there is less requests of bandwidth from your site.

    You may check this article http://www.bing.com/webmaster/help/crawl-control-55a30302 for more information.

    I hope this information helps. Please let us know if you need further assistance.