BUbiNG是一个开源的网络爬虫系统,由意大利Pisa大学的研究团队开发。它是专门为大规模抓取和索引互联网内容而设计的,具有高效性能和可扩展性。
BUbiNG的特点包括多线程抓取、分布式架构、针对大规模数据集的优化等。它可以用于构建搜索引擎、数据挖掘项目、信息检索系统等应用,能够快速而有效地抓取互联网上的大量信息。
不过对于国内网站来说不会带来什么流量,可以选择robots.txt协议禁止。
User-agent: BUbiNG
Disallow: /
如果还是禁止不了,可以选择nginx规则禁止访问,如下:
if ($http_user_agent ~* "BUbiNG") {
return 403;
}