#数据结构
URL去重策略(布隆过滤器)

在网络爬虫爬取数据时需要解决海量数据的存在性问题,也即判断给定数据是否存在。比如判断一个数字是否存在于包含大量数字的数字集中(数字集很大,上亿)、 防止缓存穿透(判断请求的数据是否有效避免直接绕过缓存请求数据库)、邮箱的垃圾邮件过滤(判断一个邮件地址是否在垃圾邮件列表中)、黑名单功能(判断一个IP地址或手机号码是否在黑名单中)等等。

友链
访客
本站总访问量: