IP代理池
in 后端 with 0 comment 43 views

IP代理池

in 后端 with 0 comment 43 views

背景

偶尔要用到爬虫,部分网站会有反爬虫策略,常见的就是同个IP的访问频率来限制爬虫。网上的开放代理质量参差不齐,所以自己写了个来爬开放代理然后校验。

github链接: https://github.com/visionki/proxy-pool

相关技术栈

SpringBoot + Mongodb

maven依赖

        <dependency>
            <groupId>com.mashape.unirest</groupId>
            <artifactId>unirest-java</artifactId>
            <version>1.4.9</version>
        </dependency>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.2</version>
        </dependency>

原理

1、 定期爬取开放代理网站,将代理IP存入待检测库check_ip_pool中。
2、 定期遍历待检测库,通过代理IP访问测试网址,若能访问成功则存入可用库available_ip_pool

最后

淦发现好像也没啥好写的。

Responses