什么是IP
互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IP Address),是分配给用户上网使用的网际协议(英语:Internet Protocol, IP)的设备的数字标签。常见的IP地址分为IPv4与IPv6两大类,但是也有其他不常用的小分类。
IP协议
Internet体系结构
一个TCP/IP互联网提供了三组服务。最底层提供无连接的传送服务为其他层的服务提供了基础。第二层一个可靠的传送服务为应用层提供了一个高层平台。最高层是应用层服务。
IP协议三个定义:
1. IP定义了在TCP/IP互联网上数据传送的基本单元和数据格式。
2. IP软件完成路由选择功能,选择数据传送的路径。
3. IP包含了一组不可靠分组传送的规则,指明了分组处理、差错信息发生以及分组的规则。
为什么会出现IP被封
- 国内服务器不可访问。
- 当与我们共用同一IP的其他网站上出现了违反法律法规的内容或其他不和谐内容时,国家会采取屏蔽海外服务器IP的方式,避免对国内用户造成不良影响。
如何应对IP被封问题
参考:https://blog.csdn.net/qq_31975963/article/details/82882456
- 可动态设置user agent
- 禁用cookies
- 设置延迟下载
- 使用Google Cache
- 使用IP地址池(代理IP、VPN等)
- 使用Crawlera
Task:抓取西刺代理,构建自己的代理池
参考:https://blog.csdn.net/mjp_erhuo/article/details/81332824
1 | import requests |
由于自己真的很少时间学,快要复试了。所以只能学习别人的代码,等之后再重新梳理爬虫的整个流程。很抱歉!抓取结果显示如下,基本都是拒绝,想必我可能被发现了。。。(捂脸
再试一下,试试代理IP:
失败,等之后再学习其他同学的好了。希望我考研复试顺利,毕设顺利,顺利毕业,顺利当上研究生!!