1.分类
通用爬虫(General Purpose Web Crawler)
聚焦爬虫(Focused Web Crawler)
增量爬虫(Incremental Web Crawler)
深度爬虫(Deep Web Crawler)
2.爬虫分类:网页抓取,数据提取,数据存储
3.HTTP 协议:超文本传输协议
HTTP为明文传输
HTTPS是在HTTP下添加SSL层,通过SSL安全传输协议进行加密的,在传输层对网络连接进行加密
HTTP的端口号为80
HTTPS的端口号为443
4.Requests
特性:支持TTP链接保持和连接池,
支持使用cookie保持回话,
支持文件上传,
支持自动确定相应内容的编码,
支持国际化的URL和POST数据自动编码
5.get与post的区别
6.常见的反爬措施
一、检测User-Agent
二、检测非人行为,封禁IP地址
三、登陆限制
四、动态网页爬取
五、验证码
7、绕过反扒的策略
一、伪造User-Agent
# 写入User-Agent信息,指定请求头
head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
# data携带表单数据
response=requests.post(Request_URL,data=Form_Data,headers=head)
二、a、设置随机的延迟时间
b、设置代理IP
三、模拟登陆
a、使用登录之后的cookie信息模拟登陆(cookie池)
b、模拟提交表单实现登录
c、用selenium模拟登陆网站
四、a、selenium+浏览器
b、分析请求响应过程,模拟ajax请求
五、a、用登录之后的coolie绕过登录验证码
b、OCR技术识别传统验证码
c、使用打码平台
d、处理点触式验证码
e、对于滑动验证码的处理
8.cookies和sission
cookies 在客户端,保存的较少,能保存登录之后的信息
sission 保存在服务端,占用服务器内存,保存一些重要的信息