1.简述
累积式爬虫:累积并去重
增量式爬虫:增量式更新
deep web:需要登录
请求头:
host 主机和端口
Connection 链接类型
Upgrade-Insecure-Requests 升级为https
User-Agent 身份
Accept 接收的文件类型
Referer 来源,用于防爬和防盗链(防止盗用链接,只允许按要求站内跳转)
Accept-Encoding 支持编码类型
cookie
”’
”’
2.爬虫基本包requests
注意是响应对象 参数位置有严格要求
response = requests.get(url网址,params路径中?参数用字典格式,headers伪装身份)
response.status_code 状态码
response.headers 响应头
response.request 响应对应的请求
response.text str类型 响应
response.content bytes类型响应 (常用)
params说明: 可以在路径中?后边带参数
或者构造dict放到params参数位置
data = input(‘需要搜索的关键字’)
params = { ‘kw’ : data }
”’
”’
3.request.post(url,data=data,headers=headers)
data = data 请求体 字典数据
代理IP
proxies = { } 字典格式
request.get(url,proxies=proxies)
”’
”’
4.cookie和session
cookie
在请求头headers中带上去
使用cookie参数,字典格式
session
session = requests.Session() 初始化session对象,之后使用它来请求,当做requests来用
session.get(url)
session.post(url,data=data)
”’
”’
5.
cookiejar = response.cookies 获取的是cookiejar对象
将cookiesjar对象转换成字典
dict_cookies = requests.utils.dict_from_cookiejar(cookiejar)
将字典转换成cookiejar对象
cookiejar1 = requests.utils.cookiejar_from_dict(dict_cookies)
关闭SSL即https的证书验证
requests.get(url,verify=False)
设置超时报错
requests.get(url,timeout=10)
”’