*不带括弧注明的默认都是 Python爬虫
因为头条对外链不支持等其他原因,上图所有爬虫项目地址可在实验楼微信公众号(实验楼)后台回复关键字 “爬虫” 获取。以下为字母顺序的列表:
A
- 暗网爬虫(Go)
B
- Bilibili 用户 | Bilibili 小视频 | B站760万视频信息爬虫
- Bing美图爬虫
- 博客园(node.js)
- 百度百科(node.js)
- 百度云网盘
- Boss 直聘
- 博客园
D
- 豆瓣读书 | 豆瓣爬虫集 | 豆瓣害羞组
- DNS记录和子域名
- DHT网络磁力种子爬虫
- 抖音
G
- Girl-atlas
- girl13
- GitHub trending
- GitHub 仓库及用户分析爬虫
H
- HDOJ爬虫
I
- INC500 世界5000强爬虫
J
- 京东
- 京东搜索+评论
- 京东商品+评论
- 机票
- 煎蛋妹纸
- 煎蛋妹纸selenium版本
- 今日头条,网易,腾讯等新闻
- 计算机书籍控图书
K
- 看知乎
- konachan
L
- 链家
- 链家成交在售在租房源
- 拉勾
- 炉石传说
- leetcode
- 领英销售导航器爬虫 LinkedInSalesNavigator
M
- 马蜂窝 用户足迹
- MyCar
- 漫画喵 一键下载漫画~
- MM131性感美女写真图全爬取
- 美女写真套图爬虫 (一)(二)(三)
- 妹子图
- 猫眼网电影评分
N
- 新闻监控
- 你好污啊
P
- Pixiv
- PornHub
- packtpub
- 91porn
Q
- QQ空间
- QQ 群
- 清华大学网络学堂爬虫
- 去哪儿
- 前程无忧Python招聘岗位信息爬取分析
R
- 人人影视
- RSS 爬虫
- rosi 妹子图
- reddit 壁纸
S
- soundcloud
- Stackoverflow 100万问答爬虫
- Shadowsocks 账号爬虫
- spider163 网易云音乐爬虫
- 时光网电影数据和海报爬虫
T
- tumblr
- 下载tumblr喜欢内容
- TuShare
- 天猫双12爬虫
- Taobao mm
- Tmall 女性文胸尺码爬虫
- 淘宝直播弹幕爬虫(node)
- 天涯论坛文章
V
- Youtube字幕下载
- 视频信息爬虫
- 电影网站
W
- 乌云公开漏洞
- 微信公众号
- “代理”方式抓取微信公众号文章
- 网易新闻
- 网易精彩评论
- 微博主题搜索分析
- 网易云音乐
- 新.网易热评
- 唯品会商品
X
- 雪球股票信息(java)
- 新浪微博
- 新浪微博分布式爬虫
- 心灵毒鸡汤
Y
- 英美剧 TV (node.js)
Z
- ZOL 手机壁纸爬虫
- 知乎(python)
- 知乎(php)
- 知网
- 知乎妹子
- 自如实时房源提醒
其他
- 各大门户服务网站爬虫
- DHT 爬虫
- SimDHT
- p2pspider
- 80s 影视资源爬虫 – JianSo_Movie
什么是爬虫
爬虫是一种可以爬取指定网站页面的指定信息的应用程序,通过爬虫,我们可以获取网站中我们需要的数据。
爬虫的核心逻辑包括以下几个步骤:
- 通过一个 URI 地址,模拟类似浏览器的行为获取这个 URI 地址对应的 HTML 页面,部分爬虫甚至还可以支持 JavaScript 的执行。
- 获取之后通过页面解析,从页面中的指定的 HTML 标签下提取得到我们需要的数据。
- 对数据进行处理之后存入指定的存储,比如文件系统,MySQL 等关系型数据库,Redis,MongoDB 等 NoSQL 数据库中。
- 继续爬取其他的 URI 地址,这些 URI 地址可以从之前爬取得到的页面中提取,也可以通过一个 URI 库直接由启动爬虫的用户来输入。
- 继续回到步骤1爬取并分析页面。
爬虫技术目前经常遇到的难点问题:
登录及验证码:有些页面在爬取的过程中,经常会遇到页面的交互操作,比如需要你输入用户名及密码进行登录才可以获取,有的网站还会提供验证码进行验证,这一类的数据获取都非常不容易。
JavaScript 等异步数据:部分网页的数据并不是在网页加载后就能够获得的,需要执行 JavaScript 来获取然后再更新到网页,这种情况下部分爬虫是无法爬取到的。通常会采用的解决方案是模拟浏览器去访问页面并执行 JavaScript 后获得完整的数据再进行页面解析。
反爬措施:有些网站会禁止无限制的爬取,会对 IP 地址及 User Agent 等爬虫标志进行限制,避免网站因为爬虫造成压力过大或者信息泄漏。在这种情况下,很多爬虫会选择进行 User Agent 伪装或者 IP 代理池的机制。
什么是通用爬虫?
这里所说的通用爬虫指的是能够爬取任何网站页面的爬虫,常见的爬虫都是特定的爬虫,特定爬虫需要根据爬取的目标网站进行设计实现。比如知乎爬虫或者豆瓣爬虫,这一类的文章在网上可以找到很多,都会针对于知乎及豆瓣的特定页面进行分析,并设计爬虫的实现逻辑。