104个实用网络爬虫项目资源整理(超全)

104个实用网络爬虫项目资源整理(超全)

*不带括弧注明的默认都是 Python爬虫

因为头条对外链不支持等其他原因,上图所有爬虫项目地址可在实验楼微信公众号(实验楼)后台回复关键字 “爬虫” 获取。以下为字母顺序的列表:

A

  • 暗网爬虫(Go)

B

  • Bilibili 用户 | Bilibili 小视频 | B站760万视频信息爬虫
  • Bing美图爬虫
  • 博客园(node.js)
  • 百度百科(node.js)
  • 百度云网盘
  • Boss 直聘
  • 博客园

D

  • 豆瓣读书 | 豆瓣爬虫集 | 豆瓣害羞组
  • DNS记录和子域名
  • DHT网络磁力种子爬虫
  • 抖音

G

  • Girl-atlas
  • girl13
  • GitHub trending
  • GitHub 仓库及用户分析爬虫

H

  • HDOJ爬虫

I

  • Instagram
  • INC500 世界5000强爬虫

J

  • 京东
  • 京东搜索+评论
  • 京东商品+评论
  • 机票
  • 煎蛋妹纸
  • 煎蛋妹纸selenium版本
  • 今日头条,网易,腾讯等新闻
  • 计算机书籍控图书

K

  • 看知乎
  • konachan

L

  • 链家
  • 链家成交在售在租房源
  • 拉勾
  • 炉石传说
  • leetcode
  • 领英销售导航器爬虫 LinkedInSalesNavigator

M

  • 马蜂窝 用户足迹
  • MyCar
  • 漫画喵 一键下载漫画~
  • MM131性感美女写真图全爬取
  • 美女写真套图爬虫 (一)(二)(三)
  • 妹子图
  • 猫眼网电影评分

N

  • 新闻监控
  • 你好污啊

P

  • Pixiv
  • PornHub
  • packtpub
  • 91porn

Q

  • QQ空间
  • QQ 群
  • 清华大学网络学堂爬虫
  • 去哪儿
  • 前程无忧Python招聘岗位信息爬取分析

R

  • 人人影视
  • RSS 爬虫
  • rosi 妹子图
  • reddit 壁纸
  • reddit

S

  • soundcloud
  • Stackoverflow 100万问答爬虫
  • Shadowsocks 账号爬虫
  • spider163 网易云音乐爬虫
  • 时光网电影数据和海报爬虫

T

  • tumblr
  • 下载tumblr喜欢内容
  • TuShare
  • 天猫双12爬虫
  • Taobao mm
  • Tmall 女性文胸尺码爬虫
  • 淘宝直播弹幕爬虫(node)
  • 天涯论坛文章

V

  • Youtube字幕下载
  • 视频信息爬虫
  • 电影网站

W

  • 乌云公开漏洞
  • 微信公众号
  • “代理”方式抓取微信公众号文章
  • 网易新闻
  • 网易精彩评论
  • 微博主题搜索分析
  • 网易云音乐
  • 新.网易热评
  • 唯品会商品

X

  • 雪球股票信息(java)
  • 新浪微博
  • 新浪微博分布式爬虫
  • 心灵毒鸡汤

Y

  • 英美剧 TV (node.js)

Z

  • ZOL 手机壁纸爬虫
  • 知乎(python)
  • 知乎(php)
  • 知网
  • 知乎妹子
  • 自如实时房源提醒

其他

  • 各大门户服务网站爬虫
  • DHT 爬虫
  • SimDHT
  • p2pspider
  • 80s 影视资源爬虫 – JianSo_Movie

什么是爬虫

爬虫是一种可以爬取指定网站页面的指定信息的应用程序,通过爬虫,我们可以获取网站中我们需要的数据。

爬虫的核心逻辑包括以下几个步骤:

  • 通过一个 URI 地址,模拟类似浏览器的行为获取这个 URI 地址对应的 HTML 页面,部分爬虫甚至还可以支持 JavaScript 的执行。
  • 获取之后通过页面解析,从页面中的指定的 HTML 标签下提取得到我们需要的数据。
  • 对数据进行处理之后存入指定的存储,比如文件系统,MySQL 等关系型数据库,Redis,MongoDB 等 NoSQL 数据库中。
  • 继续爬取其他的 URI 地址,这些 URI 地址可以从之前爬取得到的页面中提取,也可以通过一个 URI 库直接由启动爬虫的用户来输入。
  • 继续回到步骤1爬取并分析页面。

爬虫技术目前经常遇到的难点问题:

登录及验证码:有些页面在爬取的过程中,经常会遇到页面的交互操作,比如需要你输入用户名及密码进行登录才可以获取,有的网站还会提供验证码进行验证,这一类的数据获取都非常不容易。

JavaScript 等异步数据:部分网页的数据并不是在网页加载后就能够获得的,需要执行 JavaScript 来获取然后再更新到网页,这种情况下部分爬虫是无法爬取到的。通常会采用的解决方案是模拟浏览器去访问页面并执行 JavaScript 后获得完整的数据再进行页面解析。

反爬措施:有些网站会禁止无限制的爬取,会对 IP 地址及 User Agent 等爬虫标志进行限制,避免网站因为爬虫造成压力过大或者信息泄漏。在这种情况下,很多爬虫会选择进行 User Agent 伪装或者 IP 代理池的机制。

什么是通用爬虫?

这里所说的通用爬虫指的是能够爬取任何网站页面的爬虫,常见的爬虫都是特定的爬虫,特定爬虫需要根据爬取的目标网站进行设计实现。比如知乎爬虫或者豆瓣爬虫,这一类的文章在网上可以找到很多,都会针对于知乎及豆瓣的特定页面进行分析,并设计爬虫的实现逻辑。

104个实用网络爬虫项目资源整理(超全)