java Archives - Page 4 of 4

众所周知，网络爬虫的最基本原理就是模拟HTTP协议向指定网站发送请求，从而从服务器端返回的网页源代码中抽取具有实用价值的信息（也可能下一次任务队列的地址）。这中间涉及到很多算法，根据网站不同域名，网站网页更新速度，网站结构深度，设定爬虫不同的爬取策略。爬虫可以从一些简单的网站上直接获取网页源代码，从而对网页源代码进行分析。但是对于一些需要用户登录的网站，要抓取网站当中被保护的数据具有一定的困难。今天要说就是一个从需要登录的网站上获取收保护数据的方法。…