你可能听说过深网(deep Web)、暗网(dark Web)或隐藏网络(hidden Web)之类的术语,尤其是在最近的媒体中。它们是什么意思呢?
深网是网络的一部分,与浅网(surface Web)对立。浅网是互联网上搜索引擎可以抓到的那部分网络。据不完全统计,互联网中其实约 90% 的网络都是深网。因为谷歌不能做像表单提交这类事情,也找不到那些没有直接链接到顶层域名上的网页,或者因为有robots.txt 禁止而不能查看网站,所以浅网的数量相对深网还是比较少的。
暗网,也被称为 Darknet 或 dark Internet,完全是另一种“怪兽”。它们也建立在已有的网络基础上,但是使用Tor客户端,带有运行在 HTTP 之上的新协议,提供了一个信息交换的安全隧道。这类暗网页面也是可以采集的,就像你采集其他网站一样。
和暗网不同,深网是相对容易采集的。实际上,爬取的很多工具都是在采集那些Google爬虫机器人不能获取的深网信息。