搜索引擎duckduckgo

北京时间3月31日消息,DuckDuckGo搜索引擎近来发展迅猛,3个月来搜索请求以平均每天227%的速度高速增长。虽然现在它尚不能撼动Google搜索霸主地位,但谷歌亦也应该提起重视。 报道称,不少国外企业家在其个人电脑上使用的是另类的搜索引擎DuckDuckGo,而不是谷歌或者Bing。另外据ycombinator报道称,使用这个搜索引擎的人也不是一个两个。…

搜索引擎爬虫的基本需求和考核标准

需要包含以下基本功能: (1)网站下载流速控制 国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。 (2)网页抓全 将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。…

robots.txt

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。…