据百度称,百度“阿拉丁”平台的推出,是为解决现有搜索引擎无法抓取和检索“暗网”的信息而来.所谓“暗网”(Hidden Web)是指目前搜索引擎不能检索到的信息,百度认为大量的信息仍然处在“未知世界”当中.数据显示,目前能够搜索到的数据仅占全部信息量的千分之二.
百度说法:目前能被搜索到的信息量仅千分之二
百度CEO李彦宏说:“在互联网上,有很多信息并没有被网页化,我们根本没有触及到,也就是所谓的’暗网’,’阿拉丁计划’正是瞄准这些未知世界.”
百度新上任的CTO李一男说:“’阿拉丁’是一个开放的搜索引擎平台,它是百度的,更是面向所有人的.我们希望未来的搜索引擎,能像阿拉丁神灯那样,在瞬 间满足用户所有的搜索需求.百度希望通过对’阿拉丁’平台的构筑,超越现有web内容的限制,对包括’暗网’在内的所有信息进行更深一步的分析、融合、处 理,确保为用户提供零成本、无障碍、无时差的精准搜索结果.”
行业专家观点一:百度的“暗网”说法不靠谱
对百度提到的“暗网”,正望咨询总裁吕伯望认为此说法很矛盾,“首先,’暗网’并不像百度描述的那么海量;其次,有些’暗网’不被搜索引擎搜到是有理由的,比如涉及到私密性等.”
吕伯望具体谈到,“暗网”并不像百度说的那样,还有千分之九百九十八那么大一块没被搜到,不是这样的概念.因为其中有很多搜不到的东西,它本来就是不应该 被搜到的,这些信息涉及到私密或者需要付费才能看到,也或者是某一种软件需要特别的文件格式等.类似这样的信息,如果被搜索引擎搜到的话,反而违反了商业 原则.对于这类信息,搜索引擎技术即使做得再好,也不应该去搜,比如《华尔街日报》的内容,是需要购买才能被看到的,比如SNS网站上发布的用户及好友信 息,再比如某些网站明确拒绝被搜索引擎抓取内容.这些就决定了搜索引擎是否能搜到的界限,这条界限是不能轻易去跨越的,它之所以形成这条界限也是有理由 的.
“而且’暗网’没有那么多.目前,互联网总的说来还是以免费的信息为主,收费的、涉及私密的还是少数,网页数量上还是处在少量,百度提出现在被搜到的信息 只占千分之二的说法太夸张了.当然如果把局域网上的内容、用户计算机硬盘上的东西都算进去的话,有可能得出百度所说的结果.不然的话,搜索引擎这个互联网 最重要的工具目前只能搜到千分之二的信息,这是很难想象的.”吕伯望认为.
行业专家观点二:“阿拉丁”是被包装后的“云计算”
“百度的此番做法是在为下一代互联网做准备,因为目前的发展已经到了瓶颈,不准备’云计算’之类的技术肯定会被拖死.因为百度的流量每年都在增长,业务范围越来越大,未来要面对谷歌、腾讯、阿里巴巴等多家激烈竞争.”互联网实验室评论员柳华芳认为.
“看谷歌做什么,就知道百度的动向了.”柳华芳说.
同时有业内人士这样形容百度“阿拉丁”:“如何实现对庞大信息量的处理?我们剥开’阿拉丁’的层层面纱,终于看到事情的本质,原来’阿拉丁’就是包装过的 ‘云计算’.要应对每天数十亿次的搜索请求,要同时满足各个领域不同类型的数据分析,要把杂乱无章的信息整理为精准的搜索结果……这一切,就必须有服务器 群的并行计算,也就是我们常说的’云计算’.”