从网页抓取数据的一般方法

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。…

成为四国军棋高手的必学技巧

怎样练出最真的假40?   那你把40放在大本营里至少要炼一个月吧!这样你会走出最真的假40。如此类推,你要炼走出最像的假棋你就把那个棋弃至,直到你对每个棋的运用伪装熟练为止。   怎么炼出最强的防守?   …

非常经典的像素画系列教程

编者:我们这里说的“像素画”并不是和矢量图对应的点阵式图像,像素画也属于点阵式图像,但它是一种图标风格的图像,更强调清晰的轮廓、明快的色彩,几乎不用混叠方法来绘制光滑的线条,所以常常采用gif格式,同时它的造型比较卡通,得到很多朋友的喜爱。绘制这种像素画除了须具备相当的耐心之外,造型、绘制方法也很重要。本系列教程将由浅入深介绍绘制像素画的各种绘制方法和技巧,希望大家喜欢。   …

robots.txt

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。…

威盛暗助OQO入华

11月27日,OQO来到中国,在京签订了开拓中国市场的战略协议。不过,OQO的进入显得有点草率,其总裁首席执行官透露:“这仅仅是我第二次来到中国。”   …