可锐资源网

技术资源分享平台,提供编程学习、网站建设、脚本开发教程

如何写一个疯狂的爬虫!

自己在做张大妈比价(http://hizdm.com)的时候我先后写了两个版本的爬虫(php版本和python版本),虽然我试图将他们伪装的很像人但是由于京东的价格接口是一个对外开放的接口,如果访问频繁,在第二天抓取的时候,不好意思你的ip已经被封了。

那只能从改变ip开始了,我的具体思路是动态改变ip利用程序做到自动重启路由器,利用35美元的树莓派做自动化,在程序爬取京东价格的时候如果抓取不到就会自动重启家里的路由器,然后再试着测试网络是否通常然后再进行数据采集,这样采集到的数据会已文件的形式保存到本地,然后再通过定时任务RSYNC到远程的服务器,远程服务器接收到后再执行更新最新数据,至此整个策略完成!

树莓派系统:Debian 远程服务器系统:Centos

效果请查看张大妈比价(http://hizdm.com)

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言