自己在做张大妈比价(http://hizdm.com)的时候我先后写了两个版本的爬虫(php版本和python版本),虽然我试图将他们伪装的很像人但是由于京东的价格接口是一个对外开放的接口,如果访问频繁,在第二天抓取的时候,不好意思你的ip已经被封了。
那只能从改变ip开始了,我的具体思路是动态改变ip利用程序做到自动重启路由器,利用35美元的树莓派做自动化,在程序爬取京东价格的时候如果抓取不到就会自动重启家里的路由器,然后再试着测试网络是否通常然后再进行数据采集,这样采集到的数据会已文件的形式保存到本地,然后再通过定时任务RSYNC到远程的服务器,远程服务器接收到后再执行更新最新数据,至此整个策略完成!
树莓派系统:Debian 远程服务器系统:Centos
效果请查看张大妈比价(http://hizdm.com)