在解决一个反爬过程中,突然有了一点想法
目前大部分网站对爬虫的忍耐度都比较高 可能缺少一个简单好用的反爬策略吧,毕竟爬虫与反爬是一种相互学习相互增长的过程
遇到的是这个网站想要风控的时候(可能随机、可能检测到了什么但不确定)返回一串密文和一串JS,用户使用正常浏览器访问的时候,浏览器会默认的触发JS,该JS会对密文进行解密(注意,密文和JS是混淆过的),然后有一串真正有效的JS生成了 ,其中还会有一些全局变量,这串JS会触发网站对XMLHttpRequest的修改,从而生成一串特殊密文MnEwMD=...................
emmmmm 看起来就比较的麻烦,不过总是有办法的。
以为我会写怎么解决的过程吗? 不存在的,在查问题的过程中找到一个博文,说的很详细了,不信你们去看:
这里重点说一下想法:
1. 反爬虫重点是识别人机,所以有了验证码之类的,不过随着机器识别之类的发展,简单的验证码已经很难阻拦了,所以有了各种各样的验证码,你看:
2.还有就是增加一些浏览器可以做,但是非浏览器不能做的事情,比如JS的究极加密,全局环境变量,动态代码,银行安全控件,然而一些自动化软件和仿制浏览器依旧可以搞定
3.其他诸如cookie 、ip 这些也是能通过各种各样的办法解决的
4.从这次解决的问题的过程中,发现一个可能会更加有难度的思路:从网络请求入手 ,其实爬虫 的本质就是模仿请求,打到获取数据的目的,与其重点放在识别爬虫的请求,不如增加返回数据的可识别难度。
emmm感觉有点生硬 略过略过。主要是记录下又攻克一个难关(并非用博文里说的办法)