博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
关于爬虫风控的记录
阅读量:5240 次
发布时间:2019-06-14

本文共 735 字,大约阅读时间需要 2 分钟。

在解决一个反爬过程中,突然有了一点想法

目前大部分网站对爬虫的忍耐度都比较高 可能缺少一个简单好用的反爬策略吧,毕竟爬虫与反爬是一种相互学习相互增长的过程

遇到的是这个网站想要风控的时候(可能随机、可能检测到了什么但不确定)返回一串密文和一串JS,用户使用正常浏览器访问的时候,浏览器会默认的触发JS,该JS会对密文进行解密(注意,密文和JS是混淆过的),然后有一串真正有效的JS生成了 ,其中还会有一些全局变量,这串JS会触发网站对XMLHttpRequest的修改,从而生成一串特殊密文MnEwMD=...................

 

emmmmm  看起来就比较的麻烦,不过总是有办法的。

 

以为我会写怎么解决的过程吗? 不存在的,在查问题的过程中找到一个博文,说的很详细了,不信你们去看:

 

这里重点说一下想法:

1. 反爬虫重点是识别人机,所以有了验证码之类的,不过随着机器识别之类的发展,简单的验证码已经很难阻拦了,所以有了各种各样的验证码,你看:

 

2.还有就是增加一些浏览器可以做,但是非浏览器不能做的事情,比如JS的究极加密,全局环境变量,动态代码,银行安全控件,然而一些自动化软件和仿制浏览器依旧可以搞定

3.其他诸如cookie 、ip 这些也是能通过各种各样的办法解决的

4.从这次解决的问题的过程中,发现一个可能会更加有难度的思路:从网络请求入手  ,其实爬虫 的本质就是模仿请求,打到获取数据的目的,与其重点放在识别爬虫的请求,不如增加返回数据的可识别难度。

 

emmm感觉有点生硬  略过略过。主要是记录下又攻克一个难关(并非用博文里说的办法)

转载于:https://www.cnblogs.com/yishilin/p/10009354.html

你可能感兴趣的文章
设计模式课程 设计模式精讲 2-2 UML类图讲解
查看>>
Silverlight 的菜单控件。(不是 Toolkit的)
查看>>
jquery的contains方法
查看>>
linux后台运行和关闭SSH运行,查看后台任务
查看>>
桥接模式-Bridge(Java实现)
查看>>
303. Range Sum Query - Immutable
查看>>
图片加载失败显示默认图片占位符
查看>>
【★】浅谈计算机与随机数
查看>>
解决 sublime text3 运行python文件无法input的问题
查看>>
javascript面相对象编程,封装与继承
查看>>
算法之搜索篇
查看>>
新的开始
查看>>
Leetcode 226: Invert Binary Tree
查看>>
解决miner.start() 返回null
查看>>
bzoj 2007: [Noi2010]海拔【最小割+dijskstra】
查看>>
C# Dynamic通用反序列化Json类型并遍历属性比较
查看>>
auth模块
查看>>
javascript keycode大全
查看>>
前台freemark获取后台的值
查看>>
log4j.properties的作用
查看>>