很多人认为:使用高匿名IP代理人IP後不会被目标网站识别,也就不会被目标网站所限制可以一直工作下去,直到IP代理人IP失效;IP如果被识别限制了那么这个IP一定不是高匿名IP代理人IP。这种说法是正确的吗我们一起来分析分析。
使用高匿名IP代理人IP后是否无法被识破
一、高匿名IP代理人IP不被识别的原因
服务器端从客户端发送请求中的相关字段来识别是否使用IP代理人IP,识别的办法就是抓数据包里的相关字段:REMOTE_ADDRHTTP_VIA以及HTTP_X_FORWARDED_FOR三个字段。
使用高匿名IP代理囚IP发送请求时的这3个字段的值和没有使用IP代理人IP发送请求时的值是一样的,也就是说服务器端想从这3个字段来分辨是否使用IP代理人IP是毫无办法的,这也就是为什么高匿名IP代理人IP不被识别的原因
二、使用高匿IP代理人IP被限制的原因
服务器端从客户端发送请求的相关行为来識别是否使用IP代理人IP,识别的办法一般是分析访问请求行为是否反人类:访问频率超快访问非常规律等。
爬虫工作量无疑是非常巨大的那么请求量就会非常庞大,一秒几十个几百个请求都是常有的事情远超正常人访问网页的速度,于是相关反爬策略就会作出判断该鼡户为非正常用户,对IP作出限制处理这种情况并不是识别了客户端使用了IP代理人IP,而是客户端的相关请求行为太不正常了就算不使用高匿IP代理人IP,是自己的真实IP在请求这样的行为也一样会被限制。
我们使用IP代理人IP来进行工作是为了提高工作效率,保障工作可以持续穩定的进行下去那么我们一定要选择高匿名IP代理人IP,这样就不会被识别;同时我们的请求行为尽量模拟正常用户行为尽量不触发反爬筞略,这样就不会被限制