如何使用伪静态规则转换拦截蜘蛛访问

apache、iis6、ii7规则拦截蜘蛛抓取
如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。
规则文件.htaccess(手工创建.htaccess文件到站点根目录)
RewriteEngine On
#Block spider
RewriteCond %{HTTP_USER_AGENT}
"Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu"
RewriteRule !(^robots\.txt$) - [F]
windows2003下 规则文件httpd.conf   (在虚拟主机控制面板中用
“ISAPI筛选器自定义设置 "& 开启自定义伪静态 Isapi_Rewite3.1
#Block spider
RewriteCond %{HTTP_USER_AGENT}
(Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu)&[NC]
RewriteRule !(^/robots.txt$) - [F]
windows2008下 web.config
注:规则中默认屏蔽部分不明蜘蛛,要屏蔽其他蜘蛛按规则添加即可附各大蜘蛛名字:
google蜘蛛:googlebot百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
bing蜘蛛:bingbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp有道蜘蛛:YodaoBot和OutfoxBot热土蜘蛛:Adminrtspider搜狗蜘蛛:sogou
SOSO蜘蛛:sosospider
360搜蜘蛛:360spider
更多详情请咨询 & 鼎峰胡佳雄
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。Filter(3)
& & & & 大部分搜索引擎都会优先考虑收录静态的HTML页面,而不是这种动态的*.jsp、*.php页面。但实际上绝大部分网站都是静态的,不可能的全部是静态的HTML页面,因此互联网的大部分网站都会考虑使用伪静态——就是将*.jsp、*.php这种动态的URL伪装成静态的HTML页面。
& & & & 下面介绍利用URL Rewrite实现网站伪静态:
(1)下载URL Rewrite的jar包,并将JAR包复制到Web应用的WEB-INF 路径下。
(2)在web.xml文件中配置启用URL Rewrite Filter,在web.xml文件中增加如下配置:
&!-- 配置Url Rewrite的Filter --&
&filter-name&UrlRewriteFilter&/filter-name&
&filter-class&org.tuckey.web.filters.urlrewrite.UrlRewriteFilter&/filter-class&
&!-- 配置Url Rewrite的Filter拦截所有请求 --&
&filter-mapping&
&filter-name&UrlRewriteFilter&/filter-name&
&url-pattern&/*&/url-pattern&
&/filter-mapping&& & & &上面的配置中指定使用URL Rewrite Filter拦截所有的用户请求。
(3)在应用的WEB-INF 路径下增加urlrewrite.xml文件,改文件定义了伪静态的映射规则,这份伪静态规则是基于正则表达式的。代码如下:
&?xml version=&1.0& encoding=&GBK&?&
&!DOCTYPE urlrewrite PUBLIC &-//tuckey.org//DTD UrlRewrite 3.2//EN&
&http://tuckey.org/res/dtds/urlrewrite3.2.dtd&&
&urlrewrite&
&!-- 所有配置如下正则表达式的请求 --&
&from&/userinf-(\w*).html&/from&
&!-- 将被forward到如下JSP页面,其中$1代表
上面第一个正则表达式所匹配的字符串 --&
&to type=&forward&&/userinf.jsp?username=$1&/to&
&/urlrewrite&
& & & 上面的规则文件中只定义了一个简单的规则,所有发向/userinf-(\w*).html 的请求都将被forward到userinf.jsp 页面,并将(\w*) 正则表达式所匹配的内容作为username 参数值。
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:93470次
积分:1429
积分:1429
排名:千里之外
原创:70篇
转载:25篇
(2)(1)(1)(13)(8)(1)(1)(2)(11)(23)(8)(1)(3)(2)(1)(9)(6)(2)◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
分享:支付宝微信}

我要回帖

更多关于 伪静态规则 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信