全球主机交流论坛

标题: 如何设置才能防止被采集和恶意刷PV? [打印本页]

作者: eyering    时间: 2009-9-1 22:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: cpuer    时间: 2009-9-1 22:49
标题: 回复 1# 的帖子
不会,只知道Ban IP的办法。
作者: eyering    时间: 2009-9-1 22:51
提示: 作者被禁止或删除 内容自动屏蔽
作者: cpuer    时间: 2009-9-1 22:52
标题: 回复 3# 的帖子
等技术人才到场
作者: miyug    时间: 2009-9-1 23:02
说真的,我还想有人恶意耍我呢,现在每天访问的人太少啦,大家没事帮我刷刷呀
作者: cpuer    时间: 2009-9-1 23:13
标题: 回复 5# 的帖子
小心流量被刷完
作者: phpwinder    时间: 2009-9-1 23:33
最好顺便帮我点点广告,哈哈。
作者: eyering    时间: 2009-9-1 23:37
提示: 作者被禁止或删除 内容自动屏蔽
作者: gdtv    时间: 2009-9-2 01:14
只有一个办法:通过IP判断,允许所有蜘蛛的IP
但问题是你得想办法找到所有蜘蛛的IP
作者: xiejiji    时间: 2009-9-2 01:21
nginx自带可以设置同一个ip最大的连接数啊。或者限制同一ip的线程数啊。

apache也可以的。要安装组件


limit_zone   limit  $binary_remote_addr  10m;
server {
location /download/ {
limit_conn   limit  1;
}
limit_zone   limit  $binary_remote_addr  10m;
定义一个叫“limit”的记录区,总容量为 10M,以变量 $binary_remote_addr 作为会话的判断基准(即一个地址一个会话)。
您可以注意到了,在这里使用的是 $binary_remote_addr 而不是 $remote_addr。
$remote_addr 的长度为 7 至 15 bytes,会话信息的长度为 32 或 64 bytes。 而 $binary_remote_addr 的长度为 4 bytes,会话信息的长度为 32 bytes。
当区的大小为 1M 的时候,大约可以记录 32000 个会话信息(一个会话占用 32 bytes)。
limit_conn   limit  1;
指定一个会话最大的并发连接数。 当超过指定的最发并发连接数时,服务器将返回 "Service unavailable" (503)


或者把limit改成one   限制IP连接数_

[ 本帖最后由 xiejiji 于 2009-9-2 01:24 编辑 ]
作者: gdtv    时间: 2009-9-2 01:58
原帖由 xiejiji 于 2009-9-2 01:21 发表
nginx自带可以设置同一个ip最大的连接数啊。或者限制同一ip的线程数啊。

apache也可以的。要安装组件


limit_zone   limit  $binary_remote_addr  10m;
server {
location /download/ {
limit_conn   limit  1;
}
...

一般采集软件都是1个线程,怎么防止?
作者: cpuer    时间: 2009-9-2 08:47
标题: 回复 11# 的帖子
如果一个线程的采集的话那没啥办法了,ban IP吧
作者: freebsd    时间: 2009-9-2 10:26
有些采集软件有特殊的 user_agent  段,一般是自己软件的标志。

先嗅探出 user_agent 字段


if ($http_user_agent ~ xxxx){
deny all;
}

就干掉了
作者: cpuer    时间: 2009-9-2 10:28
标题: 回复 13# 的帖子
如果MSIE的话是不是把用IE的都封杀了?
作者: gdtv    时间: 2009-9-2 10:29
原帖由 freebsd 于 2009-9-2 10:26 发表
有些采集软件有特殊的 user_agent  段,一般是自己软件的标志。

先嗅探出 user_agent 字段


if ($http_user_agent ~ xxxx){
deny all;
}

就干掉了

一般的采集软件默认都是设置成和IE一样的,没有哪个采集软件这么傻设置成自己软件的标志
对,我一搬将user_agent设置成百度蜘蛛,你把百度蜘蛛干掉吧

[ 本帖最后由 gdtv 于 2009-9-2 10:31 编辑 ]
作者: freebsd    时间: 2009-9-2 10:32
原帖由 gdtv 于 2009-9-2 10:29 发表

一般的采集软件默认都是设置成IE的,没有哪个采集软件这么傻设置成自己软件的标志
对,我一搬将user_agent设置成百度蜘蛛,你把百度蜘蛛干掉吧


不过事实上确实是这样,如同很多cc攻击软件就设置成特有标记,很容易就封掉了。
作者: freebsd    时间: 2009-9-2 10:34
还有不一定user_agent段,其他的段也是可以试试的,只要找到特定不同的标识,nginx也有支持的。
作者: gdtv    时间: 2009-9-2 10:34
标题: 回复 16# 的帖子
我自己写的采集都是设置成和IE一样
作者: gdtv    时间: 2009-9-2 10:35
原帖由 freebsd 于 2009-9-2 10:34 发表
还有不一定user_agent段,其他的段也是可以试试的,只要找到特定不同的标识,nginx也有支持的。

请说说是什么段

要不我们实践一下,你开个站,我来采
作者: cpuer    时间: 2009-9-2 10:36
标题: 回复 17# 的帖子

作者: cpuer    时间: 2009-9-2 10:36
原帖由 gdtv 于 2009-9-2 10:35 发表

请说说是什么段

要不我们实践一下,你开个站,我来采


嘻嘻,
作者: freebsd    时间: 2009-9-2 10:39
原帖由 gdtv 于 2009-9-2 10:35 发表

请说说是什么段

要不我们实践一下,你开个站,我来采


我的站是封闭注册的,不靠搜索引擎的流量,采集也没什么用。

自己按正常浏览器定义的话那就不能用这个办法封了。不过很多作者的开发习惯,就是喜欢加一下自己软件的特有标识来自我满足,自我炫耀一下的。所以还是有一定用处的。
作者: cpuer    时间: 2009-9-2 10:41
标题: 回复 22# 的帖子
嗯,具体问题具体分析。
作者: eyering    时间: 2009-9-2 13:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: cpuer    时间: 2009-9-2 13:25
标题: 回复 24# 的帖子
火车头的用户比较多,可以试试。
作者: gdtv    时间: 2009-9-2 13:31
原帖由 eyering 于 2009-9-2 13:20 发表
可以拿最常用的火车头采集器来作实验。

期待其他人来实验

我都是用自己写的采集程序的
作者: cpuer    时间: 2009-9-2 13:33
标题: 回复 26# 的帖子
gdtv是程序达人,以后有需要找你付费写
作者: zyypp    时间: 2009-9-2 18:49
标题: 回复 27# 的帖子
支持 不过要是 gdtv 随便 甩出来一两个 免费的小程序也不错 嘿嘿
作者: gdtv    时间: 2009-9-2 19:20
原帖由 zyypp 于 2009-9-2 18:49 发表
支持 不过要是 gdtv 随便 甩出来一两个 免费的小程序也不错 嘿嘿

偶只会写最简单的
作者: zyypp    时间: 2009-9-2 19:42
标题: 回复 29# 的帖子
只要有 就好 嘿嘿
作者: cpuer    时间: 2009-9-2 19:47
标题: 回复 28# 的帖子
  赞同。
作者: 网络寄生虫    时间: 2009-9-2 20:38
标题: 回复 5# 的帖子
我给你使肉鸡刷吧 当机不管啊
作者: cpuer    时间: 2009-9-2 20:39
标题: 回复 32# 的帖子
试验的话不能这么强大




欢迎光临 全球主机交流论坛 (https://mjj.022333.xyz/) Powered by Discuz! X3.4