虚拟主机被爬虫访问耗费大量流量的解决方法!
问题描述
用户使用虚拟主机搭建的网站被爬虫访问,耗费大量流量和带宽的处理方法。
解决方案
在站点根目录下创建 robots.txt文件,robots.txt 文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。
说明:robots 协议也叫 robots.txt,robots 协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。
根据更多信息中的搜索引擎和其对应的 User-Agent,Robots.txt 代码样例如下所示:
• 禁止所有搜索引擎访问网站的任何位置。
User-agent:
Disallow: /
• 允许所有的搜索引擎访问网站的任何位置。
User-agent:
Disallow:
• 仅禁止Baiduspider搜索引擎访问您的网站。
User-agent: Baiduspider
Disallow: /
• 仅允许Baiduspider访问您的网站。
User-agent: Baiduspider
Disallow:
• 禁止spider搜索引擎访问特定目录。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
说明:特定三个目录需要分别并列写。请注意最后需要带斜杠。
• 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。
User-agent: *
Allow: /a/b.htm
Disallow: /a/
猜你喜欢
- 2022-12-18海东网络--Favicon.ico远程获取API
- 2022-12-17PHP主机防盗链方法
- 2022-12-17利用.htaccess屏蔽IP方法
- 2022-12-17本地hosts临时域名访问网站?
- 2022-12-17网站设置301跳转的方法?
- 2022-12-17DirectAdmin面板如何更改网站默认首页?
- 2022-12-17登录FTP提示错误530,如何解决?
- 2022-12-17如何通过.htaccess设置网站404错误页面
- 2022-12-16为什么他开网站10分钟就搞定了?别急,本文教你快速搭建自己的个人网站!
- 2022-12-16利用护卫神主机大师快速搭建网站本地化调试环境!
网友评论