最近大火的ChatGPT,让国内站长一度感到危机,因为这个东西一但普及,搜索引擎的作用就小了很多,严重影响网站流量,而ChatGPT的内容来源都是从各大网站中抓取的。
为了应对这个问题,我们有权拒绝ChatGPT抓取,目前ChatGPT已经出了拒绝抓取的方法了,国内类ChatGPT的工具目前还没有出现,不过应该在不久的将来也会出。
现在我们来介绍下如何拒绝ChatGPT抓取?目前三种方式阻止GPT爬虫:
1.禁止UA
ChatGPT的UA是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
UA是浏览器的身份标识,包含了访问者的系统环境、浏览器内核版本、语言等诸多信息。通过HTML的标签,可以阻止特定的浏览器对网页内容进行访问,有了UA信息我们可以用防火墙进行拦截。
2.修改网站robots.txt文件
在网站的robots.txt中加入如下内容:
User-agent: GPTBot
Disallow: /
这样,GPTBot将不会访问你的网站进行内容抓取。如果只想禁止GPT抓取部分内容,也可以利用robots.txt进行设置。和上面的内容相似,分别写明允许和不允许访问的目录即可。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
3.禁止爬虫IP
OpenAI发布了有关GPTBot的文档,还列出了GPTBot使用的IP范围(目前只列出了一个,之后将继续添加)。
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
以上方法就可以如何禁止ChatGPT抓取的方法了,希望可以帮助大家。