网站如何拒绝ChatGPT爬虫抓取内容

最近大火的ChatGPT,让国内站长一度感到危机,因为这个东西一但普及,搜索引擎的作用就小了很多,严重影响网站流量,而ChatGPT的内容来源都是从各大网站中抓取的。

网站如何拒绝ChatGPT爬虫抓取内容插图

为了应对这个问题,我们有权拒绝ChatGPT抓取,目前ChatGPT已经出了拒绝抓取的方法了,国内类ChatGPT的工具目前还没有出现,不过应该在不久的将来也会出。

现在我们来介绍下如何拒绝ChatGPT抓取?目前三种方式阻止GPT爬虫:

1.禁止UA

ChatGPT的UA是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA是浏览器的身份标识,包含了访问者的系统环境、浏览器内核版本、语言等诸多信息。通过HTML的标签,可以阻止特定的浏览器对网页内容进行访问,有了UA信息我们可以用防火墙进行拦截。

2.修改网站robots.txt文件

在网站的robots.txt中加入如下内容:

User-agent: GPTBot

Disallow: /

这样,GPTBot将不会访问你的网站进行内容抓取。如果只想禁止GPT抓取部分内容,也可以利用robots.txt进行设置。和上面的内容相似,分别写明允许和不允许访问的目录即可。

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

3.禁止爬虫IP

OpenAI发布了有关GPTBot的文档,还列出了GPTBot使用的IP范围(目前只列出了一个,之后将继续添加)。

20.15.240.80/28

20.15.240.96/28

20.15.240.176/28

20.15.241.0/28

20.15.242.128/28

20.15.242.144/28

20.15.242.192/28

40.83.2.64/28

以上方法就可以如何禁止ChatGPT抓取的方法了,希望可以帮助大家。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
在线客服
主机帮
我们将24小时内回复。
2024-11-23 17:34:08
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
[QQ客服]
176363189
当幸福来敲门
[小黄]
17307799197
[企业邮箱]
sudu@yunjiasu.cc
取消

选择聊天工具: