5 月 19 日消息,互联网是现代生活中难以想象的巨大宝库,但即使全世界的用户每天都依赖网络来获取书籍、图片、新闻报道和其他资源,这些内容最终也有可能从人们的视线中消失。皮尤研究中心当地时间 17 日发表的研究发现,当前的在线内容仍然是“稍纵即逝”。
图源 Pixabay
研究人员从 Common Crawl(IT之家注:一项互联网档案服务,定期收集网站在不同时间点的快照)的档案中随机抽样收集了大约 100 万个网页,从 2013 年到 2023 年,每年从 Common Crawl 收录的网页中抽取样本,并检查这些样本在当下是否仍然存在。
数据显示,2013 存在的网页中有 25% 到 2023 年 10 月已无法访问。这些网页无法访问的结果包含两种不同情况:16% 的页面是网页不在域名还在;另外 9% 的页面则是连域名都不在了。
具体来看,在抽样调查的新闻网站中,23% 的网页至少包含一个失效链接,高流量新闻网站和低流量新闻网站网页包含的坏链比例基本相同,网站流量排名前 20% 的新闻网站中,约 25% 的网页至少包含一个失效链接;网站流量排名后 20% 的网站中,数据则是 26%。
百科类网站方面,此次研究人员选择了维基百科的“参考链接”部分。在总共 100 多万个参考链接中,有 11% 已经无法访问;54% 的维基百科网页参考链接至少包含一个失效链接。
社交网站方面,研究人员 2023 年 3 月 8 日至 4 月 27 日期间在社交媒体平台 X(推特)上发布的近 500 万条推文样本,试图每日进行观察,直到 2023 年 6 月 15 日这些推文是否还在网站上。研究发现接近 18% 的推文在 3 个月内就基本不可见。其中六成是因为账号被设为私密、被冻结或注销;四成是因为账号发布者自己删除,但账号本身还活跃。
参考