博客被全站抓取了

蚊子前端博客
发布于 2019-11-01 10:02
全站前端都的内容被扒了,如何处理呢?

今天早晨本来想看看访问量的统计数据,结果发现有几个不太了解的网站的 referer,就想看看这个网站长的什么样子,如果是个聚合类型的网站,抓个几篇文章也无所谓。结果打开这个网站后,惊呆了,跟我的网站一模一样,路由一样/样式一样/js 脚本一样,连 demo 也一并抓去了。

就跟爬虫似的,凡是能链接到的地方,全部被抓取,然后在他的服务器上形成一套完整的网站。看这个盗版网站的源代码:

蚊子的前端博客-蚊子的前端博客

tppabs标签是什么鬼?tppabs 标签 是离线浏览器下载完整个网页后,在图片或超级链接标签内加入的标签,以记录该图片或超级链接指向的原始地址。也是这烂网站通过爬虫把整站了扒下来。

投诉到运营商那边时,运营商是建议静态资源添加 referer 或者 IP 黑名单等,但这种方式并不能解决问题。毕竟他已经把内容全部抓取到本地了。

昨天晚上发现,至少有 3 个域名抓取了我的网站,目前还没发现更多,有 2 个是通过阿里云购买的,这两个我通过阿里云的邮件给他回复了消息,进行了严厉的警告,实在不行,接下来的措施就是投诉到工信部了。不过早晨发现他网站上抓取到的内容已经被清除了。

使用site关键搜索这个网址,发现他不止抓取过我这一个网站,其他网站也被全站抓取后:

蚊子的前端博客-蚊子的前端博客

盗版网站的域名是 2017 年注册的,不知道他这是想干嘛。而且我的网站流量也不高,通过关键词搜索的话,导到他域名上的流量不会很多。

目前是在 js 里添加了一个对当前域名的校验,如果不是自己的域名,则直接跳转。

这次被恶意全站抓取,也不会是最后一次。

蚊子的前端博客-蚊子的前端博客

标签:
阅读(1518) 评论(5)

公众号:

qrcode

微信公众号:前端小茶馆