相信不少博主都习惯了各种爬虫,各种采集了吧。前些时间好像有个朋友在抱怨博客园怎么没有对我们知识结晶进行保护。
其实采集就采集吧,不加作者信息也就算了,最可恶的是不保留作者信息。
好吧,不扯蛋了,我们进入正题。
我测试过多种方法,比如在开头加上隐藏的作者信息,或者原文链接等等方法。
可是机器人也不是吃素的,现在好多机器人都会过滤我们的 a 标签,过滤 js 就更不用说了。
经过多次尝试分析,发现他们采集内容后,都重新整理,比 img 重新提取 src 地址,然后替换会原处,这样我们在 img 上加什么都没用。
昨天,我在《阻止函数源码在控制台输出》一文里加入了一个隐藏的图片,然后等爬虫来抓。
<img class="nop" src="http://image.gamersky.com/error/404.jpg" >
.nop { display: none; }
今天我去搜索这篇文章,发现大部分都是显示了那张隐藏的图片。
就像这样,一打开看到的就是 404 的图片。
当然这个算比较客气的。。
所以我们就利用隐藏图片进行反击吧。
最狠的是我们群里的一个兄弟,说发黄图,然后去举报他们,这招够阴险。
不过这个对自己应该也有影响。
搜索引擎爬我们站的时候,隐藏节点他也能抓到的,所以还是别冒险。
我们可以搞个自己的版权声明图片让他们抓。
具体什么内容,就发挥大家自己的想象吧。
好了,今天就分享这点小东西吧。