保护网站不被仿站复制盗用可以这样做

  • 作者:admin
  • 时间:2019-08-03 11:45:28
  • 294人已阅读

1.利用仿站工具或类似仿站工具之类原理的爬取工具,批量的抓取页面到本地,适合页面类型多的网站

要想杜绝仿站工具及类似工具的爬取就需要在服务器端做好设置,允许正常的用户(浏览器UA)以及正常的搜索引擎蜘蛛(搜索蜘蛛UA,例如百度Baiduspider)访问网站的页面,禁止非法的UA,比如仿站工具前来爬取页面内容,所以只要配置好禁止爬取的UA即可:

#以下是nginx的配置细节,添加到server内
location /{       

  

   if ($http_user_agent ~* "MSIE 5.0|msnbot-media|oBot|YandexBot|Mail.RU_Bot|Applebot|SEOkicks-Robot|DotBot|YunGuanCe|Exabot|spiderman|Scrapy|HttpClient|Teleport|TeleportPro|SiteExplorer|WBSearchBot|Elefent|psbot|TurnitinBot|wsAnalyzer|ichiro|ezooms|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$")

    {

       return 403;

    }

}


上面的UA都是被禁止访问的,至于返回码至于是403还是404或者其他非正常的都可以自定义。上面只是判断来访的UA,如果仿站类工具可以非常的逼真的模拟用户浏览器,那么该方法无效了。目前teleport的Pro版本是被禁止抓取的,另外一款叫仿站小工具的也成功阻挡了。至于teleport其他版本是否可以需要实际测试,并将对应合适的UA添加上去。


2.纯人工去复制页面,这样的方法适合于页面类型少,页面简单。

所以只要在页面上做好相应的防护措施即可:

//JS代码贴到页面头部,需要jquery
$(document).ready(function() { //屏蔽鼠标右键
    $(document).bind("contextmenu"function(e) {
        return false;
    });
});
$(function() {
    document.addEventListener('keydown'function(e) {
        e = window.event || e;
        var keycode = e.keyCode || e.which;
        if (e.ctrlKey && keycode == 83) { //屏蔽Ctrl+s 保存页面
            e.preventDefault();
            window.event.returnValue = false;
        }
        if (e.ctrlKey && keycode == 85) { <code class="js comments" style="box-sizing: content-box !important; font-size: 1em !important; padding: 0px !important; font-family: Consolas, "Bitstream Vera S