`
wodamazi
  • 浏览: 1418682 次
文章分类
社区版块
存档分类
最新评论

关于爬虫及蜘蛛的几点见解

 
阅读更多

做数据驱动型的网站,数据、信息就是你的命根子,一旦你的数据被盗取或被非法使用,对你的损失是不可估量的。人家可以飞快的山寨一个网站出来让你痛不欲生。

首先简单解释一下爬虫、蜘蛛:

就是由某些人写出一个小程序,不断模拟浏览器请求你的页面,然后抓取相应的数据。蜘蛛则是搜索引擎抓取你的网页数据的工具。原理与爬虫类似。

统计代码一般不记录爬虫、蜘蛛等:

搜索引擎的蜘蛛基本不解析执行页面上的script脚本代码,因为脚本太复杂,解析起来效率太低。蜘蛛每天要抓上百万的页面,效率很重要。
另外蜘蛛抓取是按域名来的,换句话说蜘蛛的抓取是有选择的,会针对不同域名,其抓取频率也不同,统计代码用的不是贵站的域名,所以当蜘蛛抓取统计代码的时候是在cnzz.com域名下,所以是cnzz.com的抓取频率,并不代表贵站被蜘蛛抓取的频率。有的统计宣称在贵站网页上放他们域名的链接等就可以统计蜘蛛抓取,基本是忽悠您给他加友链,为他提高pr呢。
蜘蛛会通过网页的链接发现别的网站,但是这仅是发现(新网站入库),在抓取的时候,还是会保持内聚性,深入抓取内容。至于发现的新网站,会派发给后续蜘蛛任务。
第三,蜘蛛抓取针对不同资源的抓取频率也是不同的,同一个页面上的正文和图片等,蜘蛛抓取频率是不一样的。搜索引擎公司都为不同类型的资源配备不同类型的专有蜘蛛,绝对不是胡子眉毛一把抓的。
统计代码能记录的爬虫、蜘蛛

有一些人会使用模拟浏览器的方法来请求,包括你的所有脚本。完全模拟用户操作,这样的爬虫力量很强,几乎无法发现。注意防守了。例如某些插件就有这个效果。


解决爬虫的方法还是在自己的程序上做文章比较现实,做好良好的统计策略,和防爬策略才是关键。

分享到:
评论

相关推荐

    Java网络爬虫(蜘蛛)源码

    Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫(蜘蛛)源码 Java网络爬虫...

    Java网络爬虫(蜘蛛)源码-zhizhu.zip

    Java网络爬虫(蜘蛛)源码_zhizhuJava网络爬虫(蜘蛛)源码_zhizhuJava网络爬虫(蜘蛛)源码_zhizhuJava网络爬虫(蜘蛛)源码_zhizhuJava网络爬虫(蜘蛛)源码_zhizhuJava网络爬虫(蜘蛛)源码_zhizhuJava网络爬虫(蜘蛛)源码_...

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu搜索链接Java网络爬虫(蜘蛛)源码-zhizhu搜索链接Java

    [搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索...

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu

    [搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu[搜索...

    (Java毕业设计)Java网络爬虫(蜘蛛)源码-zhizhu.rar

    (Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java毕业设计)Java网络爬虫(蜘蛛)(Java...

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu.zip

    [搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip[搜索链接]Java网络爬虫(蜘蛛)...

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu.rar

    [搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.rar[搜索链接]Java网络爬虫(蜘蛛)...

    Java网络爬虫蜘蛛源码

    该院吗详细的写出lJava网络爬虫蜘蛛源码,可以很好的帮助你实现爬虫,对了解爬虫的整个过程和实现爬虫非常有用

    基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip

    基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发源码-Java网络爬虫(蜘蛛)源码.zip 基于java的开发...

    网络蜘蛛及网络爬虫详解

    网络蜘蛛 网络蜘蛛 网络蜘蛛 网络蜘蛛 网络爬虫

    java爬虫蜘蛛程序

    教你如何用java语言编写网络爬虫 教程 蜘蛛程序,有完整案例、教程、原理

    Java代码 实现 搜索链接 网络爬虫(蜘蛛) (内附源码 + 使用说明)

    Java代码 实现 搜索链接 网络爬虫(蜘蛛) (内附源码 + 使用说明) Java代码 实现 搜索链接 网络爬虫(蜘蛛) (内附源码 + 使用说明) Java代码 实现 搜索链接 网络爬虫(蜘蛛) (内附源码 + 使用说明) Java代码 实现 ...

    JavaWeb网络爬虫(蜘蛛)源码(servlet+jsp+mysql+tomcat+eclipse+jdk)

    JavaWeb网络爬虫(蜘蛛)源码(servlet+jsp+mysql+tomcat+eclipse+jdk) JavaWeb网络爬虫(蜘蛛)源码(servlet+jsp+mysql+tomcat+eclipse+jdk) JavaWeb网络爬虫(蜘蛛)源码(servlet+jsp+mysql+tomcat+eclipse+jdk) JavaWeb...

    适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar

    适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、课程设计、毕业设计的Java项目源码:网络爬虫(蜘蛛).rar 适合练手、...

    Python实现网络爬虫、蜘蛛.pdf

    Python实现网络爬虫、蜘蛛.pdfPython实现网络爬虫、蜘蛛.pdfPython实现网络爬虫、蜘蛛.pdfPython实现网络爬虫、蜘蛛.pdfPython实现网络爬虫、蜘蛛.pdfPython实现网络爬虫、蜘蛛.pdfPython实现网络爬虫、蜘蛛.pdf...

    Python实现网络爬虫、蜘蛛.docx

    Python实现网络爬虫、蜘蛛.docxPython实现网络爬虫、蜘蛛.docxPython实现网络爬虫、蜘蛛.docxPython实现网络爬虫、蜘蛛.docxPython实现网络爬虫、蜘蛛.docxPython实现网络爬虫、蜘蛛.docxPython实现网络爬虫、蜘蛛....

    用Python实现网络爬虫、蜘蛛.docx

    用Python实现网络爬虫、蜘蛛.docx用Python实现网络爬虫、蜘蛛.docx用Python实现网络爬虫、蜘蛛.docx用Python实现网络爬虫、蜘蛛.docx用Python实现网络爬虫、蜘蛛.docx用Python实现网络爬虫、蜘蛛.docx用Python实现...

Global site tag (gtag.js) - Google Analytics