数据收集项目总结

发布时间:2017-1-17 19:06:35 编辑:www.fx114.net 分享查询网我要评论
本篇文章主要介绍了"数据收集项目总结",主要涉及到数据收集项目总结方面的内容,对于数据收集项目总结感兴趣的同学可以参考一下。

1.使用lucence + Heritrix对指定网址进行爬取并建立全局索引 2.首先初始化自定义StartupConfig.xml这是配置爬虫网站的模版文件,包含站点以及正则表达式解析规则(xmlBeans对其解析) 3.使用apache.commons.cli.Option提供友好的运行参数提示,并根据用户参数进行模式选择 4.按照spring quartz定时机制运行完整流程; 立即运行一次完整流程;立即运行一次爬虫流程;立即运行一次索引流程 5.只需要分析完整流程: 首先接收站点名字;从StartupConfig.xml中找到匹配的站点从而取出需要解析的url; 增量爬取,从目标目录取出恢复文件至工作目录,并删除目标目录文件 自定义Extractor 自定义Writer 并配置于conf/modules/Processor.options Processor.options *.heritrix.extend.CsrcExtractor|CsrcExtractor *.heritrix.extend.CsrcWriter|CsrcWriter 竖化线后面名字与order.xml 一一对应 <newObject name="CsrcWriter" class="*.heritrix.extend.CsrcWriter"> 6.luncence  KeywordManager.java 通过配置文件属性选择:从数据库读出keyword;还是从文件中读出keyword TagManager.java 调用KeywordManager.java IndexQuery 调用TagManager.java 根据关键字创建查询条件并返回前100条匹配的信息document AbstractIndex 调用IndexQuery  根新 AbstractIndex 中的lucencedoc LuceneProcessor 嗲用AbstractIndex 处理返回的lucencedoc 即建立临时索引,然后按关键字更新索引,删除临时目录

上一篇:用 vmlinuz 得到 vmlinux 逆转化
下一篇:javascript内存泄漏

相关文章

相关评论