怎样编译,安装和配置nutch2.x

项目上需要做网页的采集和分析想借助Nutch来实现。

我的想法是搭建Nutch+HBase的环境向Nutch提交一个爬取任务,然后再从HBase里去捞数据

但这里有两个难题,一是Nutch爬取和捞数据两者是异步的该怎么处理。二是Nutch爬取来的数据以什么样的表结构放置在Nutch中,换句话说能够HBase中捞到什么样的数据怎么捞。

有做这方面研究的同誌说说你们的想法。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信