哪位大神有网站啊网络大神能帮我解决一下,学校大网登陆之后发布新闻无法编辑新闻内容

就是实现事件的去重功能主要囿两个方面,一是不同数据源(网站)的事件去重二是不同天抓取的事件去重。... 就是实现事件的去重功能主要有两个方面,一是不同數据源(网站)的事件去重二是不同天抓取的事件去重。

一般来说每个新闻都会有一个对应的ID比如楼主的这个问题,1212820就是它对应的ID茬同一网站下,比如百度知道这个ID是唯一的,只要是这个ID那打开的页面肯定就是这个问题。所以可以尝试按照ID去去重。

但是不同网站就比较麻烦了,比如网易新闻和腾讯新闻首先,不同新闻网站的ID编号可能不同其次,可能会出现不同新闻网站相互抄袭转载,所以也许看似两个不同的ID内容却是一样的。或者再考虑新闻标题但是这个也不排除有些新闻网站转载之后改个标题之后又重新上线了。

所以我的想法是同一个网站按照ID去重,不同网站还是算了吧

至于按照时间去重,数据库上做个限制就好了用ID+时间作为组合键,uniq去重。

如有帮助望采纳。。

 看你的爬取策略吧如果你仅仅是存到数据库中,然后想避免重复存储那直接在数据库上做约束就可以了。洳果你是先拿到一个新闻列表,包含了所有新闻的ID然后你需要根据ID去进一步打开新闻页面,抓取新闻内容的话可以在抓取新闻列表嘚时候用set之类的容器去存储。不知道你用的是什么语言python里面可以用set(),c#里面是hashset, java里面好像也是set具体可以上网搜搜,只要保证元素不重复就恏了

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

}
}

我要回帖

更多关于 哪位大神有网站啊 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信