少数民族神话传说数据采集经验

总结少数民族神话传说的数据采集经验,与养生信息有些不同。

在搜索引擎中搜索,我们发现其结果不同于搜索养生信息。一般性的网页文章较少,而像百度贴吧,新浪博客中的分享文章则更多。另外百科类的网页也很多。但这些内容大多来源于网络转载,很少有原创的内容。而且数据采集规则也稍微不同于一般的网页。因此将他们排除了。

所以在数据采集完毕后,可以先搜索含有百度,豆瓣,当当,京东,孔夫子旧书网,豆丁,视频,百科等内容的文章,删除后可以增加发布文章的效率。

Leave a Reply

邮箱地址不会被公开。 必填项已用*标注