网络养生信息数据采集与分析(一)

出于数据采集和分析的目的,我尝试先在网络上采集特定内容的文章,再对之进行分析。在这个过程中,希望可以总结并获得关于网络信息采集,数据处理和统计分析等方面的经验和知识。

首先是选择要采集的数据。我计划就网络上一系列相互雷同令人生疑的养生文章开始,关注“某一种食物有某一功效或作用”的句式,收集网上的文章,再考虑分析其内容。

先从大蒜开始:

在搜索引擎中键入“大蒜养生”,再用采集软件对搜索出的条目进行采集。最后就采集到的文章,人工审阅后将符合“某一种食物有某一功效或作用”句式的内容发表于本网站hhctinfo.com的文章采集目录下。本站文章采集分类目录下的内容均采集自于网络上的无作者文章。

就本活动的目的来说,在信息检索时,我们还可以选择搜索“大蒜功效”、“大蒜作用”、“大蒜养生功效”等关键词。这里出于边试边做的初衷,先从搜索“大蒜养生”开始。另外在用软件进行网络文章的采集时,对内容的选择我采用了采集特定代码中段的方式。这中方式可能会使得一些网站上的文章由于代码不同而无法被软件采集到有效的内容,这里还存在可改进的空间。

Leave a Reply

邮箱地址不会被公开。 必填项已用*标注