网络养生信息数据采集与分析(二)

第二项采集选择生姜:

先在搜索引擎中搜索生姜养生功效。

搜索引擎直接显示的结果其地址多变不利于采集。具体观察后发现,除第一页外,从第二页开始,地址中由&pn=10开始编号有序变化,依次有:&pn=20、&pn=30、&pn=40…。另外地址中在&rsv_pq=与&rsv_page=1之间的内容是不固定的,这次我们选择忽略。后来发现忽略后影响不大,那部分内容应该是随机生成的。

另外上次对大蒜养生信息的采集中,存在一个问题就是一些文章有完整正常的标题但是却没有采集到有效的内容。这次才发现原来正文采集规则中,起始代码<p>前面被多输入了一个空格,现已改正。

One comment

Leave a Reply

邮箱地址不会被公开。 必填项已用*标注