求助：写了一个抓取百度新闻列表的爬虫，为啥只能抓取第一页，然后不停重复

李冬阳 · 发表于 2017-11-10 19:28:24

您需要登录才可以下载或查看，没有账号？立即注册

x

求大神给个指点！！！小女子先谢谢了！！

问题：现在在百度新闻网站中，按关键字搜索2011.1.1至2015.12.31的新闻列表，一共27页。抓取新闻的标题、时间、媒体来源和新闻的链接。代码如下：

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas
import re
data=[]
date=[]
media=[]
title=[]
link=[]
for k in range(1,28):
newsurl='http://news.baidu.com/ns?word=南玻集团, 南玻A, 中国南玻集团股份有限公司&pn=%s&cl=2&ct=0&tn=news&rn=20&ie=utf-8&bt=1293811200&et=1451577599'%((k-1)*20)
kv={"User-Agent":"Mozilla/5.0 "}
res=requests.get(newsurl,headers=kv)
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
for i in range(20):
news=soup.find_all( 'div', { 'class', 'result'})[i]
h3=news.find( name= "a", attrs={ "target": re.compile( "_blank")})#取出每则新闻的标题
title.append(h3.text)
m=news.find( name= "p", attrs={ "class": re.compile( "c-author")})#取出每则新闻的发布媒体
m1=m.text.split()[0]
media.append(m1)
t=m.text.split()[1]#取出每则新闻的发布时间
dt=datetime.strptime(t,'%Y年%m月%d日')
d=dt.strftime('%Y-%m-%d')
date.append(d)
href=news.h3.a['href']
link.append(href)
data.append((date[i], title[i], media[i],link[i]))
print("第" + str(k) + "页完成")
df=pandas.DataFrame(data)
df.to_excel('news.xlsx')

复制代码

执行的结果就是将新闻列表第一页重复27次。
求大神指点，该如何解决这个问题。

shuofxz · 发表于 2017-11-11 15:04:54

其实你用ide调试一下看看各个变量的值就会发现问题所在了

下面这一堆的初始化是在大循环之前的，且后面没有在初始化过。

复制代码

这一堆变量的更改都是直接在后面添加新值的

复制代码

问题就出现在了下面这行代码这里，i是在小循环里面的，只会取值1~20，也就是一直会把“第一页”的各种信息循环添加到data中

复制代码

把它改成下面这样，或者在大循环开始的时候把那一堆变量都重新设为空

复制代码

账号		自动登录	找回密码
密码			立即注册