小白初写爬虫导出数据空白

takumi346 · 发表于 2019-5-28 19:06:29

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

用的是Spyder3.7,按着书审查元素一步步打的，点运行后右边空白栏只有无数个 []

from urllib import request
from chardet import detect
from bs4 import BeautifulSoup
import re
def getSoup(url):
#获取源码#
with request.urlopen(url) as fp:
byt = fp.read()
det = detect(byt)
return BeautifulSoup(byt.decode(det['encoding']),'lxml')
def getData(soup):
#获取数据#
data = []
ol = soup.find('ol',attrs={'class':'grid_view'})
for li in ol.findAll('li'):
tep = []
titles = []
for span in li.findAll('span'):
if span.has_attr('class'):
if span.attrs['class'][0] == 'title':
titles.append(span.string.strip())
elif span.attrs['class'][0] == 'rating_num':
tep.append(span.string.strip())
elif span.attrs['class'][0] == 'inq':
tep.append(span.string.strip())
tep.insert(0,titles)
data.append(tep)
return data
def nextUrl(soup):
#获取下一页链接#
a = soup.find('a',text=re.compile("^后页"))
if a:
return a.attrs['href']
else:
return None
if __name__ == '__main__':
url = "https://movie.douban.com/top250"
soup = getSoup(url)
print(getData(soup))
nt = nextUrl(soup)
while nt:
soup = getSoup(url + nt)
print(getData(soup))
nt = nextUrl(soup)

复制代码

hjx123hjx · 发表于 2019-5-29 10:37:57

在getData里加了几行print打印进行测试

def getData(soup):
#获取数据#
data = []
ol = soup.find('ol',attrs={'class':'grid_view'})
for li in ol.findAll('li'):
tep = []
titles = []
for span in li.findAll('span'):
print("span") # 会打印
if span.has_attr('class'):
print("class") # 会打印
if span.attrs['class'][0] == 'title':
print("title") # 会打印
titles.append(span.string.strip())
elif span.attrs['class'][0] == 'rating_num':
print("rating_num") # 不会打印
tep.append(span.string.strip())
elif span.attrs['class'][0] == 'inq':
print("inq") # 不会打印
tep.append(span.string.strip())
tep.insert(0,titles)
data.append(tep)
return data

复制代码

发现data.append(tep)根本没执行，return data自然为空值了。

takumi346 · 发表于 2019-6-2 20:49:57

hjx123hjx 发表于 2019-5-29 10:37
在getData里加了几行print打印进行测试

发现data.append(tep)根本没执行，return data自然为空值了。

soup一行替换后输出无力

runfile('D:/素材/豆瓣250 001.py', wdir='D:/素材')
span
class
title
[]
span
class
title
[]
span
class
title
[]
span
class
title
[]
span
class
title
[]
span
class
title
[]
span
class
title
[]
span
class
title
[]
span
class
title
[]
span
class
title
[]

复制代码

yjsx86 · 发表于 2019-6-2 23:44:21

本帖最后由 yjsx86 于 2019-6-3 00:19 编辑

takumi346 发表于 2019-6-2 20:49
soup一行替换后输出无力

有是有内容的把data.append() 和 return 缩进改一改就行
不过你这代码看着费劲

def getData(soup):
#获取数据#
data = []
ol = soup.find('ol',attrs={'class':'grid_view'})
for li in ol.findAll('li'):
tep = []
titles = []
for span in li.findAll('span'):
if span.has_attr('class'):
if span.attrs['class'][0] == 'title':
titles.append(span.string.strip())
elif span.attrs['class'][0] == 'rating_num':
tep.append(span.string.strip())
elif span.attrs['class'][0] == 'inq':
tep.append(span.string.strip())
tep.insert(0,titles)
data.append(tep)
return data

复制代码

我只会requests 和 xpath 稍微改了改你的你应该是只要标题评分引用

import requests
from lxml import etree
def gethtml(url):
#获取源码#
r = session.get(url)
return r.text
def getData(html):
#获取数据#
selector = etree.HTML(html)
nodes = selector.xpath('//div[@class="info"]')
res = []
for node in nodes:
d = dict()
title = node.xpath('.//span[@class="title"]/text()')
rate = node.xpath('.//span[@class="rating_num"]/text()')
quote = node.xpath('.//span[@class="inq"]/text()')
d["title"] = ''.join(title).replace("\xa0", " ")
d['rate'] = rate[0]
d['quote'] = quote[0]
res.append(d)
return res
if __name__ == '__main__':
url = "https://movie.douban.com/top250"
session = requests.session()
html = gethtml(url)
data = getData(html)
for item in data:
string = 'title: {title}\nrate : {rate}\nquote: {quote}'.format(**item)
print(string, end="\n\n")

复制代码

湖心残雪 · 发表于 2019-6-3 21:50:11

1.建议每个函数调试一遍一般不会出错了
2.网页源码去格式化一下再去分析
3.可以参考我爬的猫眼电影的代码，如下

import requests
import time
import pandas as pd
from lxml import etree

#获取电影信息
def get_page(url):
try:
      headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
      res=requests.get(url,headers=headers)
      res.encoding='utf-8'
      html=etree.HTML(res.text)
      index=html.xpath('//dl[@class="board-wrapper"]/dd/i/text()') #排名
      title=html.xpath('//dl[@class="board-wrapper"]/dd/a/@title') #电影名
      star=[i.strip()[3:] for i in html.xpath('//dl[@class="board-wrapper"]/dd/div//p[@class="star"]/text()')]  #主演             #列表推导式去除特殊字符
      release_time=[j.strip()[5:15] for j in html.xpath('//dl[@class="board-wrapper"]/dd/div//p[@class="releasetime"]/text()')] #上映时间
      integer=html.xpath('//dl[@class="board-wrapper"]/dd/div//p[@class="score"]/i[1]/text()')
      fraction=html.xpath('//dl[@class="board-wrapper"]/dd/div//p[@class="score"]/i[2]/text()')    #评分
      rdata=list(map(lambda x:(index[x],title[x],star[x],release_time[x],integer[x]+fraction[x]),range(len(index))))
      data=pd.DataFrame(rdata)
      return data
except Exception as e:
      return None

#写入csv文件
def write_to_file(data):
header=['排名','电影名','主演','上映时间','评分']
data.to_csv(r'C:\Users\Danta\Desktop\maoyandianying.csv',header=header,index=0,mode="a",encoding='ANSI')

def main(page):
data=pd.DataFrame()
for i in range(page):
      url='https://maoyan.com/board/4?offset='+str(i*10)
      data=data.append(get_page(url))
      time.sleep(2)
      print('第'+str(i+1)+'页爬取成功'+'\n')
write_to_file(data)
print('\n'+'写入完成')

if __name__=='__main__':
main(10)

账号		自动登录	找回密码
密码			立即注册

小白初写爬虫导出数据空白

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块