鱼C论坛

 找回密码
 立即注册
查看: 1618|回复: 6

[已解决]豆瓣爬TOP250的问题,我用的是xpath

[复制链接]
发表于 2020-12-1 21:43:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import requests
  2. from lxml import etree


  3. headers = {
  4.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
  5.     'Cookie':'ll="108314"; bid=_LAWkGgi1Js; ct=y; __yadk_uid=89YZlsdVstEBGt8rNf4innJ79Hi3mosn; __gads=ID=92c5f47901f551a0-22f530c6f2c40037:T=1606531304:RT=1606531304:S=ALNI_Mae6Hq1eo6RkR_9HRim4ml_HoEYRg; __utmc=30149280; __utmz=30149280.1606727878.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmc=223695111; __utmz=223695111.1606727878.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; _vwo_uuid_v2=D30C7E4BAE9F96458B12515507FA532DC|b7a3a014f000afb51be010698c310b59; __utma=30149280.1401849356.1606469592.1606797311.1606801152.10; __utmb=30149280.0.10.1606801152; __utma=223695111.352245982.1606469592.1606797311.1606801152.10; __utmb=223695111.0.10.1606801152; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1606801152%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3D9C40AoCTrSNIfGCVB3nwTgy1k-fMWS3e2H0qSiDrPdvEzWRxS1RD8d937yYKIajE%26wd%3D%26eqid%3D8b4f698a0001959a000000035fc4b8c1%22%5D; _pk_ses.100001.4cf6=*; ap_v=0,6.0; _pk_id.100001.4cf6=3e8dbc93b7d06862.1606469591.10.1606801589.1606798873.'
  6. }

  7. urls = []
  8.    
  9. for i in range(0,10,1):
  10.     i = i*25
  11.     url = 'https://movie.douban.com/top250?start={}'.format(i)
  12.     urls.append(url)
  13.    

  14. movies =[]
  15. m = []
  16. x = 0
  17. for url in urls:
  18.     response = requests.get(url=url,headers = headers)
  19.     content = response.content.decode('utf8')
  20.     html = etree.HTML(content)
  21.    
  22.     mingcheng = html.xpath('//div[@class="hd"]/a/span[1]/text()')

  23.     daoyan = html.xpath('//div[@class="bd"]/p[1]/text()[1]')

  24.     pingfen = html.xpath('//div/span[@class="rating_num"]/text()')

  25.     jianjie = html.xpath('//p[@class="quote"]/span/text()')
  26.    
  27.    
  28.     for mingcheng,daoyan,pingfen,jianjie in zip(mingcheng,daoyan,pingfen,jianjie):
  29.         movies = {}
  30.         movies = {
  31.             'mingcheng' : mingcheng,
  32.             'daoyan' : daoyan,
  33.             'pingfen' : pingfen,
  34.             'jianjie' : jianjie
  35.             }
  36.         m.append(movies)
  37.         x += 1
  38.         print('正在加载第%d个' % x )
复制代码




为什么爬到第243个就停止了,不应该把这10个网页都爬完吗?
求大神解答
最佳答案
2020-12-2 09:53:52
quote有的没有内容,缺少东西容易造成数据不齐。这个适合把每部的li各自过xpath:

  1. import requests
  2. from lxml import etree
  3. import json


  4. def main():
  5.     headers = {
  6.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
  7.         'Cookie': 'll="108314"; bid=_LAWkGgi1Js; ct=y; __yadk_uid=89YZlsdVstEBGt8rNf4innJ79Hi3mosn; __gads=ID=92c5f47901f551a0-22f530c6f2c40037:T=1606531304:RT=1606531304:S=ALNI_Mae6Hq1eo6RkR_9HRim4ml_HoEYRg; __utmc=30149280; __utmz=30149280.1606727878.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmc=223695111; __utmz=223695111.1606727878.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; _vwo_uuid_v2=D30C7E4BAE9F96458B12515507FA532DC|b7a3a014f000afb51be010698c310b59; __utma=30149280.1401849356.1606469592.1606797311.1606801152.10; __utmb=30149280.0.10.1606801152; __utma=223695111.352245982.1606469592.1606797311.1606801152.10; __utmb=223695111.0.10.1606801152; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1606801152%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3D9C40AoCTrSNIfGCVB3nwTgy1k-fMWS3e2H0qSiDrPdvEzWRxS1RD8d937yYKIajE%26wd%3D%26eqid%3D8b4f698a0001959a000000035fc4b8c1%22%5D; _pk_ses.100001.4cf6=*; ap_v=0,6.0; _pk_id.100001.4cf6=3e8dbc93b7d06862.1606469591.10.1606801589.1606798873.'
  8.     }
  9.     movies = []
  10.     num = 1
  11.     for i in range(10):
  12.         n = i * 25
  13.         url = f'https://movie.douban.com/top250?start={n}'
  14.         r = requests.get(url=url, headers=headers)
  15.         html = etree.HTML(r.text)
  16.         lis = html.xpath('//ol/li')
  17.         for li in lis:
  18.             rank = li.xpath('./div/div[1]/em/text()')[0]
  19.             name = li.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]
  20.             # print(name)
  21.             director = li.xpath('normalize-space(./div/div[2]/div[2]/p/text()[1])')
  22.             # print(director)
  23.             score = li.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]
  24.             # print(score)
  25.             quote = li.xpath('./div/div[2]/div[2]/p[2]/span/text()')
  26.             if not quote:
  27.                 quote = ['暂无']
  28.             m = {'rank': rank, 'name': name, 'director': director, 'score': score, 'quote': quote[0]}
  29.             movies.append(m)
  30.             print(f'已添加{name}, 共添加{num}部。')
  31.             num += 1
  32.     with open('movie.json', 'w', encoding='utf-8') as f:
  33.         f.write(json.dumps(movies, indent=2, ensure_ascii=False))


  34. if __name__ == '__main__':
  35.     main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-12-2 01:37:43 | 显示全部楼层
豆瓣top250中有些电影没有简介。zip函数,当两个列表长度不同的时候,比如其中某个值为空(少一个值),就无法进行正常组合。可以使用itertools模块的zip_longest函数解决这个问题。
模块导入后将zip改为zip_longest就行。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-12-2 09:48:17 | 显示全部楼层
本帖最后由 suchocolate 于 2020-12-2 17:22 编辑

我发重了,内容在楼下。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-12-2 09:53:52 | 显示全部楼层    本楼为最佳答案   
quote有的没有内容,缺少东西容易造成数据不齐。这个适合把每部的li各自过xpath:

  1. import requests
  2. from lxml import etree
  3. import json


  4. def main():
  5.     headers = {
  6.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
  7.         'Cookie': 'll="108314"; bid=_LAWkGgi1Js; ct=y; __yadk_uid=89YZlsdVstEBGt8rNf4innJ79Hi3mosn; __gads=ID=92c5f47901f551a0-22f530c6f2c40037:T=1606531304:RT=1606531304:S=ALNI_Mae6Hq1eo6RkR_9HRim4ml_HoEYRg; __utmc=30149280; __utmz=30149280.1606727878.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmc=223695111; __utmz=223695111.1606727878.7.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; _vwo_uuid_v2=D30C7E4BAE9F96458B12515507FA532DC|b7a3a014f000afb51be010698c310b59; __utma=30149280.1401849356.1606469592.1606797311.1606801152.10; __utmb=30149280.0.10.1606801152; __utma=223695111.352245982.1606469592.1606797311.1606801152.10; __utmb=223695111.0.10.1606801152; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1606801152%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3D9C40AoCTrSNIfGCVB3nwTgy1k-fMWS3e2H0qSiDrPdvEzWRxS1RD8d937yYKIajE%26wd%3D%26eqid%3D8b4f698a0001959a000000035fc4b8c1%22%5D; _pk_ses.100001.4cf6=*; ap_v=0,6.0; _pk_id.100001.4cf6=3e8dbc93b7d06862.1606469591.10.1606801589.1606798873.'
  8.     }
  9.     movies = []
  10.     num = 1
  11.     for i in range(10):
  12.         n = i * 25
  13.         url = f'https://movie.douban.com/top250?start={n}'
  14.         r = requests.get(url=url, headers=headers)
  15.         html = etree.HTML(r.text)
  16.         lis = html.xpath('//ol/li')
  17.         for li in lis:
  18.             rank = li.xpath('./div/div[1]/em/text()')[0]
  19.             name = li.xpath('./div/div[2]/div[1]/a/span[1]/text()')[0]
  20.             # print(name)
  21.             director = li.xpath('normalize-space(./div/div[2]/div[2]/p/text()[1])')
  22.             # print(director)
  23.             score = li.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]
  24.             # print(score)
  25.             quote = li.xpath('./div/div[2]/div[2]/p[2]/span/text()')
  26.             if not quote:
  27.                 quote = ['暂无']
  28.             m = {'rank': rank, 'name': name, 'director': director, 'score': score, 'quote': quote[0]}
  29.             movies.append(m)
  30.             print(f'已添加{name}, 共添加{num}部。')
  31.             num += 1
  32.     with open('movie.json', 'w', encoding='utf-8') as f:
  33.         f.write(json.dumps(movies, indent=2, ensure_ascii=False))


  34. if __name__ == '__main__':
  35.     main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-12-3 19:40:51 | 显示全部楼层
YunGuo 发表于 2020-12-2 01:37
豆瓣top250中有些电影没有简介。zip函数,当两个列表长度不同的时候,比如其中某个值为空(少一个值),就 ...

谢啦,发现问题了,我把最佳给下面的大神啦,你俩都说的对
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-12-3 19:42:00 | 显示全部楼层
suchocolate 发表于 2020-12-2 09:53
quote有的没有内容,缺少东西容易造成数据不齐。这个适合把每部的li各自过xpath:

大神写的代码好清楚,虽然是个刚入门的小白,但是基本看懂,后面的json没看懂,不过不要紧,在鱼c上学习学习就会了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-30 13:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表