鱼C论坛

 找回密码
 立即注册
查看: 1581|回复: 4

[已解决]遇到没有尾页的网站,除了for循环有没有其它方法?

[复制链接]
发表于 2020-7-17 12:04:43 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
遇到没有尾页的网站,除了for循环有没有其它方法?有尾页时我可以定位总页数,但是没有尾页时,我只能肉眼观察总页数,请问有没有更好的方法?
  1. import requests
  2. from lxml import etree
  3. import os
  4. if not os.path.exists('c:/视频'):
  5.     os.mkdir('c:/视频')
  6. url =  'https://www.qiushibaike.com/video/'
  7. UA = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
  8. r1 = requests.get(url=url,headers=UA).text
  9. e1 = etree.HTML(r1)
  10. j = 0
  11. for i in range(1,14):
  12.     if i == 1:
  13.         url = 'https://www.qiushibaike.com/video/'
  14.     else:
  15.         url = 'https://www.qiushibaike.com/video/'+ 'page/'+ str(i) +'/'
  16.     r1 = requests.get(url=url, headers=UA).text
  17.     e1 = etree.HTML(r1)
  18.     mp4 = e1.xpath('//div[@class = "col1 old-style-col1"]//source/@src')

  19.     for mp4 in mp4:
  20.         mp4 = 'https:'+mp4
  21.         j += 1
  22.         后缀 = mp4.split('.')[-1]
  23.         文件路径 = 'c:/视频/'+ str(j) +'.'+后缀
  24.         r1 = requests.get(url=mp4, headers=UA).content
  25.         with open(文件路径,'wb') as fp:
  26.             fp.write(r1)
  27.             print(f'第{j}个视频','下载成功!!!')
复制代码
最佳答案
2020-7-17 12:12:03


爬出页码呗:

  1. import requests
  2. from lxml import etree
  3. import os
  4. if not os.path.exists('c:/视频'):
  5.     os.mkdir('c:/视频')
  6. url =  'https://www.qiushibaike.com/video/'
  7. UA = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
  8. r1 = requests.get(url=url,headers=UA).text
  9. e1 = etree.HTML(r1)
  10. j = 0
  11. all_age = int(e1.xpath(r'//a/span/text()')[-2][1:-1])
  12. for i in range(1,all_age+1):
  13.     if i == 1:
  14.         url = 'https://www.qiushibaike.com/video/'
  15.     else:
  16.         url = 'https://www.qiushibaike.com/video/'+ 'page/'+ str(i) +'/'
  17.     r1 = requests.get(url=url, headers=UA).text
  18.     e1 = etree.HTML(r1)
  19.     mp4 = e1.xpath('//div[@class = "col1 old-style-col1"]//source/@src')

  20.     for mp4 in mp4:
  21.         mp4 = 'https:'+mp4
  22.         j += 1
  23.         后缀 = mp4.split('.')[-1]
  24.         文件路径 = 'c:/视频/'+ str(j) +'.'+后缀
  25.         r1 = requests.get(url=mp4, headers=UA).content
  26.         with open(文件路径,'wb') as fp:
  27.             fp.write(r1)
  28.             print(f'第{j}个视频','下载成功!!!')
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-7-17 12:12:03 | 显示全部楼层    本楼为最佳答案   


爬出页码呗:

  1. import requests
  2. from lxml import etree
  3. import os
  4. if not os.path.exists('c:/视频'):
  5.     os.mkdir('c:/视频')
  6. url =  'https://www.qiushibaike.com/video/'
  7. UA = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
  8. r1 = requests.get(url=url,headers=UA).text
  9. e1 = etree.HTML(r1)
  10. j = 0
  11. all_age = int(e1.xpath(r'//a/span/text()')[-2][1:-1])
  12. for i in range(1,all_age+1):
  13.     if i == 1:
  14.         url = 'https://www.qiushibaike.com/video/'
  15.     else:
  16.         url = 'https://www.qiushibaike.com/video/'+ 'page/'+ str(i) +'/'
  17.     r1 = requests.get(url=url, headers=UA).text
  18.     e1 = etree.HTML(r1)
  19.     mp4 = e1.xpath('//div[@class = "col1 old-style-col1"]//source/@src')

  20.     for mp4 in mp4:
  21.         mp4 = 'https:'+mp4
  22.         j += 1
  23.         后缀 = mp4.split('.')[-1]
  24.         文件路径 = 'c:/视频/'+ str(j) +'.'+后缀
  25.         r1 = requests.get(url=mp4, headers=UA).content
  26.         with open(文件路径,'wb') as fp:
  27.             fp.write(r1)
  28.             print(f'第{j}个视频','下载成功!!!')
复制代码

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
jjxx2005 + 5 + 5 + 3

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2020-7-17 12:58:27 | 显示全部楼层

感谢版主,另外有个问题像您咨询
all_age = int(e1.xpath(r'//a/span/text()')[-2][1:-1])

[-2]是取下标的倒数第2个,但是后面的切片我不太懂 [1:-1]
我发现
e1.xpath(r'//a/span/text()')[-2]   在页号上面有一个空行
但是按您的方法写成e1.xpath(r'//a/span/text()')[-2][1:-1] 空行就消失了  这个切片是什么原理? 谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-17 15:37:00 | 显示全部楼层
jjxx2005 发表于 2020-7-17 12:58
感谢版主,另外有个问题像您咨询
all_age = int(e1.xpath(r'//a/span/text()')[-2][1:-1])

因为这里有两个不可见字符  比如  '\n13\n' 我切片 [1:-1] 就是把不可见字符给去掉了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-7-17 16:05:14 | 显示全部楼层
Twilight6 发表于 2020-7-17 15:37
因为这里有两个不可见字符  比如  '\n13\n' 我切片 [1:-1] 就是把不可见字符给去掉了

谢谢回复明白了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-23 17:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表