鱼C论坛

 找回密码
 立即注册
查看: 1024|回复: 5

[已解决]关于爬图片更换page的疑问

[复制链接]
发表于 2020-5-30 09:59:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我企图爬百度贴吧,代码在单一page 已经可以运行,然而一面只有30张图
我需要更换page
但是无论在搜索引擎上看第二页网址,还是通过审查元素去看,都好像与第一页没有区别
求教
最佳答案
2020-5-30 10:04:16
for.png

用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:
  1. from urllib.request import Request,urlopen
  2. from urllib.parse import urlencode
  3. from fake_useragent import UserAgent

  4. def get_html(url):
  5.     headers = {
  6.         'User-Agent':UserAgent().chrome
  7.     }
  8.     request = Request(url,headers=headers)
  9.     response = urlopen(request)
  10.     return response.read()

  11. def save_html(filename,html_bytes):

  12.     with open(filename,'wb') as f :
  13.         f.write(html_bytes)


  14. def main():
  15.     content = input('请输入要下载的内容:')
  16.     while True:
  17.         try:
  18.             num = int(input('请输入要下载多少页:'))
  19.             break
  20.         except TypeError:
  21.             print('你输入的页数不是整数!请重新输入!')
  22.     base_url = 'https://tieba.baidu.com/f?ie=utf-8&{}'
  23.     for pn in range(num):
  24.         args = {
  25.             'pn':pn*50,
  26.             'kw':content,
  27.         }
  28.         filename = '第'+str(pn + 1)+'页.html'
  29.         args = urlencode(args)
  30.         print('正在下载'+filename)
  31.         html_bytes = get_html(base_url.format(args))
  32.         save_html(filename,html_bytes)



  33. if __name__ == '__main__' :
  34.     main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-5-30 10:04:16 | 显示全部楼层    本楼为最佳答案   
for.png

用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:
  1. from urllib.request import Request,urlopen
  2. from urllib.parse import urlencode
  3. from fake_useragent import UserAgent

  4. def get_html(url):
  5.     headers = {
  6.         'User-Agent':UserAgent().chrome
  7.     }
  8.     request = Request(url,headers=headers)
  9.     response = urlopen(request)
  10.     return response.read()

  11. def save_html(filename,html_bytes):

  12.     with open(filename,'wb') as f :
  13.         f.write(html_bytes)


  14. def main():
  15.     content = input('请输入要下载的内容:')
  16.     while True:
  17.         try:
  18.             num = int(input('请输入要下载多少页:'))
  19.             break
  20.         except TypeError:
  21.             print('你输入的页数不是整数!请重新输入!')
  22.     base_url = 'https://tieba.baidu.com/f?ie=utf-8&{}'
  23.     for pn in range(num):
  24.         args = {
  25.             'pn':pn*50,
  26.             'kw':content,
  27.         }
  28.         filename = '第'+str(pn + 1)+'页.html'
  29.         args = urlencode(args)
  30.         print('正在下载'+filename)
  31.         html_bytes = get_html(base_url.format(args))
  32.         save_html(filename,html_bytes)



  33. if __name__ == '__main__' :
  34.     main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 11:31:56 | 显示全部楼层
Twilight6 发表于 2020-5-30 10:04
用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:

这个pn在哪里看啊?还是都是50一面?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 11:41:39 | 显示全部楼层
zjh100 发表于 2020-5-30 11:31
这个pn在哪里看啊?还是都是50一面?

直接在页码那右击审核元素,它直接会现实到相应位置的  从链接可以看出 50 是第一页   100就是第二页 这种规律
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 11:52:16 | 显示全部楼层
Twilight6 发表于 2020-5-30 10:04
用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:

我知道咋回事了,我找到了pn,办成了,但是我还没用正则表达式,完全运用list,一旦图片大了,修改了格式就不行,这就去学(为啥每次都是DL你为我解惑)谢谢啦
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 12:14:13 | 显示全部楼层
zjh100 发表于 2020-5-30 11:52
我知道咋回事了,我找到了pn,办成了,但是我还没用正则表达式,完全运用list,一旦图片大了,修改了格式就 ...

能帮助到你就好~

                               
登录/注册后可看大图
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-20 18:18

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表