[已解决]关于爬图片更换page的疑问

zjh100 · 发表于 2020-5-30 09:59:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我企图爬百度贴吧，代码在单一page 已经可以运行，然而一面只有30张图
我需要更换page
但是无论在搜索引擎上看第二页网址，还是通过审查元素去看，都好像与第一页没有区别
求教

最佳答案

月排行榜 / 总排行榜

Twilight6

2020-5-30 10:04:16

用for循环，50*page 作为url 来访问

给你看下当时我爬的代码：

from urllib.request import Request,urlopen

from urllib.parse import urlencode

from fake_useragent import UserAgent

def get_html(url):

headers = {

      'User-Agent':UserAgent().chrome

}

request = Request(url,headers=headers)

response = urlopen(request)

return response.read()

def save_html(filename,html_bytes):

with open(filename,'wb') as f :

      f.write(html_bytes)

def main():

content = input('请输入要下载的内容：')

while True:

      try:

         num = int(input('请输入要下载多少页：'))

         break

      except TypeError:

         print('你输入的页数不是整数！请重新输入！')

base_url = 'https://tieba.baidu.com/f?ie=utf-8&{}'

for pn in range(num):

      args = {

         'pn':pn*50,

         'kw':content,

      }

      filename = '第'+str(pn + 1)+'页.html'

      args = urlencode(args)

      print('正在下载'+filename)

      html_bytes = get_html(base_url.format(args))

      save_html(filename,html_bytes)

if __name__ == '__main__' :

main()
复制代码

跳转到最佳答案楼层

Twilight6 · 发表于 2020-5-30 10:04:16

这个最佳答案由 Twilight6 给出，感谢 Twilight6 的回答。

单击隐藏图章

用for循环，50*page 作为url 来访问

给你看下当时我爬的代码：

from urllib.request import Request,urlopen

from urllib.parse import urlencode

from fake_useragent import UserAgent

def get_html(url):

headers = {

      'User-Agent':UserAgent().chrome

}

request = Request(url,headers=headers)

response = urlopen(request)

return response.read()

def save_html(filename,html_bytes):

with open(filename,'wb') as f :

      f.write(html_bytes)

def main():

content = input('请输入要下载的内容：')

while True:

      try:

         num = int(input('请输入要下载多少页：'))

         break

      except TypeError:

         print('你输入的页数不是整数！请重新输入！')

base_url = 'https://tieba.baidu.com/f?ie=utf-8&{}'

for pn in range(num):

      args = {

         'pn':pn*50,

         'kw':content,

      }

      filename = '第'+str(pn + 1)+'页.html'

      args = urlencode(args)

      print('正在下载'+filename)

      html_bytes = get_html(base_url.format(args))

      save_html(filename,html_bytes)

if __name__ == '__main__' :

main()
复制代码

zjh100 · 发表于 2020-5-30 11:31:56

Twilight6 发表于 2020-5-30 10:04
用for循环，50*page 作为url 来访问

给你看下当时我爬的代码：

这个pn在哪里看啊？还是都是50一面？

Twilight6 · 发表于 2020-5-30 11:41:39

zjh100 发表于 2020-5-30 11:31
这个pn在哪里看啊？还是都是50一面？

直接在页码那右击审核元素，它直接会现实到相应位置的从链接可以看出 50 是第一页 100就是第二页这种规律

zjh100 · 发表于 2020-5-30 11:52:16

Twilight6 发表于 2020-5-30 10:04
用for循环，50*page 作为url 来访问

给你看下当时我爬的代码：

我知道咋回事了，我找到了pn,办成了，但是我还没用正则表达式，完全运用list,一旦图片大了，修改了格式就不行，这就去学（为啥每次都是DL你为我解惑

）谢谢啦

Twilight6 · 发表于 2020-5-30 12:14:13

zjh100 发表于 2020-5-30 11:52
我知道咋回事了，我找到了pn,办成了，但是我还没用正则表达式，完全运用list,一旦图片大了，修改了格式就 ...

能帮助到你就好~

登录/注册后可看大图

账号		自动登录	找回密码
密码			立即注册