鱼C论坛

 找回密码
 立即注册
查看: 876|回复: 5

[已解决]关于爬图片更换page的疑问

[复制链接]
发表于 2020-5-30 09:59:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我企图爬百度贴吧,代码在单一page 已经可以运行,然而一面只有30张图
我需要更换page
但是无论在搜索引擎上看第二页网址,还是通过审查元素去看,都好像与第一页没有区别
求教
最佳答案
2020-5-30 10:04:16
for.png

用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:
from urllib.request import Request,urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent

def get_html(url):
    headers = {
        'User-Agent':UserAgent().chrome
    }
    request = Request(url,headers=headers)
    response = urlopen(request)
    return response.read()

def save_html(filename,html_bytes):

    with open(filename,'wb') as f :
        f.write(html_bytes)


def main():
    content = input('请输入要下载的内容:')
    while True:
        try:
            num = int(input('请输入要下载多少页:'))
            break
        except TypeError:
            print('你输入的页数不是整数!请重新输入!')
    base_url = 'https://tieba.baidu.com/f?ie=utf-8&{}'
    for pn in range(num):
        args = {
            'pn':pn*50,
            'kw':content,
        }
        filename = '第'+str(pn + 1)+'页.html'
        args = urlencode(args)
        print('正在下载'+filename)
        html_bytes = get_html(base_url.format(args))
        save_html(filename,html_bytes)



if __name__ == '__main__' :
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-30 10:04:16 | 显示全部楼层    本楼为最佳答案   
for.png

用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:
from urllib.request import Request,urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent

def get_html(url):
    headers = {
        'User-Agent':UserAgent().chrome
    }
    request = Request(url,headers=headers)
    response = urlopen(request)
    return response.read()

def save_html(filename,html_bytes):

    with open(filename,'wb') as f :
        f.write(html_bytes)


def main():
    content = input('请输入要下载的内容:')
    while True:
        try:
            num = int(input('请输入要下载多少页:'))
            break
        except TypeError:
            print('你输入的页数不是整数!请重新输入!')
    base_url = 'https://tieba.baidu.com/f?ie=utf-8&{}'
    for pn in range(num):
        args = {
            'pn':pn*50,
            'kw':content,
        }
        filename = '第'+str(pn + 1)+'页.html'
        args = urlencode(args)
        print('正在下载'+filename)
        html_bytes = get_html(base_url.format(args))
        save_html(filename,html_bytes)



if __name__ == '__main__' :
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 11:31:56 | 显示全部楼层
Twilight6 发表于 2020-5-30 10:04
用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:

这个pn在哪里看啊?还是都是50一面?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 11:41:39 | 显示全部楼层
zjh100 发表于 2020-5-30 11:31
这个pn在哪里看啊?还是都是50一面?

直接在页码那右击审核元素,它直接会现实到相应位置的  从链接可以看出 50 是第一页   100就是第二页 这种规律
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 11:52:16 | 显示全部楼层
Twilight6 发表于 2020-5-30 10:04
用for循环,50*page 作为url 来访问

给你看下当时我爬的代码:

我知道咋回事了,我找到了pn,办成了,但是我还没用正则表达式,完全运用list,一旦图片大了,修改了格式就不行,这就去学(为啥每次都是DL你为我解惑)谢谢啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 12:14:13 | 显示全部楼层
zjh100 发表于 2020-5-30 11:52
我知道咋回事了,我找到了pn,办成了,但是我还没用正则表达式,完全运用list,一旦图片大了,修改了格式就 ...

能帮助到你就好~

                               
登录/注册后可看大图
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-21 00:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表