鱼C论坛

 找回密码
 立即注册
查看: 1096|回复: 9

[已解决]爬贴吧

[复制链接]
发表于 2020-6-14 11:36:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import urlencode

def get_html(url):
    headers = {'User-Agent': UserAgent().random}
    request = Request(url,headers=headers)
    response = urlopen(request)
    return response.read()

def save_html(filename, html_bytes):
    with open(filename ,'wb') as f:
        f.write(html_bytes)

def main():
    content = input("请输入要下载的内容:")
    num = input("请输入要下载多少页:")
    base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
    for pn in range(int(num)):
        args={
            "pn": pn * 50,
            "kw": content
        }
        filename = "第" + str(pn+1) + "页.html"
        args = urlencode(args)
        print("正在下载"+filename)
        html_bytes = get_html(base_url.format(args))
        save_html(filename, html_bytes)

if __name__ == '__main__':
    main()

为啥成功爬下来的HTML文件打开后没内容呢。。。
最佳答案
2020-6-14 12:02:51
文件有内容
4.png

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-14 11:41:00 | 显示全部楼层
嘿嘿  我们看的一个b站教程
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 11:42:38 | 显示全部楼层
Twilight6 发表于 2020-6-14 11:41
嘿嘿  我们看的一个b站教程

就是你推荐我的那个
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 11:43:40 | 显示全部楼层
jump_p 发表于 2020-6-14 11:42
就是你推荐我的那个

哈哈,我当时爬也是不显示内容的 就只有几个简单的字

你爬的一点内容都没嘛
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 11:53:20 | 显示全部楼层
我用你的代码运行正常,里面有内容。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 11:58:23 | 显示全部楼层
suchocolate 发表于 2020-6-14 11:53
我用你的代码运行正常,里面有内容。


嗯?正常显示吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 12:02:51 | 显示全部楼层    本楼为最佳答案   
文件有内容
4.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 12:37:12 | 显示全部楼层

真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 14:55:06 | 显示全部楼层
jump_p 发表于 2020-6-14 12:37
真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的?

右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
恢复的话选择【Unsplit】。
5.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 15:28:32 | 显示全部楼层
suchocolate 发表于 2020-6-14 14:55
右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
...

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-21 23:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表