jump_p 发表于 2020-6-14 11:36:09

爬贴吧

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import urlencode

def get_html(url):
    headers = {'User-Agent': UserAgent().random}
    request = Request(url,headers=headers)
    response = urlopen(request)
    return response.read()

def save_html(filename, html_bytes):
    with open(filename ,'wb') as f:
      f.write(html_bytes)

def main():
    content = input("请输入要下载的内容:")
    num = input("请输入要下载多少页:")
    base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
    for pn in range(int(num)):
      args={
            "pn": pn * 50,
            "kw": content
      }
      filename = "第" + str(pn+1) + "页.html"
      args = urlencode(args)
      print("正在下载"+filename)
      html_bytes = get_html(base_url.format(args))
      save_html(filename, html_bytes)

if __name__ == '__main__':
    main()



为啥成功爬下来的HTML文件打开后没内容呢。。。

Twilight6 发表于 2020-6-14 11:41:00

嘿嘿我们看的一个b站教程{:10_297:}

jump_p 发表于 2020-6-14 11:42:38

Twilight6 发表于 2020-6-14 11:41
嘿嘿我们看的一个b站教程

就是你推荐我的那个{:10_273:}

Twilight6 发表于 2020-6-14 11:43:40

jump_p 发表于 2020-6-14 11:42
就是你推荐我的那个

哈哈,我当时爬也是不显示内容的 就只有几个简单的字

你爬的一点内容都没嘛

suchocolate 发表于 2020-6-14 11:53:20

我用你的代码运行正常,里面有内容。

jump_p 发表于 2020-6-14 11:58:23

suchocolate 发表于 2020-6-14 11:53
我用你的代码运行正常,里面有内容。

嗯?正常显示吗

suchocolate 发表于 2020-6-14 12:02:51

文件有内容

jump_p 发表于 2020-6-14 12:37:12

suchocolate 发表于 2020-6-14 12:02
文件有内容

真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的?

suchocolate 发表于 2020-6-14 14:55:06

jump_p 发表于 2020-6-14 12:37
真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的?
右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
恢复的话选择【Unsplit】。

jump_p 发表于 2020-6-14 15:28:32

suchocolate 发表于 2020-6-14 14:55
右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
...

{:10_275:}
页: [1]
查看完整版本: 爬贴吧