爬贴吧,Python交流,编程语言专区,鱼C论坛

jump_p 发表于 2020-6-14 11:36:09

爬贴吧

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import urlencode

def get_html(url):
headers = {'User-Agent': UserAgent().random}
request = Request(url,headers=headers)
response = urlopen(request)
return response.read()

def save_html(filename, html_bytes):
with open(filename ,'wb') as f:
   f.write(html_bytes)

def main():
content = input("请输入要下载的内容：")
num = input("请输入要下载多少页：")
base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
for pn in range(int(num)):
   args={
         "pn": pn * 50,
         "kw": content
   }
   filename = "第" + str(pn+1) + "页.html"
   args = urlencode(args)
   print("正在下载"+filename)
   html_bytes = get_html(base_url.format(args))
   save_html(filename, html_bytes)

if __name__ == '__main__':
main()

为啥成功爬下来的HTML文件打开后没内容呢。。。

Twilight6 发表于 2020-6-14 11:41:00

嘿嘿我们看的一个b站教程{:10_297:}

jump_p 发表于 2020-6-14 11:42:38

Twilight6 发表于 2020-6-14 11:41
嘿嘿我们看的一个b站教程

就是你推荐我的那个{:10_273:}

Twilight6 发表于 2020-6-14 11:43:40

jump_p 发表于 2020-6-14 11:42
就是你推荐我的那个

哈哈，我当时爬也是不显示内容的就只有几个简单的字

你爬的一点内容都没嘛

suchocolate 发表于 2020-6-14 11:53:20

我用你的代码运行正常，里面有内容。

jump_p 发表于 2020-6-14 11:58:23

suchocolate 发表于 2020-6-14 11:53
我用你的代码运行正常，里面有内容。

嗯？正常显示吗

suchocolate 发表于 2020-6-14 12:02:51

文件有内容

jump_p 发表于 2020-6-14 12:37:12

suchocolate 发表于 2020-6-14 12:02
文件有内容

真的可以！从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的？

suchocolate 发表于 2020-6-14 14:55:06

jump_p 发表于 2020-6-14 12:37
真的可以！从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的？
右键你想放到右边的代码，选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
恢复的话选择【Unsplit】。

jump_p 发表于 2020-6-14 15:28:32

suchocolate 发表于 2020-6-14 14:55
右键你想放到右边的代码，选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
...

{:10_275:}

页: [1]

鱼C论坛's Archiver

爬贴吧