鱼C论坛

 找回密码
 立即注册
查看: 1329|回复: 9

[已解决]爬贴吧

[复制链接]
发表于 2020-6-14 11:36:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. from urllib.request import Request,urlopen
  2. from fake_useragent import UserAgent
  3. from urllib.parse import urlencode

  4. def get_html(url):
  5.     headers = {'User-Agent': UserAgent().random}
  6.     request = Request(url,headers=headers)
  7.     response = urlopen(request)
  8.     return response.read()

  9. def save_html(filename, html_bytes):
  10.     with open(filename ,'wb') as f:
  11.         f.write(html_bytes)

  12. def main():
  13.     content = input("请输入要下载的内容:")
  14.     num = input("请输入要下载多少页:")
  15.     base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
  16.     for pn in range(int(num)):
  17.         args={
  18.             "pn": pn * 50,
  19.             "kw": content
  20.         }
  21.         filename = "第" + str(pn+1) + "页.html"
  22.         args = urlencode(args)
  23.         print("正在下载"+filename)
  24.         html_bytes = get_html(base_url.format(args))
  25.         save_html(filename, html_bytes)

  26. if __name__ == '__main__':
  27.     main()

复制代码


为啥成功爬下来的HTML文件打开后没内容呢。。。
最佳答案
2020-6-14 12:02:51
文件有内容
4.png

本帖被以下淘专辑推荐:

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-6-14 11:41:00 | 显示全部楼层
嘿嘿  我们看的一个b站教程
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 11:42:38 | 显示全部楼层
Twilight6 发表于 2020-6-14 11:41
嘿嘿  我们看的一个b站教程

就是你推荐我的那个
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 11:43:40 | 显示全部楼层
jump_p 发表于 2020-6-14 11:42
就是你推荐我的那个

哈哈,我当时爬也是不显示内容的 就只有几个简单的字

你爬的一点内容都没嘛
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 11:53:20 | 显示全部楼层
我用你的代码运行正常,里面有内容。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 11:58:23 | 显示全部楼层
suchocolate 发表于 2020-6-14 11:53
我用你的代码运行正常,里面有内容。


嗯?正常显示吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 12:02:51 | 显示全部楼层    本楼为最佳答案   
文件有内容
4.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 12:37:12 | 显示全部楼层

真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 14:55:06 | 显示全部楼层
jump_p 发表于 2020-6-14 12:37
真的可以!从你右边这个文件里选择浏览器打开就有了。你这个左右显示的是怎么弄的?

右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
恢复的话选择【Unsplit】。
5.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-14 15:28:32 | 显示全部楼层
suchocolate 发表于 2020-6-14 14:55
右键你想放到右边的代码,选择【Split and move Right】。或者菜单栏【Windows】-【Edit Tabs】里也有。
...

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-19 13:39

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表