鱼C论坛

 找回密码
 立即注册
查看: 2570|回复: 5

[已解决]怎么爬取网页上的TXT文件

[复制链接]
发表于 2021-7-10 15:53:12 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
RT

我有一个网页上的txt,不知道怎么爬取下来

url:    https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt

单单一本的话直接手工下载就可以了,如果批量要怎么做呢

辛苦各位大佬抽空看看哦

最佳答案
2021-7-10 16:05:00

直接读取 url ,二进制写入文件即可,参考代码:
import requests

txt = requests.get('https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt')
with open('test.txt', 'wb') as f:
    f.write(txt.content)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-10 16:05:00 | 显示全部楼层    本楼为最佳答案   

直接读取 url ,二进制写入文件即可,参考代码:
import requests

txt = requests.get('https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt')
with open('test.txt', 'wb') as f:
    f.write(txt.content)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-10 16:16:28 | 显示全部楼层
你上面的网站 https://xiazai.xqishu.com 我打开后提示“恭喜站点创建成功”,看不了里面到底是什么样的情况,若是单单https://xiazai.xqishu.com/txt/%E ... %A7%98%E5%AE%9D.txt,楼上已经给出明确答案了,如果是批量下载多本小说,那就要考虑下循环
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-10 16:17:36 | 显示全部楼层
Twilight6 发表于 2021-7-10 16:05
直接读取 url ,二进制写入文件即可,参考代码:

谢谢大佬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-11 10:44:47 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-11 11:23:21 | 显示全部楼层
doc文件也能用这个爬下来嘛?我最近也在写这玩意Qrz
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-14 19:25

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表