怎么爬取网页上的TXT文件,Python交流,编程语言专区,鱼C论坛

jtxs0000 发表于 2021-7-10 15:53:12

怎么爬取网页上的TXT文件

RT

我有一个网页上的txt，不知道怎么爬取下来{:10_245:}

url: https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt

单单一本的话直接手工下载就可以了，如果批量要怎么做呢

辛苦各位大佬抽空看看哦{:10_256:}

Twilight6 发表于 2021-7-10 16:05:00

直接读取 url ，二进制写入文件即可，参考代码：

import requests

txt = requests.get('https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt')
with open('test.txt', 'wb') as f:
f.write(txt.content)

大马强 发表于 2021-7-10 16:16:28

你上面的网站 https://xiazai.xqishu.com 我打开后提示“恭喜站点创建成功”，看不了里面到底是什么样的情况，若是单单https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt，楼上已经给出明确答案了，如果是批量下载多本小说，那就要考虑下循环

jtxs0000 发表于 2021-7-10 16:17:36

Twilight6 发表于 2021-7-10 16:05
直接读取 url ，二进制写入文件即可，参考代码：

谢谢大佬{:10_281:}

Kayko 发表于 2021-7-11 10:44:47

{:10_254:}

xsszz 发表于 2021-7-11 11:23:21

doc文件也能用这个爬下来嘛？我最近也在写这玩意Qrz

页: [1]

鱼C论坛's Archiver

怎么爬取网页上的TXT文件