jtxs0000 发表于 2021-7-10 15:53:12

怎么爬取网页上的TXT文件

RT

我有一个网页上的txt,不知道怎么爬取下来{:10_245:}

url:    https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt

单单一本的话直接手工下载就可以了,如果批量要怎么做呢

辛苦各位大佬抽空看看哦{:10_256:}

Twilight6 发表于 2021-7-10 16:05:00


直接读取 url ,二进制写入文件即可,参考代码:

import requests

txt = requests.get('https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt')
with open('test.txt', 'wb') as f:
    f.write(txt.content)

大马强 发表于 2021-7-10 16:16:28

你上面的网站 https://xiazai.xqishu.com 我打开后提示“恭喜站点创建成功”,看不了里面到底是什么样的情况,若是单单https://xiazai.xqishu.com/txt/%E5%8E%9F%E7%95%8C%E7%A7%98%E5%AE%9D.txt,楼上已经给出明确答案了,如果是批量下载多本小说,那就要考虑下循环

jtxs0000 发表于 2021-7-10 16:17:36

Twilight6 发表于 2021-7-10 16:05
直接读取 url ,二进制写入文件即可,参考代码:

谢谢大佬{:10_281:}

Kayko 发表于 2021-7-11 10:44:47

{:10_254:}

xsszz 发表于 2021-7-11 11:23:21

doc文件也能用这个爬下来嘛?我最近也在写这玩意Qrz
页: [1]
查看完整版本: 怎么爬取网页上的TXT文件