提取豆瓣前25个标题的信息遇到的问题

陶远航 · 发表于 2023-7-31 10:31:31

要剔除除了文字之外的其他信息，你可以使用正则表达式来提取纯文本。在你的代码中，将正则表达式 "(.*?)" 修改为 "(.*?)" 即可。修改后的代码如下：

import requests
import re
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.188"}
response = requests.get("https://movie.douban.com/top250", headers=headers)
a = re.findall("(.*?)", response.text, re.S)
for i in a:
print(i)

复制代码

这样修改后，你只会提取到标题的文本部分，而不包含其他的 HTML 标签或其他信息。希望对你有帮助！
如果问题已经解决，请设置最佳答案

账号		自动登录	找回密码
密码			立即注册