[已解决]列表取值问题

风陵渡口杨过 · 发表于 2020-2-3 16:30:54

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

目标是爬取百度贴吧的图片，以下是代码
import requests
from bs4 import BeautifulSoup
r = requests.get("http://tieba.baidu.com/p/6448831426")
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('cc'):
links = link.find_all('img')
print(links)

输出接果如图，另外还有一个问题就是png格式的图片可以爬吗，为什么我爬不下来

最佳答案

月排行榜 / 总排行榜

zltzlt

2020-2-3 16:58:13

风陵渡口杨过发表于 2020-2-3 16:57
我这样加的反斜杠，也不对
File "", line 9
print(re.findall(r"", str(links)

它自己把反斜杠吃了……应该这样：

import requests
import re
from bs4 import BeautifulSoup
r = requests.get("http://tieba.baidu.com/p/6448831426")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('cc'):
links = link.find_all('img')
print(re.findall(r"<img.*src=\"(.*?)\".*>", str(links)))

复制代码

跳转到最佳答案楼层

zltzlt · 发表于 2020-2-3 16:37:05

用正则可以直接获取到图片链接

import requests
import re
from bs4 import BeautifulSoup
r = requests.get("http://tieba.baidu.com/p/6448831426")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('cc'):
links = link.find_all('img')
print(re.findall(r"<img.*src="(.*?)".*>", str(links)))

复制代码

保存图片直接用 open() 然后 write()。

风陵渡口杨过 · 发表于 2020-2-3 16:47:58

zltzlt 发表于 2020-2-3 16:37
用正则可以直接获取到图片链接

我这运行出现了错误
File "<input>", line 9
print(re.findall(r"<img.*src="(.*?)".*>", str(links)))
^
SyntaxError: invalid syntax

zltzlt · 发表于 2020-2-3 16:49:23

风陵渡口杨过发表于 2020-2-3 16:47
我这运行出现了错误
File "", line 9
print(re.findall(r"", str(links)))

少了两个反斜杠。这样试试：

import requests
import re
from bs4 import BeautifulSoup
r = requests.get("http://tieba.baidu.com/p/6448831426")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('cc'):
links = link.find_all('img')
print(re.findall(r"<img.*src="(.*?)".*>", str(links)))

复制代码

风陵渡口杨过 · 发表于 2020-2-3 16:57:26

zltzlt 发表于 2020-2-3 16:49
少了两个反斜杠。这样试试：

我这样加的反斜杠，也不对
File "<input>", line 9
print(re.findall(r"<img.*src="(\.*?)"\.*>", str(links)
^
SyntaxError: unexpected character after line continuation character

zltzlt · 发表于 2020-2-3 16:58:13

这个最佳答案由 zltzlt 给出，感谢 zltzlt 的回答。

单击隐藏图章

风陵渡口杨过发表于 2020-2-3 16:57
我这样加的反斜杠，也不对
File "", line 9
print(re.findall(r"", str(links)

它自己把反斜杠吃了……应该这样：

import requests
import re
from bs4 import BeautifulSoup
r = requests.get("http://tieba.baidu.com/p/6448831426")
demo = r.text
soup = BeautifulSoup(demo, "html.parser")
for link in soup.find_all('cc'):
links = link.find_all('img')
print(re.findall(r"<img.*src=\"(.*?)\".*>", str(links)))

复制代码

风陵渡口杨过 · 发表于 2020-2-3 17:31:48

zltzlt 发表于 2020-2-3 16:58
它自己把反斜杠吃了……应该这样：

厉害，太强了，出来结果了。

正则表达式真的学不明白，想问问正则表达式为什么是这样d

风陵渡口杨过 · 发表于 2020-2-3 19:37:57

zltzlt 发表于 2020-2-3 16:58
它自己把反斜杠吃了……应该这样：

麻烦你，我还有个问题，用正则表达式得到结果后仍然是多个列表，把链接取出来

wp231957 · 发表于 2020-2-3 19:42:32

风陵渡口杨过发表于 2020-2-3 19:37
麻烦你，我还有个问题，用正则表达式得到结果后仍然是多个列表，把链接取出来

把列表以文本方式发出来

风陵渡口杨过 · 发表于 2020-2-6 15:43:32

wp231957 发表于 2020-2-3 19:42
把列表以文本方式发出来

请问代码该怎么写

账号		自动登录	找回密码
密码			立即注册