鱼C论坛

 找回密码
 立即注册
查看: 1926|回复: 9

[已解决]列表取值问题

[复制链接]
发表于 2020-2-3 16:30:54 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
目标是爬取百度贴吧的图片,以下是代码
import requests
from bs4 import BeautifulSoup
r = requests.get("http://tieba.baidu.com/p/6448831426")
demo = r.text
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('cc'):
    links = link.find_all('img')
    print(links)

输出接果如图,另外还有一个问题就是png格式的图片可以爬吗,为什么我爬不下来

最佳答案
2020-2-3 16:58:13
风陵渡口杨过 发表于 2020-2-3 16:57
我这样加的反斜杠,也不对
  File "", line 9
    print(re.findall(r"", str(links)

它自己把反斜杠吃了……应该这样:

  1. import requests
  2. import re
  3. from bs4 import BeautifulSoup
  4. r = requests.get("http://tieba.baidu.com/p/6448831426")
  5. demo = r.text
  6. soup = BeautifulSoup(demo, "html.parser")
  7. for link in soup.find_all('cc'):
  8.     links = link.find_all('img')
  9.     print(re.findall(r"<img.*src=\"(.*?)\".*>", str(links)))
复制代码
1580718509728.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-3 16:37:05 | 显示全部楼层
用正则可以直接获取到图片链接

  1. import requests
  2. import re
  3. from bs4 import BeautifulSoup
  4. r = requests.get("http://tieba.baidu.com/p/6448831426")
  5. demo = r.text
  6. soup = BeautifulSoup(demo, "html.parser")
  7. for link in soup.find_all('cc'):
  8.     links = link.find_all('img')
  9.     print(re.findall(r"<img.*src="(.*?)".*>", str(links)))
复制代码


保存图片直接用 open() 然后 write()。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-3 16:47:58 | 显示全部楼层
zltzlt 发表于 2020-2-3 16:37
用正则可以直接获取到图片链接

我这运行出现了错误
  File "<input>", line 9
    print(re.findall(r"<img.*src="(.*?)".*>", str(links)))
                                   ^
SyntaxError: invalid syntax
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-3 16:49:23 | 显示全部楼层
风陵渡口杨过 发表于 2020-2-3 16:47
我这运行出现了错误
  File "", line 9
    print(re.findall(r"", str(links)))

少了两个反斜杠。这样试试:

  1. import requests
  2. import re
  3. from bs4 import BeautifulSoup
  4. r = requests.get("http://tieba.baidu.com/p/6448831426")
  5. demo = r.text
  6. soup = BeautifulSoup(demo, "html.parser")
  7. for link in soup.find_all('cc'):
  8.     links = link.find_all('img')
  9.     print(re.findall(r"<img.*src="(.*?)".*>", str(links)))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-3 16:57:26 | 显示全部楼层
zltzlt 发表于 2020-2-3 16:49
少了两个反斜杠。这样试试:

我这样加的反斜杠,也不对
  File "<input>", line 9
    print(re.findall(r"<img.*src="(\.*?)"\.*>", str(links)
                                                         ^
SyntaxError: unexpected character after line continuation character
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-3 16:58:13 | 显示全部楼层    本楼为最佳答案   
风陵渡口杨过 发表于 2020-2-3 16:57
我这样加的反斜杠,也不对
  File "", line 9
    print(re.findall(r"", str(links)

它自己把反斜杠吃了……应该这样:

  1. import requests
  2. import re
  3. from bs4 import BeautifulSoup
  4. r = requests.get("http://tieba.baidu.com/p/6448831426")
  5. demo = r.text
  6. soup = BeautifulSoup(demo, "html.parser")
  7. for link in soup.find_all('cc'):
  8.     links = link.find_all('img')
  9.     print(re.findall(r"<img.*src=\"(.*?)\".*>", str(links)))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-3 17:31:48 | 显示全部楼层
zltzlt 发表于 2020-2-3 16:58
它自己把反斜杠吃了……应该这样:

厉害,太强了,出来结果了。
正则表达式真的学不明白,想问问正则表达式为什么是这样d
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-3 19:37:57 | 显示全部楼层
zltzlt 发表于 2020-2-3 16:58
它自己把反斜杠吃了……应该这样:

麻烦你,我还有个问题,用正则表达式得到结果后仍然是多个列表,把链接取出来
WechatIMG227.jpeg
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-3 19:42:32 From FishC Mobile | 显示全部楼层
风陵渡口杨过 发表于 2020-2-3 19:37
麻烦你,我还有个问题,用正则表达式得到结果后仍然是多个列表,把链接取出来

把列表以文本方式发出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-6 15:43:32 | 显示全部楼层
wp231957 发表于 2020-2-3 19:42
把列表以文本方式发出来

请问代码该怎么写
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-4 06:28

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表