[已解决]BS4提取src全部链接总是Tag报错，新手求大神解决

南朴 · 发表于 2021-3-14 21:09:22

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from bs4 import BeautifulSoup
url = "https://www.itotii.net/584.html"
headres = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'}
res=requests.get(url,headers=headres)
res.encoding = 'utf-8'
print(res.status_code)
soup = BeautifulSoup(res.text,'html.parser')
item = soup.find_all(class_="article-content")
print(item)
for src in item:
herf = item.find_all(data-tag="bdshare")
print(herf['src'])

复制代码

最佳答案

YunGuo

2021-3-15 18:33:20

网页源代码img标签不存在属性data-tag。

import requests
from bs4 import BeautifulSoup
url = "https://www.itotii.net/584.html"
headres = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'}
res = requests.get(url, headers=headres)
soup = BeautifulSoup(res.text,'html.parser')
item = soup.find_all(class_="article-content")[0]
imgs = item.find_all("img")
for img in imgs:
herf = img["src"]
print(herf)

复制代码

笨鸟学飞 · 发表于 2021-3-15 11:56:19

报错不是正常的么

复制代码

改为下面代码试试看：

复制代码

没装BeautifulSoup模块没法测试，你试试吧，应该没问题的，现在改用xpath了，大多数时候还是比较方便的

YunGuo · 发表于 2021-3-15 18:33:20

网页源代码img标签不存在属性data-tag。

import requests
from bs4 import BeautifulSoup
url = "https://www.itotii.net/584.html"
headres = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'}
res = requests.get(url, headers=headres)
soup = BeautifulSoup(res.text,'html.parser')
item = soup.find_all(class_="article-content")[0]
imgs = item.find_all("img")
for img in imgs:
herf = img["src"]
print(herf)

复制代码

南朴 · 发表于 2021-3-15 20:02:07

YunGuo 发表于 2021-3-15 18:33
网页源代码img标签不存在属性data-tag。

你好

复制代码

为什么这个地方加0下面就可以运行不加就运行不了呢？

YunGuo · 发表于 2021-3-15 23:54:33

南朴发表于 2021-3-15 20:02
你好为什么这个地方加0下面就可以运行不加就运行不了呢？

find_all()返回的是一个列表啊，加0是为了索引，把列表中的数据取出来。

南朴 · 发表于 2021-3-16 18:59:05

YunGuo 发表于 2021-3-15 23:54
find_all()返回的是一个列表啊，加0是为了索引，把列表中的数据取出来。

嗯嗯谢谢谢谢

账号		自动登录	找回密码
密码			立即注册