[已解决]请问如果要用CSS选择器爬取红框内的内容 CSS语句怎么写啊？

slhlde · 发表于 2024-11-19 23:18:08

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

titles=soup.select('.feed-card-item > h2 a')

最佳答案

月排行榜 / 总排行榜

isdkz

2024-11-20 22:37:54

本帖最后由 isdkz 于 2024-11-20 22:45 编辑

slhlde 发表于 2024-11-20 21:47
import requests
from bs4 import BeautifulSoup
import time

因为这个页面是动态渲染的，而不是直接在html源码中返回，爬取动态渲染的数据需要自己找到api

修改后的代码：

from datetime import datetime
import requests
url = "https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=1000"
resp = requests.get(url)
for i, d in enumerate(resp.json()['result']['data']):
print(f"{i}、{d['title']} -------- {datetime.fromtimestamp(int(d['ctime'])).strftime('%Y-%m-%d %H:%M:%S')}")

复制代码

跳转到最佳答案楼层

FishC · 发表于 2024-11-19 23:24:54

要使用CSS选择器从网页中爬取红框内的内容，需要知道红框内的HTML结构。您提供的CSS选择器 `.feed-card-item > h2 a` 意味着您在寻找 `class` 为 `feed-card-item` 的元素内，直接包含一个 `<h2>`，并在该 `<h2>` 内有一个 `<a>` 标签的结构。

如果红框内的内容符合这种结构，那么这段CSS选择器是正确的。如果不符合，您需要调整CSS选择器来准确定位内容。

假设红框内的HTML结构是：

<div class="feed-card-item">
<h2>
<a href="...">目标内容</a>
</h2>
</div>

复制代码

那么您的选择器是正确的。如果不符合，请提供HTML结构的更多细节，以便我能帮您调整选择器。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

slhlde · 发表于 2024-11-20 00:13:46

答非所问啊

FishC · 发表于 2024-11-20 00:13:53

slhlde 发表于 2024-11-20 00:13
答非所问啊

抱歉给您带来了困扰！请您提供更多关于红框内元素的HTML结构信息，以便我能更准确地为您编写对应的CSS选择器。如果能确认元素的class或id信息，我将能更精准地帮助您。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

isdkz · 发表于 2024-11-20 10:44:28

在浏览器的开发者工具中不是可以直接右键然后复制css路径吗？不过需要注意的是，复制出来的路径可能要需要修改一下才能用，因为渲染出来的document已经是被浏览器标准化了，开发者写的源代码可能并不是那么标准，比如可能会少个body标签

slhlde · 发表于 2024-11-20 20:51:42

isdkz 发表于 2024-11-20 10:44
在浏览器的开发者工具中不是可以直接右键然后复制css路径吗？不过需要注意的是，复制出来的路径可能要需要 ...

试过但是哪怕是这个还是不行

菜菜大大^_^ · 发表于 2024-11-20 21:01:47

复制路径就OK

isdkz · 发表于 2024-11-20 21:27:26

slhlde 发表于 2024-11-20 20:51
试过但是哪怕是这个还是不行

都说了你直接复制出来的路径可能要改一下才能用

slhlde · 发表于 2024-11-20 21:47:51

isdkz 发表于 2024-11-20 21:27
都说了你直接复制出来的路径可能要改一下才能用

import requests
from bs4 import BeautifulSoup
import time

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_info(url):
wb_data=requests.get(url,headers=headers)
wb_data.encoding='utf-8'
# print(wb_data.text)
soup=BeautifulSoup(wb_data.text,'html.parser')
titles=soup.select('feedCardContent > div > div > h2 > a')
#FIXME
print(titles)
times=soup.select('#feedCardContent > div > div > div.feed-card-a.feed-card-clearfix > div.feed-card-time')
# comments = soup.select('div.info clearfix info1 > div.action > a')
for title,time in zip(titles,times):
      data={
         'title':title.get_text(),
         'time':time.get_text(),
         # 'comment':comment.get_text()
      }
      # print(data)

if __name__=='__main__':
url='http://news.sina.com.cn/china/'
get_info(url)
time.sleep(2)
这是我的代码请教下我是按照你说的修改了下但是还是没有抓取到任何内容可以帮忙看下吗

isdkz · 发表于 2024-11-20 22:37:54

本帖最后由 isdkz 于 2024-11-20 22:45 编辑

slhlde 发表于 2024-11-20 21:47
import requests
from bs4 import BeautifulSoup
import time

因为这个页面是动态渲染的，而不是直接在html源码中返回，爬取动态渲染的数据需要自己找到api

修改后的代码：

from datetime import datetime
import requests
url = "https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=1000"
resp = requests.get(url)
for i, d in enumerate(resp.json()['result']['data']):
print(f"{i}、{d['title']} -------- {datetime.fromtimestamp(int(d['ctime'])).strftime('%Y-%m-%d %H:%M:%S')}")

复制代码

slhlde · 发表于 2024-11-20 23:54:29

isdkz 发表于 2024-11-20 22:37
因为这个页面是动态渲染的，而不是直接在html源码中返回，爬取动态渲染的数据需要自己找到api

修改 ...

谢谢大佬尽管你说的我不怎么懂但是最佳答案就是你了拜谢

isdkz · 发表于 2024-11-21 00:08:19

本帖最后由 isdkz 于 2024-11-21 00:09 编辑

slhlde 发表于 2024-11-20 23:54
谢谢大佬尽管你说的我不怎么懂但是最佳答案就是你了拜谢

动态渲染就是通过 js 代码动态获取数据渲染上去的，刚开始学爬虫不知道动态渲染很正常，我刚开始学的时候也不会，你学到后面就懂了，不着急

总之你把js给禁用了就看不到的内容就是动态渲染出来的，不能通过爬取 html 源代码获得

账号		自动登录	找回密码
密码			立即注册