鱼C论坛

 找回密码
 立即注册
查看: 63|回复: 11

[已解决]请问如果要用CSS选择器爬取红框内的内容 CSS语句怎么写啊?

[复制链接]
发表于 前天 23:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
titles=soup.select('.feed-card-item > h2 a') Snipaste_2024-11-19_23-17-09.png
最佳答案
昨天 22:37
本帖最后由 isdkz 于 2024-11-20 22:45 编辑
slhlde 发表于 2024-11-20 21:47
import requests
from bs4 import BeautifulSoup
import time


因为这个页面是动态渲染的,而不是直接在html源码中返回,爬取动态渲染的数据需要自己找到api

修改后的代码:
from datetime import datetime

import requests

url = "https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=1000"

resp = requests.get(url)
for i, d in enumerate(resp.json()['result']['data']):
    print(f"{i}、{d['title']}       -------- {datetime.fromtimestamp(int(d['ctime'])).strftime('%Y-%m-%d %H:%M:%S')}")
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 前天 23:24 | 显示全部楼层
要使用CSS选择器从网页中爬取红框内的内容,需要知道红框内的HTML结构。您提供的CSS选择器 `.feed-card-item > h2 a` 意味着您在寻找 `class` 为 `feed-card-item` 的元素内,直接包含一个 `<h2>`,并在该 `<h2>` 内有一个 `<a>` 标签的结构。

如果红框内的内容符合这种结构,那么这段CSS选择器是正确的。如果不符合,您需要调整CSS选择器来准确定位内容。

假设红框内的HTML结构是:
<div class="feed-card-item">
  <h2>
    <a href="...">目标内容</a>
  </h2>
</div>

那么您的选择器是正确的。如果不符合,请提供HTML结构的更多细节,以便我能帮您调整选择器。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 昨天 00:13 | 显示全部楼层
答非所问啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 昨天 00:13 | 显示全部楼层


抱歉给您带来了困扰!请您提供更多关于红框内元素的HTML结构信息,以便我能更准确地为您编写对应的CSS选择器。如果能确认元素的class或id信息,我将能更精准地帮助您。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 昨天 10:44 | 显示全部楼层
在浏览器的开发者工具中不是可以直接右键然后复制css路径吗?不过需要注意的是,复制出来的路径可能要需要修改一下才能用,因为渲染出来的document已经是被浏览器标准化了,开发者写的源代码可能并不是那么标准,比如可能会少个body标签
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 昨天 20:51 | 显示全部楼层
isdkz 发表于 2024-11-20 10:44
在浏览器的开发者工具中不是可以直接右键然后复制css路径吗?不过需要注意的是,复制出来的路径可能要需要 ...

试过 但是哪怕是这个还是不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 昨天 21:01 | 显示全部楼层
复制路径就OK
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 昨天 21:27 | 显示全部楼层
slhlde 发表于 2024-11-20 20:51
试过 但是哪怕是这个还是不行

都说了你直接复制出来的路径可能要改一下才能用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 昨天 21:47 | 显示全部楼层
isdkz 发表于 2024-11-20 21:27
都说了你直接复制出来的路径可能要改一下才能用

import requests
from bs4 import BeautifulSoup
import time

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_info(url):
    wb_data=requests.get(url,headers=headers)
    wb_data.encoding='utf-8'
    # print(wb_data.text)
    soup=BeautifulSoup(wb_data.text,'html.parser')
    titles=soup.select('feedCardContent > div > div > h2 > a')
    #FIXME
    print(titles)
    times=soup.select('#feedCardContent > div > div > div.feed-card-a.feed-card-clearfix > div.feed-card-time')
    # comments = soup.select('div.info clearfix info1 > div.action > a')
    for title,time in zip(titles,times):
        data={
            'title':title.get_text(),
            'time':time.get_text(),
            # 'comment':comment.get_text()
        }
        # print(data)

if __name__=='__main__':
    url='http://news.sina.com.cn/china/'
    get_info(url)
    time.sleep(2)
这是我的代码 请教下 我是按照你说的 修改了下 但是还是没有 抓取到任何内容 可以帮忙看下吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 昨天 22:37 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2024-11-20 22:45 编辑
slhlde 发表于 2024-11-20 21:47
import requests
from bs4 import BeautifulSoup
import time


因为这个页面是动态渲染的,而不是直接在html源码中返回,爬取动态渲染的数据需要自己找到api

修改后的代码:
from datetime import datetime

import requests

url = "https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=1000"

resp = requests.get(url)
for i, d in enumerate(resp.json()['result']['data']):
    print(f"{i}、{d['title']}       -------- {datetime.fromtimestamp(int(d['ctime'])).strftime('%Y-%m-%d %H:%M:%S')}")
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 昨天 23:54 | 显示全部楼层
isdkz 发表于 2024-11-20 22:37
因为这个页面是动态渲染的,而不是直接在html源码中返回,爬取动态渲染的数据需要自己找到api

修改 ...

谢谢大佬 尽管你说的我不怎么懂  但是最佳答案就是你了  拜谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 16 小时前 | 显示全部楼层
本帖最后由 isdkz 于 2024-11-21 00:09 编辑
slhlde 发表于 2024-11-20 23:54
谢谢大佬 尽管你说的我不怎么懂  但是最佳答案就是你了  拜谢


动态渲染就是通过 js 代码动态获取数据渲染上去的,刚开始学爬虫不知道动态渲染很正常,我刚开始学的时候也不会,你学到后面就懂了,不着急

总之你把js给禁用了就看不到的内容就是动态渲染出来的,不能通过爬取 html 源代码获得
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-21 16:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表