slhlde 发表于 2024-11-19 23:18:08

请问如果要用CSS选择器爬取红框内的内容 CSS语句怎么写啊?

titles=soup.select('.feed-card-item > h2 a')

FishC 发表于 2024-11-19 23:24:54

要使用CSS选择器从网页中爬取红框内的内容,需要知道红框内的HTML结构。您提供的CSS选择器 `.feed-card-item > h2 a` 意味着您在寻找 `class` 为 `feed-card-item` 的元素内,直接包含一个 `<h2>`,并在该 `<h2>` 内有一个 `<a>` 标签的结构。

如果红框内的内容符合这种结构,那么这段CSS选择器是正确的。如果不符合,您需要调整CSS选择器来准确定位内容。

假设红框内的HTML结构是:

<div class="feed-card-item">
<h2>
    <a href="...">目标内容</a>
</h2>
</div>

那么您的选择器是正确的。如果不符合,请提供HTML结构的更多细节,以便我能帮您调整选择器。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

slhlde 发表于 2024-11-20 00:13:46

答非所问啊

FishC 发表于 2024-11-20 00:13:53

slhlde 发表于 2024-11-20 00:13
答非所问啊

抱歉给您带来了困扰!请您提供更多关于红框内元素的HTML结构信息,以便我能更准确地为您编写对应的CSS选择器。如果能确认元素的class或id信息,我将能更精准地帮助您。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

isdkz 发表于 2024-11-20 10:44:28

在浏览器的开发者工具中不是可以直接右键然后复制css路径吗?不过需要注意的是,复制出来的路径可能要需要修改一下才能用,因为渲染出来的document已经是被浏览器标准化了,开发者写的源代码可能并不是那么标准,比如可能会少个body标签

slhlde 发表于 2024-11-20 20:51:42

isdkz 发表于 2024-11-20 10:44
在浏览器的开发者工具中不是可以直接右键然后复制css路径吗?不过需要注意的是,复制出来的路径可能要需要 ...

试过 但是哪怕是这个还是不行

菜菜大大^_^ 发表于 2024-11-20 21:01:47

复制路径就OK

isdkz 发表于 2024-11-20 21:27:26

slhlde 发表于 2024-11-20 20:51
试过 但是哪怕是这个还是不行

都说了你直接复制出来的路径可能要改一下才能用

slhlde 发表于 2024-11-20 21:47:51

isdkz 发表于 2024-11-20 21:27
都说了你直接复制出来的路径可能要改一下才能用

import requests
from bs4 import BeautifulSoup
import time

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_info(url):
    wb_data=requests.get(url,headers=headers)
    wb_data.encoding='utf-8'
    # print(wb_data.text)
    soup=BeautifulSoup(wb_data.text,'html.parser')
    titles=soup.select('feedCardContent > div > div > h2 > a')
    #FIXME
    print(titles)
    times=soup.select('#feedCardContent > div > div > div.feed-card-a.feed-card-clearfix > div.feed-card-time')
    # comments = soup.select('div.info clearfix info1 > div.action > a')
    for title,time in zip(titles,times):
      data={
            'title':title.get_text(),
            'time':time.get_text(),
            # 'comment':comment.get_text()
      }
      # print(data)

if __name__=='__main__':
    url='http://news.sina.com.cn/china/'
    get_info(url)
    time.sleep(2)
这是我的代码 请教下 我是按照你说的 修改了下 但是还是没有 抓取到任何内容 可以帮忙看下吗

isdkz 发表于 2024-11-20 22:37:54

本帖最后由 isdkz 于 2024-11-20 22:45 编辑

slhlde 发表于 2024-11-20 21:47
import requests
from bs4 import BeautifulSoup
import time


因为这个页面是动态渲染的,而不是直接在html源码中返回,爬取动态渲染的数据需要自己找到api

修改后的代码:
from datetime import datetime

import requests

url = "https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=1000"

resp = requests.get(url)
for i, d in enumerate(resp.json()['result']['data']):
    print(f"{i}、{d['title']}       -------- {datetime.fromtimestamp(int(d['ctime'])).strftime('%Y-%m-%d %H:%M:%S')}")

slhlde 发表于 2024-11-20 23:54:29

isdkz 发表于 2024-11-20 22:37
因为这个页面是动态渲染的,而不是直接在html源码中返回,爬取动态渲染的数据需要自己找到api

修改 ...

谢谢大佬 尽管你说的我不怎么懂但是最佳答案就是你了拜谢

isdkz 发表于 2024-11-21 00:08:19

本帖最后由 isdkz 于 2024-11-21 00:09 编辑

slhlde 发表于 2024-11-20 23:54
谢谢大佬 尽管你说的我不怎么懂但是最佳答案就是你了拜谢

动态渲染就是通过 js 代码动态获取数据渲染上去的,刚开始学爬虫不知道动态渲染很正常,我刚开始学的时候也不会,你学到后面就懂了,不着急

总之你把js给禁用了就看不到的内容就是动态渲染出来的,不能通过爬取 html 源代码获得
页: [1]
查看完整版本: 请问如果要用CSS选择器爬取红框内的内容 CSS语句怎么写啊?