请问如果要用CSS选择器爬取红框内的内容 CSS语句怎么写啊?
titles=soup.select('.feed-card-item > h2 a') 要使用CSS选择器从网页中爬取红框内的内容,需要知道红框内的HTML结构。您提供的CSS选择器 `.feed-card-item > h2 a` 意味着您在寻找 `class` 为 `feed-card-item` 的元素内,直接包含一个 `<h2>`,并在该 `<h2>` 内有一个 `<a>` 标签的结构。如果红框内的内容符合这种结构,那么这段CSS选择器是正确的。如果不符合,您需要调整CSS选择器来准确定位内容。
假设红框内的HTML结构是:
<div class="feed-card-item">
<h2>
<a href="...">目标内容</a>
</h2>
</div>
那么您的选择器是正确的。如果不符合,请提供HTML结构的更多细节,以便我能帮您调整选择器。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 答非所问啊 slhlde 发表于 2024-11-20 00:13
答非所问啊
抱歉给您带来了困扰!请您提供更多关于红框内元素的HTML结构信息,以便我能更准确地为您编写对应的CSS选择器。如果能确认元素的class或id信息,我将能更精准地帮助您。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 在浏览器的开发者工具中不是可以直接右键然后复制css路径吗?不过需要注意的是,复制出来的路径可能要需要修改一下才能用,因为渲染出来的document已经是被浏览器标准化了,开发者写的源代码可能并不是那么标准,比如可能会少个body标签 isdkz 发表于 2024-11-20 10:44
在浏览器的开发者工具中不是可以直接右键然后复制css路径吗?不过需要注意的是,复制出来的路径可能要需要 ...
试过 但是哪怕是这个还是不行 复制路径就OK slhlde 发表于 2024-11-20 20:51
试过 但是哪怕是这个还是不行
都说了你直接复制出来的路径可能要改一下才能用 isdkz 发表于 2024-11-20 21:27
都说了你直接复制出来的路径可能要改一下才能用
import requests
from bs4 import BeautifulSoup
import time
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
def get_info(url):
wb_data=requests.get(url,headers=headers)
wb_data.encoding='utf-8'
# print(wb_data.text)
soup=BeautifulSoup(wb_data.text,'html.parser')
titles=soup.select('feedCardContent > div > div > h2 > a')
#FIXME
print(titles)
times=soup.select('#feedCardContent > div > div > div.feed-card-a.feed-card-clearfix > div.feed-card-time')
# comments = soup.select('div.info clearfix info1 > div.action > a')
for title,time in zip(titles,times):
data={
'title':title.get_text(),
'time':time.get_text(),
# 'comment':comment.get_text()
}
# print(data)
if __name__=='__main__':
url='http://news.sina.com.cn/china/'
get_info(url)
time.sleep(2)
这是我的代码 请教下 我是按照你说的 修改了下 但是还是没有 抓取到任何内容 可以帮忙看下吗 本帖最后由 isdkz 于 2024-11-20 22:45 编辑
slhlde 发表于 2024-11-20 21:47
import requests
from bs4 import BeautifulSoup
import time
因为这个页面是动态渲染的,而不是直接在html源码中返回,爬取动态渲染的数据需要自己找到api
修改后的代码:
from datetime import datetime
import requests
url = "https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=1000"
resp = requests.get(url)
for i, d in enumerate(resp.json()['result']['data']):
print(f"{i}、{d['title']} -------- {datetime.fromtimestamp(int(d['ctime'])).strftime('%Y-%m-%d %H:%M:%S')}")
isdkz 发表于 2024-11-20 22:37
因为这个页面是动态渲染的,而不是直接在html源码中返回,爬取动态渲染的数据需要自己找到api
修改 ...
谢谢大佬 尽管你说的我不怎么懂但是最佳答案就是你了拜谢 本帖最后由 isdkz 于 2024-11-21 00:09 编辑
slhlde 发表于 2024-11-20 23:54
谢谢大佬 尽管你说的我不怎么懂但是最佳答案就是你了拜谢
动态渲染就是通过 js 代码动态获取数据渲染上去的,刚开始学爬虫不知道动态渲染很正常,我刚开始学的时候也不会,你学到后面就懂了,不着急
总之你把js给禁用了就看不到的内容就是动态渲染出来的,不能通过爬取 html 源代码获得
页:
[1]