[已解决]爬虫问题

a870950142 · 发表于 2022-11-12 18:06:45

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 a870950142 于 2022-11-12 18:12 编辑

<div class="Clbc_top">
<div class="calist_mbx m-t-12"><a href="/">优美图库</a><span> > </span><h1><a href="/weimeitupian/">唯美图片</a></h1></div>
<div class="taotu-nav">
<span><b> </b><h2><a href="/weimeitupian/oumeitupian/">欧美图片</a></h2></span>
<a href="/weimeitupian/oumeitupian/">&emsp;更多&emsp;</a>
</div>
<div class="taotu-main">
<ul>
<li>
<a href="/weimeitupian/oumeitupian/253312.htm

从div class="Clbc_top"开始定位，寻找最下面a标签的href我该怎么写

biao=main.find('div',class_="Clbc_top").find_all('a')
这样写会把第二行的a找到，不想要那个a。哪位大佬帮帮忙啊~~~笨的要死！

我的想法是在li的下面开始找a，定位得在Clbc_top这里

最佳答案

月排行榜 / 总排行榜

ZhKQYu

2022-11-12 20:31:24

import requests
from bs4 import BeautifulSoup
url = "https://www.umei.cc/weimeitupian/"
soup = BeautifulSoup(requests.get(url).text, 'lxml')
html_url = [each.find("a").get("href") for each in soup.find("div", class_="Clbc_top").find_all("li")]
print(html_url)

复制代码

跳转到最佳答案楼层

suchocolate · 发表于 2022-11-12 18:16:29

看起来应该没问题。
不过能提供一些原网页吗，我去看看网页整体码源。

a870950142 · 发表于 2022-11-12 18:23:44

suchocolate 发表于 2022-11-12 18:16
看起来应该没问题。
不过能提供一些原网页吗，我去看看网页整体码源。

umei.cc/weimeitupian/是这个，谢谢嘞不让我发链接！

cflying · 发表于 2022-11-12 18:56:06

你不是应该定位到<div class="taotu-main">里，然后找所有a么。

a870950142 · 发表于 2022-11-12 19:30:58

cflying 发表于 2022-11-12 18:56
你不是应该定位到里，然后找所有a么。

源代码中还有其他同名的，我复制的只是一小部分，只有clbc_top能定位到我想要的内容里面

ZhKQYu · 发表于 2022-11-12 20:31:24

这个最佳答案由 ZhKQYu 给出，感谢 ZhKQYu 的回答。

单击隐藏图章

import requests
from bs4 import BeautifulSoup
url = "https://www.umei.cc/weimeitupian/"
soup = BeautifulSoup(requests.get(url).text, 'lxml')
html_url = [each.find("a").get("href") for each in soup.find("div", class_="Clbc_top").find_all("li")]
print(html_url)

复制代码

a870950142 · 发表于 2022-11-12 21:27:40

ZhKQYu 发表于 2022-11-12 20:31

nice

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块