鱼C论坛

 找回密码
 立即注册
查看: 2754|回复: 6

[已解决]爬虫问题

[复制链接]
发表于 2022-11-12 18:06:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 a870950142 于 2022-11-12 18:12 编辑

<div class="Clbc_top">
                        <div class="calist_mbx m-t-12"><a href="/">优美图库</a><span> &gt; </span><h1><a href="/weimeitupian/">唯美图片</a></h1></div>
                        <div class="taotu-nav">
                                <span><b>&nbsp;</b><h2><a href="/weimeitupian/oumeitupian/">欧美图片</a></h2></span>
                                <a href="/weimeitupian/oumeitupian/">&emsp;更多&emsp;</a>
                        </div>
                        <div class="taotu-main">
                                <ul>
                                        <li>
                                                <a href="/weimeitupian/oumeitupian/253312.htm

从div class="Clbc_top"开始定位,寻找最下面a标签的href我该怎么写




biao=main.find('div',class_="Clbc_top").find_all('a')
这样写会把第二行的a找到,不想要那个a。哪位大佬帮帮忙啊~~~笨的要死!


我的想法是在li的下面开始找a,定位得在Clbc_top这里
最佳答案
2022-11-12 20:31:24
import requests
from bs4 import BeautifulSoup

url = "https://www.umei.cc/weimeitupian/"

soup = BeautifulSoup(requests.get(url).text, 'lxml')
html_url = [each.find("a").get("href") for each in soup.find("div", class_="Clbc_top").find_all("li")]
print(html_url)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-11-12 18:16:29 | 显示全部楼层
看起来应该没问题。
不过能提供一些原网页吗,我去看看网页整体码源。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-11-12 18:23:44 | 显示全部楼层
suchocolate 发表于 2022-11-12 18:16
看起来应该没问题。
不过能提供一些原网页吗,我去看看网页整体码源。


umei.cc/weimeitupian/是这个,谢谢嘞   不让我发链接!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-11-12 18:56:06 | 显示全部楼层
你不是应该定位到<div class="taotu-main">里,然后找所有a么。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-11-12 19:30:58 | 显示全部楼层
cflying 发表于 2022-11-12 18:56
你不是应该定位到里,然后找所有a么。

源代码中还有其他同名的,我复制的只是一小部分,只有clbc_top能定位到我想要的内容里面
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-11-12 20:31:24 | 显示全部楼层    本楼为最佳答案   
import requests
from bs4 import BeautifulSoup

url = "https://www.umei.cc/weimeitupian/"

soup = BeautifulSoup(requests.get(url).text, 'lxml')
html_url = [each.find("a").get("href") for each in soup.find("div", class_="Clbc_top").find_all("li")]
print(html_url)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-11-12 21:27:40 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-25 17:18

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表