爬虫问题,Python交流,编程语言专区,鱼C论坛

a870950142 发表于 2022-11-12 18:06:45

爬虫问题

本帖最后由 a870950142 于 2022-11-12 18:12 编辑

<div class="Clbc_top">
<div class="calist_mbx m-t-12"><a href="/">优美图库</a><span> > </span><h1><a href="/weimeitupian/">唯美图片</a></h1></div>
<div class="taotu-nav">
<span><b> </b><h2><a href="/weimeitupian/oumeitupian/">欧美图片</a></h2></span>
<a href="/weimeitupian/oumeitupian/">&emsp;更多&emsp;</a>
</div>
<div class="taotu-main">
<ul>
<li>
<a href="/weimeitupian/oumeitupian/253312.htm

从div class="Clbc_top"开始定位，寻找最下面a标签的href我该怎么写{:5_104:}

biao=main.find('div',class_="Clbc_top").find_all('a')
这样写会把第二行的a找到，不想要那个a。哪位大佬帮帮忙啊~~~笨的要死！

我的想法是在li的下面开始找a，定位得在Clbc_top这里

suchocolate 发表于 2022-11-12 18:16:29

看起来应该没问题。
不过能提供一些原网页吗，我去看看网页整体码源。

a870950142 发表于 2022-11-12 18:23:44

suchocolate 发表于 2022-11-12 18:16
看起来应该没问题。
不过能提供一些原网页吗，我去看看网页整体码源。

umei.cc/weimeitupian/是这个，谢谢嘞不让我发链接！

cflying 发表于 2022-11-12 18:56:06

你不是应该定位到<div class="taotu-main">里，然后找所有a么。

a870950142 发表于 2022-11-12 19:30:58

cflying 发表于 2022-11-12 18:56
你不是应该定位到里，然后找所有a么。

源代码中还有其他同名的，我复制的只是一小部分，只有clbc_top能定位到我想要的内容里面

ZhKQYu 发表于 2022-11-12 20:31:24

import requests
from bs4 import BeautifulSoup

url = "https://www.umei.cc/weimeitupian/"

soup = BeautifulSoup(requests.get(url).text, 'lxml')
html_url =
print(html_url)

a870950142 发表于 2022-11-12 21:27:40

ZhKQYu 发表于 2022-11-12 20:31

nice

页: [1]

鱼C论坛's Archiver

爬虫问题