爬虫问题
本帖最后由 a870950142 于 2022-11-12 18:12 编辑<div class="Clbc_top">
<div class="calist_mbx m-t-12"><a href="/">优美图库</a><span> > </span><h1><a href="/weimeitupian/">唯美图片</a></h1></div>
<div class="taotu-nav">
<span><b> </b><h2><a href="/weimeitupian/oumeitupian/">欧美图片</a></h2></span>
<a href="/weimeitupian/oumeitupian/"> 更多 </a>
</div>
<div class="taotu-main">
<ul>
<li>
<a href="/weimeitupian/oumeitupian/253312.htm
从div class="Clbc_top"开始定位,寻找最下面a标签的href我该怎么写{:5_104:}
biao=main.find('div',class_="Clbc_top").find_all('a')
这样写会把第二行的a找到,不想要那个a。哪位大佬帮帮忙啊~~~笨的要死!
我的想法是在li的下面开始找a,定位得在Clbc_top这里 看起来应该没问题。
不过能提供一些原网页吗,我去看看网页整体码源。 suchocolate 发表于 2022-11-12 18:16
看起来应该没问题。
不过能提供一些原网页吗,我去看看网页整体码源。
umei.cc/weimeitupian/是这个,谢谢嘞 不让我发链接! 你不是应该定位到<div class="taotu-main">里,然后找所有a么。 cflying 发表于 2022-11-12 18:56
你不是应该定位到里,然后找所有a么。
源代码中还有其他同名的,我复制的只是一小部分,只有clbc_top能定位到我想要的内容里面 import requests
from bs4 import BeautifulSoup
url = "https://www.umei.cc/weimeitupian/"
soup = BeautifulSoup(requests.get(url).text, 'lxml')
html_url =
print(html_url) ZhKQYu 发表于 2022-11-12 20:31
nice
页:
[1]