a870950142 发表于 2022-11-12 18:06:45

爬虫问题

本帖最后由 a870950142 于 2022-11-12 18:12 编辑

<div class="Clbc_top">
                        <div class="calist_mbx m-t-12"><a href="/">优美图库</a><span> &gt; </span><h1><a href="/weimeitupian/">唯美图片</a></h1></div>
                        <div class="taotu-nav">
                                <span><b>&nbsp;</b><h2><a href="/weimeitupian/oumeitupian/">欧美图片</a></h2></span>
                                <a href="/weimeitupian/oumeitupian/">&emsp;更多&emsp;</a>
                        </div>
                        <div class="taotu-main">
                                <ul>
                                        <li>
                                                <a href="/weimeitupian/oumeitupian/253312.htm

从div class="Clbc_top"开始定位,寻找最下面a标签的href我该怎么写{:5_104:}




biao=main.find('div',class_="Clbc_top").find_all('a')
这样写会把第二行的a找到,不想要那个a。哪位大佬帮帮忙啊~~~笨的要死!


我的想法是在li的下面开始找a,定位得在Clbc_top这里

suchocolate 发表于 2022-11-12 18:16:29

看起来应该没问题。
不过能提供一些原网页吗,我去看看网页整体码源。

a870950142 发表于 2022-11-12 18:23:44

suchocolate 发表于 2022-11-12 18:16
看起来应该没问题。
不过能提供一些原网页吗,我去看看网页整体码源。

umei.cc/weimeitupian/是这个,谢谢嘞   不让我发链接!

cflying 发表于 2022-11-12 18:56:06

你不是应该定位到<div class="taotu-main">里,然后找所有a么。

a870950142 发表于 2022-11-12 19:30:58

cflying 发表于 2022-11-12 18:56
你不是应该定位到里,然后找所有a么。

源代码中还有其他同名的,我复制的只是一小部分,只有clbc_top能定位到我想要的内容里面

ZhKQYu 发表于 2022-11-12 20:31:24

import requests
from bs4 import BeautifulSoup

url = "https://www.umei.cc/weimeitupian/"

soup = BeautifulSoup(requests.get(url).text, 'lxml')
html_url =
print(html_url)

a870950142 发表于 2022-11-12 21:27:40

ZhKQYu 发表于 2022-11-12 20:31


nice
页: [1]
查看完整版本: 爬虫问题