|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
import parsel
- response ='''
- <a class="screen-reader-text skip-link" href="#content" title="Skip to content">Skip to content</a> <div class="top-bar grid-container top-bar-align-right">
- <div class="inside-top-bar">
- <aside id="block-10" class="widget inner-padding widget_block widget_text">
- <p class="has-small-font-size"></p>
- </aside><aside id="block-19" class="widget inner-padding widget_block">
- <div class="wp-block-group is-layout-flow"><div class="wp-block-group__inner-container">
- <div class="wp-block-columns is-layout-flex wp-container-2">
- <div class="wp-block-column is-layout-flow" style="flex-basis:100%">
- <p><a href="https://thepornlinks.com/" title="ThePornLinks.com" target="_blank" data-wpel-link="external" rel="external noopener noreferrer">ThePornLinks.com</a></p>
- <meta content="160728" name="xubstercom">
- </div>
- </div>
- </div></div>
- </aside> </div>
- </div>
- <header class="site-header" id="masthead" aria-label="Site" itemtype="https://schema.org/WPHeader" itemscope>
- <div class="inside-header grid-container">
- <div class="site-branding">
- <p class="main-title" itemprop="headline">
- <a href="https://pornchil.com/" rel="home noopener noreferrer" data-wpel-link="internal" target="_blank">
- PornChil
- </a>
- '''
- selector = parsel.Selector(text=response)
- # print(selector.get())
- # exit()
- #用屬性把連結撈出來
- link = selector.css('.wp-block-columns.is-layout-flex.wp-container-2').getall()
- print(link)
复制代码
这个P标签没有class属性
为什么会被提取出来
<p><a href="https://thepornlinks.com/" title="ThePornLinks.com" target="_blank" data-wpel-link="external" rel="external noopener noreferrer">ThePornLinks.com</a></p>
原因是您的 CSS 选择器不够具体。选择器 .wp-block-columns.is-layout-flex.wp-container-2 定位到包含您提到的 <p> 标签的 <div> 元素,但它没有根据 <p> 标签的 class 属性进行筛选。
要提取具有特定 class 属性的 <p> 标签,您可以修改 CSS 选择器。例如,如果您想提取具有名为 "example-class" 的类的 <p> 标签,可以使用以下选择器:
- link = selector.css('p.example-class').getall()
复制代码
然而,根据您提供的 HTML,似乎您想提取 <p> 标签内的链接。为此,您可以修改 CSS 选择器以直接定位到 <a> 元素:
- link = selector.css('.wp-block-columns.is-layout-flex.wp-container-2 p a::attr(href)').getall()
复制代码
此选择器专门定位到指定类的 <div> 内的 <p> 标签中的 <a> 元素,并提取 href 属性,这是您要查找的链接。
|
|