关于爬虫beautifulsoup的find_all 和正则表达式

T-_coin · 发表于 2019-11-6 15:39:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

在爬取这部小说的时候，上面部分是新更新的部分，下面是第一章到最后一章，所以有重复。我想只爬取后面那部分的内容，也就是第一章到最后，可是<dt>和<dd>标签是同一级的，所以想用正则表达式检测出正文卷</dt> 到 </dl> 之间的内容，但是这样遇到一个问题，在beautifulsoup的find_all函数里面，妖媚写标签要么写内容，这样正文卷</dt> 里面的正文卷是属于<dt>标签的，所以不知道怎么输入查找。请大神帮助！
<dl>
<dt>《AWM[绝地求生]》最新章节</dt>
<dd><a href="/book_79086/28779099.html">90.番外</a></dd>
<dd><a href="/book_79086/28710900.html">89.番外</a></dd>
<dd><a href="/book_79086/28695944.html">88.番外</a></dd>
<dd><a href="/book_79086/28679039.html">87.番外</a></dd>
<dd><a href="/book_79086/28627408.html">86.第八十六章</a></dd>
<dd><a href="/book_79086/28607059.html">85.第八十五章</a></dd>
<dd><a href="/book_79086/28583826.html">84.第八十四章</a></dd>
<dd><a href="/book_79086/28555819.html">83.第八十三章</a></dd>
<dd><a href="/book_79086/28525556.html">82.第八十二章</a></dd>
<dd><a href="/book_79086/28485672.html">81.第八十一章</a></dd>
<dd><a href="/book_79086/28364804.html">80.第八十章</a></dd>
<dd><a href="/book_79086/28304852.html">79.第七十九章</a></dd>
<dt>《AWM[绝地求生]》正文卷</dt>
<dd><a href="/book_79086/26759236.html">1.第一章</a></dd>
<dd><a href="/book_79086/26759237.html">2.第二章</a></dd>
<dd><a href="/book_79086/26759238.html">3.第三章</a></dd>
<dd><a href="/book_79086/26759239.html">4.第四章</a></dd>
<dd><a href="/book_79086/26759240.html">5.第五章</a></dd>
<dd><a href="/book_79086/26759241.html">6.第六章</a></dd>
....
<dd><a href="/book_79086/28555819.html">83.第八十三章</a></dd>
<dd><a href="/book_79086/28583826.html">84.第八十四章</a></dd>
<dd><a href="/book_79086/28607059.html">85.第八十五章</a></dd>
<dd><a href="/book_79086/28627408.html">86.第八十六章</a></dd>
<dd><a href="/book_79086/28679039.html">87.番外</a></dd>
<dd><a href="/book_79086/28695944.html">88.番外</a></dd>
<dd><a href="/book_79086/28710900.html">89.番外</a></dd>
<dd><a href="/book_79086/28779099.html">90.番外</a></dd>
</dl>

wp231957 · 发表于 2019-11-6 16:04:39

想提取哪部分数据

T-_coin · 发表于 2019-11-6 16:24:36

wp231957 发表于 2019-11-6 16:04
想提取哪部分数据

wp231957 · 发表于 2019-11-6 17:24:10

from bs4 import BeautifulSoup
html='''
<dl>
<dt>《AWM[绝地求生]》最新章节</dt>
<dd><a href="/book_79086/28779099.html">90.番外</a></dd>
<dd><a href="/book_79086/28710900.html">89.番外</a></dd>
<dd><a href="/book_79086/28695944.html">88.番外</a></dd>
<dd><a href="/book_79086/28679039.html">87.番外</a></dd>
<dd><a href="/book_79086/28627408.html">86.第八十六章</a></dd>
<dd><a href="/book_79086/28607059.html">85.第八十五章</a></dd>
<dd><a href="/book_79086/28583826.html">84.第八十四章</a></dd>
<dd><a href="/book_79086/28555819.html">83.第八十三章</a></dd>
<dd><a href="/book_79086/28525556.html">82.第八十二章</a></dd>
<dd><a href="/book_79086/28485672.html">81.第八十一章</a></dd>
<dd><a href="/book_79086/28364804.html">80.第八十章</a></dd>
<dd><a href="/book_79086/28304852.html">79.第七十九章</a></dd>
<dt>《AWM[绝地求生]》正文卷</dt>
<dd><a href="/book_79086/26759236.html">1.第一章</a></dd>
<dd><a href="/book_79086/26759237.html">2.第二章</a></dd>
<dd><a href="/book_79086/26759238.html">3.第三章</a></dd>
<dd><a href="/book_79086/26759239.html">4.第四章</a></dd>
<dd><a href="/book_79086/26759240.html">5.第五章</a></dd>
<dd><a href="/book_79086/26759241.html">6.第六章</a></dd>
....
<dd><a href="/book_79086/28555819.html">83.第八十三章</a></dd>
<dd><a href="/book_79086/28583826.html">84.第八十四章</a></dd>
<dd><a href="/book_79086/28607059.html">85.第八十五章</a></dd>
<dd><a href="/book_79086/28627408.html">86.第八十六章</a></dd>
<dd><a href="/book_79086/28679039.html">87.番外</a></dd>
<dd><a href="/book_79086/28695944.html">88.番外</a></dd>
<dd><a href="/book_79086/28710900.html">89.番外</a></dd>
<dd><a href="/book_79086/28779099.html">90.番外</a></dd>
</dl>
'''
soup = BeautifulSoup(html,"lxml")
title = soup.select('dt')
for x in title :print(x.text)
w = soup.select('dd')
for x in w :print(x.text)

复制代码

wp231957 · 发表于 2019-11-6 17:25:04

T-_coin 发表于 2019-11-6 16:24
《AWM[绝地求生]》正文卷到

把原始网址发出来，有时候 bs4不如其他的方案好有时候比其他方案优秀看情况来

T-_coin · 发表于 2019-11-6 18:09:12

wp231957 发表于 2019-11-6 17:24

这个代码没有解决问题，只不过把<dt>和<dd>标签分开放而已，这样<dd>标签下会有最新更新的章节和正文卷重叠部分

T-_coin · 发表于 2019-11-6 18:09:45

wp231957 发表于 2019-11-6 17:25
把原始网址发出来，有时候 bs4不如其他的方案好有时候比其他方案优秀看情况来

url = 'https://www.biqugex.com/book_79086/'

wp231957 · 发表于 2019-11-6 21:39:45

T-_coin 发表于 2019-11-6 18:09
url = 'https://www.biqugex.com/book_79086/'

import requests
from bs4 import BeautifulSoup
html=requests.get("https://www.biqugex.com/book_79086/")
html.encoding=("gbk")
soup = BeautifulSoup(html.text,"lxml")
title = soup.select('body > div.listmain > dl > dt:nth-child(14)')
for x in title :print(x.text)
for zj in range(15,105):
w = soup.select('body > div.listmain > dl > dd:nth-child(%d)'%zj)
print(w[0].text)

复制代码

天圆突破 · 发表于 2019-11-7 09:13:34

本帖最后由天圆突破于 2019-11-7 09:19 编辑

import re
from requests_html import HTMLSession
session = HTMLSession()
url = 'https://www.biqugex.com/book_79086/'
req = session.get(url=url)
req = req.html
# 拿到了所有的dt和dd
dl = req.find('.listmain>dl>dt,.listmain>dl>dd')
dl_html = [i.html for i in dl]
# 下面可以循环找要定位的dt,例如设定的条件是"内容里面有正文卷三个字"
dt = list(filter(lambda x: re.search('正文卷', x.text), req.find('.listmain>dl>dt')))
# 拿到上面的dl里，找到索引，然后切片
if dt:
dt_html = dt[0].html
# 找索引要用.Html来找
indx = dl_html.index(dt_html)
# 为了防止里面还有dt，再筛一遍
dl = list(filter(lambda x: x.tag=='dd', dl[indx+1:]))
# 找出里面的a标签
taga = [d.find('a', first=True) for d in dl]
# 整理结果，用反射是为了容错，避免因为意外情况受到影响报错
result = [
{
'title': getattr(a, 'text').strip(),
'href': getattr(a, 'attrs', {}).get('href', '')
} for a in taga
]
print(result)

复制代码

没有用bs,轻量级的爬虫用request_html就够了
另外，request_html是rquest作者最新出的爬虫库，自带解析，个人觉得bs虽然挺重，但是有时候反而不如这个方便...

账号		自动登录	找回密码
密码			立即注册