设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 编程语言专区 › Python交流 › 使用re处理爬取内容时，re不能正确处理

发新帖

查看: 1292|回复: 4

[已解决]使用re处理爬取内容时，re不能正确处理

低调的恶棍

发表于 2020-4-19 15:45:42 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

在http://dongman.2345.com/top/网页上爬取动漫排行，但是在用re处理爬取的动漫简介的时候，它漏下了一个简介，求大神们帮忙找原因。

复制代码

经过筛查，我发现排名第23名的简介不见了。

最佳答案

月排行榜 / 总排行榜

suchocolate

2020-4-19 16:49:58

本帖最后由 suchocolate 于 2020-4-19 16:52 编辑

以下是我的方法，仅供参考。

import requests
import re
url = 'http://dongman.2345.com/top/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
r.encoding = 'gbk'
cart_name = re.findall(r'_blank">(.*?)<', r.text)[0:50]
cart_info = re.findall(r'pIntroShow">(.*?)<', r.text, re.S)
print(cart_name)
print(cart_info)

复制代码

跳转到最佳答案楼层

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2020-4-19 16:49:58 | 显示全部楼层本楼为最佳答案

这个最佳答案由 suchocolate 给出，感谢 suchocolate 的回答。

单击隐藏图章

本帖最后由 suchocolate 于 2020-4-19 16:52 编辑

以下是我的方法，仅供参考。

import requests
import re
url = 'http://dongman.2345.com/top/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
r.encoding = 'gbk'
cart_name = re.findall(r'_blank">(.*?)<', r.text)[0:50]
cart_info = re.findall(r'pIntroShow">(.*?)<', r.text, re.S)
print(cart_name)
print(cart_info)

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

低调的恶棍

楼主| 发表于 2020-4-19 17:24:21 | 显示全部楼层

suchocolate 发表于 2020-4-19 16:49
以下是我的方法，仅供参考。

感谢

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

低调的恶棍

楼主| 发表于 2020-4-19 17:28:40 | 显示全部楼层

suchocolate 发表于 2020-4-19 16:49
以下是我的方法，仅供参考。

我想问一下，我的那个代码问题出在哪

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-4-19 18:48:55 | 显示全部楼层

低调的恶棍发表于 2020-4-19 17:28
我想问一下，我的那个代码问题出在哪

1）你的那行语法没有加re.S，这样如果简介文本里有换行就匹配不到了。
2）另外匹配到了不想要的三角括号，你可以用()来捕获组，这样组外的就不会输出了。

<font color="RoyalBlue"># 以【_blank">】开头，以【<】结尾，中间的任意内容【.*?】，外头加了括号【()】，这样只返回符合括号内的，头尾就不显示了。</font>
cart_name = re.findall(r'_blank">(.*?)<', r.text)[0:50]
<font color="RoyalBlue"># 加了【re.S】，让【.】能够匹配换行，这样就可以匹配到多行的文本。</font>
cart_info = re.findall(r'pIntroShow">(.*?)<', r.text, re.S)

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-7-30 23:32

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表