鱼C论坛

 找回密码
 立即注册
查看: 900|回复: 9

请教一下关于正则式的问题

[复制链接]
发表于 2019-4-17 20:10:46 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
>>> b='{"id":"9d63b5c2fdb0865f6cfc6bc9a57ea10f","imageid":"48370126a7b306ad915fcbbf73041389","group_title":"\u7f8e\u5973\u6a21\u7279\u827e\u5b50\u5e0c\u82b1\u4e1b\u552f\u7f8e\u5199\u771f\u6e05\u7eaf\u52a8\u4eba","group_pageurl":"http:\/\/www.umei.cc\/meinvtupian\/meinvxiezhen\/27705.htm","group_time":"2018-05-02 13:21:31","group_desc":"","tag":"\u840c\u5973","grpseq":1,"website_name":"www.umei.cc","website_dspname":"www.umei.cc","cover_imgurl":"http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/hnqz4tavams.jpg","cover_thumbkey":"t01f2c27a2053e101f0.jpg","cover_height":752,"cover_width":500,"cover_size":176,"cover_type":1,"total_count":9,"index":2,"qhimg_url":"http:\/\/p0.so.qhimgs1.com\/t01f2c27a2053e101f0.jpg","qhimg_thumb_url":"http:\/\/p0.so.qhimgs1.com\/sdr\/238__\/t01f2c27a2053e101f0.jpg","qhimg_width":238,"qhimg_height":358,"dsptime":"","downurl":"http:\/\/dl.image.so.com\/d?'
>>> a='_url.*http:.*\.jpg"'
>>> import re
>>> re.search (a,b)
<re.Match object; span=(555, 698), match='_url":"http:\\/\\/p0.so.qhimgs1.com\\/t01f2c27a20>

请教一下,是我的正则式表达的有问题吗,怎么没有返回到最后找到.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-4-18 09:35:44 | 显示全部楼层
用findall试试?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-18 09:49:47 | 显示全部楼层
本帖最后由 wp231957 于 2019-4-18 09:53 编辑

简单改一下 就是字典格式:
>>> b={"id":"9d63b5c2fdb0865f6cfc6bc9a57ea10f","imageid":"48370126a7b306ad915fcbbf73041389","group_title":"\u7f8e\u5973\u6a21\u7279\u827e\u5b50\u5e0c\u82b1\u4e1b\u552f\u7f8e\u5199\u771f\u6e05\u7eaf\u52a8\u4eba","group_pageurl":"http:\/\/www.umei.cc\/meinvtupian\/meinvxiezhen\/27705.htm","group_time":"2018-05-02 13:21:31","group_desc":"","tag":"\u840c\u5973","grpseq":1,"website_name":"www.umei.cc","website_dspname":"www.umei.cc","cover_imgurl":"http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/hnqz4tavams.jpg","cover_thumbkey":"t01f2c27a2053e101f0.jpg","cover_height":752,"cover_width":500,"cover_size":176,"cover_type":1,"total_count":9,"index":2,"qhimg_url":"http:\/\/p0.so.qhimgs1.com\/t01f2c27a2053e101f0.jpg","qhimg_thumb_url":"http:\/\/p0.so.qhimgs1.com\/sdr\/238__\/t01f2c27a2053e101f0.jpg","qhimg_width":238,"qhimg_height":358,"dsptime":"","downurl":"http:\/\/dl.image.so.com\/d?"}
>>> print(b["cover_imgurl"])
http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/hnqz4tavams.jpg
>>> print(b["qhimg_url"])
http:\/\/p0.so.qhimgs1.com\/t01f2c27a2053e101f0.jpg
>>> print(b["qhimg_thumb_url"])
http:\/\/p0.so.qhimgs1.com\/sdr\/238__\/t01f2c27a2053e101f0.jpg
>>>
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-18 09:57:51 | 显示全部楼层
进一步转换:

>>> re.sub(r'\\',r'',b["qhimg_thumb_url"])
'http://p0.so.qhimgs1.com/sdr/238__/t01f2c27a2053e101f0.jpg'
>>> re.sub(r'\\',r'',b["qhimg_url"])
'http://p0.so.qhimgs1.com/t01f2c27a2053e101f0.jpg'
>>> re.sub(r'\\',r'',b["cover_imgurl"])
'http://i1.umei.cc/uploads/tu/201701/798/hnqz4tavams.jpg'
>>>


小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-18 14:19:51 From FishC Mobile | 显示全部楼层
wp231957 发表于 2019-4-18 09:49
简单改一下 就是字典格式:
>>> b={"id":"9d63b5c2fdb0865f6cfc6bc9a57ea10f","imageid":"48370126a7b306a ...

那请教下,几百行的网页代码,我正则表达式找到字典的键,怎么能把值提取出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-18 14:23:45 From FishC Mobile | 显示全部楼层
cwhsmile 发表于 2019-4-18 09:35
用findall试试?

试了,一样的,表达式明明有字符串.jpg,匹配到了结果,但是感觉只找到了一半,就不理解了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-18 14:37:07 | 显示全部楼层
hj5818 发表于 2019-4-18 14:19
那请教下,几百行的网页代码,我正则表达式找到字典的键,怎么能把值提取出来

这种情况下,使用字典  明显比使用正则效率要高
方便的话 把网址发出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-18 14:58:05 | 显示全部楼层
hj5818 发表于 2019-4-18 14:23
试了,一样的,表达式明明有字符串.jpg,匹配到了结果,但是感觉只找到了一半,就不理解了

那是你的正则没有写对,你说下你要取出哪些内容。

顺便给你挖个坑,需要你去填:
如果你的数据是网页内容,那么你有必要学习下爬虫,包括但不限于requests,bs4,xpath,json,
这些只是入门,简单的都能应付,难的嘛。。。。我也不会,在学。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-18 15:15:45 | 显示全部楼层
cwhsmile 发表于 2019-4-18 14:58
那是你的正则没有写对,你说下你要取出哪些内容。

顺便给你挖个坑,需要你去填:

re很有必要,后面用crawlspider爬虫,框架只要你的re正则,自动棒你完成整改爬取过程,re很强大的,后面经常用,和xpath  这两个解析,现在我用的比较多的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-18 15:24:16 | 显示全部楼层
Stubborn 发表于 2019-4-18 15:15
re很有必要,后面用crawlspider爬虫,框架只要你的re正则,自动棒你完成整改爬取过程,re很强大的,后面 ...

哈哈,忘了把re加上了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-15 08:05

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表