请教一下关于正则式的问题

hj5818 · 发表于 2019-4-17 20:10:46

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

>>> b='{"id":"9d63b5c2fdb0865f6cfc6bc9a57ea10f","imageid":"48370126a7b306ad915fcbbf73041389","group_title":"\u7f8e\u5973\u6a21\u7279\u827e\u5b50\u5e0c\u82b1\u4e1b\u552f\u7f8e\u5199\u771f\u6e05\u7eaf\u52a8\u4eba","group_pageurl":"http:\/\/www.umei.cc\/meinvtupian\/meinvxiezhen\/27705.htm","group_time":"2018-05-02 13:21:31","group_desc":"","tag":"\u840c\u5973","grpseq":1,"website_name":"www.umei.cc","website_dspname":"www.umei.cc","cover_imgurl":"http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/hnqz4tavams.jpg","cover_thumbkey":"t01f2c27a2053e101f0.jpg","cover_height":752,"cover_width":500,"cover_size":176,"cover_type":1,"total_count":9,"index":2,"qhimg_url":"http:\/\/p0.so.qhimgs1.com\/t01f2c27a2053e101f0.jpg","qhimg_thumb_url":"http:\/\/p0.so.qhimgs1.com\/sdr\/238__\/t01f2c27a2053e101f0.jpg","qhimg_width":238,"qhimg_height":358,"dsptime":"","downurl":"http:\/\/dl.image.so.com\/d?'
>>> a='_url.*http:.*\.jpg"'
>>> import re
>>> re.search (a,b)
<re.Match object; span=(555, 698), match='_url":"http:\\/\\/p0.so.qhimgs1.com\\/t01f2c27a20>

请教一下，是我的正则式表达的有问题吗，怎么没有返回到最后找到.jpg

cwhsmile · 发表于 2019-4-18 09:35:44

用findall试试？

wp231957 · 发表于 2019-4-18 09:49:47

本帖最后由 wp231957 于 2019-4-18 09:53 编辑

简单改一下就是字典格式：
>>> b={"id":"9d63b5c2fdb0865f6cfc6bc9a57ea10f","imageid":"48370126a7b306ad915fcbbf73041389","group_title":"\u7f8e\u5973\u6a21\u7279\u827e\u5b50\u5e0c\u82b1\u4e1b\u552f\u7f8e\u5199\u771f\u6e05\u7eaf\u52a8\u4eba","group_pageurl":"http:\/\/www.umei.cc\/meinvtupian\/meinvxiezhen\/27705.htm","group_time":"2018-05-02 13:21:31","group_desc":"","tag":"\u840c\u5973","grpseq":1,"website_name":"www.umei.cc","website_dspname":"www.umei.cc","cover_imgurl":"http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/hnqz4tavams.jpg","cover_thumbkey":"t01f2c27a2053e101f0.jpg","cover_height":752,"cover_width":500,"cover_size":176,"cover_type":1,"total_count":9,"index":2,"qhimg_url":"http:\/\/p0.so.qhimgs1.com\/t01f2c27a2053e101f0.jpg","qhimg_thumb_url":"http:\/\/p0.so.qhimgs1.com\/sdr\/238__\/t01f2c27a2053e101f0.jpg","qhimg_width":238,"qhimg_height":358,"dsptime":"","downurl":"http:\/\/dl.image.so.com\/d?"}
>>> print(b["cover_imgurl"])
http:\/\/i1.umei.cc\/uploads\/tu\/201701\/798\/hnqz4tavams.jpg
>>> print(b["qhimg_url"])
http:\/\/p0.so.qhimgs1.com\/t01f2c27a2053e101f0.jpg
>>> print(b["qhimg_thumb_url"])
http:\/\/p0.so.qhimgs1.com\/sdr\/238__\/t01f2c27a2053e101f0.jpg
>>>

wp231957 · 发表于 2019-4-18 09:57:51

进一步转换：

>>> re.sub(r'\\',r'',b["qhimg_thumb_url"])
'http://p0.so.qhimgs1.com/sdr/238__/t01f2c27a2053e101f0.jpg'
>>> re.sub(r'\\',r'',b["qhimg_url"])
'http://p0.so.qhimgs1.com/t01f2c27a2053e101f0.jpg'
>>> re.sub(r'\\',r'',b["cover_imgurl"])
'http://i1.umei.cc/uploads/tu/201701/798/hnqz4tavams.jpg'
>>>

hj5818 · 发表于 2019-4-18 14:19:51

wp231957 发表于 2019-4-18 09:49
简单改一下就是字典格式：
>>> b={"id":"9d63b5c2fdb0865f6cfc6bc9a57ea10f","imageid":"48370126a7b306a ...

那请教下，几百行的网页代码，我正则表达式找到字典的键，怎么能把值提取出来

hj5818 · 发表于 2019-4-18 14:23:45

cwhsmile 发表于 2019-4-18 09:35
用findall试试？

试了，一样的，表达式明明有字符串.jpg，匹配到了结果，但是感觉只找到了一半，就不理解了

wp231957 · 发表于 2019-4-18 14:37:07

hj5818 发表于 2019-4-18 14:19
那请教下，几百行的网页代码，我正则表达式找到字典的键，怎么能把值提取出来

这种情况下，使用字典明显比使用正则效率要高
方便的话把网址发出来

cwhsmile · 发表于 2019-4-18 14:58:05

hj5818 发表于 2019-4-18 14:23
试了，一样的，表达式明明有字符串.jpg，匹配到了结果，但是感觉只找到了一半，就不理解了

那是你的正则没有写对，你说下你要取出哪些内容。

顺便给你挖个坑，需要你去填：
如果你的数据是网页内容，那么你有必要学习下爬虫，包括但不限于requests，bs4，xpath，json，
这些只是入门，简单的都能应付，难的嘛。。。。我也不会，在学。

Stubborn · 发表于 2019-4-18 15:15:45

cwhsmile 发表于 2019-4-18 14:58
那是你的正则没有写对，你说下你要取出哪些内容。

顺便给你挖个坑，需要你去填：

re很有必要，后面用crawlspider爬虫，框架只要你的re正则，自动棒你完成整改爬取过程，re很强大的，后面经常用，和xpath 这两个解析，现在我用的比较多的

cwhsmile · 发表于 2019-4-18 15:24:16

Stubborn 发表于 2019-4-18 15:15
re很有必要，后面用crawlspider爬虫，框架只要你的re正则，自动棒你完成整改爬取过程，re很强大的，后面 ...

哈哈，忘了把re加上了

账号		自动登录	找回密码
密码			立即注册