鱼C论坛

 找回密码
 立即注册
查看: 1141|回复: 3

[已解决]求助 用正则表达式匹配

[复制链接]
发表于 2018-5-9 11:46:40 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 [eureka] 于 2018-5-9 17:10 编辑

data-objurl="http://img3.duitang.com/uploads/item/201504/20/20150420H2110_i5JFf.jpeg"

data-objurl="http://imgq.duitang.com/uploads/item/201407/12/20140712011908_APid4.jpeg"

想爬取百度图片搜索结果
如何用正则表达式匹配类似上面两个字符串
最佳答案
2018-5-9 14:46:39
试试    r'data-objurl="(http.+?\.jpeg)'  
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-5-9 14:46:39 | 显示全部楼层    本楼为最佳答案   
试试    r'data-objurl="(http.+?\.jpeg)'  
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-5-9 17:06:34 | 显示全部楼层
问题解决了,
审查元素时有‘data-objurl’,但经过
def open_url(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64)'}
    req = urllib.request.Request(url,None,headers)
    response=urllib.request.urlopen(req)
    html=response.read().decode('utf-8')
    return html
返回的html中没有‘data-objurl’字样,而是变成 "objURL":"http://img5.duitang.com/uploads/item/201609/06/20160906221352_r8xav.jpeg"等字样。
所以找不到。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-5-9 17:07:24 | 显示全部楼层
jerrz 发表于 2018-5-9 14:46
试试    r'data-objurl="(http.+?\.jpeg)'

问题已经找到了,不过还是谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-11 11:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表