鱼C论坛

 找回密码
 立即注册
查看: 39|回复: 2

[已解决]爬虫问题

[复制链接]
最佳答案
0 
发表于 2020-6-30 14:28:50 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
请问各位鱼油,为什么我写的正则表达式返回的是一个空列表?
图片的代码是这样的:img class="j_retract" id="big_img_1593494556188" src="http://tiebapic.baidu.com/forum/w%3D580%3B/sign=57277f46d8fc1e17fdbf8c397aabf703/63d9f2d3572c11dfbd627773742762d0f703c22b.jpg


程序代码如下:
import urllib.request as g
import re
def open_url(url):
    req=g.Request(url)
    req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36')
    response=g.urlopen(req)
    html=response.read().decode('utf-8')

    return html

def get_img(html):
    p=r'<img class="j_retract" id="big_img_[0-9]+" src="[^"]+\.jpg"'

    imglist=re.findall(p,html)
    for each in imglist:
        print(each)
   

if __name__=='__main__':
    url='https://tieba.baidu.com/f?kw=%E5%A5%B3%E7%A5%9E&ie=utf-8&pn=50'

    get_img(open_url(url))
最佳答案
2020-6-30 14:50:02
img class="j_retract" id="big_img_1593494556188" src="http://tiebapic.baidu.com/forum/w%3D580%3B/sign=57277f46d8fc1e17fdbf8c397aabf703/63d9f2d3572c11dfbd627773742762d0f703c22b.jpg


你这个图片节点是在你点击只后才会出现的,后来重新加载的,你直接浏览然后正则匹配这个肯定匹配不到的

建议你获取每个 帖子url  然后 访问,然后再爬取里面的图片 即可
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
最佳答案
1240 
发表于 2020-6-30 14:50:02 | 显示全部楼层    本楼为最佳答案   
img class="j_retract" id="big_img_1593494556188" src="http://tiebapic.baidu.com/forum/w%3D580%3B/sign=57277f46d8fc1e17fdbf8c397aabf703/63d9f2d3572c11dfbd627773742762d0f703c22b.jpg


你这个图片节点是在你点击只后才会出现的,后来重新加载的,你直接浏览然后正则匹配这个肯定匹配不到的

建议你获取每个 帖子url  然后 访问,然后再爬取里面的图片 即可
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
最佳答案
0 
 楼主| 发表于 2020-6-30 15:58:32 | 显示全部楼层
啊成功了!感谢感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

小甲鱼强烈推荐上一条 /1 下一条

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1

GMT+8, 2020-7-9 17:22

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表