鱼C论坛

 找回密码
 立即注册
查看: 1406|回复: 11

[已解决]正则表达式的问题

[复制链接]
发表于 2018-3-5 14:41:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
如图    我想写一个正则表达式与网页的一个a标签匹配,但是不知为什么匹配不到

最佳答案
2018-3-5 17:16:13
775155480 发表于 2018-3-5 16:00
你写的这个也没有匹配到。。。
我觉得可能并不是正则表达式的问题  可能是网站的问 ...

看了一下这个网页的源码,应该是用了js动态加载的,这样你是没有办法直接获取html的。
不过可以用phantomjs+selenium
  1. from splinter import Browser
  2. x = Browser('phantomjs')
  3. x.visit('http://su.58.com/suzhoukunshan/chuzu/?PGTID=0d3090a7-0000-577c-8121-2cd7566a00aa&ClickID=2')
  4. print(x.html)
复制代码

这样就可以取到源码了,后面再用re取出,其实用BeautifulSoup更方便。
111.PNG
222.PNG
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-3-5 14:48:07 | 显示全部楼层
如果我用xpath就没啥问题,肯定是正则表达式写错了。。。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-5 15:00:40 | 显示全部楼层
  1. print(re.findall(r'<a href=.*? rel="nofollow">(.*?)</a>',html)[0])
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-5 15:13:58 | 显示全部楼层

你写的这个也没有匹配到。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-5 15:38:15 | 显示全部楼层
试试这个
  1. print(re.findall(r'<a href=.*? rel="nofollow">([\s\S]*?)</a>',html)[0])
复制代码

  1. print(re.findall(r'<a href=.*? rel="nofollow">([\s\S]*?)</a>',html))
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-5 16:00:05 | 显示全部楼层

你写的这个也没有匹配到。。。
我觉得可能并不是正则表达式的问题  可能是网站的问题?  
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-5 16:01:12 | 显示全部楼层
这个是我的代码
import urllib.request
from bs4 import BeautifulSoup
import re
from lxml import etree
import tkinter as tk
url = "http://su.58.com/suzhoukunshan/chuzu/?PGTID=0d3090a7-0000-577c-8121-2cd7566a00aa&ClickID=2"
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
p = r'<a href=.*?tongji_label= "listclick.*?>(.*)?</a>'
imglist = re.findall(p,html)
for each in imglist:
        print(each)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-5 16:01:44 | 显示全部楼层
把imgList输出来看一下吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-5 16:04:54 | 显示全部楼层
膜法记者 发表于 2018-3-5 16:01
把imgList输出来看一下吧

输出了  是空的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-5 16:19:35 | 显示全部楼层
775155480 发表于 2018-3-5 15:13
你写的这个也没有匹配到。。。
  1. html = r'<a  tongji_lable="listclick" onclick="xxxxxx" target="_blank" rel="nofollow">要匹配的文字</a>'
  2. import re
  3. print(re.findall(r'<a href=.*? rel="nofollow">(.*?)</a>',html)[0])
复制代码

如果这个html的标签真的是这样的,肯定能匹配到。除非本身html抓取的不对,或者是动态构成的,那就匹配不到了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-5 17:16:13 | 显示全部楼层    本楼为最佳答案   
775155480 发表于 2018-3-5 16:00
你写的这个也没有匹配到。。。
我觉得可能并不是正则表达式的问题  可能是网站的问 ...

看了一下这个网页的源码,应该是用了js动态加载的,这样你是没有办法直接获取html的。
不过可以用phantomjs+selenium
  1. from splinter import Browser
  2. x = Browser('phantomjs')
  3. x.visit('http://su.58.com/suzhoukunshan/chuzu/?PGTID=0d3090a7-0000-577c-8121-2cd7566a00aa&ClickID=2')
  4. print(x.html)
复制代码

这样就可以取到源码了,后面再用re取出,其实用BeautifulSoup更方便。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-6 11:09:30 | 显示全部楼层
jerryxjr1220 发表于 2018-3-5 17:16
看了一下这个网页的源码,应该是用了js动态加载的,这样你是没有办法直接获取html的。
不过可以用phanto ...

你这个应该是正解  我用xpath可以匹配到  xpath可以匹配js动态加载的么
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-18 19:11

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表