[已解决]正则表达式的问题

775155480 · 发表于 2018-3-5 14:41:32

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

如图我想写一个正则表达式与网页的一个a标签匹配，但是不知为什么匹配不到

最佳答案

月排行榜 / 总排行榜

jerryxjr1220

2018-3-5 17:16:13

775155480 发表于 2018-3-5 16:00
你写的这个也没有匹配到。。。
我觉得可能并不是正则表达式的问题可能是网站的问 ...

看了一下这个网页的源码，应该是用了js动态加载的，这样你是没有办法直接获取html的。
不过可以用phantomjs+selenium

from splinter import Browser
x = Browser('phantomjs')
x.visit('http://su.58.com/suzhoukunshan/chuzu/?PGTID=0d3090a7-0000-577c-8121-2cd7566a00aa&ClickID=2')
print(x.html)

复制代码

这样就可以取到源码了，后面再用re取出，其实用BeautifulSoup更方便。

跳转到最佳答案楼层

775155480 · 发表于 2018-3-5 14:48:07

如果我用xpath就没啥问题，肯定是正则表达式写错了。。。。。

jerryxjr1220 · 发表于 2018-3-5 15:00:40

print(re.findall(r'<a href=.*? rel="nofollow">(.*?)</a>',html)[0])

复制代码

775155480 · 发表于 2018-3-5 15:13:58

jerryxjr1220 发表于 2018-3-5 15:00

你写的这个也没有匹配到。。。

纳兰小寒 · 发表于 2018-3-5 15:38:15

试试这个

print(re.findall(r'<a href=.*? rel="nofollow">([\s\S]*?)</a>',html)[0])

复制代码

或

print(re.findall(r'<a href=.*? rel="nofollow">([\s\S]*?)</a>',html))

复制代码

775155480 · 发表于 2018-3-5 16:00:05

纳兰小寒发表于 2018-3-5 15:38
试试这个

或

你写的这个也没有匹配到。。。

我觉得可能并不是正则表达式的问题可能是网站的问题？

775155480 · 发表于 2018-3-5 16:01:12

这个是我的代码
import urllib.request
from bs4 import BeautifulSoup
import re
from lxml import etree
import tkinter as tk
url = "http://su.58.com/suzhoukunshan/chuzu/?PGTID=0d3090a7-0000-577c-8121-2cd7566a00aa&ClickID=2"
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
p = r'<a href=.*?tongji_label= "listclick.*?>(.*)?</a>'
imglist = re.findall(p,html)
for each in imglist:
print(each)

膜法记者 · 发表于 2018-3-5 16:01:44

把imgList输出来看一下吧

775155480 · 发表于 2018-3-5 16:04:54

膜法记者发表于 2018-3-5 16:01
把imgList输出来看一下吧

输出了是空的

jerryxjr1220 · 发表于 2018-3-5 16:19:35

775155480 发表于 2018-3-5 15:13
你写的这个也没有匹配到。。。

html = r'<a tongji_lable="listclick" onclick="xxxxxx" target="_blank" rel="nofollow">要匹配的文字</a>'
import re
print(re.findall(r'<a href=.*? rel="nofollow">(.*?)</a>',html)[0])

复制代码

如果这个html的标签真的是这样的，肯定能匹配到。除非本身html抓取的不对，或者是动态构成的，那就匹配不到了。

jerryxjr1220 · 发表于 2018-3-5 17:16:13

这个最佳答案由 jerryxjr1220 给出，感谢 jerryxjr1220 的回答。

单击隐藏图章

775155480 发表于 2018-3-5 16:00
你写的这个也没有匹配到。。。
我觉得可能并不是正则表达式的问题可能是网站的问 ...

看了一下这个网页的源码，应该是用了js动态加载的，这样你是没有办法直接获取html的。
不过可以用phantomjs+selenium

from splinter import Browser
x = Browser('phantomjs')
x.visit('http://su.58.com/suzhoukunshan/chuzu/?PGTID=0d3090a7-0000-577c-8121-2cd7566a00aa&ClickID=2')
print(x.html)

复制代码

这样就可以取到源码了，后面再用re取出，其实用BeautifulSoup更方便。

775155480 · 发表于 2018-3-6 11:09:30

jerryxjr1220 发表于 2018-3-5 17:16
看了一下这个网页的源码，应该是用了js动态加载的，这样你是没有办法直接获取html的。
不过可以用phanto ...

你这个应该是正解我用xpath可以匹配到 xpath可以匹配js动态加载的么

账号		自动登录	找回密码
密码			立即注册

[已解决]正则表达式的问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块