怎么都用re匹配不了

慎为 · 发表于 2017-6-27 23:17:01

您需要登录才可以下载或查看，没有账号？立即注册

x

import re
import urllib.request
def get_html():
url='https://www.pengfu.com/'
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36')
html = urllib.request.urlopen(req).read().decode('utf-8')
#print(html)
return html
def get_page(html):
#<h1 class="dp-b"><a href="https://www.pengfu.com/content_1706980_1.html" target="_blank">等………</a>
reg =re.compile(r'<h1 class="dp-b"><a href=(.*?)')
item = re.findall(reg,html)
#for each in item:
#print(each)
print(item)
return item
html = get_html()
get_page(html)

复制代码

慎为 · 发表于 2017-6-27 23:18:05

17行的网址，我怎么都匹配不了

慎为 · 发表于 2017-6-27 23:27:45

复制代码

慎为 · 发表于 2017-6-27 23:34:06

import re
import urllib.request
def get_html():
url='https://www.pengfu.com/'
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36')
html = urllib.request.urlopen(req).read().decode('utf-8')
#print(html)
return html
def get_page(html):
list1 = []
#<h1 class="dp-b"><a href="https://www.pengfu.com/content_1706980_1.html" target="_blank">等………</a>
reg =re.compile(r'<h1 class="dp-b"><a href="https://www.pengfu.com/content_(\d{7})_1.html"')
item = re.findall(reg,html)
for each in item:
list1.append("https://www.pengfu.com/content_"+ each +"_1.html")
print(list1)
return list1
html = get_html()
get_page(html)

复制代码

可以了尴尬

yongxi · 发表于 2017-6-28 01:46:09

知道代码能正常运行不报错，那么匹配不了的原因只有正则表达式和你期望的匹配文字不符合。多研究正则表达式吧。你也没贴网站内容，正常情况下没人去忙活半天来给你解决问题的

sky · 发表于 2017-7-2 00:30:16

虽然你解决了但是我就是要说

第一个 *匹配前一个任意次 ?是匹配一次以上,两个不一起用
后面那两个就更说不通了

该睡觉了

账号		自动登录	找回密码
密码			立即注册