[已解决]正则表达式问题。

翩跹叶惊鸿 · 发表于 2018-12-10 13:52:13

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由翩跹叶惊鸿于 2018-12-10 14:10 编辑

a='https://weibo.com/1498726925/H6ypxEBcn" target="_blank">女生找工作都偏爱这座城</a></li><li><a href="http://city.sina.com.cn/focus/t/2018-12-10/detail-ihprknvu0461657.shtml'

我需要 http://city.sina.com.cn/focus/t/2018-12-10/detail-ihprknvu0461657.shtml

爬虫之后用正则表达式

links = Selector(text=html).re(r'https://.*?shtml')

复制代码

出现了这种问题！

就是比方说 https:// …… https:// …… shtml 怎么才能匹配到第二个 https:// 呢？

https:// …… https:// …… shtml
我需要的红色加粗的，结果他给我全部配出来了！明明前面那个网址不是shtml结尾的！

最佳答案

月排行榜 / 总排行榜

凌九霄

2018-12-10 15:00:11

跳转到最佳答案楼层

凌九霄 · 发表于 2018-12-10 14:19:49

本帖最后由凌九霄于 2018-12-10 14:23 编辑

贴页面源码，不要截图。或者给那个页面的网址

xy123151 · 发表于 2018-12-10 14:23:07

连同前面<a href="一起正则
r'<ahref="(https://.*?shtml)'
把你要的部分加个括号，就会只输出括号里的

翩跹叶惊鸿 · 发表于 2018-12-10 14:27:55

凌九霄发表于 2018-12-10 14:19
贴页面源码，不要截图。或者给那个页面的网址

就新浪新闻首页 https://news.sina.com.cn/
我要里面全部的网址 https://开头 shtml结尾的

翩跹叶惊鸿 · 发表于 2018-12-10 14:29:30

xy123151 发表于 2018-12-10 14:23
连同前面

好像不行，因为前面那个也有href 和我之前的结果一模一样

xy123151 · 发表于 2018-12-10 14:31:40

翩跹叶惊鸿发表于 2018-12-10 14:29
好像不行，因为前面那个也有href 和我之前的结果一模一样

马上去学下bs4模块呗，能直接找到

翩跹叶惊鸿 · 发表于 2018-12-10 14:34:11

xy123151 发表于 2018-12-10 14:31
马上去学下bs4模块呗，能直接找到

bs4是啥啊，我只会 xpath 和正则诶0.0

xy123151 · 发表于 2018-12-10 14:36:59

翩跹叶惊鸿发表于 2018-12-10 14:34
bs4是啥啊，我只会 xpath 和正则诶0.0

Beautifulsoup4模块，能分解网页的构成

xy123151 · 发表于 2018-12-10 14:49:33

翩跹叶惊鸿发表于 2018-12-10 14:34
bs4是啥啊，我只会 xpath 和正则诶0.0

把你的源代码贴出来下

翩跹叶惊鸿 · 发表于 2018-12-10 14:58:49

xy123151 发表于 2018-12-10 14:49
把你的源代码贴出来下

from urllib.request import Request,urlopen
from scrapy import Selector
HEADERS = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'}
URL = 'https://news.sina.com.cn/'
req = Request(URL, headers=HEADERS)
html = urlopen(req).read().decode("utf-8")
links = Selector(text=html).re(r'https?://.*?shtml')
links = sorted(set(links))
for i in links:
print(i)
print(len(links))

复制代码

凌九霄 · 发表于 2018-12-10 15:00:11

翩跹叶惊鸿 · 发表于 2018-12-10 15:22:46

凌九霄发表于 2018-12-10 15:00

大大真给力，虽然看不懂，不过亲测可行诶。

账号		自动登录	找回密码
密码			立即注册

[已解决]正则表达式问题。

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块