[已解决]字符串提取问题，求指点。

假面的假面 · 发表于 2020-3-18 22:10:40

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

<dd><a href="https://www.biquge5200.cc/60_60363/141354032.html">VIP上架公告</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354035.html">关于猫腻的庆余年（浮见君）</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354037.html">6.29晚八点《庆余年》作者 “猫腻”与您相约起点作者名家访谈</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354039.html">无尽的鄙视（苍穹）</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354046.html">牛栏街事件新闻（记者：海棠依旧在及…）</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354047.html">那夜嚣张的雨（作者：苍穹）</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354048.html">封推感言</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354050.html">今天，你范建了吗？（作者：厉无咎）</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354056.html">范建教子（作者：万里流）</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354058.html">卷末小结及去年回顾及回乡总结</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354062.html">四川！四川！捐款细项</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354064.html">默哀</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354066.html">雨打风吹亦难去之陈萍萍（作者：小孙北京）</a></dd>

复制代码

最近在研究字符串提取问题。如上述部分字符串，我想提取出url地址信息及标题信息分别提取，目前无论是使用正则表达式还是采用字符串阶段的方式都是会遇到换行循环中断。请问大神应该如何编写代码，一下代码分别是使用正则表达式及字符串截取的方式进行提取。。。应该如何修改条件。。。。

正则表达式提取方式：

import re
with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
url_file=open('qynurl.txt','w',encoding='UTF-8')
for each in f:
url=re.search("https://www.biquge5200.cc/60_60363/[0-9]*\.html",each )
url_file.writelines(url.group()+'\n')
print(url.group())
url_file.close()

复制代码

字符串提取方式：

with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
for each_line in f:
if each_line !='\n\n':
url=each_line.split(""",49)
print(url[1])

复制代码

最佳答案

月排行榜 / 总排行榜

永恒的蓝色梦想

2020-3-20 23:08:02

假面的假面发表于 2020-3-20 00:10
首先非常感谢您的解答，但是用您的方法依然是会遇到空行时系统报错。
体统报错如下：
Traceback (most ...

search没有找到会返回None，给你改了改：

import re
with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
url_file=open('qynurl.txt','w',encoding='UTF-8')
for each in f:
url=re.search("https://www.biquge5200.cc/60_60363/[0-9]*\.html",each )
if url:
if len(url.group())!=0:
url_file.writelines(url.group()+'\n')
print(url.group())
url_file.close()

复制代码

PS:其实with里面可以再来一个with的

跳转到最佳答案楼层

walleeee · 发表于 2020-3-19 08:08:41

本帖最后由 walleeee 于 2020-3-19 08:13 编辑

import re
with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
url_file=open('qynurl.txt','w',encoding='UTF-8')
for each in f:
url=re.search("https://www.biquge5200.cc/60_60363/[0-9]*\.html",each )
if len(url.group())!=0:
url_file.writelines(url.group()+'\n')
print(url.group())
url_file.close()

复制代码

试一下

假面的假面 · 发表于 2020-3-20 00:04:29

walleeee 发表于 2020-3-19 08:08
试一下

非常感谢，但是问题依旧。。。

---------- runpython ----------
https://www.biquge5200.cc/60_60363/141353990.html
https://www.biquge5200.cc/60_60363/141353991.html
https://www.biquge5200.cc/60_60363/141353993.html
https://www.biquge5200.cc/60_60363/141353995.html
https://www.biquge5200.cc/60_60363/141353997.html
https://www.biquge5200.cc/60_60363/141353999.html
https://www.biquge5200.cc/60_60363/141354001.html
https://www.biquge5200.cc/60_60363/141354003.html
https://www.biquge5200.cc/60_60363/141354005.html
https://www.biquge5200.cc/60_60363/141354007.html
https://www.biquge5200.cc/60_60363/141354009.html
https://www.biquge5200.cc/60_60363/141354011.html
https://www.biquge5200.cc/60_60363/141354012.html
https://www.biquge5200.cc/60_60363/141354014.html
https://www.biquge5200.cc/60_60363/141354016.html
https://www.biquge5200.cc/60_60363/141354018.html
https://www.biquge5200.cc/60_60363/141354020.html
https://www.biquge5200.cc/60_60363/141354021.html
https://www.biquge5200.cc/60_60363/141354023.html
https://www.biquge5200.cc/60_60363/141354025.html
https://www.biquge5200.cc/60_60363/141354027.html
https://www.biquge5200.cc/60_60363/141354029.html
https://www.biquge5200.cc/60_60363/141354030.html
https://www.biquge5200.cc/60_60363/141354032.html
https://www.biquge5200.cc/60_60363/141354035.html
https://www.biquge5200.cc/60_60363/141354037.html
https://www.biquge5200.cc/60_60363/141354039.html
Traceback (most recent call last):
File "txt7.py", line 7, in <module>
if len(url.group())!=0:
AttributeError: 'NoneType' object has no attribute 'group'
输出完成 (耗时 0 秒) - 正常终止

复制代码

假面的假面 · 发表于 2020-3-20 00:10:57

walleeee 发表于 2020-3-19 08:08
试一下

首先非常感谢您的解答，但是用您的方法依然是会遇到空行时系统报错。
体统报错如下：
Traceback (most recent call last):
File "txt7.py", line 7, in <module>
if len(url.group())!=0:
AttributeError: 'NoneType' object has no attribute 'group'

假面的假面 · 发表于 2020-3-20 21:53:38

求助////

wp231957 · 发表于 2020-3-20 21:56:08

假面的假面发表于 2020-3-20 21:53
求助////

用xpath如何？？？

永恒的蓝色梦想 · 发表于 2020-3-20 23:08:02

假面的假面发表于 2020-3-20 00:10
首先非常感谢您的解答，但是用您的方法依然是会遇到空行时系统报错。
体统报错如下：
Traceback (most ...

search没有找到会返回None，给你改了改：

import re
with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
url_file=open('qynurl.txt','w',encoding='UTF-8')
for each in f:
url=re.search("https://www.biquge5200.cc/60_60363/[0-9]*\.html",each )
if url:
if len(url.group())!=0:
url_file.writelines(url.group()+'\n')
print(url.group())
url_file.close()

复制代码

PS:其实with里面可以再来一个with的

假面的假面 · 发表于 2020-3-20 23:45:28

永恒的蓝色梦想发表于 2020-3-20 23:08
search没有找到会返回None，给你改了改：PS:其实with里面可以再来一个with的

非常感谢您回复和指点。您也让我牢固的认识到了对于基础知识掌握是件多么重要的事情。

假面的假面 · 发表于 2020-3-20 23:45:59

wp231957 发表于 2020-3-20 21:56
用xpath如何？？？

非常感谢您的回复。但是对于xpath我不是熟悉。

永恒的蓝色梦想 · 发表于 2020-3-20 23:46:33

假面的假面发表于 2020-3-20 23:45
非常感谢您回复和指点。您也让我牢固的认识到了对于基础知识掌握是件多么重要的事情。

谢谢支持。实践固然关键，但基础同样重要。

账号		自动登录	找回密码
密码			立即注册

[已解决]字符串提取问题，求指点。

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块