马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
<dd><a href="https://www.biquge5200.cc/60_60363/141354032.html">VIP上架公告</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354035.html">关于猫腻的庆余年(浮见君)</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354037.html">6.29晚八点《庆余年》作者 “猫腻”与您相约起点作者名家访谈</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354039.html">无尽的鄙视(苍穹)</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354046.html">牛栏街事件新闻(记者:海棠依旧在及…)</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354047.html">那夜嚣张的雨(作者:苍穹)</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354048.html">封推感言</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354050.html">今天,你范建了吗?(作者:厉无咎)</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354056.html">范建教子(作者:万里流)</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354058.html">卷末小结及去年回顾及回乡总结</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354062.html">四川!四川!捐款细项</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354064.html">默哀</a></dd>
<dd><a href="https://www.biquge5200.cc/60_60363/141354066.html">雨打风吹亦难去之陈萍萍(作者:小孙北京)</a></dd>
最近在研究字符串提取问题。如上述部分字符串,我想提取出url地址信息及标题信息分别提取,目前无论是使用正则表达式还是采用字符串阶段的方式都是会遇到换行循环中断。请问大神应该如何编写代码,一下代码分别是使用正则表达式及字符串截取的方式进行提取。。。应该如何修改条件。。。。
正则表达式提取方式:import re
with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
url_file=open('qynurl.txt','w',encoding='UTF-8')
for each in f:
url=re.search("https://www.biquge5200.cc/60_60363/[0-9]*\.html",each )
url_file.writelines(url.group()+'\n')
print(url.group())
url_file.close()
字符串提取方式:with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
for each_line in f:
if each_line !='\n\n':
url=each_line.split(""",49)
print(url[1])
search没有找到会返回None,给你改了改: import re
with open('c:\\Users\\lee\\Documents\\编程练习\\qyn.txt',encoding='UTF-8') as f:
url_file=open('qynurl.txt','w',encoding='UTF-8')
for each in f:
url=re.search("https://www.biquge5200.cc/60_60363/[0-9]*\.html",each )
if url:
if len(url.group())!=0:
url_file.writelines(url.group()+'\n')
print(url.group())
url_file.close()
PS:其实with里面可以再来一个with的
|