|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 1b1n1m 于 2017-8-19 11:27 编辑
为什么我的代码输入网址以后就不动了:
- import urllib.request
- import re
- #定义网页抓取函数
- def source(url):
- print("正在分析url...")
- source = urllib.request.urlopen(url)
- html = source.read()
- html = html.decode("utf - 8")
- print("网页抓取完毕...")
- return html
- #正则过滤函数
- def filter(html):
- print("正在进行正则表达式匹配...")
- re.sub('<br/>', '\n', html)#将网页中的换行符转换为\n
- regular = "[\u4e00-\u9fa5]+|\d+|\n|,|。|:|“|”"#正则表达式筛选出汉字和汉字标点符号
- doc = re.findall(regular,html)
- for i in range(170):
- doc.pop(0)
- for i in range(145):
- doc.pop()
- print("正则表达式匹配结束...")
- return doc
- #写入txt文件函数
- def txt(doc):
- print("正在追加写入文档...")
- txt = ''.join(doc)
- f = open("重生之神级学霸.txt",'a')
- print("写入完毕...")
- print(txt)
- return txt
- url = input("请输入需要爬的网址:\n")
- S = source(url)
- html = filter(S)
- txt(html)
- print("程序结束!!!")
复制代码
|
|