[已解决]如何用python解析

xhs0120 · 发表于 2019-6-11 18:56:50

如何将文字和英文爬取下来，并且保存到txt或者xls的文件夹里
求助
求助
谢谢

最佳答案

wp231957

2019-6-11 18:56:51

xhs0120 发表于 2019-6-11 22:36
求用编程实现

补四楼图片：

wp231957 · 发表于 2019-6-11 18:56:51

xhs0120 发表于 2019-6-11 22:36
求用编程实现

补四楼图片：

Brucey · 发表于 2019-6-11 19:39:38

直接复制粘贴下来，再用正则表达式分开就行

xhs0120 · 发表于 2019-6-11 22:36:26

求用编程实现

wp231957 · 发表于 2019-6-12 07:33:32

本帖最后由 wp231957 于 2019-6-12 12:26 编辑

xhs0120 发表于 2019-6-11 22:36
求用编程实现

# coding: utf-8
import requests,re
from lxml import etree
if __name__ == '__main__':
url="http://www.digquant.com.cn/document/2"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
response = requests.get(url=url,headers=headers)
html = etree.HTML(response.text)
lens = len(html.xpath("//ul[@id='left-nav']/li"))
lst=[]
for x in range(1,lens+1):
text=(html.xpath("//ul[@id='left-nav']/li[%d]/span"%x)[0].text).replace("\n","").replace(" ","").replace("（","(").replace("）",")").replace(")","")
lst.append(text)
newlst=[]
for x in lst:
t=x.split("(",2)
newlst.append(t)
f=open("123.txt","w")
for x in newlst:
if len(x)>2:
x[0]=x[0]+"("+x[1]+")"
x[1]=x[2]
del x[2]
f.write(str(x).replace("[","").replace("]","").replace("'","")+'\n')
f.close()
print("解析完毕，请查阅123.txt")

复制代码

kaohsing · 发表于 2019-6-12 08:41:00

用正则比较简单。

xhs0120 · 发表于 2019-6-13 14:03:28

wp231957 发表于 2019-6-11 18:56
补四楼图片：

谢谢大佬

账号		自动登录	找回密码
密码			立即注册