鱼C论坛

 找回密码
 立即注册
查看: 1183|回复: 6

[已解决]如何用python解析

[复制链接]
发表于 2019-6-11 18:56:50 | 显示全部楼层 |阅读模式
30鱼币
http://www.digquant.com.cn/document/2
af4ffbe1116d9a79c0a2bef17c55998.png db3ba581c029c3826f3ec946a7c896e.jpg
如何将文字和英文爬取下来,并且保存到txt或者xls的文件夹里
求助
求助
谢谢
最佳答案
2019-6-11 18:56:51

补四楼图片:

最佳答案

查看完整内容

补四楼图片:
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 18:56:51 | 显示全部楼层    本楼为最佳答案   

补四楼图片:
ttt.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-6-11 19:39:38 | 显示全部楼层
直接复制粘贴下来, 再用正则表达式分开就行
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-6-11 22:36:26 From FishC Mobile | 显示全部楼层
求用编程实现
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-6-12 07:33:32 | 显示全部楼层
本帖最后由 wp231957 于 2019-6-12 12:26 编辑


  1. # coding: utf-8
  2. import requests,re
  3. from lxml import etree



  4. if __name__ == '__main__':
  5.   url="http://www.digquant.com.cn/document/2"
  6.   headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
  7.   response = requests.get(url=url,headers=headers)
  8.   html = etree.HTML(response.text)
  9.   lens = len(html.xpath("//ul[@id='left-nav']/li"))
  10.   lst=[]
  11.   for x in range(1,lens+1):
  12.     text=(html.xpath("//ul[@id='left-nav']/li[%d]/span"%x)[0].text).replace("\n","").replace(" ","").replace("(","(").replace(")",")").replace(")","")
  13.     lst.append(text)
  14.   newlst=[]
  15.   for x in lst:
  16.     t=x.split("(",2)
  17.     newlst.append(t)
  18.   f=open("123.txt","w")
  19.   for x in  newlst:
  20.     if len(x)>2:
  21.       x[0]=x[0]+"("+x[1]+")"
  22.       x[1]=x[2]
  23.       del x[2]
  24.     f.write(str(x).replace("[","").replace("]","").replace("'","")+'\n')
  25.   f.close()
  26.   print("解析完毕,请查阅123.txt")
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-6-12 08:41:00 From FishC Mobile | 显示全部楼层
用正则比较简单。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-6-13 14:03:28 | 显示全部楼层

谢谢大佬
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-5 02:50

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表