爬取A股实时信息
本帖最后由 fc5igm 于 2021-6-29 01:29 编辑# coding:utf-8
import urllib.request as ulr
from relpath import *
import pymysql
import threading
'''version 3.0'''
def stocks(switch):
def data_request(market, stockid, switch):
# 连接数据库
conn = pymysql.connect(
host='localhost',
port=3306,
user='root',
password='你的密码',
db='你的数据库'
)
# 拿到游标
cursor = conn.cursor()
table = {}
stop=False
# 数据获取
# iplist=ip.get_ip()
# iplist=['39.106.223.134:80','58.240.52.114:80','218.16.62.152:3128']
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48'}
# url='http://quote.eastmoney.com/sz000001.html'
url = f'http://11.push2his.eastmoney.com/api/qt/stock/kline/get?cb=jQuery112404820468452785698_1624813216413&secid={market}.{stockid}&ut=fa5fd1943c7b386f172d6893dbfba10b&fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5%2Cf6&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58%2Cf59%2Cf60%2Cf61&klt=101&fqt=2&end=20500101&lmt=120&_=1624813216485'
opener = ulr.build_opener()
request = ulr.Request(url, headers=header)
response = opener.open(request).read().decode('utf-8', 'ignore')# decode(dw(url),'ignore')
# 数据处理 - 后复权
data = response.split(sep=',')
try:
table['d0'] = data[-11][-10:]# 日期
table['d1'] = data# 名称
table['d2'] = float(data[-10])# 开盘价
table['d3'] = float(data[-9])# 收盘
table['d4'] = float(data[-8])# 最高
table['d5'] = float(data[-7])# 最低
table['d6'] = float(data[-3])# 涨跌幅
table['d7'] = float(data[-2])# 涨跌额
table['d8'] = int(data[-6])# 成交量
table['d9'] = float(data[-5])# 成交额
table['d10'] = float(data[-4])# 振幅
table['d11'] = float(data[-1].split(sep='"'))# 换手率
except ValueError:
stop=True
if stop==False:
# 设置表名前缀
if market == '0':
pre = 'sz'
elif market == '1':
pre = 'sh'
elif market == '2':
pre = 'zs'
# 读取表数据
sql0 = f'select date from {pre}{stockid} order by date desc limit 1;'
# 创建表
sql1 = f'CREATE TABLE {pre}{stockid}(date DATE primary key, name char(5), latest_price FLOAT not null default"-1", latest_price_before FLOAT not null default"-1", average_price FLOAT not null default"-1", increase_percentage FLOAT not null default"-1", increase_value FLOAT not null default"-1", trade_times BIGINT not null default"-1", trade_amount FLOAT not null default"-1", amplitude FLOAT not null default"-1", exchange_percentage FLOAT not null default"-1", highest FLOAT not null default"-1", lowest FLOAT not null default"-1", today_start FLOAT not null default"-1", buyer_active BIGINT not null default"-1", seller_active BIGINT not null default"-1")'
# 表添加数据行
sql2 = f"insert into {pre}{stockid}(date,name,today_start,latest_price,highest,lowest,increase_percentage,increase_value,trade_times,trade_amount,amplitude,exchange_percentage) values('{table['d0']}','{table['d1']}','{table['d2']}','{table['d3']}','{table['d4']}','{table['d5']}','{table['d6']}','{table['d7']}','{table['d8']}','{table['d9']}','{table['d10']}','{table['d11']}');"
# 更新表数据
sql4 = f"update {pre}{stockid} set latest_price={table['d3']},increase_percentage={table['d6']},increase_value={table['d7']},trade_times={table['d8']},trade_amount={table['d9']},amplitude={table['d10']},exchange_percentage={table['d11']},highest={table['d4']},lowest={table['d5']},today_start={table['d2']} where date='{table['d0']}';"
try:
# 对数据库最后一条数据获取
cursor.execute(sql0)
lastdate = cursor.fetchone()
# 与当前日期比对并执行
if lastdate == None or str(lastdate) != table['d0']:
cursor.execute(sql2)
else:
cursor.execute(sql4)
except pymysql.err.ProgrammingError:
# 如报错提示不存在表,则创建并填写数据
cursor.execute(sql1)
cursor.execute(sql2)
'''插入before'''
def before(market, stockid, specified_date):
table = {}
url = f'http://push2.eastmoney.com/api/qt/stock/get?ut=fa5fd1943c7b386f172d6893dbfba10b&invt=2&fltt=2&fields=f43,f57,f58,f169,f261,f170,f46,f44,f51,f168,f47,f164,f163,f116,f60,f45,f52,f50,f48,f167,f117,f71,f161,f49,f530,f135,f136,f137,f138,f139,f141,f142,f144,f145,f147,f148,f140,f143,f146,f149,f55,f62,f162,f92,f173,f104,f105,f84,f85,f183,f184,f185,f186,f187,f188,f189,f190,f191,f192,f107,f111,f86,f177,f78,f110,f262,f263,f264,f267,f268,f250,f251,f252,f253,f254,f255,f256,f257,f258,f266,f269,f270,f271,f273,f274,f275,f127,f199,f128,f193,f196,f194,f195,f197,f80,f280,f281,f282,f284,f285,f286,f287,f292&secid={market}.{stockid}'
# proxy_support=ulr.ProxyHandler({'http':random.choice(iplist)})
# opener=ulr.build_opener(proxy_support)
opener = ulr.build_opener()
request = ulr.Request(url, headers=header)
response = opener.open(request).read().decode('utf-8',
'ignore')# decode(dw(url),'ignore')
# 数据处理 - 前复权
response = response.replace('"', '').replace('{', '').replace('}', '').replace('[', '').replace(
']', '').replace('\\', '').replace('-', '-1')
data = response.split(sep=',')
for n in range(len(data)):
data = (f'{data}'.split(sep=':'))
# if market in ('0','1','2'): #沪深股票
table['d1'] = float(data)# 最新价
table['d2'] = float(data)# 均价
table['d15'] = int(data)# 外盘
table['d16'] = int(data)# 内盘
# 更新表数据
sql4 = f"update {pre}{stockid} set latest_price_before={table['d1']},average_price={table['d2']},buyer_active={table['d15']},seller_active={table['d16']} where date='{specified_date}';"
cursor.execute(sql4)
if switch == 0:
pass
else:
before(market, stockid, table['d0'])
conn.commit()
else:
pass
cursor.close()
conn.close()
with open(relpath('stock_id.txt')) as f:
stocks=[]
for line in f:
stockid=str(line).replace('\n','')
if stockid=='0' or stockid=='2' or stockid=='3':
market='0'
elif stockid=='5' or stockid=='6' or stockid=='7':
market='1'
elif stockid=='9' or stockid=='H':
market='2'
elif stockid=='#':
continue
#table={'d1':'-1','d2':'-1','d3':'-1','d4':'-1','d5':'-1','d6':'-1','d7':'-1','d9':'-1','d10':'-1','d11':'-1','d15':'-1','d16':'-1'}
stocks.append((market,stockid,switch))
# 多线程
threads=[]
for stock in stocks:
if len(threads)<=100:
threads.append(
threading.Thread(target=data_request,args=(stock,stock,stock))
)
else:
for thread in threads:
thread.start()
for thread in threads:
thread.join()
threads.clear()
threads.append(
threading.Thread(target=data_request, args=(stock, stock, stock))
)
continue
relpath模块代码(非原创)
def relpath(file):
"""
Always locate to the correct relative path.
>>> relpath('proxy_ip.txt')
'D:\\python\\works\\project\\proxy_ip\\proxy_ip.txt'
"""
from sys import _getframe
from pathlib import Path
frame = _getframe(1)
curr_file = Path(frame.f_code.co_filename)
return str(curr_file.parent.joinpath(file).resolve())
思路:
最开始想的是用美味汤爬取数据,结果发现数据为js格式,无法直接爬取。
后面又用了selenium爬取数据,结果还是废弃了,因为程序速度太慢。
最后选择了还是直接爬js程序的地址比较好。
selenium爬取数据的话,一支票大概要10秒。
直接对着js的地址爬则不到0.2秒
不过考虑到网上那么多已经废弃无法使用的程序,后续东方财富可能会对js的链接地址做出改变
届时本程序也将会无法使用。
对于此。。如果我还能想起来,到时候我会更新的
用法:
程序配备了网络代理的部分,不过源于免费且好用的代理ip极为稀少,且东方财富网也不太管ip的连续重复访问,默认是关闭的。
如想使用,需要自行开启。
使用本程序之前需要先自行准备一个文本文件,名字改为stock_id.txt,每一行为一个股票代码。将这个文本文件与本程序放于同一目录。
之所以没有将股票池与程序写在一起,主要是为了方便自定义使用。比如如果你想获得全市场的股票信息,那你就做一个包含全市场股票id的文本文件。
如果你只想获取某几个股票的实时信息,那就将该文本精简为只存在该几个股票的代码即可。
如果你使用的是全市场的股票代码文件,那么有可能会有部分股票出现报错。
报错的原因一般是因为该股已经退市或者还未上市导致东方财富网不存在该股信息。
请自行在报错后于运行页输入stockid,查看出现错误的股票代码。对于这些代码你可以选择将他们从你的股票池文件中删除,或者在代码前加一个#
本程序使用了MYSQL数据库,换言之,如想使用本程序,请先自行安装MYSQL数据库。
并于代码中标注了“#连接数据库”的部分填写你的数据库信息。
本程序运行后将获取当前最新的实时股票数据,如当日已经获取过一次,那当天后续所有的数据获取都将是对本条数据的修改,而不是每一次获取都新增一条数据。
如需循环运行的,请自行套一个循环。
更新
1.将爬取的主要数据从前复权改为了后复权,但提供前复权的当日价格
2.添加多线程机制,现在爬取一次全市场股票信息只需要不到30秒了(以我自己的机子为例)
3.以上速度其实还可以继续提升,不过需要使用者提供稳定高速可靠的代理ip。将len(threads)<=100:中的100调高即可获得更快地速度。
题外话
首先是先庆贺,虽然后面的tinker和pygame还没有学,虽然python除了小甲鱼教的这些还有很多,但是通过不到一个月的学习时间完成了如上目标还是觉得值得庆贺。
比较遗憾的是以上代码撰写中没有用到类(小甲鱼类的作业中曾说发一个作品展示),想来我这样应该还不能算是完成了作业。
后续如果有机会,我再修改吧!看看能不能把这个程序整个做成一个类。
当前程序虽然可以正常运行,但是于我本身来说还是不太满意的。打算接下来自修一下多线程的教学,之后再对代码进行优化。
也算是本程序接下来的版本计划吧。
1.自学Xparth,对比urllib的爬取速度的差别,如Xparth更高会重写爬取相关的的代码
2.后续使用多线程机制优化代码
3.阅读numba英文原版帮助文档,看看能不能对第三方模块进行加速
4.当以上三条都完成之后,会将程序整体改为一个类
最后,想要感谢在我学习过程中,论坛里为我耐心解惑的大家,尤其是版主@Twilight6 。
没有你们的帮助,不会有我今日对python的认知
十分感谢你们。
以上 {:10_257:}太强了吧,一个月学到这么多 {:10_266:}是0基础的么,我学了两个月才刚到爬虫,太难了 fish_nian 发表于 2021-6-24 19:51
是0基础的么,我学了两个月才刚到爬虫,太难了
是的 牛
更新! 一个月,挺厉害的
页:
[1]