马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
程序要实现的功能:
1、按照SHA.csv表格中第一列和第二列的内容,去抓去网站上的数据
2、将抓去到到文件名 按照 每一行 第一列和第二列内容 保存成为 csv文件。
表格SHA.csv内容如下表:
产品编号 | 日期 | 产品名 | 000001 | 2017-12-02 | 产品名一 | 000002 | 2017-11-03 | 产品名二 | 000003 | 2017-10-20 | 产品名三 |
代码如下:from urllib.request import urlretrieve
f = open('SHA.csv', 'r')
for line in f:
data = line.split(',')
stock_no = data[0].strip()
stock_no_1 = '0' + data[0].strip()
start_date = data[1].strip()
stock_name = data[2].strip()
url = '爬虫网站地址,我删除了这个地址'
filename = + stock_no + '_'+ stcok_name +'.csv'
print(url)
urlretrieve(url, filename)
我先感谢前面帮助过我到几位鱼友帮忙我把程序从 v2.7 转换成为 v3.6。
这里遇到了估计是中文代码到问题,因为表格中到 data[2] (第三列)这里属于中文字符,如果把这列内容去了不会有错误。
加入这列信息到抓去会报如下错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 22: invalid continuation byte
我也百度了下这个代码,我也尝试在 form 前面加入一行 # coding:utf-8 代码,报错描述依旧,请各位帮忙我修改下错误在那里?还有关于这些内容需要去那里找资料来阅读?最重要的是给我一个学习解决问题的思路和方法,谢谢! |