鱼C论坛

 找回密码
 立即注册
查看: 1344|回复: 0

[技术交流] python爬虫——csv模块(读写文件)

[复制链接]
发表于 2021-11-1 16:38:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 非凡 于 2021-11-1 16:45 编辑

CSV 文件又称为逗号分隔值文件,是一种通用的、相对简单的文件格式,用以存储表格数据,包括数字或者字符。CSV 是电子表格和数据库中最常见的输入、输出文件格式,可参考《CSV介绍》。

通过爬虫将数据抓取的下来,然后把数据保存在文件,或者数据库中,这个过程称为数据的持久化存储。本节介绍 Python 内置模块 CSV 的读写操作。
CSV文件写入
1) csv.writer()
csv 模块中的 writer 类可用于读写序列化的数据,其语法格式如下:
  1. writer(csvfile, dialect='excel', **fmtparams)
复制代码

参数说明:
csvfile:必须是支持迭代(Iterator)的对象,可以是文件(file)对象或者列表(list)对象。
dialect:编码风格,默认为 excel 的风格,也就是使用逗号,分隔。
fmtparam:格式化参数,用来覆盖之前 dialect 对象指定的编码风格。

示例如下:
  1. import csv
  2. # 操作文件对象时,需要添加newline参数逐行写入,否则会出现空行现象
  3. with open('eggs.csv', 'w', newline='') as csvfile:
  4.     # delimiter 指定分隔符,默认为逗号,这里指定为空格
  5.     # quotechar 表示引用符
  6.     # writerow 单行写入,列表格式传入数据
  7.     spamwriter = csv.writer(csvfile, delimiter=' ',quotechar='|')
  8.     spamwriter.writerow(['www.biancheng.net'] * 5 + ['how are you'])
  9.     spamwriter.writerow(['hello world', 'web site', 'www.biancheng.net'])
复制代码

eggs.csv 文件内容如下:
  1. www.biancheng.net www.biancheng.net www.biancheng.net www.biancheng.net www.biancheng.net |how are you|
  2. |hello world| |web site| www.biancheng.net
复制代码

其中,quotechar 是引用符,当一段话中出现分隔符的时候,用引用符将这句话括起来,以能排除歧义。

如果想同时写入多行数据,需要使用 writerrows() 方法,代码如下所示:
  1. import csv
  2. with open('aggs.csv', 'w', newline='') as f:
  3.     writer = csv.writer(f)
  4.     # 注意传入数据的格式为列表元组格式
  5.     writer.writerows([('hello','world'), ('I','love','you')])
复制代码
aggs.csv文件内容:
  1. hello,world
  2. I,love,you
复制代码

2) csv.DictWriter()
当然也可使用 DictWriter 类以字典的形式读写数据,使用示例如下:
  1. import csv
  2. with open('names.csv', 'w', newline='') as csvfile:
  3.     #构建字段名称,也就是key
  4.     fieldnames = ['first_name', 'last_name']
  5.     writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
  6.     # 写入字段名,当做表头
  7.     writer.writeheader()
  8.     # 多行写入
  9.     writer.writerows([{'first_name': 'Baked', 'last_name': 'Beans'},{'first_name': 'Lovely', 'last_name': 'Spam'}])
  10.     # 单行写入
  11.     writer.writerow({'first_name': 'Wonderful', 'last_name': 'Spam'})
复制代码

name.csv 文件内容,如下所示:
  1. first_name,last_name
  2. Baked,Beans
  3. Lovely,Spam
  4. Wonderful,Spam
复制代码

CSV文件读取
1) csv,reader()
csv 模块中的 reader 类和  DictReader 类用于读取文件中的数据,其中 reader() 语法格式如下:
  1. csv.reader(csvfile, dialect='excel', **fmtparams)
复制代码

应用示例如下:
  1. import csv
  2. with open('eggs.csv', 'r', newline='') as csvfile:
  3.     spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
  4.     for row in spamreader:
  5.         print(', '.join(row))
复制代码
输出结果:
  1. www.biancheng.net, www.biancheng.net, www.biancheng.net, www.biancheng.net, www.biancheng.net, how are you
  2. hello world, web site, www.biancheng.net
复制代码

2) csv.DictReader()
应用示例如下:
  1. import csv
  2. with open('names.csv', newline='') as csvfile:
  3.     reader = csv.DictReader(csvfile)
  4.     for row in reader:
  5.         print(row['first_name'], row['last_name'])
复制代码
[/code]
输出结果:
  1. Baked Beans
  2. Lovely Spam
  3. Wonderful Spam
复制代码

相关推荐文档:《CSV文件读写》

——————————————————上面内容搬运自C语言中文网—作者「魏雪原」—————————————————
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 22:36

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表