[已解决]【求教】一个关于计算代码行数的问题

qingzk · 发表于 2020-1-26 22:44:10

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

各位大佬，小弟有一个问题想要请教：

在学Python第35课课后题中有一个问题是关于计算代码行数的。

如果是txt 文件，那么很容易，可以直接使用for each_line in f: line +=1 这样的方式就能得到这个txt文件的总行数。
然而，对于py文件，如果使用同样的方法则会报错：
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa1 in position 12: illegal multibyte sequence

然而我看了答案之后发现小甲鱼的代码中并没有用什么特殊的方法去算一个py文件的行数。
以下是小甲鱼的代码（部分）
def calc_code(file_name): #这里的file_name是一个特殊扩展名的文件，比如.py
lines = 0
with open(file_name) as f:
      print('正在分析文件：%s ...' % file_name)
      try:
         for each_line in f:
            lines += 1
      except UnicodeDecodeError:
         pass # 不可避免会遇到格式不兼容的文件，这里忽略掉......
return lines

小甲鱼的代码是可以正确运行的。

但是我尝试了几遍只是写一段找py文件行数的代码，却直接会报错。
比如：

>>> lines = 0
>>> with open('动动手1 账号中心答案.py') as f:
print('正在分析')
for each_line in f:
lines +=1

正在分析
Traceback (most recent call last):
  File "<pyshell#46>", line 3, in <module>
for each_line in f:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa1 in position 12: illegal multibyte sequence

难道是有些py文件可以读取，有些则会报错（UnicodeDecodeError）？
同样都是py文件，这是为什么呢？

非常感谢！！

最佳答案

月排行榜 / 总排行榜

hrp

2020-1-26 23:16:06

文件编码问题
因为大多数编辑器默认的保存编码是utf8，所以初级的解决办法是直接指定以utf8编码打开文件：

lines = 0
with open('动动手1 账号中心答案.py', 'r', encoding='utf-8') as f:
print('正在分析')
for each_line in f:
lines +=1

复制代码

跳转到最佳答案楼层

ba21 · 发表于 2020-1-26 22:53:02

读文本文件涉及编码问题。
这里推荐

cchardet 比chardet准确度高，速度快
cchardet.detect()返回字典，其中confidence是检测精确度，encoding是编码形式
1：网页编码判断：
import requests
import cchardet
res = requests.get('http://www.baidu.com/')
rawdata = res.content
cchardet.detect(rawdata)
>>>{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
2：文件编码判断
import cchardet
with open('c:\\111.txt','rb') as f:
msg=f.read()
enc = cchardet.detect(msg)
enc = enc['encoding']
print(enc)
# 以指定编码打开文件
with open("新建文本文档.txt", "r", encoding=enc) as f:
print(f.read())

复制代码

hrp · 发表于 2020-1-26 23:16:06

文件编码问题
因为大多数编辑器默认的保存编码是utf8，所以初级的解决办法是直接指定以utf8编码打开文件：

lines = 0
with open('动动手1 账号中心答案.py', 'r', encoding='utf-8') as f:
print('正在分析')
for each_line in f:
lines +=1

复制代码

qingzk · 发表于 2020-1-27 10:21:57

ba21 发表于 2020-1-26 22:53
读文本文件涉及编码问题。
这里推荐

非常感谢回复。
我大概看懂您的意思了。就是要先检测这个文件的编码。再使用正确的编码打开文件。
可是requests和cchardet这两个模块import不了，可能是要像easygui 一样先从什么地方下载安装。

qingzk · 发表于 2020-1-27 10:22:35

hrp 发表于 2020-1-26 23:16
文件编码问题
因为大多数编辑器默认的保存编码是utf8，所以初级的解决办法是直接指定以utf8编码打开文件： ...

谢谢！这种方法可行。

ba21 · 发表于 2020-1-27 12:00:48

qingzk 发表于 2020-1-27 10:21
非常感谢回复。
我大概看懂您的意思了。就是要先检测这个文件的编码。再使用正确的编码打开文件。
可是 ...

你都选好最佳了，我也无需多言。~！方法你看不上没办法

账号		自动登录	找回密码
密码			立即注册