鱼C论坛

 找回密码
 立即注册
查看: 4099|回复: 4

[已解决]关于Python统计代码量函数的程序行数统计出差错

[复制链接]
发表于 2017-5-8 14:27:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import easygui as g
  2. import os
  3. import sys



  4. def show_result(start_dir):
  5.     lines = 0
  6.     total = 0
  7.     text = ""

  8.     for i in source_list:
  9.         lines = source_list[i]
  10.         total += lines
  11.         text += "【%s】源文件 %d 个,源代码 %d 行\n" % (i, file_list[i], lines)
  12.     title = '统计结果'
  13.     msg = '您目前共累积编写了 %d 行代码,完成进度:%.2f %%\n离 10 万行代码还差 %d 行,请继续努力!' % (total, total/1000, 100000-total)
  14.     g.textbox(msg, title, text)

  15. def calc_code(file_name):
  16.     lines = 0
  17.     with open(file_name) as f:
  18.         print('正在分析文件:%s ...' % file_name)
  19.         try:
  20.             for each_line in f:
  21.                 lines += 1
  22.         except UnicodeDecodeError:
  23.             pass # 不可避免会遇到格式不兼容的文件,这里忽略掉......
  24.         
  25.     return lines

  26. def search_file(start_dir) :
  27.     os.chdir(start_dir)
  28.    
  29.     for each_file in os.listdir(os.curdir) :
  30.         ext = os.path.splitext(each_file)[1]
  31.         if ext in target :
  32.             lines = calc_code(each_file) # 统计行数
  33.             # 还记得异常的用法吗?如果字典中不存,抛出 KeyError,则添加字典键
  34.             # 统计文件数
  35.             try:
  36.                 file_list[ext] += 1
  37.             except KeyError:
  38.                 file_list[ext] = 1
  39.             # 统计源代码行数
  40.             try:
  41.                 source_list[ext] += lines
  42.             except KeyError:
  43.                 source_list[ext] = lines
  44.             
  45.         if os.path.isdir(each_file) :
  46.             search_file(each_file) # 递归调用
  47.             os.chdir(os.pardir) # 递归调用后切记返回上一层目录
  48.             
  49. target = ['.c', '.cpp', '.py', '.cc', '.java', '.pas', '.asm']
  50. file_list = {}
  51. source_list = {}

  52. g.msgbox("请打开您存放所有代码的文件夹......", "统计代码量")
  53. path = g.diropenbox("请选择您的代码库:")

  54. search_file(path)
  55. show_result(path)
复制代码


运行下来,只要这个代码文件中含有中文的注释就无法算进去。原因出在每个文件统计行数的那一段小程序

  1. def calc_code(file_name):
  2.     lines = 0
  3.     with open(file_name) as f:
  4.         print('正在分析文件:%s ...' % file_name)
  5.         try:
  6.             for each_line in f:
  7.                 lines += 1
  8.         except UnicodeDecodeError:
  9.             pass # 不可避免会遇到格式不兼容的文件,这里忽略掉......
  10.         
  11.     return lines
复制代码


UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 16: illegal multibyte sequence
中文的编码是gbk,而默认utf-8,这是应该如何解决,才能使得有中文长注释的行数也计算上去?
最佳答案
2017-5-8 22:02:54
  1. with open(file_name) as f
复制代码

这一句修改成
  1. with open(file_name,encoding='utf-8') as f
复制代码

就可以正常打开
有问题可以提问
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-5-8 22:02:54 | 显示全部楼层    本楼为最佳答案   
  1. with open(file_name) as f
复制代码

这一句修改成
  1. with open(file_name,encoding='utf-8') as f
复制代码

就可以正常打开
有问题可以提问
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-10 21:42:58 | 显示全部楼层
lumber2388779 发表于 2017-5-8 22:02
这一句修改成

就可以正常打开

对不起,回复晚了。
为什么强调编码是utf-8,读取的时候不是解码的过程吗?报错报的也是解码的错误,没弄明白呢,求细讲
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-10 23:37:01 | 显示全部楼层
爱上Q的球 发表于 2017-5-10 21:42
对不起,回复晚了。
为什么强调编码是utf-8,读取的时候不是解码的过程吗?报错报的也是解码的错误,没 ...

这跟我们系统的环境有关系,我们中文系统默认一些编码还是会采用gbk,你打开文件默认采用应该是系统的编码,而不一定是你文件的编码格式 ,我们借用其他工具打开默认会使用文件的编码格式进行打开,但是编程中不一定会这样做
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-13 14:25:16 | 显示全部楼层
lumber2388779 发表于 2017-5-10 23:37
这跟我们系统的环境有关系,我们中文系统默认一些编码还是会采用gbk,你打开文件默认采用应该是系统的编码, ...

这样啊,谢谢你~~~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 03:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表