[新手问题]gbk的文件怎么处理啊, 一直错

dodopromi · 发表于 2016-9-30 17:49:08

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 dodopromi 于 2016-10-3 09:59 编辑

python的文件, 竟然自己能写一点用的着的挺开心. 不过步步是坑. 从语法, 到思路..

现在就是, 我要扫描一个文件中的gre单词, 并把他们打出来. 目前,我不知道怎么做

f = open(r'C:\Documents and Settings\Administrator\桌面\学习\test\2.txt','r')
f1=open(r'C:\Documents and Settings\Administrator\桌面\学习\test\new3.txt','w')
gre=open(r'C:\Documents and Settings\Administrator\桌面\学习\test\gre.txt','r')
gredic={}
for each_line in gre:
gredic[each_line.split('\t\t')[0]]=each_line.split('\t\t')[-1]
print(gredic)
for each_line in f:
words=each_line.split()
for each_word in words:
if each_word in gredic:
print(each_word,'是gre词汇')
f.close
f1.close
gre.close

复制代码

错误信息提示
Traceback (most recent call last):
File "C:/Python34/插入词典.py", line 4, in <module>
gredic=gre.read()
UnicodeDecodeError: 'gbk' codec can't decode byte 0xaa in position 9626: illegal multibyte sequence

关于编码问题,我倒腾好几次了,反反复复的把各个文件存成各种格式的,都没用

问题:
1 这个in position 9626是个什么东西, 为什么随着文件的变化, 一直在变化
2, 如果是个特殊的符号, 我能不能一次找到全部删掉,但是文本下面我看不到啊.
3, 而且file.seek(), 和file.tell() 时好时坏

字典gre长这个模样

abacus    n．算盘
abandon    v．n．放弃，放纵
abase    v．贬抑，使卑下
abate    v．减轻，降低
abattoir    n.屠宰场，角斗场

问题

我这种方式是不是会占据很大内存,让电脑执行的很慢, 正常思路是怎样的, 是应该建立数据库吗? 或是python还有其他的解决方案

好吧,我没说清楚,重新说.
现在我有一个gre.txt文件, 格式如上图字典
然后我有一个字幕文件, 格式如以下

21
打死它 abacus 杀了它

00:01:21,190 --> 00:01:22,710
Shoot anything that moves.
abate
救命

00:01:48,200 --> 00:01:49,540
He -- he got me.
abeyance

我最后希望呈现

21
打死它  abacus [abacus是gre词汇  n．算盘]杀了它

00:01:21,190 --> 00:01:22,710
Shoot anything that moves.
abate[abate是gre词汇  v．减轻，降低]
救命

00:01:48,200 --> 00:01:49,540
He -- he got me.
abeyance [abeyance是gre词汇  n．中止，暂搁]

就是加注解这么一个功能吧
ps

我不知道为什么, 一天都没人睬我, 是我态度不正确吗

额, 不会传附件, 如果已经上传, 请把后缀改为,txt

2.zip (160 Bytes, 下载次数: 0)

gre.zip (246.58 KB, 下载次数: 10)

dodopromi · 发表于 2016-10-1 05:15:57

没人睬我

玄天宗 · 发表于 2016-10-1 10:02:02

dodopromi 发表于 2016-10-1 05:15
没人睬我

不是很明白你到底要干嘛、、、哎是不是我理解力太差了

dodopromi · 发表于 2016-10-1 15:49:20

wei_Y · 发表于 2016-10-1 19:35:25

in position就是出错点，也就是用gbk编码不能解码的地方。
你可以打开文件时用utf-8试试(对应编码就行)，open('xxx', encoding='utf-8')

dodopromi · 发表于 2016-10-2 17:37:48

wei_Y 发表于 2016-10-1 19:35
in position就是出错点，也就是用gbk编码不能解码的地方。
你可以打开文件时用utf-8试试(对应编码就行)，o ...

#-*- encoding:UTF-8 -*-
import codecs
f = open(r'C:\Documents and Settings\Administrator\桌面\test\2.txt','r',encoding='utf-8')
f1=open(r'C:\Documents and Settings\Administrator\桌面\test\3.txt','w',encoding='utf-8')
gre=open(r'C:\Documents and Settings\Administrator\桌面\test\gre.txt','r',encoding='utf-8')

复制代码

前面已经全部改为  utf-8  然后一段一段试都不行, 前面两段也看不懂,反正都往上怼

结果依旧
Traceback (most recent call last):
  File "C:\Documents and Settings\Administrator\桌面\test\找出文章中的gre词汇插入.py", line 11, in <module>
for each_line in f:
  File "C:\Python34\lib\codecs.py", line 313, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb4 in position 4: invalid start byte

大神,再帮我看看

dodopromi · 发表于 2016-10-2 17:42:33

@wei_Y, @冬雪雪冬, @hldh214, @shuofxz, @SixPy

冬雪雪冬 · 发表于 2016-10-2 17:51:02

你把gre.txt也发上来，方便大家测试，看看问题出在哪里。

dodopromi · 发表于 2016-10-2 18:02:35

冬雪雪冬发表于 2016-10-2 17:51
你把gre.txt也发上来，方便大家测试，看看问题出在哪里。

上传了, 不是txt文件, 要把后缀由'zip'改成'txt'

冬雪雪冬 · 发表于 2016-10-2 18:20:06

dodopromi 发表于 2016-10-2 18:02
上传了, 不是txt文件, 要把后缀由'zip'改成'txt'

我试了，加上utf-8是可以的。

f = open('gre.txt', encoding = 'utf-8')
for each in f:
print(each)
f.close()

复制代码

未加utf-8

Traceback (most recent call last):
File "D:\py\1.py", line 2, in <module>
for each in f:
UnicodeDecodeError: 'gbk' codec can't decode byte 0x98 in position 22: illegal multibyte sequence

复制代码

加上utf-8

abacus n．算盘
abandon v．n．放弃，放纵
abase v．贬抑，使卑下
abate v．减轻，降低
abattoir n.屠宰场，角斗场

复制代码

wei_Y · 发表于 2016-10-2 18:31:30

dodopromi 发表于 2016-10-2 17:37
前面已经全部改为 utf-8 然后一段一段试都不行, 前面两段也看不懂,反正都往上怼

结果依旧

可以另存为文件后选择不同编码试试。

账号		自动登录	找回密码
密码			立即注册

[新手问题]gbk的文件怎么处理啊, 一直错

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

评分

评分