[已解决]再开一贴，还是关于文件搜索的

wp231957 · 发表于 2019-3-25 15:52:13

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

# coding: utf-8
from os import listdir
#程序的功能就是从e:\gcc-html\gcc的所有文件中搜索keyword
#如果在哪个文件中找到了这个字符串，就把该文件名输出到屏幕
if __name__=="__main__":
keyword=input('please input find chars:')
files=listdir('e:\gcc-html\gcc')
flag=0
for file in files:
ftmp="e:\\gcc-html\\gcc\"+file
fo = open(ftmp, "r",encoding='windows-1252')
#print("正在处理 %s"%file)
if keyword in fo.read():
flag+=1
print(file)
if flag==0:print("keyword:%s no found "%keyword)

复制代码

这个搜索ansi 字符串没有问题，能运行且得到正确结果

但是搜汉字词语就找不到了，例如：
e:\>python ex14.py
please input find chars:电脑
keyword:电脑 no found
（这个电脑这两个字是存在某个txt里的)

最佳答案

月排行榜 / 总排行榜

jackz007

2019-3-25 18:40:47

估计是汉字编码的问题，键入以下代码，测试一下，看看结果：

# coding: utf-8
if __name__=="__main__":
keyword = input('please input find chars:') # 键盘输入两个汉字：'电脑'
for x in keyword:
print ' 0x%02x' % ord(x) , # 看看屏幕输出是不是：0xb5 0xe7 0xc4 0xd4

复制代码

跳转到最佳答案楼层

jackz007 · 发表于 2019-3-25 18:40:47

这个最佳答案由 jackz007 给出，感谢 jackz007 的回答。

单击隐藏图章

估计是汉字编码的问题，键入以下代码，测试一下，看看结果：

# coding: utf-8
if __name__=="__main__":
keyword = input('please input find chars:') # 键盘输入两个汉字：'电脑'
for x in keyword:
print ' 0x%02x' % ord(x) , # 看看屏幕输出是不是：0xb5 0xe7 0xc4 0xd4

复制代码

wp231957 · 发表于 2019-3-26 08:42:42

jackz007 发表于 2019-3-25 18:40
估计是汉字编码的问题，键入以下代码，测试一下，看看结果：

我再交互模式下和运行模式下得到一致结果

0x7535
0x8111

wp231957 · 发表于 2019-3-26 08:47:03

哦  也没啥问题详见：

我再百度查了一下  ：你说的内码是 GBK内码16进制
而我得到这个结果是  Unicode编码16进制（这没啥问题啊，从py文件本身，还是哪里不都是utf-8 吗）

wp231957 · 发表于 2019-3-26 08:57:56

补充，我又特意查看了一下，我要搜索的含有“电脑”两个字的文本文件它的编码格式是GB2312

确实是和我的utf-8 冲突啊

wp231957 · 发表于 2019-3-26 09:28:48

这样就能查到了，

# coding: utf-8
from os import listdir
if __name__=="__main__":
keyword=input('please input find chars:')
ftmp=u"e:\gcc-html\gcc\桌面显示ie图标.txt"
fo = open(ftmp, "r",encoding='GB2312')
if keyword in fo.read():
print(ftmp)

复制代码

其原因我猜测是我的原始文件目录中（即便都是文本文件，可是编码格式却是啥都有）我只针对一个文件就能办到了
我还要继续研究下去

jackz007 · 发表于 2019-3-26 11:02:59

本帖最后由 jackz007 于 2019-3-26 11:04 编辑

wp231957 发表于 2019-3-26 09:28
这样就能查到了，

其原因我猜测是我的原始文件目录中（即便都是文本文件，可是编码格式却是啥都有）我 ...

其实，utf8 与 unicode 还不能划等号，你得到的 16 进制码是 unicode 的，请运行一下下面的代码，区别一目了然：

def hexbytes(s):
ret = '0x%02x' % ord(s[0])
for i in range(1 , len(s)):
ret += ' 0x%02x' % ord(s[i])
return ret
a = unichr(0x7535) + unichr(0x8111)
b = a . encode("utf8")
c = a . encode("gbk")
d = a . encode("gb2312")
e = b . decode("utf8")
print a , 'unicode : ' , hexbytes(a)
print b , ' utf8 : ' , hexbytes(b)
print c , ' gbk : ' , hexbytes(c)
print d , ' gb2312 : ' , hexbytes(d)
print e , 'default : ' , hexbytes(e)

复制代码

wp231957 · 发表于 2019-3-26 11:10:22

jackz007 发表于 2019-3-26 11:02
其实，utf8 与 unicode 还不能划等号，你得到的 16 进制码是 unicode 的，请运行一下下面的代码， ...

2.x 代码运行不了呢

jackz007 · 发表于 2019-3-26 11:35:07

a = unichr(0x7535) + unichr(0x8111)

复制代码

改为下面试试：

a = chr(0x7535) + chr(0x8111)

复制代码

wp231957 · 发表于 2019-3-26 13:38:35

只有第一个print被执行执行结果如下：

电脑 unicode :  0x7535 0x8111
Traceback (most recent call last):
  File "ex16.py", line 14, in <module>
print (b , ' utf8 : ' , hexbytes(b))
  File "ex16.py", line 2, in hexbytes
ret = '0x%02x' % ord(s[0])
TypeError: ord() expected string of length 1, but int found

修改后代码如下：

def hexbytes(s):
ret = '0x%02x' % ord(s[0])
for i in range(1 , len(s)):
ret += ' 0x%02x' % ord(s[i])
return ret
a = chr(0x7535) + chr(0x8111)
b = a.encode("utf8")
c = a.encode("gbk")
d = a.encode("gb2312")
e = b.decode("utf8")
print (a , 'unicode : ' , hexbytes(a))
print (b , ' utf8 : ' , hexbytes(b))
print (c , ' gbk : ' , hexbytes(c))
print (d , ' gb2312 : ' , hexbytes(d))
print (e , 'default : ' , hexbytes(e))

复制代码

账号		自动登录	找回密码
密码			立即注册