鱼C论坛

 找回密码
 立即注册
查看: 2896|回复: 2

[技术交流] 三体第一章拼音数据

[复制链接]
发表于 2023-2-17 20:30:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 歌者文明清理员 于 2023-2-18 10:51 编辑

三体前1.txt (11.96 KB, 下载次数: 4)
因为整个文件有2.73mb,所以只上传前面部分

本来是想自己做一个需要用到汉字大全的项目,可是因为,网上的很多汉字大全都不全,而且拼音格式也要整半天,所以
答对者有最佳答案伺候

汉字大全可以从一本书里取字,书越长越精确,漏掉的汉字越少。
我想到了三体
已知,判断一个字是否为汉字的代码为r'[\u4e00-\u9fa5]'。
文件名为三体前1.txt
请问如何打开文件并识别出其中的拼音,然后保存到名为“汉字.chars”的二进制文件中

保存为二进制文件的方法 -> https://fishc.com.cn/thread-224536-1-1.html
获取拼音 -> https://fishc.com.cn/forum.php?mod=viewthread&tid=224579#lastpost

from re import match
from pickle import dump
from xpinyin import Pinyin
p = Pinyin()
file = open('三体前1.txt', 'r')
content = file.read()
file.close()
chars = {}
for char in content:
    if match(r'[\u4e00-\u9fa5]', char):
        pinyin = p.get_pinyin(char)
        if pinyin in chars:
            chars[pinyin].append(char)
        else:
            chars[pinyin] = [char]
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-2-17 20:40:39 | 显示全部楼层
抢个楼先
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-2-18 15:04:18 | 显示全部楼层
算我一个
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-24 15:24

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表