对文本中数据的分类问题,Python交流,编程语言专区,鱼C论坛

阿智兄 发表于 2021-4-18 22:38:39

对文本中数据的分类问题

非常感谢你在百忙之中抽空为我解答，以下是问题：
对文本中的数据冒号后面部分的数据进行分类：
1.从A0001冒号后面的6个数中每次抽取4个(取15次，即C(6,4))，将每次抽取出来的4个数对全部数据逐个查找，看是否有完全相同的，如有则将该行数据写入一个新建的文本中。
2.举例：比如在文本的第一行抽取的是02,06,24,29,在对全部数据逐个查找得到的结果输出到新建文本(新建文件名以抽取的4个数命名02,06,24,29.txt)中如下：
A0001:02,06,07,24,28,29
A0005:01,02,06,11,24,29
A0017:01,02,06,10,24,29

以下是文本的部分数据：
A0001:02,06,07,24,28,29
A0002:02,08,21,24,29,31
A0003:05,07,09,16,18,27
A0004:13,17,19,24,26,30
A0005:01,02,06,11,24,29
A0006:12,14,18,20,26,28
A0007:04,10,12,18,23,25
A0008:02,12,13,14,31,33
A0009:01,05,08,15,16,30
A0010:06,11,21,25,28,31
A0011:08,09,13,27,29,31
A0012:08,10,15,17,22,30
A0013:11,16,23,26,27,33
A0014:05,07,09,16,20,26
A0015:03,05,13,19,20,25
A0016:06,08,14,17,18,30
A0017:01,02,06,10,24,29
A0018:02,21,22,23,27,28
A0019:10,15,17,25,31,32
A0020:04,08,17,24,28,33
A0021:01,03,06,07,09,11
A0022:12,16,17,24,28,29
A0023:02,08,14,23,25,32
A0024:09,15,18,29,32,33
A0025:03,08,09,13,15,18
A0026:06,14,16,26,28,29
A0027:04,15,21,25,29,33
A0028:06,09,12,16,27,31
A0029:03,06,14,18,20,26
A0030:05,10,16,23,27,33

Daniel_Zhang 发表于 2021-4-18 23:00:20

先 split(':') 拆分每一行成两部分,然后左侧的作为 dict key 右侧的 split(',') 作为一个列表,成为 dict 的 item

对每一行执行上述操作

从 list 里随机获得四个随机数

import random

a =

b = []

for each in range(4):
num = random.randint(0, len(a)-1)
print("取出 {}".format(a))
b.append(a)
del a

print(b)

循环,检查四个数是否在下一个 dict key 对应的 dict item,如果在,执行 xxx,不在,执行 yyy

阿奇_o 发表于 2021-4-18 23:23:52

本帖最后由阿奇_o 于 2021-4-18 23:25 编辑

什么意思？每次抽取出来的4个数对全部数据逐个查找，看是否有完全相同的？

从里面抽取的，又逐个验证？

嗯，先不管题目啥意思，我给出相关代码，你自己琢磨吧，
with open('文本数据检查与分类.txt') as f:
lines = f.readlines()
data = .split(',') for l in lines]
print(data[:3])

from itertools import combinations as cb
# ls = ['02', '06', '07', '24', '28', '29']
# for d in data:

for c in cb(data, 4): #只测试第一行数据
print(c)

阿智兄 发表于 2021-4-19 01:08:07

阿奇_o 发表于 2021-4-18 23:23
什么意思？每次抽取出来的4个数对全部数据逐个查找，看是否有完全相同的？

从里面抽取的，又逐个验证？
...

谢谢你给出了随机抽取4个数的那部分，我主要不懂后面那部分怎么写。
即随机抽取的这4个数跟所有的数据进行对比，如找到包含有这4个数字的那条数据，就将该条数据输出到文本中，文本的文件名以这4个数字命名。

qq1151985918 发表于 2021-4-19 06:13:56

data = """A0001:02,06,07,24,28,29
A0002:02,08,21,24,29,31
A0003:05,07,09,16,18,27
A0004:13,17,19,24,26,30
A0005:01,02,06,11,24,29
A0006:12,14,18,20,26,28
A0007:04,10,12,18,23,25
A0008:02,12,13,14,31,33
A0009:01,05,08,15,16,30
A0010:06,11,21,25,28,31
A0011:08,09,13,27,29,31
A0012:08,10,15,17,22,30
A0013:11,16,23,26,27,33
A0014:05,07,09,16,20,26
A0015:03,05,13,19,20,25
A0016:06,08,14,17,18,30
A0017:01,02,06,10,24,29
A0018:02,21,22,23,27,28
A0019:10,15,17,25,31,32
A0020:04,08,17,24,28,33
A0021:01,03,06,07,09,11
A0022:12,16,17,24,28,29
A0023:02,08,14,23,25,32
A0024:09,15,18,29,32,33
A0025:03,08,09,13,15,18
A0026:06,14,16,26,28,29
A0027:04,15,21,25,29,33
A0028:06,09,12,16,27,31
A0029:03,06,14,18,20,26
A0030:05,10,16,23,27,33"""

from random import sample

text = "A0001:02,06,07,24,28,29"
nums = text.split(":")[-1].split(",")
rand = sorted(sample(nums,4),key = nums.index)
print(rand)

for i in data.split("\n"):
if set(rand).issubset(set(i.split(":")[-1].split(","))):
print(i)

z5560636 发表于 2021-4-19 08:58:12

qq1151985918 发表于 2021-4-19 06:13

学习了，一定得要组成集合吗？用list 不行吗？要是数据有重复得怎么办？

qq1151985918 发表于 2021-4-19 09:21:58

本帖最后由 qq1151985918 于 2021-4-19 09:28 编辑

z5560636 发表于 2021-4-19 08:58
学习了，一定得要组成集合吗？用list 不行吗？要是数据有重复得怎么办？

这个当然不是，自己写个函数一样可以，只是只有集合才有子集的判断方式issubset 这个方法，
数据重复根据题目来看用集合也是没问题的，因为你即使不用集合归根结底也是同样的判断方式，
或者用 in 或者其他方式，总归跟去重操作无关，
不信你再算一算。
而且这个数据我个人感觉和双色球极为类似（99.99%），可能不存在重复的可能

阿智兄 发表于 2021-4-19 21:45:21

Daniel_Zhang 发表于 2021-4-18 23:00
先 split(':') 拆分每一行成两部分,然后左侧的作为 dict key 右侧的 split(',') 作为一个列表,成为 dict 的 ...

谢谢回复。可以把检查四个数是否在下一个 dict key 对应的 dict item,如果在,执行 xxx,不在,执行 yyy
的代码写一下吗？

阿智兄 发表于 2021-4-19 22:12:48

qq1151985918 发表于 2021-4-19 06:13

谢谢你再次回复。可以在代码后面写上注释吗？

qq1151985918 发表于 2021-4-20 10:43:17

阿智兄发表于 2021-4-19 22:12
谢谢你再次回复。可以在代码后面写上注释吗？

data = """A0001:02,06,07,24,28,29
A0002:02,08,21,24,29,31
A0003:05,07,09,16,18,27
A0004:13,17,19,24,26,30
A0005:01,02,06,11,24,29
A0006:12,14,18,20,26,28
A0007:04,10,12,18,23,25
A0008:02,12,13,14,31,33
A0009:01,05,08,15,16,30
A0010:06,11,21,25,28,31
A0011:08,09,13,27,29,31
A0012:08,10,15,17,22,30
A0013:11,16,23,26,27,33
A0014:05,07,09,16,20,26
A0015:03,05,13,19,20,25
A0016:06,08,14,17,18,30
A0017:01,02,06,10,24,29
A0018:02,21,22,23,27,28
A0019:10,15,17,25,31,32
A0020:04,08,17,24,28,33
A0021:01,03,06,07,09,11
A0022:12,16,17,24,28,29
A0023:02,08,14,23,25,32
A0024:09,15,18,29,32,33
A0025:03,08,09,13,15,18
A0026:06,14,16,26,28,29
A0027:04,15,21,25,29,33
A0028:06,09,12,16,27,31
A0029:03,06,14,18,20,26
A0030:05,10,16,23,27,33"""

# 加载 random 中的函数 sample 此函数用于随机选取列表中的 n 个元素
from random import sample

text = "A0001:02,06,07,24,28,29"
# split() 函数用于以分隔符号为规则分割字符串
# 字符串分割后以字符串形式储存于列表
nums = text.split(":")[-1].split(",")
# sample(nums,4) 表示从 nums 中随机选取 4 个不重复元素并返回一个列表
# sorted() 表示对列表进行指定要求的排序，这里用的 key 为按照 nums 顺序排序
# sorted() 有返回值
rand = sorted(sample(nums,4),key = nums.index)
print(rand)

for i in data.split("\n"):
# set() 函数为将列表或者元组等转换为集合，同时会去重，也就是相同元素只会保留一个
# issubset() 函数为判断前者是否为后者子集
# 特别说明下，如果函数名用 is 开头基本上就是判断函数，返回值为 True 或者 False
# subset 的意思为子集，issubset 就是判断是否为子集
# digit 的意思为数字，isdigit 就是判断是否为数字
# space 的意思为空格，isspace 就是判断是否为空格，同样的函数还有很多很多……

if set(rand).issubset(set(i.split(":")[-1].split(","))):
print(i)

阿智兄 发表于 2021-4-20 13:12:27

qq1151985918 发表于 2021-4-20 10:43

再次谢谢你的帮助。

页: [1]

鱼C论坛's Archiver

对文本中数据的分类问题