【参赛】与编程的邂逅,萌新交流区,萌新训练营,鱼C论坛

瓦尔登湖的海水 发表于 2016-9-12 10:06:25

【参赛】与编程的邂逅

从邮件中看到了这次“我的学习路”征稿活动，不禁有些许感慨，我就来说说我与编程语言邂逅的故事吧

—————————————————分割线——————————————————————

首先要说的是本人并不是计算机专业出身，在大学期间涉及的编程也只有考了76分的C语言。目前是流行病与卫生统计专业的硕士研究生。主攻医疗大数据分析

【邂逅】

与编程语言Python的邂逅还要从一次数据规整说起：
目前，我所在学科主要使用统计分析软件SAS、SPSS、STATA以及近几年流行起来得R语言，但是这些软件都有一个特点就是精于数据分析计算，但是不擅长数据的整理（尤其是中文数据）。举个例子：在SAS中数据以一条条观测的形式存于一个数据集中，一个观测一行，观测包含的变量信息为列，当我要对某个观测中含有中文内容的某个变量值进行修改时（尤其是替换、部分删除等操作）问题就出现了，由于本身对中文的支持度不高，修改就结果就可能是乱码。在屡次尝试无法成功后，我求助于大学时一个对计算机特别感兴趣同学，求助内容是将约170万条观测中所有小括号以及小括号内的内容删掉。他就使用了Python2.7给我写了一段代码，最后小课题顺利完成，我也认识到了Python语言的魅力，从此在课余迈上了编程这条路。

【学习方法】

Python于我可以说是一个不可或缺的工具，现在我毕业课题中也包含了大量Python的使用。从一个完全的门外汉到使用Python处理一些简单问题，我大约花了一个半月时间，期间主要的方法是看“零基础学习Python”系列视频，并完成课后习题。十分惭愧{:9_240:} ，我看到第23课“递归”时就没有往下看了，因为我的学习编程语言的方法是“发现问题，解决问题”，手上的问题解决了，就暂时没有学习下去的动力了。在进行毕业课题中的编程时，当课程内容及相关书籍无法解决问题是我的方法就是——百度。期间我题的问题都得到高手的指导，这些指导也帮助我顺利完成了毕业课题中Python编程环节。

【作品】（初学者的小作品）

这是毕业课题中的主体程序，利用双聚类方法对数据进行分析，这里的双聚类是使用Matlab完成的，Python的作用是对数据进行整理，形成SAS能够完美分析的数据集形式。

数据处理流程如下：

————————————分割线——————————————

代码如下：

import os
os.mkdir(r'C:\Users\zzz\Desktop\双聚类结果\matlab\col')
os.mkdir(r'C:\Users\zzz\Desktop\双聚类结果\matlab\row')
os.mkdir(r'C:\Users\zzz\Desktop\双聚类结果\matlab\result')
os.mkdir(r'C:\Users\zzz\Desktop\双聚类结果\matlab\result_replace')
os.mkdir(r'C:\Users\zzz\Desktop\双聚类结果\matlab\result_group')

nc1 = input("输入矩阵数量：")
nc2 = int(nc1) + 1

#读取行数据
i = 1
j = 1
fw = open('C:/Users/zzz/Desktop/双聚类结果/matlab/row/' + str(j) + '.txt', 'w')
for line in open('C:/Users/zzz/Desktop/双聚类结果/matlab/out_rows.txt', 'r'):
b = line.replace('[','x').replace(']','x')
c = b.replace(' ',' ')
d = c.replace(' ',' ')
e = d.replace(' ',' ')
f = e.replace('',' ')
g = f.replace(' ','x;x')
fw.write(g)
i += 1
if i > 1 and i % 3 == 1 :
   fw.close()
   lines = open('C:/Users/zzz/Desktop/双聚类结果/matlab/row/' + str(j) + '.txt').readlines()
   del lines
   open('C:/Users/zzz/Desktop/双聚类结果/matlab/row/' + str(j) + '.txt','w').writelines(lines)
   fw.close()
   j += 1
   fw = open('C:/Users/zzz/Desktop/双聚类结果/matlab/row/' + str(j) + '.txt', 'w')
fw.close()
#读取列数据
i = 1
j = 1
fw = open('C:/Users/zzz/Desktop/双聚类结果/matlab/col/' + str(j) + '.txt', 'w')
for line in open('C:/Users/zzz/Desktop/双聚类结果/matlab/out_cols.txt', 'r'):
b = line.replace('[','v').replace(']','v')
c = b.replace(' ',' ')
d = c.replace(' ',' ')
e = d.replace(' ',' ')
f = e.replace('',' ')
g = f.replace(' ','v;v')
fw.write(g)
i += 1
if i > 1 and i % 3 == 1 :
   fw.close()
   lines = open('C:/Users/zzz/Desktop/双聚类结果/matlab/col/' + str(j) + '.txt').readlines()
   del lines
   open('C:/Users/zzz/Desktop/双聚类结果/matlab/col/' + str(j) + '.txt','w').writelines(lines)
   fw.close()
   j += 1
   fw = open('C:/Users/zzz/Desktop/双聚类结果/matlab/col/' + str(j) + '.txt', 'w')
fw.close()

#行列数据整合
j = 1

for m in range(1,nc2):
i = 0
f = open('C:/Users/zzz/Desktop/双聚类结果/matlab/result/' + str(j) + '.txt','w')
row = open('C:/Users/zzz/Desktop/双聚类结果/matlab/row/' + str(j) + '.txt','r')
col = open('C:/Users/zzz/Desktop/双聚类结果/matlab/col/' + str(j) + '.txt','r')
while i < 2:
   if i == 0 :
         m = row.readline()
         n = col.readline()
         oz1 = m.strip('\n') + ' ' + n
         f.write(oz1)
         i += 1
   if i == 1:
         m = row.readline()
         n = col.readline()
         oz2 = m + n
         f.write(oz2)
         i += 1
   j += 1
f.flush()
f.close()

for j in range(1,nc2):
zdian_row = open('C:/Users/zzz/Desktop/D编号.txt')
zdian_col = open('C:/Users/zzz/Desktop/A编号.txt')
result = open('C:/Users/zzz/Desktop/双聚类结果/matlab/result_replace/' + str(j) + '.txt', 'w+')
ol = open('C:/Users/zzz/Desktop/双聚类结果/matlab/result/' + str(j) + '.txt')
txt = ol.readlines()
num = txt
b = row = txt
c = col = txt
for text1 in zdian_row:
   zf_o1 = text1.split()
   zf_z1 = zf_o1.strip('"')
   zf_r1 = 'x' + zf_o1 + 'x'
   b = b.replace(zf_r1,zf_z1)
for text2 in zdian_col:
   zf_o2 = text2.split()
   zf_z2 = zf_o2.strip('"')
   zf_r2 = 'v' + zf_o2 + 'v'
   c = c.replace(zf_r2,zf_z2)
result.write(num)
result.write(b)
result.write(c)
result.close()

#组合生成
i = 1
for m in range(1,nc2):
fw = open('C:/Users/zzz/Desktop/双聚类结果/matlab/result_group/' + str(i) + '.txt', 'w')
with open('C:/Users/zzz/Desktop/双聚类结果/matlab/result_replace/' + str(i) + '.txt') as info:
   text = info.readlines()
   num = text
   fw.write(num)
   drug =text.strip('\n')
   adr = text.strip('\n')
   for each in drug.split(';'):
         for other in adr.split(';'):
            a = (str(each) + '@'+ str(other))
            b = a.strip('\n')
            fw.write(b + '\n')
i += 1
fw.close()
————————————分割线——————————————

矩阵数量是Matlab计算结果中会显现的内容，“out_rows.txt”是双聚类结果（行×列）中行的信息，“out_cols.txt”是双聚类结果（行×列）中列的信息。“D编号.txt”是行信息的数据编码表。“A编号.txt”是列信息的数据编码表。进行正向、逆向编码的原因是Matlab以计算是会把SAS形成的矩阵形式数据的列标目自动编号，结果中无法看到列标目信息{:9_239:}

过程中的每个数据txt的结果如下（出于保密需要我把一些内容打了码）：

首先是Matlab导出的数据格式：

之后是行列数据整理、分割：

之后是行列数据整合：

之后是编码逆转换，从编码变回中文：

最后是分类规整：

【感言】

多学科交叉，拓展思维，开拓眼界，Programming makes life better!

康小泡 发表于 2016-9-12 19:00:54

小甲鱼老师说过，需要用的时候来学效果是最好的。所以楼主很厉害啊

小甲鱼 发表于 2016-10-9 00:15:34

Programming makes life better
说得太好了，这正是我们这一班人奋斗的目标！！

要学习 发表于 2016-11-19 19:46:28

非常棒。基础打得好？？

页: [1]

鱼C论坛's Archiver

【参赛】与编程的邂逅