|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
- import pandas as pd
- import numpy as np
- filename = r'D:\python\chapter5\demo\data\sales_data.xls'
- data = pd.read_excel(filename,index_col='序号') #导入数据
- #数据是类别得标签,转换为数据
- #用1来表示“好”“是”“高”这三个属性,用-1表示 坏、否、低
- data[data =='好'] =1
- data[data =='是'] =1
- data[data =='高'] =1
- data[data != 1] = -1
- x = data.iloc[:,:3].astype(int)
- y = data.iloc[:,3].astype(int)
- from sklearn.tree import DecisionTreeClassifier as DTC
- dtc = DTC(criterion='entropy') #建立决策树模型,基于信息熵
- dtc.fit(x,y) #训练模型
- from sklearn.tree import export_graphviz #导入相关函数,可视化决策树
- x=pd.DataFrame(x)
- with open('C:\\Users\\13783\\Desktop\\tree1.dot','w') as f: #导出dot文件
- f = export_graphviz(dtc,feature_names=x.columns ,out_file=f)
复制代码
x = data.iloc[:,:3].astype(int)
y = data.iloc[:,3].astype(int)
f = export_graphviz(dtc,feature_names=x.columns ,out_file=f)
x = data.iloc[:,:3].as_matrix().astype(int)
这四行代码表达了啥意思
第一行 取data的前三列所有数据,并且把里面的值都转换为整型
第二行 取data的第四列所有数据,并且把里面的值都转换为整型
第三行 可视化训练好的决策树
第四行和第一行差不多,只不过把DataFrame变成了array
|
|