马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
import pandas as pd
import numpy as np
filename = r'D:\python\chapter5\demo\data\sales_data.xls'
data = pd.read_excel(filename,index_col='序号') #导入数据
#数据是类别得标签,转换为数据
#用1来表示“好”“是”“高”这三个属性,用-1表示 坏、否、低
data[data =='好'] =1
data[data =='是'] =1
data[data =='高'] =1
data[data != 1] = -1
x = data.iloc[:,:3].astype(int)
y = data.iloc[:,3].astype(int)
from sklearn.tree import DecisionTreeClassifier as DTC
dtc = DTC(criterion='entropy') #建立决策树模型,基于信息熵
dtc.fit(x,y) #训练模型
from sklearn.tree import export_graphviz #导入相关函数,可视化决策树
x=pd.DataFrame(x)
with open('C:\\Users\\13783\\Desktop\\tree1.dot','w') as f: #导出dot文件
f = export_graphviz(dtc,feature_names=x.columns ,out_file=f)
x = data.iloc[:,:3].astype(int)
y = data.iloc[:,3].astype(int)
f = export_graphviz(dtc,feature_names=x.columns ,out_file=f)
x = data.iloc[:,:3].as_matrix().astype(int)
这四行代码表达了啥意思
第一行 取data的前三列所有数据,并且把里面的值都转换为整型
第二行 取data的第四列所有数据,并且把里面的值都转换为整型
第三行 可视化训练好的决策树
第四行和第一行差不多,只不过把DataFrame变成了array
|