|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
% H: j/ h1 [% g& W0 `* W
n; y B1 V/ ?! H; b$ y
书名:《机器学习实战》
& p* d& Z; O" ?( Q作者:哈林顿 (Peter Harrington)
1 X( a* H+ S$ o, ?- c4 C译者:李锐,李鹏,曲亚东,王斌' V) B' }3 ?% k. k$ U* ]
出版社:人民邮电出版社) t% F" @8 [. X) C8 v% l9 |4 x1 P
出版年:第1版 (2013年6月1日)
2 X5 ]$ r/ V: @% u! [' t定价:69.00
$ u3 M! Z4 Q( P+ `! e7 t* z8 b装帧:平装
: n$ s4 A1 C8 Z8 {$ IISBN:97871153179571 }" }" ~8 r" n. a4 t1 C" }
# m8 B: Z/ u, X% v
+ g4 |9 }$ A% s& I5 a% N* P购买链接:+ j8 k1 A3 b& P: ?: ]+ p
$ }) A- U/ q- J4 {# k
亚马逊 -> 传送门3 V# |' a; W7 G8 _
9 S# I2 _! O( E3 o0 x% h( g- f当当网 -> 传送门
6 D; M* f5 \% Z- i1 D3 x* ^8 e% b5 n+ K& {0 `" j9 }
京东 -> 传送门
* v) x. Y; B$ N; ^$ t) Q- G/ j( V2 i7 P7 q) g. |
天猫 -> 传送门, y1 }0 G' O& T
$ K5 P9 y) q) d( f 5 z( q; X! ]. R0 h+ E7 ?
内容简介:
% a& ]8 z6 Y* x
8 r0 Q1 q" N5 `, }1 l9 L( ^ 机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。
' ^% h7 j6 a* C) B7 m2 g% \- m 《机器学习实战》主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。 ! K- [; _% Z% F( G8 q7 ^
《机器学习实战》通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高 级的功能,如汇总和简化等。+ |! K4 P- V( c: F) [
8 b3 x* X& V% g A
$ @3 B0 Q7 G$ }1 k" `: H- O目录:
' W9 ]" h* y2 X/ n: T' Q! s# ?7 R/ ^. g/ ?. D9 ?( w6 [
★ 第一部分 分类 9 ]" o6 d/ [$ p2 m9 [
9 ]( b+ v: @' |) n/ ]' n. A; V
第1章 机器学习基础 2 - |: L# }* B& u5 |7 U# U* p
1.1 何谓机器学习 3 6 Y/ A" F$ b/ {
1.1.1 传感器和海量数据 4 ; _! ?2 o8 w9 j" h' W
1.1.2 机器学习非常重要 5
6 h) \2 I0 N, f. q5 Q& c$ B1.2 关键术语 5
% c( l- L8 v( ]1.3 机器学习的主要任务 7 , q8 Y# [# G7 B
1.4 如何选择合适的算法 8 " ?9 W" G8 O9 K+ L" |5 `
1.5 开发机器学习应用程序的步骤 9 9 x0 C+ x j6 U% x* f
1.6 Python语言的优势 10 : x" @# u0 M% y: E
1.6.1 可执行伪代码 10
s% @7 L1 c \6 I% A/ n0 A1.6.2 Python比较流行 10
& {7 {% Y! Z2 f( _& O1.6.3 Python语言的特色 11
7 ]0 z; z- P" B' v1.6.4 Python语言的缺点 11
3 ^' D' c( |- k: }6 E, u1.7 NumPy函数库基础 12
) E/ [8 x9 U. q1 ~1 M* T5 Z1.8 本章小结 13
* V' L5 c8 I9 O1 h6 W
3 b6 \2 e& Y! f W% M- a' s4 x第2章 k—近邻算法 15
i/ K. k# b4 k" A2.1 k—近邻算法概述 15
* E) d* B u. o& z s& Y( t# i# n2.1.1 准备:使用Python导入数据 17
; M+ e4 z& Q& s+ ]0 b& o0 f2.1.2 从文本文件中解析数据 19
O! G, Z6 X( |/ f) ? w- D2.1.3 如何测试分类器 20
/ Y, y% d3 \! ]% c: q0 g, E2.2 示例:使用k—近邻算法改进约会网站的配对效果 20 $ g5 i( s! w5 l3 H2 z- b0 h$ m# X
2.2.1 准备数据:从文本文件中解析数据 21 5 |1 v! n) x ]3 d9 n: U# s
2.2.2 分析数据:使用Matplotlib创建散点图 23
" ]( M3 P6 M! x, N3 V5 B1 n2.2.3 准备数据:归一化数值 25 " w7 j' p7 R/ N5 z
2.2.4 测试算法:作为完整程序验证分类器 26 7 P2 ~4 C8 z: L( ]& M4 m5 ]
2.2.5 使用算法:构建完整可用系统 27 # A# g% U: _9 x/ D
2.3 示例:手写识别系统 28
% c1 v: H) ]2 k9 ]2.3.1 准备数据:将图像转换为测试向量 29 ; H" J4 {- B8 c3 W8 w/ N1 x/ n
2.3.2 测试算法:使用k—近邻算法识别手写数字 30 * ]5 r4 t: n2 @
2.4 本章小结 31 0 x9 }0 d2 @2 s; e1 k4 h; x9 q- ]
3 _' P0 o+ p& \# r6 `
第3章 决策树 32 / x1 W8 g: F, H2 U
3.1 决策树的构造 33
& b8 o2 R9 O$ D( a6 h3.1.1 信息增益 35 * K5 Q! {6 N% S: f
3.1.2 划分数据集 37
+ }6 D1 B8 l# f( }9 k7 c3.1.3 递归构建决策树 39
2 d. P, R+ F4 Z+ d9 ]% o/ p3.2 在Python中使用Matplotlib注解绘制树形图 42 # C1 W' z6 a1 e
3.2.1 Matplotlib注解 43
! k' T; b# p7 s- a% U: E8 M3.2.2 构造注解树 44
5 e9 n( y/ w, ~ {8 ^3.3 测试和存储分类器 48
$ M8 ~+ l& ^* e( g3.3.1 测试算法:使用决策树执行分类 49
6 ?% J$ {' u) B. R( X5 I" ~- ]3.3.2 使用算法:决策树的存储 50
' `& l! F- U6 ]/ z+ ?- i3.4 示例:使用决策树预测隐形眼镜类型 50
& S" u$ h8 N, @, H! B3.5 本章小结 52 6 Q" o$ X S" Q% ~3 Z* \
! o# p) c3 |; f" ~7 R) K+ M7 y
第4章 基于概率论的分类方法:朴素贝叶斯 53 3 ^' c0 I& r6 _, d" n: D
4.1 基于贝叶斯决策理论的分类方法 53 ( A' E6 \& C: D! o b% x
4.2 条件概率 55
& F: D1 B* ~% w) ~9 K) U4.3 使用条件概率来分类 56
; S" ^. M/ @& w& M4.4 使用朴素贝叶斯进行文档分类 57 7 a% b0 h2 l4 H- {) C9 a
4.5 使用Python进行文本分类 58 - _% f0 S, J4 b$ Q. {+ ~
4.5.1 准备数据:从文本中构建词向量 58
; L0 f# W4 _# |. l9 k4.5.2 训练算法:从词向量计算概率 60 1 g- h( J% E9 {' i: c. c8 M( T) v
4.5.3 测试算法:根据现实情况修改分类器 62
4 n5 o2 v/ B o' l0 Q5 i4.5.4 准备数据:文档词袋模型 64 5 d5 `# R2 l1 k0 Q( u8 [
4.6 示例:使用朴素贝叶斯过滤垃圾邮件 64 - j+ v5 g0 L3 V9 ?
4.6.1 准备数据:切分文本 65 5 c+ O* r1 Z8 l- P& S( F
4.6.2 测试算法:使用朴素贝叶斯进行交叉验证 66
9 \* @! y* E0 x% Y! A* e4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 68 C- C" z: }8 N( \" Q0 x( Q
4.7.1 收集数据:导入RSS源 68
$ e4 Q) Q5 K/ c4.7.2 分析数据:显示地域相关的用词 71 9 F( \3 Z, h& D4 G- ~$ x7 a
4.8 本章小结 72 0 C. @" Z/ C: Q
% s* l, y7 P' v& Q3 W0 C
第5章 Logistic回归 73 ' t5 T; T; X0 T! ]! v
5.1 基于Logistic回归和Sigmoid函数的分类 74
u* J( k6 v/ s% t- J5.2 基于最优化方法的最佳回归系数确定 75
- {8 R- H& v% z% U, c5 `8 c5.2.1 梯度上升法 75
4 @' s( o! T4 u5.2.2 训练算法:使用梯度上升找到最佳参数 77 ( [9 V* u7 j0 W6 ^
5.2.3 分析数据:画出决策边界 79 2 b! Z* }* J+ O+ D
5.2.4 训练算法:随机梯度上升 80 / ^% A( H0 o% f" t# O- u
5.3 示例:从疝气病症预测病马的死亡率 85 ! P2 T: {6 B/ L+ }) [1 B
5.3.1 准备数据:处理数据中的缺失值 85
& b- {* }: ] S; D5 b" X5.3.2 测试算法:用Logistic回归进行分类 86
5 O5 _* Y2 A2 ^. g5 u: Z* F5.4 本章小结 88 5 o- y: l5 ~- R. f2 b1 j' I
! X2 f A; h2 @0 L. H# X/ N
第6章 支持向量机 89
! @4 t3 ^- H7 ?/ A3 _# Y6.1 基于最大间隔分隔数据 89
9 d9 Y5 _9 [5 |6.2 寻找最大间隔 91
; r6 f& ]& s" ]6.2.1 分类器求解的优化问题 92 7 j2 c: f8 c* b/ u" Q
6.2.2 SVM应用的一般框架 93 - D8 s$ _% D$ g5 p: }* L
6.3 SMO高效优化算法 94 p" n% U: `9 H- A, f
6.3.1 Platt的SMO算法 94 2 J+ h) N* a. u
6.3.2 应用简化版SMO算法处理小规模数据集 94
& `, K: U. s/ }1 N! K, m; h6.4 利用完整PlattSMO算法加速优化 99 % @8 J1 @- r( n C, ` x) k; B
6.5 在复杂数据上应用核函数 105
8 z, |( H! }( f; E9 W- d3 {6.5.1 利用核函数将数据映射到高维空间 106 ; c9 j. x7 ]& F; v9 H" G3 O
6.5.2 径向基核函数 106 6 M( Q# |4 x) ^/ o8 o6 b
6.5.3 在测试中使用核函数 108
/ {$ T: d' ]& w$ d6.6 示例:手写识别问题回顾 111 % G2 C: b3 O- d& D! F6 A: O' h
6.7 本章小结 113 9 X; y+ e/ X, o. x% f0 L6 U9 F
& N" w! Q; {9 g( X7 w第7章 利用AdaBoost元算法提高分类性能 115 i1 [* d4 h( w D9 O
7.1 基于数据集多重抽样的分类器 115 7 n1 G; F" ^ J- T
7.1.1 bagging:基于数据随机重抽样的分类器构建方法 116
6 K3 ~1 C; F; w R7.1.2 boosting 116 $ V3 z% E8 H0 \% [! D N
7.2 训练算法:基于错误提升分类器的性能 117 / J- ~* Q, v6 b
7.3 基于单层决策树构建弱分类器 118 7 v1 O4 f$ T) q T4 U1 S
7.4 完整AdaBoost算法的实现 122 # F! a; K2 O) W
7.5 测试算法:基于AdaBoost的分类 124 ; |3 `) X! t' V% P1 s g
7.6 示例:在一个难数据集上应用AdaBoost 125
1 r- _0 \% J" C; @1 ]( r {7.7 非均衡分类问题 127 $ y* R& p: b* S# A7 l7 H
7.7.1 其他分类性能度量指标:正确率、召回率及ROC曲线 128
1 \* |$ p2 K5 W$ f# {$ j7 D7.7.2 基于代价函数的分类器决策控制 131 * \$ U% ~% o2 a5 R( k3 N
7.7.3 处理非均衡问题的数据抽样方法 132 - F6 K: L3 k- b2 K8 A! J
7.8 本章小结 132 ; c1 }# Q2 c2 G ~
y- \" J+ y6 v& Y" ?% {& y★ 第二部分 利用回归预测数值型数据 # T$ _7 D4 c$ X6 s
4 G' w* x5 s( u& R5 ~/ ^& s& z
第8章 预测数值型数据:回归 136 0 I, o% _0 @9 B9 B. m
8.1 用线性回归找到最佳拟合直线 136
: F# u+ X& a; P0 {% |6 Y6 K8.2 局部加权线性回归 141 # n5 K, e9 k5 @7 T* k; g2 c" g) l1 ?
8.3 示例:预测鲍鱼的年龄 145 ' @8 H4 c. R7 n
8.4 缩减系数来“理解”数据 146
4 X; _+ X2 V, i% k6 \" z5 p8.4.1 岭回归 146 / ?$ C8 {& f+ F5 y/ w
8.4.2 lasso 148 7 S+ d2 T6 ^5 P: w9 y4 s
8.4.3 前向逐步回归 149
# W, j N( H; f# m8.5 权衡偏差与方差 152 , |8 T; U; W/ G6 h( m/ A, J- m) B
8.6 示例:预测乐高玩具套装的价格 153 0 E( G7 A" K) L: B/ K9 ~* L
8.6.1 收集数据:使用Google购物的API 153 ! E- ?; i4 S* z. @3 z! i
8.6.2 训练算法:建立模型 155 ; z) `, O8 O2 P- w* X% ^+ s
8.7 本章小结 158 ) D" N f. }* d- Z* S
. ]6 u; O3 Y( T. I) g6 {$ }& F第9章 树回归 159
6 ~+ a2 \" t0 }5 F$ ? F9.1 复杂数据的局部性建模 159 % z1 f# C5 A2 F a
9.2 连续和离散型特征的树的构建 160
* G# |& k$ f$ l1 V' x; t9.3 将CART算法用于回归 163
9 O4 m* T! U5 w+ l5 w* F1 F9.3.1 构建树 163
& H q% y. u- ~7 m- f Q7 K4 V9.3.2 运行代码 165 " q; c+ v1 E, \8 V/ Z x
9.4 树剪枝 167
. h/ ] N; O" V8 B6 F. F- Q9.4.1 预剪枝 167
0 M9 g3 Y) }4 T b- Q9.4.2 后剪枝 168 7 i5 ] E6 n0 J6 m8 [8 f" x5 H
9.5 模型树 170 5 g) L& l4 V/ Z. F* X& O
9.6 示例:树回归与标准回归的比较 173
2 S' A2 L, ]7 c) K- ]9.7 使用Python的Tkinter库创建GUI 176 % G3 \2 O6 [' k D
9.7.1 用Tkinter创建GUI 177
, M/ H6 q6 d+ R, u, ?) e: u9.7.2 集成Matplotlib和Tkinter 179
' T0 i/ }+ i3 u6 P0 O9.8 本章小结 182
; C' I: @. L" i) D& |0 o A* n |/ ~- n$ I& c& C1 h
★ 第三部分 无监督学习
1 c" {8 ~+ |7 F$ B
* f3 J n0 {0 j4 m: Y) ]. j( \第10章 利用K—均值聚类算法对未标注数据分组 184
1 k/ _8 d& ~4 N4 O2 P10.1 K—均值聚类算法 185
# C) a8 P3 M0 g! V10.2 使用后处理来提高聚类性能 189
5 K$ ~: X/ c* a1 _10.3 二分K—均值算法 190 % K' n0 B* H# e: F4 q" }5 r
10.4 示例:对地图上的点进行聚类 193
. F! Z; K0 v# r10.4.1 Yahoo!PlaceFinderAPI 194
/ ^! j5 r; j# O$ c# {; [7 n10.4.2 对地理坐标进行聚类 196 7 p q- ~( ~# ?& p4 L
10.5 本章小结 198
* l4 W% Q; i, |3 R: v
2 \/ |. ?- B; H3 ?# e: n第11章 使用Apriori算法进行关联分析 200 2 r% I" i) _; p/ Y! A6 }' g
11.1 关联分析 201
1 d% x: l# n' g5 Z8 o% N$ P8 q* S11.2 Apriori原理 202 , k9 F) y: E% t+ o& P5 R% U8 J# H
11.3 使用Apriori算法来发现频繁集 204 7 N9 R4 m+ e4 E, V3 O
11.3.1 生成候选项集 204 1 b B% u( }+ j) Y
11.3.2 组织完整的Apriori算法 207 2 q2 ^) m5 d4 H+ H
11.4 从频繁项集中挖掘关联规则 209
" s) k' W$ L% x, s; s* I7 L11.5 示例:发现国会投票中的模式 212
6 R4 ^2 ?+ D$ Q- v$ q11.5.1 收集数据:构建美国国会投票记录的事务数据集 213 6 K/ S& k% N4 R; m& h; @3 O, ]
11.5.2 测试算法:基于美国国会投票记录挖掘关联规则 219 ! [" F8 V; l+ j
11.6 示例:发现毒蘑菇的相似特征 220 9 C8 }9 @& p: L7 ?6 B( F* e
11.7 本章小结 221
, l% S0 m: n2 Z% X+ U- x
* l& ~% Z: R) I( i: g第12章 使用FP—growth算法来高效发现频繁项集 223 2 v s# Q) @$ g6 }: d" [( E9 R6 Z
12.1 FP树:用于编码数据集的有效方式 224 7 ?/ {+ M0 l3 X& x6 A
12.2 构建FP树 225
5 O5 l4 B0 j+ h. W* c( S12.2.1 创建FP树的数据结构 226
3 E/ b' G& s9 w4 C- ~' }* V12.2.2 构建FP树 227
" _8 s! M. ?6 k5 P" s4 [12.3 从一棵FP树中挖掘频繁项集 231 , v: R8 r* o, ]. S) c- a
12.3.1 抽取条件模式基 231 5 P5 U- g2 A- |) o& {) }7 b
12.3.2 创建条件FP树 232
) U! ^% u+ t7 P5 }12.4 示例:在Twitter源中发现一些共现词 235
+ B" ~! e3 y4 r12.5 示例:从新闻网站点击流中挖掘 238 * U0 X/ R7 G, K
12.6 本章小结 239
X2 K) J1 n: Z) u/ d8 b , \% V! o* ]. W5 R7 q) [! K
★ 第四部分 其他工具 9 V1 r* c9 o' G6 |
9 e2 k) D; g- @+ [8 ?( `; G第13章 利用PCA来简化数据 242 $ C- ?" {2 l' t( L: X, P2 H
13.1 降维技术 242
/ M2 b6 W7 @3 g# `% P; m13.2 PCA 243
1 I9 x5 U) d, d# T" l8 o5 l13.2.1 移动坐标轴 243 . ?/ V v/ z& W2 Q! d: J
13.2.2 在NumPy中实现PCA 246
H1 H( i0 ~/ b9 l. k W: _- y13.3 示例:利用PCA对半导体制造数据降维 248 ' g( ?1 w3 m" l! l* L2 [) f
13.4 本章小结 2515 p4 k) y4 t: |1 P
6 ?6 @; I; ]4 Y7 q6 u第14章 利用SVD简化数据 252 7 f h" ~( t) v) ~" Q- Z$ c8 m, A
14.1 SVD的应用 252 ' b1 i5 E r) r9 K
14.1.1 隐性语义索引 253
, c; r3 Z6 O8 |( \( T14.1.2 推荐系统 253
* q9 d: o, K; d4 w14.2 矩阵分解 254
j7 p; g" c. Q! ]( p7 m- U8 Y14.3 利用Python实现SVD 255 ) Z) b, b/ T( x$ @' V8 Y9 M
14.4 基于协同过滤的推荐引擎 257 , N, @7 w' b' o" C9 A9 R
14.4.1 相似度计算 257
* w \3 ^+ }7 \( ]+ \& V( c14.4.2 基于物品的相似度还是基于用户的相似度? 260
% }* _8 q9 o q+ |0 r. W14.4.3 推荐引擎的评价 260
- ]5 s4 u7 d* m# K" W14.5 示例:餐馆菜肴推荐引擎 260
4 g! ?* N3 w# X' v6 B: T5 ~8 s14.5.1 推荐未尝过的菜肴 261 & u! L9 I8 S& K
14.5.2 利用SVD提高推荐的效果 263 / }* d/ E1 z& J" A
14.5.3 构建推荐引擎面临的挑战 265 0 y4 _9 \0 q! Y8 r" U* Q
14.6 基于SVD的图像压缩 266 - D- x/ |2 p) v6 h& f! h
14.7 本章小结 2687 E3 w4 s: |* T- c7 \% I2 t
$ r$ I8 I0 f& w; m1 G+ n0 F
第15章 大数据与MapReduce 270 ) |: d0 ~7 Q7 ]* N0 V9 j, e
15.1 MapReduce:分布式计算的框架 271
8 O/ @1 n, J; b! Q# a8 @15.2 Hadoop流 273 / V8 b0 x2 \# W
15.2.1 分布式计算均值和方差的mapper 273 : u: |' C; C& l; ~5 [" U
15.2.2 分布式计算均值和方差的reducer 274 - `" U! x0 h2 X2 g+ O$ [6 `& R
15.3 在Amazon网络服务上运行Hadoop程序 275
h- a0 F% q9 I d% g" r15.3.1 AWS上的可用服务 276 , `8 ?4 y& U! l$ Y
15.3.2 开启Amazon网络服务之旅 276 " G/ x1 u, z+ X# x; W
15.3.3 在EMR上运行Hadoop作业 278
: J) w: K+ N G" O) I V15.4 MapReduce上的机器学习 282 $ o' |, g, o' o& O' m
15.5 在Python中使用mrjob来自动化MapReduce 283 4 K, M% q M) S8 s' v
15.5.1 mrjob与EMR的无缝集成 283
, X% P; e0 e8 f2 U% s1 a15.5.2 mrjob的一个MapReduce代码剖析 284 7 E3 ?( T6 g& F, p' u- r
15.6 示例:分布式SVM的Pegasos算法 286
8 A7 i2 r" r$ E" H- W15.6.1 Pegasos算法 287
9 w7 z" _) O+ |2 U15.6.2 训练算法:用mrjob实现MapReduce版本的SVM 288 + c! `5 g+ s" R: L3 j
15.7 你真的需要MapReduce吗? 292 4 f0 W6 O; P: g6 S7 E$ J i3 K( L
15.8 本章小结 292
+ c' D* b( z( k; Z- }3 b( l# g# i
& r# x! S1 d! q: b. H0 S附录A Python入门 294 j v; O7 |0 p7 O" A; Q5 S3 X) s4 v
附录B 线性代数 303
/ {8 e* g- o! h& F' u4 G附录C 概率论复习 309
. X: n( @2 @' N% q! Y% }附录D 资源 312 1 A% h* I4 M$ }3 J% {5 f8 Z
索引 313 9 L1 D2 n, L' e
版权声明 316 Z" y R$ _# K1 q" n0 y' f8 g
: C9 z2 u! y o" _5 m6 c. j3 _
|
|