moc 发表于 2023-3-12 15:42:35

[学习笔记] 机器学习002-基础概念

本帖最后由 moc 于 2023-3-12 15:48 编辑

1 数据集



鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作例子。数据集内包含 3 类共 150 个样本,每类各 50 个样本,每条样本都有 4 个特征:**花萼长度**、**花萼宽度**、**花瓣长度**、**花瓣宽度**,可以通过这 4 个特征预测鸢尾花属于(iris-setosa, iris-versicolour, iris-virginica)中的哪个品种。

下图是150个样本中每个种类的鸢尾花数据各取了一个组成的表格:



基本概念


[*] 数据集(data set):整体的数据集合,即150个鸢尾花数据组成集合;
[*]样本(sample):每一行的数据,即一个鸢尾花的数据;
[*]特征(feature):除最后一列种类外,其余每一列都表达样本的一个特征,鸢尾花的四种性状就是这个数据集的四个特征,特征也可以很抽象,比如图像的每一个像素;
[*]标记(label):最后一列的分类信息称为数据的标记
[*]特征空间(feature space):每个特征就是数据的一个维度,一组数据有多少个特征就可以用对应维空间中的一个点表示这组数据,这个空间称为特征空间。分类任务的本质就是在特征空间切分。


数学符号

| 符号      | 含义                     |
| --------- | ------------------------ |
| X(i)    | 特征向量,第 i 个样本行|
| Xj(i) | 第 i 个样本第 j 个特征值 |
| yj    | 第 j 个样本的标记      |

2 主要任务

主要包含两类:分类任务 和 回归任务

分类任务

举例:识别一张图片上的动物是猫还是狗? 识别手写的数字是哪一个数字?




分类任务 - 二分类

给定样本判断样本是 A 还是 B,比如判断邮件是否是垃圾邮件,判断病患患有良性肿瘤还是恶性肿瘤,判断股票是涨还是跌等等。

分类任务 - 多分类

给定样本判断样本属于多个种类中的一种,比如数字识别,图像识别,银行给客户信用卡的风险级别等等。

很多复杂的问题也可以转换成多分类问题,如下围棋(每个落子的点位就是一个分类)、自动驾驶等。

多标签分类

涉及到在给定输入的情况下输出类标签,如下图对图片信息的识别。



回归任务

输出的结果是一个连续数字的值,而非一个类别,比如预测房屋价格、股票价格、学生的成交等等。
一些情况下,回归任务可以简化成分类任务。

3 什么是机器学习

机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。
   机器学习的核心是 “使用算法解析数据,从中学习,然后对新数据做出决定或预测”。即计算机利用以获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测。



4 机器学习方法分类

可以分为 监督学习、非监督学习、半监督学习 和 增强学习。

监督学习

给机器的训练数据拥有 “标记” 或者 “答案”

举例:

图像已经拥有了标定信息;

银行已经积累了一定的客户信息和他们信用卡的信用情况;

市场积累了房屋的基本信息和最终成交的金额

相关算法:

        k邻近
       线性回归和多项式回归
        逻辑回归
       SVM
        决策树和随机森林

非监督学习

给机器的训练数据没有任何 “标记” 或者 “答案”

对没有 “标记” 的数据进行分类-聚类分析

作用:

        对数据进行降维处理,便于可视化
        异常点检测
        特征提取:排除数据中和预测结果无关的特征
       特征压缩:对于相近的特征数据进行压缩,如下图两个特征基本线性相关,简单的可以去除其中一个特征,PCA

       


半监督学习

一部分数据有 “标记” 或者 “答案” ,另一部分数据没有 (数据丢失)

通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测

增强学习

根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式

无人驾驶、机器人


5 机器学习的其他分类

批量学习和在线学习

批量学习(Batch Learning):
          收集样本送给我们的机器学习训练,将模型直接投入到生产环境中,之后的输入的样例不在作为学习资料来优化模型,特点是 简单但不能适应环境变化

在线学习(Online Learning):

        收集样本送给我们的机器学习训练,训练出的模型在后续使用的过程中仍能获得对输出结果的反馈以优化模型,,特点是 及时反映新的环境变化但新的数据可能存在问题

批量学习也适用于数据量巨大,完全无法批量学习的环境



参数学习和非参数学习

参数学习(Parametric Learning):

        “假设” 通常会大大简化学习过程,但也会限制学到的东西。将函数简化为已知形式的算法

        一旦学到了参数,就不再需要原有的数据集

        常见的参数机器学习算法是 **线性回归** 和 **逻辑回归**

非参数学习(Noparametric Learning):
       不对模型进行过多的假设,可以自由地从训练数据中学习任何形式的函数
        非参数不等于没参数!
        常见的非参数算法包括 **支持向量机**,**神经网络** 和 **决策树**

不二如是 发表于 2023-3-12 16:05:41

希望坚持发下去{:10_275:}
页: [1]
查看完整版本: [学习笔记] 机器学习002-基础概念