鱼C论坛

 找回密码
 立即注册
查看: 1357|回复: 2

请教关于机器学习的问题

[复制链接]
发表于 2018-2-21 11:47:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
因为小甲鱼的教学视频暂时还没有出关于机器学习的,考虑到机器学习一半都跟Python搅在一块的,所以只能在这个版块提问了...
目前本人还是超级小白一个,正在学习Python,

申请了一个学校的项目,有一个计算机系的导师愿意接收我,无奈所以只能开始恶补计算机知识



我想通过机器学习和自然语言处理去分析不同行业的招聘广告的写作结构,

导师在我写的研究计划书中提到应该强调一下如何在利用机器学习和自然语言处理的同事不降低数据分析和数据结果的质量

于是我在自己找文献的时候读到两个概念,
1. train-and-test approach 和 2. k-fold cross validation

想请教这两个概念是不是关于提高机器学习和自然语言处理方法效率和质量的两个概念,自己看书里面被一堆公式吓花了眼,

如果这两个概念是有用的话,想请高手出来替我解说一下,
如果不是也请高手帮我解答一二,担心自己找的方向找错了


小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-2-21 13:44:38 | 显示全部楼层
训练和测试方法。。。K折交叉验证。。。

训练集:学习样本数据集,主要是用来训练模型的。

验证集:对学习出来的模型,调整分类器的参数,如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数。

测试集:主要是测试训练好的模型的分辨能力(识别率等)。

简单而言:
训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。

交叉验证:
将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。

所以答案是:
肯定有关系啊。。。这是你训练模型时候的一般技巧。。。不管是不是NLP都。。。
比如数据少的时候用留一法之类的。。。
可以决定模型是否具有较好的一般性,防止过拟合什么的。。。
这些都是基础概念。。。
貌似你离NLP。。。
校级项目经费and时间。。。算了不说了。。。
希望你最后别半途而废,草草了事。。。

机器学习入门:
看周志华的机器学习啊。。。
斯坦福、MIT、吴恩达这些公开课。。。
DeepLearning这本书。。。
AND so on...

Finally:
入门之后直接刷论文吧,看看GitHub上有没有一些开源的相关项目。。。但愿时间来得及。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-21 19:37:38 | 显示全部楼层
Charles未晞 发表于 2018-2-21 13:44
训练和测试方法。。。K折交叉验证。。。

训练集:学习样本数据集,主要是用来训练模型的。

谢谢大神的回答和相关书籍的推荐!请问方便加个QQ或者微信吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-28 02:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表