机器学习问题分类

现在的位置: 首页 > 综合 > 正文

2018年03月31日 ⁄ 综合 ⁄ 共 654字 ⁄ 字号小中大 ⁄ 评论关闭

机器学习（Machine Learning）问题一般是通过一堆样本（Sample）数据去预测未知的数据。如果这些数据不是一维的，像一些多维的节点（entry），就把它们称为特征（features）。

机器学习问题可以分为两大类：

监督学习（supervised learning），训练数据中包含了我们需要预测的属性。这种问题可以分为：
- 分类（classification）：样本属于两类或者多类，分类器从已经知道类别的数据（labeled data）进行训练，然后去预测未知类别的数据（unlabeled data）。另一种理解，分类就是离散监督学习的一种形式，即给定有限的类别（categories），给定n个样本，为每一个样本标注正确的类别。
- 回归（regression），回归这个词中文比较不好理解，英文的意思是倒是比较明晰，就是分类的连续版本。如果期望的输出是一组或多组的连续数据。比如通过一条鱼的年龄和体重预测它的长度，即求f，使得length = f(age, weight)。
非监督学习（unspervised learning），训练数据中并不包含目标值。这种问题的目标是发现样本中相似的组，也称为聚类（clustering）；或者是计算数据的分布，也称密度估计（density estimation）；或者将高维数据映射至低维，比如用于可视化。

训练集与测试集

在机器学习中，一种通用的做法是将数据分为两部分，一部分用于学习，称为训练集（training set），另一部分用于测试，称为测试集（testing set）。

抱歉!评论已关闭.

学步园