逻辑回归

返回顶部
查看留言
转到底部

现在的位置: 首页 > 综合 > 正文

RSS

2013年03月23日 ⁄ 综合 ⁄ 共 1319字 ⁄ 字号小中大 ⁄ 评论关闭

斯坦福大学机器学习第六课"逻辑回归“学习笔记，本次课程主要包括7部分：

1) Classification(分类)

2) Hypothesis Representation

3) Decision boundary(决策边界)

4) Cost function(代价函数，成本函数)

5) Simplified cost function and gradient descent(简化版代价函数及梯度下降算法)

6) Advanced optimization(其他优化算法)

7) Multi-class classification: One-vs-all(多类分类问题)

以下是每一部分的详细解读。

1) Classification(分类)

分类问题举例：

邮件：垃圾邮件/非垃圾邮件？
在线交易：是否欺诈（是/否）？
肿瘤：恶性/良性？

以上问题可以称之为二分类问题，可以用如下形式定义：

二分类问题-我爱公开课-52opencourse.com

其中0称之为负例，1称之为正例。

对于多分类问题，可以如下定义因变量y：

y \in {0, 1, 2, 3, . . ., n}

如果分类器用的是回归模型，并且已经训练好了一个模型，可以设置一个阈值：

如果hθ(x)≥0.5，则预测y=1,既y属于正例；
如果hθ(x)<0.5，则预测y=0,既y属于负例；

如果是线性回归模型，对于肿瘤这个二分类问题，图形表示如下：

线性回归二分类问题-我爱公开课-52opencourse.com

但是对于二分类问题来说，线性回归模型的Hypothesis输出值hθ(x)可以大于1也可以小于0。

这个时候我们引出逻辑回归，逻辑回归的Hypothesis输出介于0与1之间，既:

0 \leq h θ (x) \leq 1

注: 以下引自李航博士《统计学习方法》1.8节关于分类问题的一点描述：

分类是监督学习的一个核心问题，在监督学习中，当输出变量Y取有限个离散值时，预测问题便成为分类问题。这时，输入变量X可以是离散的，也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数，称为分类器(classifier)。分类器对新的输入进行输出的预测(prediction)，称为分类(classification).

2) Hypothesis Representation

逻辑回归模型：

上一节谈到，我们需要将Hypothesis的输出界定在0和1之间，既：