笔记。
绪论
1 Welcome
2 Definition
Definition:A computer program is said to *learn frome experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
- Supervised learning
- Unsupervised learning
3 Supervised learning
监督学习
Regression(回归): Predict continuous valued output 目标是一个连续值输出
分类:目标离散
4 Unsupervised learning
无监督学习。
事先不知道答案。聚类。
Univariate linear regression(Linear regression with one variable)
单变量线性回归
6
代价函数 J()
7 8 9 Cost Function 代价函数
10 11Gradient descent
可以将代价函数最小化的梯度下降法。
随意设置起始点,假设你站在一座山上,环顾四周,看最快的下山路径是往哪,走一步,再继续看往哪走。直到走到局部最优。
起点不同,局部最优不同
α决定迈步子的大小,大则梯度下降迅速。
12 Gradient descent for linear regression
#线代
14~19 线代
配置
20~27
环境安装
多变量线性回归
28 多特性
29 多元梯度下降
http://mobile.yangkeduo.com/coup … 06573083_JmqeZYhLWBhttp://mobile.yangkeduo.com/coup … 06573083_JmqeZYhLWB
30 技巧:特征缩放
参数的规模不同导致几个θ产生椭圆等高线。这样寻找局部最优的方法变得缓慢。
特征缩放,把房子的面积➗100. 让几个特征规模相似。 产生圆形特征图
特征缩放不需要太精确,只是为了让收敛所需的迭代次数减少。
31 学习率α
代价函数随迭代次数++反而越来越大,说明学习率该设的小一点。
太小:收敛的太慢
太大:可能无法收敛(错过最优)
32 多项式回归
33 正规方程
给了一个公式直接能求出 θ 这个向量的值,就是一个个系数。
5分41秒
pinv(X'*X)*X'*y
- 比较梯度下降法和正规方程m个example,n个特性:
Gradient Descent | Normal Equation |
---|---|
需选择α | 不需要 |
需要迭代 | 不需要 |
But | |
n很大还是能很好工作 | O(N3) 如果n是1000级别,还能用。再大就不行了 |
34 正规方程的矩阵不可逆情况
不可逆矩阵X,在Octave里输入
1 | pinv(X'*X)*X'*y |
也是可以得到正确答案的。
造成X不可逆的情况,可能是特征Xm和Xn有线性关系。可以去掉一些特征。
Octave/Matlab教程
向量化
Logistic 回归
46
虽然名字里有回归,但这是一个分类算法。
这一节仅介绍引入。
50
代价函数。
求解θ同样可以用梯度下降法,并用特征算法来加快收敛速度。
51 高级优化
Conjugate gradient
BFGS
L-BFGS
超出本课范畴
在复杂、大规模的数据里使用这些算法
52 多元化
两两地进行分割。
最后再分别带入分类器根据可能性选择。
正则化
55过拟合问题
underfitting 欠拟合 高度差
overfitting 过拟合 高方差:项太多了 为了完全地去模仿拟合训练集,导致参数很多,模型变差了 –>
- 舍弃一些变量。
- 正则化
神经网络
解决特征n特别大的情况。如一幅图的像素点全是特征。