分享机械学习的一本书。当时下载了,没时间看。所以分享给大家(wo kan bu dong!!)。感谢~~
Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。在过去的十年中,机器学习帮助我们自动驾驶汽车,有效的语音识别,有效的网络搜索,并极大地提高了人类基因组的认识。机器学习是当今非常普遍,你可能会使用这一天几十倍而不自知。很多研究者也认为这是最好的人工智能的取得方式。在本课中,您将学习最有效的机器学习技术,并获得实践,让它们为自己的工作。更重要的是,你会不仅得到理论基础的学习,而且获得那些需要快速和强大的应用技术解决问题的实用技术。最后,你会学到一些硅谷利用机器学习和人工智能的最佳实践创新。本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。主题包括:
(一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。
(二)无监督学习(聚类,降维,推荐系统,深入学习推荐)。
(三)在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。
本课程还将使用大量的案例研究,您还将学习如何运用学习算法构建智能机器人(感知,控制),文本的理解(Web 搜索,反垃圾邮件),计算机视觉,医疗信息,音频,数据挖掘),文本的理解(Web 搜索,反垃圾邮件),计算机视觉,医疗信息,音频,数据挖掘,和其他领域。
本课程需要 10 周共 18 节课,相对以前的机器学习视频,这个视频更加清晰,而且每课都有 ppt 课件,推荐学习。
我和我的团队翻译了部分视频,目前已经翻译完毕,内嵌中英文字幕,推荐使用potplayer。此外,我无偿把字幕贡献给了网易云课堂,他们开了免费课:吴恩达机器学习。
这篇中文笔记,主要是根据视频内容和中文字幕以及 ppt 来制作,部分来源于网络,如“小小人_V”的笔记,并持续更新。
本人水平有限,如有公式、算法错误,请及时指出,发邮件给我,也可以加我 qq。今日发现这个笔记被下载超过 10 万次,应该说这个笔记有点用,我发现以前一些翻译小错误,进行了修改,以免误导初学者。
目录
第 1 周 1
1、 引言(Introduction)1
11 欢迎1
12 机器学习是什么?4
13 监督学习6
14 无监督学习10
2、 单变量线性回归(Linear Regression with One Variable) 15
21 模型表示15
22 代价函数17
23 代价函数的直观理解 I19
24 代价函数的直观理解 II20
25 梯度下降21
26 梯度下降的直观理解24
27 梯度下降的线性回归27
28 接下来的内容29
3、 线性代数回顾(Linear Algebra Review)30
31 矩阵和向量30
32 加法和标量乘法31
33 矩阵向量乘法32
34 矩阵乘法33
35 矩阵乘法的性质34
36 逆、转置35
第 2 周 36
4、 多变量线性回归(Linear Regression with Multiple Variables)36
41 多维特征36
42 多变量梯度下降37
43 梯度下降法实践 1-特征缩放 39
44 梯度下降法实践 2-学习率 40
45 特征和多项式回归41
46 正规方程42
47 正规方程及不可逆性(选修)44
5、 Octave 教程(Octave Tutorial)47
51 基本操作47
52 移动数据54
53 计算数据62
54 绘图数据70
55 控制语句:for,while,if 语句 76
56 向量化82
57 工作和提交的编程练习86
第 3 周 88
6、 逻辑回归(Logistic Regression)88
61 分类问题88
II
62 假说表示90
63 判定边界92
64 代价函数94
65 简化的成本函数和梯度下降98
66 高级优化101
67 多类别分类:一对多105
7、 正则化(Regularization) 108
71 过拟合的问题108
72 代价函数110
73 正则化线性回归112
74 正则化的逻辑回归模型113
第 4 周 115
8、 神经网络:表述(Neural Networks: Representation)115
81 非线性假设115
82 神经元和大脑117
83 模型表示 1121
84 模型表示 2124
85 特征和直观理解 1126
86 样本和直观理解 II128
87 多类分类130
第 5 周 131
9、 神经网络的学习(Neural Networks: Learning) 131
91 代价函数131
92 反向传播算法133
93 反向传播算法的直观理解136
94 实现注意:展开参数138
95 梯度检验139
96 随机初始化141
97 综合起来142
98 自主驾驶143
第 6 周 146
10、 应用机器学习的建议(Advice for Applying Machine Learning) 146
101 决定下一步做什么146
102 评估一个假设149
103 模型选择和交叉验证集151
104 诊断偏差和方差153
105 正则化和偏差/方差155
106 学习曲线157
107 决定下一步做什么159
11、 机器学习系统的设计(Machine Learning System Design) 161
111 首先要做什么161
112 误差分析162
113 类偏斜的误差度量165
114 查准率和查全率之间的权衡166
III
115 机器学习的数据168
第 7 周 172
12、 支持向量机(Support Vector Machines) 172
121 优化目标172
122 大边界的直观理解178
123 数学背后的大边界分类(选修)183
124 核函数 1190
125 核函数 2192
126 使用支持向量机194
第 8 周 197
13、 聚类(Clustering)197
131 无监督学习:简介197
132 K-均值算法 200
133 优化目标202
134 随机初始化203
135 选择聚类数204
14、 降维(Dimensionality Reduction)207
141 动机一:数据压缩207
142 动机二:数据可视化210
143 主成分分析问题211
144 主成分分析算法213
145 选择主成分的数量214
146 重建的压缩表示215
147 主成分分析法的应用建议217
第 9 周 218
15、 异常检测(Anomaly Detection) 218
151 问题的动机218
152 高斯分布220
153 算法221
154 开发和评价一个异常检测系统223
155 异常检测与监督学习对比224
156 选择特征225
157 多元高斯分布(选修)227
158 使用多元高斯分布进行异常检测(选修)230
16、 推荐系统(Recommender Systems)233
161 问题形式化233
162 基于内容的推荐系统235
163 协同过滤237
164 协同过滤算法239
165 向量化:低秩矩阵分解240
166 推行工作上的细节:均值归一化242
第 10 周 243
17、 大规模机器学习(Large Scale Machine Learning)243
171 大型数据集的学习243
IV
172 随机梯度下降法244
173 小批量梯度下降245
174 随机梯度下降收敛246
175 在线学习248
176 映射化简和数据并行250
18、 应用实例:图片文字识别(Application Example: Photo OCR) 251
181 问题描述和流程图251
182 滑动窗口252
183 获取大量数据和人工数据254
184 上限分析:哪部分管道的接下去做255
19、 总结(Conclusion)256
191 总结和致谢256
附件 258
机器学习的数学基础258
高等数学258
线性代数266
概率论和数理统计276
机器学习是目前信息技术中最激动人心的方向之一。在这门课中,你将学习到这门技术的前沿,并可以自己实现学习机器学习的算法。你或许每天都在不知不觉中使用了机器学习的算法每次,你打开谷歌、必应搜索到你需要的内容,正是因为他们有良好的学习算法。谷歌和微软实现了学习算法来排行网页每次,你用 Facebook 或苹果的图片分类程序他能认出你朋友的照片,这也是机器学习。每次您阅读您的电子邮件垃圾邮件筛选器,可以帮你过滤大量的垃圾邮件这也是一种学习算法。对我来说,我感到激动的原因之一是有一天做出一个和人类一样聪明的机器。实现这个想法任重而道远,许多 AI 研究者认为,实现这个目标最好的方法是通过让机器试着模仿人的大脑学习我会在这门课中介绍一点这方面的内容。在这门课中,你还讲学习到关于机器学习的前沿状况。但事实上只了解算法、数学并不能解决你关心的实际的问题。所以,我们将花大量的时间做练习,从而你自己能实现每个这些算法,从而了解内部机理。
那么,为什么机器学习如此受欢迎呢?原因是,机器学习不只是用于人工智能领域。我们创造智能的机器,有很多基础的知识。比如,我们可以让机器找到 A 与 B 之间的最短路径,但我们仍然不知道怎么让机器做更有趣的事情,如 web 搜索、照片标记、反垃圾邮件。我们发现,唯一方法是让机器自己学习怎么来解决问题。所以,机器学习已经成为计算机的一个能力。
现在它涉及到各个行业和基础科学中。我从事于机器学习,但我每个星期都跟直升机飞行员、生物学家、很多计算机系统程序员交流(我在斯坦福大学的同事同时也是这样)和平均每个星期会从硅谷收到两、三个电子邮件,这些联系我的人都对将学习算法应用于他们自
己的问题感兴趣。这表明机器学习涉及的问题非常广泛。有机器人、计算生物学、硅谷中大量的问题都收到机器学习的影响。
这里有一些机器学习的案例。比如说,数据库挖掘。机器学习被用于数据挖掘的原因之一是网络和自动化技术的增长,这意味着,我们有史上最大的数据集比如说,大量的硅谷公司正在收集 web 上的单击数据,也称为点击流数据,并尝试使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务。这在硅谷有巨大的市场。再比如,医疗记录。随着自动化的出现,我们现在有了电子医疗记录。如果我们可以把医疗记录变成医学知识,我们就可以更好地理解疾病。再如,计算生物学。还是因为自动化技术,生物学家们收集的大量基因数据序列、DNA 序列和等等,机器运行算法让我们更好地了解人类基因组,大家都知道这对人类意味着什么。再比如,工程方面,在工程的所有领域,我们有越来越大、越来越大的数据集,我们试图使用学习算法,来理解这些数据。另外,在机械应用中,有些人不能直接操作。例如,我已经在无人直升机领域工作了许多年。我们不知道如何写一段程序让直升机自己飞。我们唯一能做的就是让计算机自己学习如何驾驶直升机。手写识别:现在我们能够非常便宜地把信寄到这个美国甚至全世界的原因之一就是当你写一个像这样的信封,一种学习算法已经学会如何读你信封,它可以自动选择路径,所以我们只需要花几个美分把这封信寄到数千英里外。事实上,如果你看过自然语言处理或计算机视觉,这些语言理解或图像理解都是属于 AI领域。大部分的自然语言处理和大部分的计算机视觉,都应用了机器学习。学习算法还广泛用于自定制程序。每次你去音乐站点,它都会给出其他电影或产品或音乐的建议,这是一种学习算法。仔细想一想,他们有百万的用户;但他们没有办法为百万用户,编写百万个不同程序。软件能给这些自定制的建议的唯一方法是通过学习你的行为,来为你定制服务。
最后学习算法被用来理解人类的学习和了解大脑。
我们将谈论如何用这些推进我们的 AI 梦想。几个月前,一名学生给我一篇文章关于最顶尖的 12 个 IT 技能。拥有了这些技能 HR 绝对不会拒绝你。这是稍显陈旧的文章,但在这个列表最顶部就是机器学习的技能。
在斯坦福大学,招聘人员联系我,让我推荐机器学习学生毕业的人远远多于机器学习的毕业生。所以我认为需求远远没有被满足现在学习“机器学习”非常好,在这门课中,我希望能告诉你们很多机器学习的知识。
在接下来的视频中,我们将开始给更正式的定义,什么是机器学习。然后我们会开始学习机器学习的主要问题和算法你会了解一些主要的机器学习的术语,并开始了解不同的算法,用哪种算法更合适。
完整的pdf格式文档51黑下载地址(共294页):
机器学习个人笔记完整版v5.22-A4打印版.pdf
(8.26 MB, 下载次数: 263)
|