机器学习---吴恩达---Week6_2(机器学习系统设计)

Machine Learing System Design(机器学习系统设计)

Ways to improve the accuracy of a classifier(提高分类器准确性的几个方法)

  • Collect lots of data (for example "honeypot" project but doesn‘t always work)(收集大量数据,并不总是有用)

  • Develop sophisticated features (for example: using email header data in spam emails)(使用复杂特征)

  • Develop algorithms to process your input in different ways (recognizing misspellings in spam).(使用不同的处理方式)

It is difficult to tell which of the options will be most helpful.(很难说哪种最有用,不过理性思考比靠直觉尝试更可行)

Error Analysis(误差分析)

Manually examine the errors on examples in the cross validation set and try to spot a trend where most of the errors were made.(人工检查验证集的结果,寻找系统性偏差)

Recommended approach to solving machine learning problems(算法实施推荐方法)

  • Start with a simple algorithm, implement it quickly, and test it early on your cross validation data.(由简单算法开始构建,在验证集上测试结果)
  • Plot learning curves to decide if more data, more features, etc. are likely to help.(绘画学习曲线,确定改进思路)
  • Manually examine the errors on examples in the cross validation set and try to spot a trend where most of the errors were made.(进行误差分析,进一步改善)

numerical value(结果的数值评估)

Error Metrics for Skewed Classes(偏斜类的误差度量)

偏斜类指一些分布概率差距较大的分类,例如某件事的发生概率为0.5%,该类别为一个偏斜类,这种情况下,即使不对分类做出任何算法处理,也会得到较高的准确定,即不知道提高准确性是否表明算法的分类效果有所提升,需要新的概念进行进行误差度量。

Precision and Recall(查准率和召回率)

Trading Off Precision and Recall(平衡选择查准率与召回率)

根据不同情况确定合适阈值,选择高查准率,低召回率与高召回率,低查准率的情况。

F1 score(F score)

Data For Machine Learning(ML数据选择)

有较多参数的低偏差算法,训练误差较小,为了提高算法准确性,降低方差,需要增加更多训练实例,使得验证误差降低到和训练误差同一水平,得到低方差的正常算法。

原文地址:https://www.cnblogs.com/zouhq/p/10682427.html

时间: 2024-10-18 21:04:15

机器学习---吴恩达---Week6_2(机器学习系统设计)的相关文章

吴恩达2014机器学习教程笔记目录

17年开始,网上的机器学习教程逐渐增多,国内我所了解的就有网易云课堂.七月.小象学院和北风.他们的课程侧重点各有不同,有些侧重理论,有些侧重实践,结合起来学习事半功倍.但是论经典,还是首推吴恩达的机器学习课程. 吴大大14年在coursera的课程通俗易懂.短小精悍,在讲解知识点的同时,还会穿插相关领域的最新动态,并向你推荐相关论文.课程10周共18节课,每个课程都有PPT和课后习题,当然,也有中文字幕. 百度网盘(视频 + 英文字幕 + 中文字幕 + 练习 + PPT): 链接:https:/

吴恩达Coursera机器学习

涉及 Logistic 回归.正则化. 六.逻辑回归(Logistic Regression) 6.1 分类问题 6.2 假说表示 6.3 判定边界 6.4 代价函数 6.5 简化的成本函数和梯度下降 6.6 高级优化 6.7 多类别分类:一对多 七.正则化(Regularization) 7.1 过拟合的问题 7.2 代价函数 7.3 正则化线性回归 7.4 正则化的逻辑回归模型 六.逻辑回归(Logistic Regression) 6.1 分类问题 参考文档: 6 - 1 - Classi

吴恩达《机器学习》课程总结(5)_logistic回归

Q1分类问题 回归问题的输出可能是很大的数,而在分类问题中,比如二分类,希望输出的值是0或1,如何将回归输出的值转换成分类的输出0,1成为关键.注意logistics回归又称 逻辑回归,但他是分类问题,而不是回归问题. Q2假说表示 其中: sigmoid函数 hθ(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性即hθ(x)=P(y=1|x;θ). Q3判定边界 g(z)中的z即为判定边界,如下 Q4代价函数 如果用之前回归时用的平方损失函数,代价函数将是非凸函数,会收

机器学习---吴恩达---Week6_1(机器学习改进方法)

应用机器学习 Machine Learning Diagnostics(机器学习诊断) Diagnostic is a test you can run, to get insight into what is or isn't working with an algorithm, and which will often give you insight as to what are promising things to try to improve a learning algorithm

吴恩达《机器学习》课程总结(16)推荐系统

16.1问题形式化 (1)讲推荐系统的原因主要有以下几点: 1.推荐系统是一个很重要的机器学习的应用,虽然在学术界上占比较低,但是在商业应用中非常的重要,占有很高的优先级. 2.传达机器学习的一个大思想:特性是可以学习而来的,不需要人工去选择. (2)说明的案例:电影推荐系统 希望创建一个算法来预测每个人可能会给他们没看过的电影打多少分,并以此作为推荐依据. (3)此外引入一些标记: nu代表用户的数量, nm代表电影的数量, r(i,j)如果用户j给电影i评过分则r(i,j)=1, y(i,j

吴恩达《机器学习》章节1绪论:初识机器学习

1.欢迎参加<机器学习> 2.什么是机器学习? 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳.综合而不是演绎. 监督学习和无监督学的的区别为是否需要人工参与数据结果的标注. 3.监督学习(Super

吴恩达《机器学习》课程总结(19)_总结

(1)涉及到的算法 1.监督学习:线性回归,逻辑回归,神经网络,SVM. 线性回归(下面第三行x0(i)其实是1,可以去掉) 逻辑回归 神经网络(写出前向传播即可,反向框架会自动计算) SVM 2.非监督学习:聚类算法(K-mean),降维(PCA) K-mean PCA 3.异常检测 4.推荐系统 (2)策略 1.偏差与方差,正则化 训练误差减去人类最高水平为偏差(欠拟合),交叉验证集误差减训练误差为方差(过拟合): 正则化解决方差问题,不对θ0正则化: 2.学习曲线 全过程观测偏差与方差,所

斯坦福吴恩达教授机器学习公开课第二讲笔记——有/无监督学习+线性回归

斯坦福吴恩达教授机器学习公开课第三讲笔记——局部加权回归/线性回归的概率解释/分类和逻辑回归