博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
跟我学算法-吴恩达老师(误差分析, 正确标注, 开发集和测试集的划分, 数据不匹配,迁移学习, 多任务学习, 端到端学习)...
阅读量:7039 次
发布时间:2019-06-28

本文共 1035 字,大约阅读时间需要 3 分钟。

1. 误差分析

通过分析错误的标记,来判断主要是哪个原因引起了错误,这是猫的分类,观察被分错图片的原因,总结需要优化的条件

image    Dog    Great cat   blurry    comment  

1

2

3

4

5

6

 
2. 进行正确标注
当前错误率为10%, 进行误差分析后,由于0.6%的错误标记引起的,这种就不需要重新标记,因为错误标记引起的错误较小
当前错误率为2%, 进行误差分析后,由于0.6的错误是标记错误引起的,这种就需要进行重新标记, 因为错误标记引起的错误占比较大
 
3.开发集和测试集的划分
 
从网上下载的数据有200000,实际需要预测的数据是10000
将实际预测的数据分出5000加入到网上下载的数据中,此时的训练集为205000
开发集的数据为2500, 测试集的数据为2500
 
4.数据不匹配
 
当我们在进行数据分离时,可以采用4种分法
train, training-dev, dev, test
 
因为train-dev与train来源于同一个数据分布,只是train-dev数据没有经过训练,
 
train error  :1%
train-dev error : 9% 
dev -error 10% 
上述情况说明,数据的方差过大,出现了过拟合的情况
 
train error :1%
train-dev error : 1.5%
dev-error 10% 
说明开发集的数据与训练集的数据存在不匹配的情况
 
human error 1%
training error 10%
training -dev error 11% 
dev error 20 % 
说明出现了较大的可避免偏差, 以及数据不匹配的情况
 
当数据出现不匹配的情况时,需要观察开发集和训练集的差异,观察两个数据分布有什么不同
 
 
5 迁移学习
 
下载的算法改变其最后一层的分布,使得输出的维度发生改变, 也可以去掉最后一层,再多添加几层
 
6 多任务学习
 
比如一张图有多个标签
y(i) = [0 1 1 0]
loss = np.reduce_mean(np.reduce_sum(-y*logy_pred - (1-y)*log(1-y_pred)))
 
7. 端到端学习
指的是输入的数据(x, y) 直接输出结果
一般在数据量比较大,和网络结果较为复杂的情况下使用
 
 
 
 

 

转载于:https://www.cnblogs.com/my-love-is-python/p/9737210.html

你可能感兴趣的文章
filter、map、every函数的使用
查看>>
黑马程序员——iOS学习——UITableView表视图单元样式
查看>>
Bash基础——减号-
查看>>
Android适配文件dimen自动生成代码
查看>>
走马观花--快餐学python笔记
查看>>
jquery轻量级富文本编辑器Trumbowyg
查看>>
(二十八)static关键字
查看>>
vue条件渲染
查看>>
转 MySQL数据库基础
查看>>
ubuntu 解压命令全部
查看>>
Chrome教程(一)NetWork面板分析网络请求
查看>>
第十八回  基础才是重中之重~开发人员应学会用throw
查看>>
Rosenblatt's perceptron
查看>>
1570:基础练习 分解质因数
查看>>
判断ie浏览器7、8、9三个版本
查看>>
GDUFE ACM-1124
查看>>
Schwarz积分公式
查看>>
工作中常用的 Linux 命令
查看>>
English Corner
查看>>
(最短路 SPFA)Invitation Cards -- poj -- 1511
查看>>