• 1. 深度学习:快速推进中的 机器学习与人工智能前沿
    • 2. 提纲深度学习(DL)及其应用前沿 DL在CV领域应用的启示 关键算法介绍 Perceptron及学习算法 MLP及其BP算法 Auto-Encoder CNN及其主要变种 关于DL的思考与讨论 2
    • 3. 机器学习的基本任务3Class label (Classification)Vector (Estimation){dog, cat, horse,, …}Object recognitionSuper resolutionLow-resolution imageHigh-resolution image
    • 4. 源起——生物神经系统的启示神经元之间通过突触(synapse)连接 层级感受野,学习使突触连接增强或变弱甚至消失4Hubel, D. H. & Wiesel, T. N. (1962)
    • 5. 第一代神经网络 5Frank Rosenblatt(1957), The Perceptron--a perceiving and recognizing automaton. Report 85-460-1, Cornell Aeronautical Laboratory.
    • 6. 第一代神经网络单层感知机(Perceptrons)模型的局限性 Minsky & Papert的专著Perceptron(1969) 只能对线性可分的模式进行分类 解决不了异或问题 几乎宣判了这类模型的死刑,导致了随后多年NN研究的低潮6
    • 7. 2nd Generation Neural Networks多层感知机(Multi-layer Perceptron, MLP) 超过1层的hidden layers(正确输出未知的层) BP算法 [Rumelhart et al., 1986] Compute error signal; Then, back-propagate error signal to get derivatives for learning7David E. Rumelhart,, Geoffrey E. Hinton, and Ronald J. Williams. (Oct.1986). "Learning representations by back-propagating errors". Nature 323 (6088): 533–536                 
    • 8. Error BackpropagationW is the parameter of the network; J is the objective function Feedforward operationBack error propagationDavid E. Rumelhart,, Geoffrey E. Hinton, and Ronald J. Williams. (Oct.1986). "Learning representations by back-propagating errors". Nature 323 (6088): 533–536Output layerHidden layersInput layerTarget values
    • 9. 2nd Generation Neural Networks理论上多层好 两层权重即可逼近任何连续函数映射 遗憾的是,训练困难 It requires labeled training data Almost all data is unlabeled. The learning time does not scale well It is very slow in networks with multiple hidden layers. It can get stuck in poor local optima These are often quite good, but for deep nets they are far from optimal.9
    • 10. 1990-2006更流行…Specific methods for specific tasks Hand-crafted features (SIFT, LBP, HOG) ML methods SVM Kernel tricks Boosting AdaBoost kNN Decision tree10Kruger et al. TPAMI’13
    • 11. A Breakthrough Back to 20062006年,通过分层的、无监督预训练,终于获得了训练深层网络结构的能力11
    • 12. A Breakthrough Back to 2006Hinton, G. E., Osindero, S. and Teh, Y., A fast learning algorithm for deep belief nets. Neural Computation 18:1527-1554, 2006 Hinton, G. E. and Salakhutdinov, R. R. (2006) Reducing the dimensionality of data with neural networks. Science, Vol. 313. no. 5786, pp. 504 - 507, 28 July 2006 Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks, Advances in Neural Information Processing Systems 19 (NIPS 2006) Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun. Efficient Learning of Sparse Representations with an Energy-Based Model, Advances in Neural Information Processing Systems (NIPS 2006)12
    • 13. 其实是有例外的——CNN卷积神经网络CNN K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,” Biological Cybernetics, vol. 36, pp. 193–202, 1980 Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural Computation, vol. 1, no. 4, pp. 541–551, 1989 Y. Le Cun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 199813
    • 14. 其实是有例外的——CNNNeocognitron 198014K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,” Biological Cybernetics, vol. 36, pp. 193–202, 1980Local Connection
    • 15. 例外:CNN用于数字识别15
    • 16. 例外:CNN用于目标检测与识别16
    • 17. 而且,东风同样重要大数据 大数据 大数据 语音图像视频 计算能力 并行计算平台 GPU大量部署 开放的社区 开源,开放数据17
    • 18. 语音识别(2011)1819862006DBN ScienceSpeech2011BP
    • 19. 2012年计算机视觉的巨大进步ImageNet物体分类任务上 物体分类任务:1000类,1,431,167幅图像 1919862006DBN ScienceSpeech20112012RankNameError rates(TOP5)Description1U. Toronto0.153Deep learning2U. Tokyo0.261Hand-crafted features and learning models. Bottleneck.3U. Oxford0.2704Xerox/INRIA0.271BP
    • 20. ImageNet with Deep CNN方法:大规模CNN网络20A. Krizhevsky, L. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” NIPS, 2012.
    • 21. ImageNet with Deep CNN方法:大规模CNN网络 650K神经元, 60M参数 Trained with BP on GPU 使用了各种技巧+dropout ReLU, Data augment, contrast normalization,... 被Google收编(Jan 2013) Google+ Photo Tagging(2013.5)21A. Krizhevsky, L. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” NIPS, 2012.
    • 22. ImageNet物体分类(2013)1000类,1,431,167幅图像,Top 5错误率2219862006DBN ScienceSpeech20112012RankNameError rates(TOP5)Description1NYU0.11197Deep learning2NUS0.12535Deep learning3Oxford0.13555Deep learning2013BP
    • 23. MIT Tech Review坐不住了23
    • 24. ImageNet物体分类(2014)1000类,1,431,167幅图像,Top 5错误率2419862006DBN ScienceSpeech20112012RankNameError rates(TOP5)Description1Google0.06656Deep learning2Oxford0.07325Deep learning3MSRA0.08062Deep learning20132014BP
    • 25. ImageNet物体分类(2014)GoogLeNet [CVPR2015] 22个卷积层 Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions. CVPR 2015 2519862006DBN ScienceSpeech20112012BP20142013
    • 26. ImageNet物体分类(2010-2014)ImageNet Top 5 Error Rate上的持续进步 2619862006DBN ScienceSpeech20112012BP20142013
    • 27. ImageNet物体检测任务200类,456, 567 幅图像,检测率27传统方法 SIFT+BOW+SPM深度方法 R-CNN+GoogLeNet19862006DBN ScienceSpeech20112012BP20142013
    • 28. 物体分割/语义标注进步迅速Jonathan Long, Evan Shelhamer, Trevor Darrell. Fully Convolutional Networks for Semantic Segmentation. CVPR201528
    • 29. DL有多热Deep Learning for Vision 602篇文章中,仅标题中出现Deep的就有87篇,出现Convolution的47篇,出现Neural的40篇,出现Network的51篇,Recurrent 7篇 Going deeper,优化,无监督、自主学习… Fully Convolutional Network(for segmentation等) Vision and Language(for看图说话, Google, Fei-fei, Microsoft, UCB) RNN with LSTM(for 时序处理) Deep Learning for X(detection, metric learning, attribute, hash,…) 29
    • 30. 计算机视觉的重大进步Vision and Language(Google, Microsoft, UCB)——看图说话:Minsky 60年前布置的作业30Show and Tell: A Neural Image Caption Generator (a work from Google)From Captions to Visual Concepts and Back (a work from Microsoft)Long-term Recurrent Convolutional Networks for Visual Recognition and Description(a work from UTA/UML/UCB)
    • 31. 人脸识别上的进步正确率95.17% [D.Chen, X. Cao, F. Wen, J. Sun, CVPR13] 正确率97.35% [Y.Taigman, M. Yang, M.Ranzato, L. Wolf, CVPR14] 正确率99.47% [Y. Sun, X. Wang, and X. Tang, CVPR14] 正确率99.63% [F. Schroff, D. Kalenichenko, and J. Philbin, CVPR15] 3119862006DBN ScienceSpeech20112012Face20142015BP在LFW上,过去2年错误率从5%下降到0.5% (错300对错30对)
    • 32. 人脸识别上的进步Labeled Face in the Wild (LFW) 非限定条件下的人脸识别 数据来源于因特网 国外名人,Yahoo新闻 广为人知的测试模式 训练集:无限制 验证任务测试集 共6000图像对32Huang G B, Ramesh M, Berg T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical Report, University of Massachusetts, Amherst, 2007.
    • 33. 人脸识别上的进步2014: DeepFace [1] (Facebook) 大数据:4K人,4.4M图像33[1] Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to human-level performance in face verification. CVPR, 2014. [2] Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint, 2014.
    • 34. 人脸识别上的进步香港中文大学DeepID2+ 在25个人脸Patch上分别训练CNN(4个卷积层,4个全连接层,4个verification损失信号和1个identification损失信号) 训练数据:10K人,202K名人图像[Y. Sun, X. Wang, and X. Tang, CVPR14]
    • 35. 人脸识别上的进步Google最新的FaceNet 深层网络(22层)+ 海量数据(800万人,2亿张图像) + Triplet Loss (不需要额外占用显存)[F. Schroff, D. Kalenichenko, and J. Philbin, CVPR15]
    • 36. 提纲深度学习(DL)及其应用前沿 DL在CV领域应用的启示 关键算法介绍 BP算法 Auto-Encoder CNN CNN主要变种 关于DL的思考与讨论 36
    • 37. DL之前的视觉处理方法分步处理背后的哲学 分而治之Divide and Conquer Knowledge-driven Hand-crafted feature I think it should be solved by methods like… 37
    • 38. DL及其之后的视觉处理方法38
    • 39. DL及其之后的视觉处理方法学习到接近期望的底层、中层和高层特征39
    • 40. DL之前的视觉处理方法任务 人工设计F(部分学习F) 领域知识:分步处理 滤波器,局部特征(SIFT),BoW,直方图,Max/Sum汇聚,判别分析,Kernel技巧,分段线性,流形学习,测度学习…40类标签 (分类问题)向量 (回归/估计)预处理特征设计特征降维分类/回归
    • 41. DL时代的视觉处理方法任务 人工设计F(部分学习F) End-to-end地学习F(全步骤学习) Representation learning Feature learning Nonlinear transform learning41离散类标签 (分类问题)连续向量 (回归/估计)Credit to Dr. Xiaogang Wang
    • 42. DL时代的视觉处理方法42Collect dataPreprocessing 1Feature designClassifierEvaluationPreprocessing 2…Collect dataFeature transformFeature transform…ClassifierDeep neural networkEvaluationvs.Credit to Dr. Xiaogang Wang
    • 43. DL时代的视觉处理方法方法论上的变化 从分治协同(joint) 多步骤end-to-end learning 更广义的 检测与识别 分割与识别 … 43
    • 44. 提纲深度学习(DL)及其应用前沿 DL在CV领域应用的启示 关键算法介绍 Perceptron算法 BP算法 Auto-Encoder CNN及其主要变种 关于DL的思考与讨论 44
    • 45. Perceptron 45Frank Rosenblatt(1957), The Perceptron--a perceiving and recognizing automaton. Report 85-460-1, Cornell Aeronautical Laboratory.
    • 46. Perceptron算法 46F. Rosenblatt. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65:386-408, 1958
    • 47. Perceptron算法 47
    • 48. 前馈神经网络的BP学习算法 David E. Rumelhart,, Geoffrey E. Hinton, and Ronald J. Williams. (Oct.1986). "Learning representations by back-propagating errors". Nature 323 (6088): 533–536(单独slides)
    • 49. 卷积神经网络及其变种49(单独slides)
    • 50. 提纲深度学习(DL)及其应用前沿 DL在CV领域应用的启示 关键算法介绍 Perceptron及学习算法 MLP及其BP算法 Auto-Encoder CNN及其主要变种 关于DL的思考与讨论 50
    • 51. 关于DL的更多讨论DL带来观念的变革 DL是类脑信息处理方法吗? DL有理论吗? DL不能做什么? 数据驱动的学习不再需要领域知识? 工业界抢了学术界的饭碗? CV研究者沦为ML研究者的实验员? DL未来工作?51
    • 52. DL带来观念的变革人工领域知识驱动数据驱动的学习思想 小数据控制模型复杂度避免过拟合 大数据提高模型复杂度避免欠拟合 “大数据+简单模型”是错误的! 维数灾难(降维)高维有益(升维) 分步、分治思想 协同学习(joint learning)思想 End-to-end的全过程学习 软硬件更优的协同52
    • 53. DL是类脑信息处理方法吗?DL受到脑信息处理方式启发 分层逐级抽象 初级视觉神经元的“类Gabor小波编码” 并不“类脑” 本质上,脑的计算“机制”尚不清晰 脑的连接更多样、更复杂 Top-down,反馈机制 学习过程未必需要大量数据 先天——生物进化的结果(大数据长期训练) 后天学习——更多演绎推理,迁移学习53
    • 54. DL有理论吗?DL理论匮乏 收敛性,bound 局部极值,初值很重要 复杂度理论 但不完全是black box 与传统“分步”做法的关系 比Kernel更“显式” 层级可视化提供了很多线索 逐层抽象 or 分层“非线性”?54
    • 55. DL不能做什么?用做“特征学习”或“非线性变换”最成功 学到的特征具有良好的通用性 传统分类器或回归似乎还可用 非常倚重大数据,小数据深度学习不可靠 需要引入领域知识,深度模型的迁移学习 难以演绎推理 DL是归纳学习,难以举一反三,更难无师自通 在一些简单问题上未必需要深度学习 人脸识别的例子 目前的DL不学习“自身结构” 调试经验很重要55
    • 56. 数据驱动的学习不需要领域知识?大数据驱动确实减少了对领域知识的依赖 CNN在CV领域的成功,本身就说明了领域知识的重要性 卷积操作,Pooling操作 小数据条件下,领域知识尤其重要56Data is king, and DL is queen?
    • 57. 工业界抢了学术界的饭碗?工业界看不起学术界? 工业界重视大数据收集和并行实现 学术界重视理论和新的模型 CV学术界应该更smart更前瞻 新的模型设计 网络结构学习 优化方法 训练加速 更Smart的数据收集 大而脏乱差数据的高效利用57
    • 58. CV研究者沦为ML研究者的实验员?有这个危险 CV本身缺少理论体系 “分步”法主宰CV太多年 CV仍有机会 实际上ML也从CV获益良多 基于学习的CV理论? CV研究者应该与ML有更多互动 “几何”和“结构”的可学习性?58
    • 59. DL领域的未来工作DL理论 网络结构本身的学习 小数据条件下的DL 领域知识的嵌入 带反馈的深度网络 大而脏乱差数据条件下的DL 深度模型的迁移与适应 面向视频分析的DL模型 “非线性”的更多来源 新的优化和训练算法59
    • 60. 总结和警告!!!神经网络兴衰史的教训 是复兴不是创新 历史经常重演 相比CV等应用领域对DL的狂热,ML领域很冷静 他强由他强,清风拂山冈; 他横由他横,明月照大江。 建议 要会DL,但不要只会DL 经验知识驱动数据驱动混合驱动60
    • 61. 谢谢!61

    该用户的其他文档