1. 基本概念

1.1 MXNet相关概念

深度学习目标：如何方便的表述神经网络，以及如何快速训练得到模型

CNN(卷积层)：表达空间相关性(学表示)

RNN/LSTM：表达时间连续性(建模时序信号)

命令式编程(imperative programming)：嵌入的较浅，其中每个语句都按原来的意思执行，如numpy和Torch就是属于这种

声明式语言(declarative programing)：嵌入的很深，提供一整套针对具体应用的迷你语言。即用户只需要声明要做什么，而具体执行则由系统完成。这类系统包括Caffe，Theano和TensorFlow。命令式编程显然更容易懂一些，更直观一些，但是声明式的更利于做优化，以及更利于做自动求导，所以都保留。

	浅嵌入，命令式编程	深嵌入，声明式编程
如何执行a=b+1	需要b已经被赋值。立即执行加法，将结果保存在a中。	返回对应的计算图(computation graph)，我们可以之后对b进行赋值，然后再执行加法运算
优点	语义上容易理解，灵活，可以精确控制行为。通常可以无缝的和主语言交互，方便的利用主语言的各类算法，工具包，bug和性能调试器。	在真正开始计算的时候已经拿到了整个计算图，所以我们可以做一系列优化来提升性能。实现辅助函数也容易，例如对任何计算图都提供forward和backward函数，对计算图进行可视化，将图保存到硬盘和从硬盘读取。
缺点	实现统一的辅助函数和提供整体优化都很困难。	很多主语言的特性都用不上。某些在主语言中实现简单，但在这里却经常麻烦，例如if-else语句。debug也不容易，例如监视一个复杂的计算图中的某个节点的中间结果并不简单。

目前现有的系统大部分都采用上两种编程模式的一种。与它们不同的是，MXNet尝试将两种模式无缝的结合起来。在命令式编程上MXNet提供张量运算，而声明式编程中MXNet支持符号表达式。用户可以自由的混合它们来快速实现自己的想法。例如我们可以用声明式编程来描述神经网络，并利用系统提供的自动求导来训练模型。另一方便，模型的迭代训练和更新模型法则中可能涉及大量的控制逻辑，因此我们可以用命令式编程来实现。同时我们用它来进行方便的调式和与主语言交互数据。

1.2 深度学习的关键特点

（1）层级抽象

（2）端到端学习

2. 比较表

比较项	Caffe	Torch	Theano	TensorFlow	MXNet
主语言	C++/cuda	C++/Lua/cuda	Python/c++/cuda	C++/cuda	C++/cuda
从语言	Python/Matlab	-	-	Python	Python/R/Julia/Go
硬件	CPU/GPU	CPU/GPU/FPGA	CPU/GPU	CPU/GPU/Mobile	CPU/GPU/Mobile
分布式	N	N	N	Y(未开源)	Y
速度	快	快	中等	中等	快
灵活性	一般	好	好	好	好
文档	全面	全面	中等	中等	全面
适合模型	CNN	CNN/RNN	CNN/RNN	CNN/RNN	CNN/RNN?
操作系统	所有系统	Linux, OSX	所有系统	Linux, OSX	所有系统
命令式	N	Y	N	N	Y
声明式	Y	N	Y	Y	Y
接口	protobuf	Lua	Python	C++/Python	Python/R/Julia/Go
网络结构	分层方法	分层方法	符号张量图	符号张量图	?