Transformer笔记

发表于 2019-09-21 | 分类于 NLP

Transformer笔记本笔记主要供自己复习，只记录一些关键的点。参考链接：http://nlp.seas.harvard.edu/2018/04/03/attention.html#prelims 模型架构一般的神经序列模型都包含encoder-decoder架构。其中，encoder将输入序列$(x_1,x_2,..,x_n)$的符号表示(symbol representations)映射到 ...

阅读全文 »

HMM-隐马尔可夫模型

发表于 2019-09-05 | 分类于 NLP

参考：https://www.cnblogs.com/pinard/p/6945257.html HMM1. 什么问题需要HMM模型使⽤HMM 模型时我们的问题⼀般有这两个特征：问题是基于序列的，⽐如时间序列，或者状态序列。问题中有两类数据⼀类序列数据是可以观测到的，即观测序列；另⼀类数据是不能观察到的，即隐藏状态序列，简称状态序列。 2. HMM定义隐藏状态集合：$Q={q_1 ...

阅读全文 »

Optimizer的选择

发表于 2019-08-23 | 分类于深度学习

在深度学习中，选择合适的优化器不仅会加速整个神经网络训练过程，并且会避免在训练的过程中碰到鞍点。⽂中会结合自己的使⽤情况，对使⽤过的优化器提出⼀些自己的理解。参考二水马的笔记rebirth。 SGDSGD是非常常见的优化方法，每次迭代计算Mini-batch的梯度，再对参数进行更新。公式： v_t = \mu \nabla_theta J(\theta) \\ \theta = \theta - ...

阅读全文 »

Batch Normalization

发表于 2019-08-19

使用BN的原因和BN的原理批归一化实际上是为了解决“Internal Covariate Shift”问题，即在深度神经网络在训练过程中使得每一层神经网络的输入保持相同分布。其基本思想为：因为深度神经网络在做非线性变换前的激活输入值，在随着网络深度加深或者训练过程中，其分布逐渐发生偏移或者变动，这就导致”梯度消失“问题，从而训练收敛慢。为什么会造成“梯度消失”问题？这是因为，变化的整体分布逐渐 ...

阅读全文 »

第14周-序列模型和注意力机制

发表于 2019-04-28 | 分类于深度学习

基础模型Sequence to sequence model(encoder-decoder network)论文标题： Sequence to sequence learning with neural networks, 2014 Learning phrase representations using RNN encoder-decoder for statistical machine ...

阅读全文 »

第13周-自然语言处理与词嵌入

发表于 2019-04-27 | 分类于深度学习

词嵌入: Word Embedding我们之前用的词向量表示法为one-hot向量，但这种表示方法存在很大的缺陷，我们用o_3455表示该向量。比如，苹果和梨具有相似性，但用one-hot向量表示的话，神经网络无法捕捉他们之间的相似性。这是因为两个不同one-hot向量的内积为0，即不同单词之间的距离相同。而很明显，苹果和梨的距离，是要小于苹果和国家的距离的。因此我们考虑用特征化后的向量来表示词 ...

阅读全文 »

第12周-循环神经网络(RNN)

发表于 2019-04-23 | 分类于深度学习

为什么用序列模型：Why sequence models?首先，我们看几个序列数据的例子:所有的这些问题都可以作为使用标签数据(X,Y)作为训练集的监督学习。不过从上图，我们也可以知道这里的序列数据是非常不同的。有些输入输出都是序列，但长度不同；有的只有输入或输出才是序列，等等。数学符号：NotationMotivation Example假设我们想要建立一个能够自动识别句中人名位置的序列模型。 ...

阅读全文 »

占坑-目标检测

发表于 2019-04-23 | 分类于深度学习

由于我主要是要了解CV，而不是深入学习。因此为了节省时间，不会再对幻灯片内容做详细的解释。未看完，占坑。目标定位：Object Localization 下面对分类定位做详细解释：如果我们单纯的对图片分类，判断是否有行人、车之类的，可以直接通过Softmax层来输出结果；但如果我们还想要定位，比如定位车辆，那么可以让神经网络多输出几个单元，输出一个边框界(bx,by,bh,bw:被检测对象的边框 ...

阅读全文 »

第11周-深度卷积神经网络

发表于 2019-04-22 | 分类于深度学习

为什么要研究实例：Why look at case studies?就像我们看别人的代码来学习编程一样，通过研究别人构建有效组件的实例也有利于我们的进步。实际上，在计算机视觉任务中表现良好的神经网络框架，往往也适用于其他任务。本周框架：尽管我的方向是NLP而不是CV，但我觉得学习这些知识也可能给我带来一些启发。经典网络：Classic NetworkLeNet-5论文名称：1998, Gra ...

阅读全文 »

第10周-卷积神经网络

发表于 2019-04-21 | 分类于深度学习

接下来的四周为计算机视觉——卷积神经网络的内容。计算机视觉常见的计算机视觉问题包括图像分类、目标检测、神经网络实现的图片风格迁移等等。在应用计算机视觉时，我们面临的一个挑战是数据的输入可能会非常大，以图片输入为例：可以看到，如果我们采用的是64x64的图片，那么输入大小为12288，但如果是相对高清的图片，输入的大小可以达到3million。如果按照我们之前所讲全连接的神经网络来做，所需要的参 ...

阅读全文 »

DesmonDay

主攻方向：NLP

RSS

GitHub