AI算法之Encoder-Decoder 和 Seq2Seq

发布日期：2021-06-29 15:32:15 浏览次数：3 分类：技术文章

本文共 1412 字，大约阅读时间需要 4 分钟。

Encoder-Decoder 是 NLP 领域里的一种模型框架。它被广泛用于机器翻译、语音识别等任务。

1 什么是 Encoder-Decoder ？

Encoder-Decoder 模型主要是 NLP 领域里的概念。它并不特值某种具体的算法，而是一类算法的统称。Encoder-Decoder 算是一个通用的框架，在这个框架下可以使用不同的算法来解决不同的任务。

Encoder-Decoder 这个框架很好的诠释了机器学习的核心思路：将现实问题转化为数学问题，通过求解数学问题，从而解决现实问题。

Encoder 又称作编码器。它的作用就是「将现实问题转化为数学问题」

Decoder 又称作解码器，他的作用是「求解数学问题，并转化为现实世界的解决方案」

把 2 个环节连接起来，用通用的图来表达则是下面的样子：

关于 Encoder-Decoder，有2 点需要说明：

a.不论输入和输出的长度是什么，中间的「向量 c」长度都是固定的（这也是它的缺陷，下文会详细说明）

b.根据不同的任务可以选择不同的编码器和解码器（可以是一个 RNN ，但通常是其变种 LSTM 或者 GRU ）

只要是符合上面的框架，都可以统称为 Encoder-Decoder 模型。说到 Encoder-Decoder 模型就经常提到一个名词—— Seq2Seq。

2 什么是 Seq2Seq？

Seq2Seq（是 Sequence-to-sequence 的缩写），就如字面意思，输入一个序列，输出另一个序列。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。例如下图：

如上图：输入了 6 个汉字，输出了 3 个英文单词。输入和输出的长度不同。

「Seq2Seq」和「Encoder-Decoder」的关系

Seq2Seq（强调目的）不特指具体方法，满足「输入序列、输出序列」的目的，都可以统称为 Seq2Seq 模型。

而 Seq2Seq 使用的具体方法基本都属于Encoder-Decoder 模型（强调方法）的范畴。

总结一下的话：

Seq2Seq 属于 Encoder-Decoder 的大范畴

Seq2Seq 属于 Encoder-Decoder 的大范畴

3 Encoder-Decoder 有哪些应用？

「文本 – 文本」是最典型的应用，其输入序列和输出序列的长度可能会有较大的差异。

语音识别（音频 – 文本）

4 Encoder-Decoder 的缺陷

上文提到：Encoder（编码器）和 Decoder（解码器）之间只有一个「向量 c」来传递信息，且 c 的长度固定。

为了便于理解，我们类比为「压缩-解压」的过程：

将一张 800X800 像素的图片压缩成 100KB，看上去还比较清晰。再将一张 3000X3000 像素的图片也压缩到 100KB，看上去就模糊了。

5 Attention 解决信息丢失问题

Attention 机制就是为了解决「信息过长，信息丢失」的问题。

Ａttention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量Ｃ」，而是编码成一个向量的序列。引入了Ａttention 的 Encoder-Decoder 模型如下图：

这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

转载地址：https://codingchaozhang.blog.csdn.net/article/details/104335443 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：AI算法之Attention机制

下一篇：你不得不了解的深度学习知识（二）

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！