信息社会不是信息贫乏,而是信息过剩,大型商业公司摘取提供的信息有时太low,不符合身份,不接地气。但想要不接受影响独善其身是不可能的。如何促进高效地信息获取是急需解决的问题。
TensorFlow提供了一种可能的实现TextSum。它参考的论文是A Neural Attention Model for Abstractive Sentence SummarizationSequence to Sequence Learning with Neural Networks。 因为版权的原因,不能直接(需要付费)用Linguistic Data Consortium的数据,准备数据的方法,详情请看参考资料2.

Seq2Seq(encoder-decoder RNN)算法

简单地讲,该算法输入序列,输出序列。序列对序列包含两个RNN,第一个是Encoder,第二个是Decoder。它常用在机器翻译中,更泛化地是应用从一个领域的序列到另外一个领域。

Keras有一个基于LSTM的Seq2Seq实现

Teaching Force算法

是一种训练RNN网络策略,它将先前的事件间隔作为模型的输入。

RL算法

关于RL算法基础介绍

中文信息摘要

HanLP这个项目有一个部分关于中文信息摘要的信息,但那篇文章引用的技术比较老了。斯坦福中文自然语言处理提供了中文基础,有一些文献参考。


参考资料:

  1. 了不起的文本摘要项目汇编
  2. 用Tensorflow做文本摘要
  3. 深度学习理论知识
  4. 进一步提高
  5. 十分钟用Keras理解Seq2Seq
  6. 机器翻译中运用RNN-Encoder-Decoder