信息社会不是信息贫乏,而是信息过剩,大型商业公司摘取提供的信息有时太low,不符合身份,不接地气。但想要不接受影响独善其身是不可能的。如何促进高效地信息获取是急需解决的问题。
TensorFlow提供了一种可能的实现TextSum。它参考的论文是A Neural Attention Model for Abstractive Sentence Summarization和Sequence to Sequence Learning with Neural Networks。
因为版权的原因,不能直接(需要付费)用Linguistic Data Consortium的数据,准备数据的方法,详情请看参考资料2.
Seq2Seq(encoder-decoder RNN)算法
简单地讲,该算法输入序列,输出序列。序列对序列包含两个RNN,第一个是Encoder,第二个是Decoder。它常用在机器翻译中,更泛化地是应用从一个领域的序列到另外一个领域。
Keras有一个基于LSTM的Seq2Seq实现。
Teaching Force算法
是一种训练RNN网络策略,它将先前的事件间隔作为模型的输入。
RL算法
关于RL算法基础介绍
中文信息摘要
HanLP这个项目有一个部分关于中文信息摘要的信息,但那篇文章引用的技术比较老了。斯坦福中文自然语言处理提供了中文基础,有一些文献参考。
参考资料: