目标

  • 自然语言处理/机器学习相关的工作,包括但不限于语义理解、信息抽取、文本分类、命名实体识别、句法分析等
  • 后台垂直领域的开发和改进
  • 分析挖掘用户行为数据,为用户体验的提升、问题的发现、算法的改进提供支持
  • 顶尖的人工智能算法应用

  • 熟悉常见的机器学习算法
  • 熟悉NLP/搜索技术,熟悉XGBOOST、TensorFlow、Theano、Torch、Caffe、MXNet等深度学习框架
  • 熟悉Hadoop,MapReduce,Spark,Storm,HBase,Kafka。

参考书籍

工具

哈工大LTP工具包

参考项目

信息摘要,一个集合 LeetCode实践

3个中文相关(起点在这儿?)

4个框架

Dan Jurafsky和Christopher Manning 的Natural Language Processing

Text Mining and Analytics

NLP与深度学习Natural Language Processing with Deep Learning(著名的cs224n?)

YSDA Natural Language Processing course

会议

建议的顺序

  • Language model
  • POS tagging
    POS 是part-of-speech 的缩写,这个在NLTK with python书中第5章有讲到。主要是用统计,形态学,语义,正则表达式,Brill tagger制定规则
  • 语法分析PCFG

实际应用:(基于统计的机器翻译,IBM model1、 IBM model 2、phrase based machine translation、再log linear model)

研究方向

  • 阅读理解
  • 文章摘要
  • 机器翻译(竞赛)
  • 对话系统(个性定制?)

微小的工作

认识

Natural Language Processing (almost) from Scratch