目标
- 自然语言处理/机器学习相关的工作,包括但不限于语义理解、信息抽取、文本分类、命名实体识别、句法分析等
- 后台垂直领域的开发和改进
- 分析挖掘用户行为数据,为用户体验的提升、问题的发现、算法的改进提供支持
-
顶尖的人工智能算法应用
- 熟悉常见的机器学习算法
- 熟悉NLP/搜索技术,熟悉XGBOOST、TensorFlow、Theano、Torch、Caffe、MXNet等深度学习框架
- 熟悉Hadoop,MapReduce,Spark,Storm,HBase,Kafka。
参考书籍
- 《统计学习方法》 - 李航
- 《中文信息处理丛书:统计自然语言处理》 - 宗成庆
- Introduction to Information Retrieval
- Foundations of Statistical Natural Language Processing
- Natural Language Processing with Python
- Speech and Language Processing - Dan Jurafsy
- Neural Networks and Deep Learning
工具
参考项目
信息摘要,一个集合 LeetCode实践
3个中文相关(起点在这儿?)
4个框架
- Flair 多语言框架,基于PyTorch
- Kashgari 多语言框架,基于Keras,据说5分钟建模(起点在这儿?)
- UDPipe 多语言框架, 可训练管道,C++
- NLP-Cube 多语言框架,Python
在线课程
Michael Collins 的Natural Language Processing
Dan Jurafsky和Christopher Manning 的Natural Language Processing
NLP与深度学习Natural Language Processing with Deep Learning(著名的cs224n?)
YSDA Natural Language Processing course
会议
建议的顺序
- Language model
- POS tagging
POS 是part-of-speech 的缩写,这个在NLTK with python书中第5章有讲到。主要是用统计,形态学,语义,正则表达式,Brill tagger制定规则
- 语法分析PCFG
实际应用:(基于统计的机器翻译,IBM model1、 IBM model 2、phrase based machine translation、再log linear model)
研究方向
- 阅读理解
- 文章摘要
- 机器翻译(竞赛)
- 对话系统(个性定制?)