1. 数据
1.1. 文本预处理
- 基本处理方法
- 分词
- jieba(自定义词典)
- 全模式
- 精确模式
- 搜索引擎模式
- jieba(自定义词典)
- 词性标注(POS)
- hanlp
- 命名实体识别(NER)
- hanlp
- 分词
- 张量表示
- one-hot
- 操作简单
- 完全割裂词与词之间的联系,且预料越大引发维度灾难
- word2vec
- 训练模式
- CBOW
- 上下文词汇预测目标词
- Skipgram
- 目标词预测上下文词汇
- CBOW
- 工具:fastText
model = fasttext.train_unsupervised('datafile')# 无监督训练词向量 model.get_word_vector("word")# 获取word词向量
- 训练模式
- word Embedding(词嵌入)
- 将词汇映射到指定维度空间
- 广义:所有密集词汇向量
- 狭义:神经网络中的embedding层(embedding矩阵:训练中所有输入词汇的向量组成的矩阵)
- one-hot
- 文本语料数据分析
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云
- 文本特征
- n-gram特征
- 文本长度规范
- 数据增强
- 回译增强