1. 数据


1.1. 文本预处理

  • 基本处理方法
    • 分词
      • jieba(自定义词典)
        • 全模式
        • 精确模式
        • 搜索引擎模式
    • 词性标注(POS)
      • hanlp
    • 命名实体识别(NER)
      • hanlp
  • 张量表示
    • one-hot
      • 操作简单
      • 完全割裂词与词之间的联系,且预料越大引发维度灾难
    • word2vec
      • 训练模式
        • CBOW
          • 上下文词汇预测目标词
        • Skipgram
          • 目标词预测上下文词汇
      • 工具:fastText
          model = fasttext.train_unsupervised('datafile')# 无监督训练词向量
          model.get_word_vector("word")# 获取word词向量
        
    • word Embedding(词嵌入)
      • 将词汇映射到指定维度空间
      • 广义:所有密集词汇向量
      • 狭义:神经网络中的embedding层(embedding矩阵:训练中所有输入词汇的向量组成的矩阵)
  • 文本语料数据分析
    • 标签数量分布
    • 句子长度分布
    • 词频统计与关键词词云
  • 文本特征
    • n-gram特征
    • 文本长度规范
  • 数据增强
    • 回译增强
Copyright © 2021 zbmain.  all right reserved,powered by Gitbook本页修订时间: 2021-03-28

results matching ""

    No results matching ""