专利融合词汇类别表征的中文领域文本命名实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211272636.2 (22)申请日 2022.10.18 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人相艳　柳如熙　郭军军　线岩团　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/284(2020.01) G06N 20/00(2019.01) (54)发明名称融合词汇类别表征的中文领域文本命名实体识别方法 (57)摘要本发明涉及融合词汇类别表征的中文领域文本命名实体识别方法，属于命名实体识别技术领域。本发明将字符嵌入、词汇及其类别嵌入送入Transformer编码器进行编码和融合，获得类别增强的字符表征，并在输出端通过门控机制将字符表征与类别表征再次结合，并送入CRF解码，得到字符的实体标签。本发明在中文医疗信息处理挑战榜CBLUE的两个数据集上进行了实验，结果表明本发明的性能相比其他基模型获得了明显提高。权利要求书3页说明书11页附图1页 CN 115545033 A 2022.12.30 CN 115545033 A 1.融合词汇类别表征的中文领域文本命名实体识别方法，其特征在于：所述融合词汇类别表征的中文领域文本命名实体识别方法包括如下步骤： Step1、获得基于文本的词向量表示及其对应的类别向量表示； Step2、获得含有类别信息的融合特征表示； Step3、将融合特征表示输入Transformer编码器； Step4、基于交互门控机制进行信息筛选； Step5、 CRF解码生成预测标签。 2.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法，其特征在于：所述Step1中，构建了包含词汇类别信息的词典，词典数据来源于搜集的领域文本及数据集的训练集信息，以 “词汇，词汇类别 ”的格式储存；在获得文本中包含的词汇后，根据词典匹配对应的类别并获得W ord2vec训练的词向量以及类别向量。 3.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法，其特征在于：所述Step1具体包括如下：对于输入的文本序列，分别获取字符向量匹配的词汇向量及其类别向量对于字符嵌入，使用在语料上所训练的字符向量来作为字符的初始嵌入；具体做法为：根据训练好的character embedding lookup table，在基于标准分词后的中文语料库 Gigaword上使用Word2vec工具训练的嵌入集合；由此将字符xi映射到字符嵌入表示及bigram嵌入表示领域词嵌入使用word2vec进行训练，维度为50，窗口设置为5，最小词频设置为5，共训练5轮；最后得到领域词嵌入索引Ew，将每个词汇yj映射到一个词嵌入表示对于词汇的类别嵌入，构建了一个包含词汇类别的领域词典Lt，以“词汇，词汇类别 ”的格式储存，构成包含词汇类别信息的领域词典Lt； Lt将词汇yj映射到类别tj，再通过Ew映射到一个嵌入表示 tj＝Lt(yj) (4) 若词汇没有找到对应的类别，则将其映射为一个固定的随机初始化的嵌入表示。 4.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法，其特征在于：所述Step2中，得到类别向量表示后，将其和词向量进行拼接，获得含有类别信息的融合特征表示。 5.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法，其特征在于：所述Step2具体包括如下： Step2.1、对于输入的文本序列S＝{x1,x2,...xm}，其中xi表示句子中的字，通过不同的字符跨度匹配文本中的词及其类别向量，将类别表征显式嵌入词向量；模型从序列开头以权　利　要　求　书 1/3 页 2 CN 115545033 A 2不同的span与词典Ew中的词汇比对，若有和字符集合相同的词，则将匹配到的词yj放在句子的后面，此时文本序列变成S1＝{x1,x2,...xn,y1,y2,...ym}； Step2.2、然后，将输入序列中的各个字符xi映射到一个字符嵌入表示以及一个 bigram特征嵌入将和拼接得到融合bigram特征的字符嵌入此时模型的输入嵌入序列为其中，表示向量的拼接运算； Step2.3、对于文本序列中的词汇yj，将输入序列中的各个词映射到一个词汇嵌入并将各个词映射到一个类别嵌入随后，将每个词汇的类别向量与词汇向量拼接得到融合类别表征的词汇向量表示用e表示嵌入，计算过程如下所示； Step2.4、最后，将向量和通过线性变换变为 dmodel 表示多头注意力维度，此时模型的输入向量序列为 6.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法，其特征在于：所述Step3中，获得含有类别信息的融合特征表示后，将融合特征表示输入 Transformer编码器，得到融合词以及类别信息的字符特征；采用{B,M,E,O,S}标记方案，其中， B表示实体的起始位置、 M表示中间位置、 E表示结束位置， O表示没有实体的位置， S表示一个字的实体。 7.根据权利要求1所述的融合词汇类别表征的中文领域文本命名实体识别方法，其特征在于：所述Step3包括如下：给每一个字符和词汇增加了两个位置编码，分别表示该字或词在句子中开始和结束的位置， hi和ti分别表示字符和词汇的头、尾位置坐标，并从四个不同的角度来计算xi和yj的距离，从而得到四个相对距离矩阵其中表示xi和yj头坐标之间的距离矩阵，表示xi的尾坐标和yj头坐标之间的距离矩阵，表示xi的头坐标和yj尾坐标之间的距离矩阵，表示xi和yj尾坐标之间的距离矩阵；将这四个距离拼接后作一个非线性变换，得到xi和yj的位置编码向量Rij，具体计算过程如公式8 ‑10所示；其中， dmodel表示多头注意力维度， Wr是可学习参数，表示向量的拼接运算， d表示四个权　利　要　求　书 2/3 页 3 CN 115545033 A 3

专利 融合词汇类别表征的中文领域文本命名实体识别方法

专利融合词汇类别表征的中文领域文本命名实体识别方法