全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211276577.6 (22)申请日 2022.10.19 (71)申请人 上海浦东 华宇信息技 术有限公司 地址 201203 上海市浦东 新区中国 (上海) 自由贸易试验区祖冲之路899号2幢4 层 (72)发明人 刘悦华 杨一帆  (74)专利代理 机构 北京中索 知识产权代理有限 公司 11640 专利代理师 胡大成 (51)Int.Cl. G06F 40/189(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01) (54)发明名称 文本排版 方法及系统 (57)摘要 本申请公开了一种文本排版方法及系统, 用 以解决文本识别准确率低的技术问题。 其中, 一 种文本排版方案, 通过对所述文本数据进行分 句, 以针对句子级别的文本进行排版, 提高了文 本排版的灵活性; 通过采用两种不同的模型对句 子单元的分类标签做出预测, 后续再在两个分类 标签中选 择一个作为最终的预测结果, 从而提高 了对句子 单元分类标签的预测准确率, 进而提高 了文本排版的准确率。 并且, 其中一种模型对句 子单元分类标签的预测过程中加入法律工作者 根据自身经验 给出的预设权重值, 使得该预测模 型对句子单 元的分类标签预测准确率更高。 权利要求书3页 说明书18页 附图2页 CN 115358206 A 2022.11.18 CN 115358206 A 1.一种文本排版 方法, 其特 征在于, 包括以下步骤: 获取文本数据; 对所述文本数据进行分句, 得到元 素为句子单 元的文本集 合; 输入所述文本集合至第 一预测模型, 预测句子单元的第 一分类标签和与第 一分类标签 对应的归属概 率值; 输入所述文本集合至不同于第 一预测模型的第 二预测模型, 预测句子单元的第 二分类 标签和与第二分类标签对应的归属概 率值; 根据所述句子单元的第 一分类标签和与第 一分类标签对应的归属概率值、 所述句子单 元的第二分类标签和与第二分类标签对应的归属概率值, 确定所述句子单元的第三分类标 签; 获取具有分类标签排列规则的待输入区域; 根据分类标签排列规则, 在待输入区域 填入对应第三分类标签的句子单 元; 所述文本集 合至少包括第一句子单 元; 输入所述文本集合至第 一预测模型, 预测句子单元的第 一分类标签和与第 一分类标签 对应的归属概 率值, 具体包括: 通过第一预测模型对第 一句子单元进行关键特征提取, 得到与分类标签相关的关键特 征信息; 将所述关键特 征信息经 过Softmax函数计算, 得到对应分类标签的归属概 率值; 将第一预测模型输出的归属概率值最高的分类标签作为第一句子单元的第一分类标 签; 其中, 所述第一预测模型为预训练模型; 所述第一预测模型通过以下步骤训练获得: 获取具有真实分类标签的句子单 元作为训练数据; 计算预测分类标签与真实分类标签的交叉熵, 进行负反馈优化, 以对所述第一预测模 型进行迭代训练。 2.如权利要求1所述的文本排版方法, 其特征在于, 所述第一句子单元由若干实体构 成; 所述实体具有 若干实体标签; 所述方法还 包括: 建立实体标签排列顺序与句子单 元分类标签的映射关系, 生成第一预设 分类标签表; 输入所述文本集合至不同于第 一预测模型的第 二预测模型, 预测句子单元的第 二分类 标签和与第二分类标签对应的归属概 率值, 具体包括: 输入所述文本集合至不同于第 一预测模型的第 二预测模型, 识别第 一句子单元中实体 标签的排列顺序; 计算第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺 序的关联度; 将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序 的关联度, 作为对应分类标签的归属概 率值; 根据实体标签排列顺序与句子单元分类标签的映射关系, 将第 二预测模型输出的归属 概率值最高的分类标签作为第一句子单 元的第二分类标签。权 利 要 求 书 1/3 页 2 CN 115358206 A 23.如权利要求2所述的文本排版方法, 其特征在于, 根据 所述句子单元的第 一分类标签 和与第一分类标签对应的归属概率值、 所述句子单元的第二分类标签和与第二分类标签对 应的归属概 率值, 确定所述句子单 元的第三分类标签, 具体包括: 当第一分类标签与第 二分类标签相同, 确定第 一分类标签作为所述句子单元的第 三分 类标签; 当第一分类标签与第 二分类标签不同, 比较第 一分类标签的归属概率值与第 二分类标 签的归属概 率值; 确定归属概 率值最高的分类标签作为所述句子单 元的第三分类标签。 4.如权利要求2所述的文本排版方法, 其特征在于, 所述第 一预设分类标签表还包括评 价实体标签排列顺序与句子单 元分类标签映射关系的第一预设权 重系数; 输入所述文本集合至不同于第 一预测模型的第 二预测模型, 预测句子单元的第 二分类 标签和与第二分类标签对应的归属概 率值, 具体还 包括: 根据实体标签排列顺序与句子单元分类标签的映射关系、 评价实体标签排列顺序与句 子单元分类标签映射关系的第一预设权 重系数; 将第一句子单元中实体标签的排列顺序与第一预设分类标签表中实体标签排列顺序 的关联度乘以预设权 重值的结果, 作为对应分类标签的归属概 率值。 5.如权利要求1所述的文本排版方法, 其特征在于, 所述第一句子单元由若干实体构 成; 所述实体具有 若干实体标签; 所述方法还 包括: 建立句子单元中的实体标签种类与句子单元分类标签的映射关系, 生成第 二预设分类 标签表; 输入所述文本集合至不同于第 一预测模型的第 二预测模型, 预测句子单元的第 二分类 标签和与第二分类标签对应的归属概 率值, 具体包括: 输入所述文本集合至不同于第 一预测模型的第 二预测模型, 识别第 一句子单元中实体 标签的种类; 计算第一句子单元中实体标签的种类与第二预设分类标签表中实体标签种类的关联 度; 将第一句子单元中实体标签种类与第 二预设分类标签表中实体标签种类的关联度, 作 为对应分类标签的归属概 率值; 根据实体标签种类与句子单元分类标签的映射关系, 将第 二预测模型输出的归属概率 值最高的分类标签作为第一句子单 元的第二分类标签。 6.如权利要求1所述的文本排版方法, 其特征在于, 根据 所述句子单元的第 一分类标签 和与第一分类标签对应的归属概率值、 所述句子单元的第二分类标签和与第二分类标签对 应的归属概 率值, 确定所述句子单 元的第三分类标签, 具体包括: 在第一分类标签与第 二分类标签相同的情况下, 以第 二预设权重系数乘以与第 一分类 标签对应的归属概率值生成第一结果、 以第三预设权重系数乘以与第二分类标签对应的归 属概率值生成第二结果; 将第一结果与第二结果相加, 得到对应第一分类标签最终归属概 率值的第三结果; 确定最终归属概 率值最高的分类标签作为所述句子单 元的第三分类标签。权 利 要 求 书 2/3 页 3 CN 115358206 A 3

.PDF文档 专利 文本排版方法及系统

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本排版方法及系统 第 1 页 专利 文本排版方法及系统 第 2 页 专利 文本排版方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:43:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。