全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211245725.8 (22)申请日 2022.10.12 (71)申请人 京东科技信息技 术有限公司 地址 100176 北京市北京经济技 术开发区 科创十一 街18号院2号楼6层6 01 (72)发明人 祝天刚 陈蒙 刘瑞雪 袁韶祖  戴爱君  (74)专利代理 机构 中原信达知识产权代理有限 责任公司 1 1219 专利代理师 王安娜 李阳 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称 一种表格预训练方法和装置 (57)摘要 本发明公开了一种表格预训练方法和装置, 涉及人工智能技术领域。 该方法的一具体实施方 式包括: 获取表格及其对应的文本, 根据所述表 格及其对应的文本构建预训练任务; 其中, 所述 预训练任务选自以下至少两种: 行预训练任务、 列预训练任务、 文本遮罩实体预训练任务和文本 随机遮罩字预训练任务; 根据所述预训练任务对 语言模型进行联合预训练, 从而得到表格预训练 语言模型。 该 实施方式能够解决缺乏对文本与表 格进行深度结构化语义交 互的建模的技 术问题。 权利要求书2页 说明书10页 附图3页 CN 115545185 A 2022.12.30 CN 115545185 A 1.一种表格预训练方法, 其特 征在于, 包括: 获取表格及其对应的文本, 根据所述表格及其对应的文本构建预训练任务; 其中, 所述 预训练任务选自以下至少两种: 行预训练任务、 列预训练任务、 文本遮罩 实体预训练任务和 文本随机遮罩字预训练任务; 根据所述预训练任务对语言模型进行 联合预训练, 从而得到表格预训练语言模型。 2.根据权利要求1所述的方法, 其特 征在于, 若所述预训练任务 为行预训练任务, 则根据所述表格及其对应的文本构建预训练任务, 包括: 根据所述表格及其对应的文本, 确定同时出现在所述表格和所述文本中的目标词, 在 所述表格中标记出 所述目标词所在行的行号, 从而构建得到有监 督的行预训练任务。 3.根据权利要求1所述的方法, 其特 征在于, 若所述预训练任务 为列预训练任务, 则根据所述表格及其对应的文本构建预训练任务, 包括: 根据所述表格及其对应的文本, 确定同时出现在所述表格和所述文本中的目标词, 在 所述表格中标记出 所述目标词所在列的行号, 从而构建得到有监 督的列预训练任务。 4.根据权利要求1所述的方法, 其特征在于, 若所述预训练任务为文本遮罩实体预训练 任务, 则根据所述表格及其对应的文本构建预训练任务, 包括: 将所述表格中的列名和所述列名对应的单 元格内容作为实体; 按照第一预设遮罩比例对出现在所述文本中的实体进行随机遮罩, 从而构建得到无监 督的文本遮罩实体预训练任务。 5.根据权利要求1所述的方法, 其特征在于, 若所述预训练任务为文本随机遮罩字预训 练任务, 则根据所述表格及其对应的文本构建预训练任务, 包括: 按照第二预设遮罩比例对所述文本中的字进行随机遮罩, 从而构建得到无监督的文本 随机遮罩字预训练任务。 6.根据权利要求 4或5所述的方法, 其特 征在于, 所述第一预设遮罩比例为10 ‑25%; 和/或, 所述第二预设遮罩比例为10 ‑25%。 7.根据权利要求1所述的方法, 其特征在于, 所述语言模型包括依次串联的输入层、 嵌 入层、 编码层和输出层; 其中, 所述输出层包括多个并联的子输出层, 所述子输出层的数量 与所述预训练任务的数量相同。 8.一种表格预训练装置, 其特 征在于, 包括: 构建模块, 用于获取表格及其对应的文本, 根据所述表格及其对应的文本构建预训练 任务; 其中, 所述预训练任务选自以下至少两种: 行预训练任务、 列预训练任务、 文本遮罩 实 体预训练任务和文本随机遮罩字预训练任务; 训练模块, 用于根据所述预训练任务对语言模型进行联合预训练, 从而得到表格预训 练语言模型。 9.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序,权 利 要 求 书 1/2 页 2 CN 115545185 A 2当所述一个或多个程序被所述一个或多个处理器执行时, 所述一个或多个处理器实现 如权利要求1 ‑7中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执 行时实现如权利要求1 ‑7中任一所述的方法。 11.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115545185 A 3

PDF文档 专利 一种表格预训练方法和装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种表格预训练方法和装置 第 1 页 专利 一种表格预训练方法和装置 第 2 页 专利 一种表格预训练方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。