全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375565.2 (22)申请日 2022.04.11 (71)申请人 深圳市网睿 科技有限公司 地址 518000 广东省深圳市宝安区西乡街 道蚝业社区兴业路2005号互联网产业 基地C区A栋 311-1 (72)发明人 李宇飞 李玉秀  (74)专利代理 机构 深圳力拓知识产权代理有限 公司 44313 专利代理师 张小雪 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/191(2020.01) G06F 40/30(2020.01) (54)发明名称 基于自然语言处理的文章标题及内容的智 能改写系统及方法 (57)摘要 本发明涉及计算机技术领域, 公开了一种基 于自然语言处理的文章标题及内容的智能改写 系统及方法, 包括数据抓取模块、 数据识别模块、 模型调用模块、 分词处理模块、 改写处理模块和 结果输出模块, 基于数据抓取请求获取待改写文 章, 并提取文章标题和文章内容; 对待改写文章 进行识别, 得到识别结果; 获取预先训练好的自 然语言处理模 型, 基于识别结果对待改写文章进 行分词处理, 并将分词处理得到的分词结果输入 第一处理模 型中, 确定出待改写位置和待改写内 容; 将待改写位置和待改写内容输入第二处理模 型中, 以进行改写处理, 输 出改写后, 作为目标文 章; 本发明通过模型实现对文章标题及内容的智 能改写, 从而提高改写后的文章质量, 满足文章 改写需求。 权利要求书3页 说明书7页 附图1页 CN 114881012 A 2022.08.09 CN 114881012 A 1.基于自然语言处理的文章标题及内容的智能改写系统, 其特征在于, 包括数据抓取 模块、 数据识别模块、 模型调用模块、 分词处 理模块、 改写处 理模块和结果输出模块; 数据抓取模块, 用于获取待改写 文章, 并提取 所述待改写 文章的文章标题和文章内容; 数据识别模块, 用于对所述数据抓取模块得到所述待改写文章的文章标题和文章内容 进行识别; 模型调用模块, 用于调用出预先训练好的自然语言处理模型, 所述自然语言处理模型 包括第一处 理模型和第二处 理模型; 分词处理模块, 用于对所述数据识别模型输出的内容进行分词处理, 并将所述分词处 理得到的分词结果输入所述第一处 理模型中, 确定出待改写位置和待改写内容; 改写处理模块, 将所述待改写文章的待改写位置和待改写内容输入所述第 二处理模型 中, 以对所述待改写 文章进行改写处 理; 结果输出模块, 用于将所述改写处理模块输出的改写后的文章标题和文章内容, 作为 修改所述待改写 文章的目标文章。 2.根据权利要求1所述的基于自然语言处理的文章标题及内容的智能改写系统, 其特 征在于, 所述数据抓取模块的输出端与所述数据识别模块的输入端相连接, 所述数据识别 模块的输出端与所述分词处理模块的输入端相连接, 所述模型调用模块的输出端与所述分 词处理模块、 所述改写处理模块的输入端相连接, 所述分词处理模块的输出端与所述改写 处理模块的输入端相连接, 所述改写处理模块的输出端与所述结果输出模块的输入端相连 接。 3.根据权利要求1所述的基于自然语言处理的文章标题及内容的智能改写系统, 其特 征在于, 所述数据抓取模块包括数据请求单元、 数据选取单元、 数据抓取单元、 数据存储单 元和数据可视化单 元; 数据请求单 元, 用于接收数据抓取请求; 数据选取单元, 用于根据所述数据请求单元获取到的数据抓取请求, 从预设的文章种 子集中选取对应的种子文件, 并选择URL链接; 数据抓取单元, 用于根据URL链接建立http链接, 并与web服务器进行链接以进行抓取, 得到抓取 数据; 数据存储单元, 用于存 储所述数据抓取 单元得到的抓取 数据; 数据可视化单 元, 用于将所述 抓取数据使用pyec harts进行数据可视化。 4.基于自然语言处理的文章标题及内容的智能改写方法, 其特征在于, 所述基于自然 语言处理的文章标题及内容的智能改写方法包括以下步骤: 接收数据抓取请求, 基于所述数据抓取请求获取待改写文章, 并提取所述待改写文章 的文章标题和文章内容; 对所述待改写文章的文章标题和文章内容进行识别, 得到识别结果, 所述识别结果用 于确定所述文章标题和文章内容中的长度特 征、 位置特 征和重要性特 征中的至少一种; 获取预先训练好的自然语言处理模型, 所述自然语言处理模型包括第 一处理模型和第 二处理模型; 基于所述识别结果对所述待改写文章的文章标题和文章内容进行分词处理, 并将所述 分词处理得到的分词结果输入所述第一处理模 型中, 确定出所述待改写文章的待改写位置权 利 要 求 书 1/3 页 2 CN 114881012 A 2和待改写内容; 将所述待改写文章的待改写位置和待改写内容输入所述第 二处理模型中, 以对所述待 改写文章进行改写处理, 输出改写后的文章标题和文章内容, 作为修改所述待 改写文章的 目标文章。 5.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法, 其特 征在于, 所述接收数据抓取请求, 基于所述数据抓取请求 获取待改写文章, 并提取所述待改 写文章的文章标题和文章内容, 包括: 接受数据抓取请求, 所述数据抓取请求中至少包括待改写文章的数据抓取任务所需的 资源配置参数; 响应于所述资源配置参数, 从预设的文章种子集中选取对应的种子文件, 并基于爬虫 技术选择URL链接; 根据URL链接建立http链接, 并与web服务器进行链接以进行抓取, 得到抓取数据, 对所 述抓取数据进行解析, 并保存到数据库中; 使用pyecharts进行数据可视化, 以得到待改写文章, 并提取所述待改写文章的文章标 题和文章内容。 6.根据权利要求5所述的基于自然语言处理的文章标题及内容的智能改写方法, 其特 征在于, 所述基于 爬虫技术选择URL链接, 包括: 将所述种子文件中的数据按照key进行分割并分配给TaskTracker; 提取出HTML的属性数据与内容数据, 将抓取 出来的URL链接进行汇集; 对所述URL链接进行操作处理, 其中所述操作处理包括提取、 去重中至少一种, 以得到 最终选择的URL链接 。 7.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法, 其特 征在于, 所述对所述待改写 文章的文章标题和文章内容进行识别, 得到识别结果, 包括: 对所述待改写文章的文章标题和文章内容进行预处理, 得到结构和语义完整的结构化 文本内容; 将预处理后的所述待改写文章输入LDA模型, LDA模型对所述待改写文章进行特征提 取, 得到多个主题特 征; 分别对所述多个主题特征概率分布中的每一个主题特征概率分布下的词汇进行筛选, 以得到主题抽取 结果; 对所述主题抽取结果进行主题语义标注, 以得到识别结果, 所述识别结果用于确定所 述文章标题和文章内容中的长度特 征、 位置特 征和重要性特 征中的至少一种。 8.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法, 其特 征在于, 所述基于所述识别结果对所述待 改写文章的文章标题和文章内容进行分词处理, 包括: 获取所述待改写文章的文章标题和文章内容, 并确定出所述文章标题和文章内容中的 词条, 以得到词条集 合; 基于所述词条集合建立向切分词图, 其中每个词条对应所述向切分词图中的一条有向 边; 对所述有向边赋予权值, 并确定出从起 点到终点的所有路径, 以求出长度值,权 利 要 求 书 2/3 页 3 CN 114881012 A 3

.PDF文档 专利 基于自然语言处理的文章标题及内容的智能改写系统及方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于自然语言处理的文章标题及内容的智能改写系统及方法 第 1 页 专利 基于自然语言处理的文章标题及内容的智能改写系统及方法 第 2 页 专利 基于自然语言处理的文章标题及内容的智能改写系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。