专利基于自然语言处理的文章标题及内容的智能改写系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210375565.2 (22)申请日 2022.04.11 (71)申请人深圳市网睿科技有限公司地址 518000 广东省深圳市宝安区西乡街道蚝业社区兴业路2005号互联网产业基地C区A栋 311-1 (72)发明人李宇飞　李玉秀　 (74)专利代理机构深圳力拓知识产权代理有限公司 44313 专利代理师张小雪 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/191(2020.01) G06F 40/30(2020.01) (54)发明名称基于自然语言处理的文章标题及内容的智能改写系统及方法 (57)摘要本发明涉及计算机技术领域，公开了一种基于自然语言处理的文章标题及内容的智能改写系统及方法，包括数据抓取模块、数据识别模块、模型调用模块、分词处理模块、改写处理模块和结果输出模块，基于数据抓取请求获取待改写文章，并提取文章标题和文章内容；对待改写文章进行识别，得到识别结果；获取预先训练好的自然语言处理模型，基于识别结果对待改写文章进行分词处理，并将分词处理得到的分词结果输入第一处理模型中，确定出待改写位置和待改写内容；将待改写位置和待改写内容输入第二处理模型中，以进行改写处理，输出改写后，作为目标文章；本发明通过模型实现对文章标题及内容的智能改写，从而提高改写后的文章质量，满足文章改写需求。权利要求书3页说明书7页附图1页 CN 114881012 A 2022.08.09 CN 114881012 A 1.基于自然语言处理的文章标题及内容的智能改写系统，其特征在于，包括数据抓取模块、数据识别模块、模型调用模块、分词处理模块、改写处理模块和结果输出模块；数据抓取模块，用于获取待改写文章，并提取所述待改写文章的文章标题和文章内容；数据识别模块，用于对所述数据抓取模块得到所述待改写文章的文章标题和文章内容进行识别；模型调用模块，用于调用出预先训练好的自然语言处理模型，所述自然语言处理模型包括第一处理模型和第二处理模型；分词处理模块，用于对所述数据识别模型输出的内容进行分词处理，并将所述分词处理得到的分词结果输入所述第一处理模型中，确定出待改写位置和待改写内容；改写处理模块，将所述待改写文章的待改写位置和待改写内容输入所述第二处理模型中，以对所述待改写文章进行改写处理；结果输出模块，用于将所述改写处理模块输出的改写后的文章标题和文章内容，作为修改所述待改写文章的目标文章。 2.根据权利要求1所述的基于自然语言处理的文章标题及内容的智能改写系统，其特征在于，所述数据抓取模块的输出端与所述数据识别模块的输入端相连接，所述数据识别模块的输出端与所述分词处理模块的输入端相连接，所述模型调用模块的输出端与所述分词处理模块、所述改写处理模块的输入端相连接，所述分词处理模块的输出端与所述改写处理模块的输入端相连接，所述改写处理模块的输出端与所述结果输出模块的输入端相连接。 3.根据权利要求1所述的基于自然语言处理的文章标题及内容的智能改写系统，其特征在于，所述数据抓取模块包括数据请求单元、数据选取单元、数据抓取单元、数据存储单元和数据可视化单元；数据请求单元，用于接收数据抓取请求；数据选取单元，用于根据所述数据请求单元获取到的数据抓取请求，从预设的文章种子集中选取对应的种子文件，并选择URL链接；数据抓取单元，用于根据URL链接建立http链接，并与web服务器进行链接以进行抓取，得到抓取数据；数据存储单元，用于存储所述数据抓取单元得到的抓取数据；数据可视化单元，用于将所述抓取数据使用pyec harts进行数据可视化。 4.基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述基于自然语言处理的文章标题及内容的智能改写方法包括以下步骤：接收数据抓取请求，基于所述数据抓取请求获取待改写文章，并提取所述待改写文章的文章标题和文章内容；对所述待改写文章的文章标题和文章内容进行识别，得到识别结果，所述识别结果用于确定所述文章标题和文章内容中的长度特征、位置特征和重要性特征中的至少一种；获取预先训练好的自然语言处理模型，所述自然语言处理模型包括第一处理模型和第二处理模型；基于所述识别结果对所述待改写文章的文章标题和文章内容进行分词处理，并将所述分词处理得到的分词结果输入所述第一处理模型中，确定出所述待改写文章的待改写位置权　利　要　求　书 1/3 页 2 CN 114881012 A 2和待改写内容；将所述待改写文章的待改写位置和待改写内容输入所述第二处理模型中，以对所述待改写文章进行改写处理，输出改写后的文章标题和文章内容，作为修改所述待改写文章的目标文章。 5.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述接收数据抓取请求，基于所述数据抓取请求获取待改写文章，并提取所述待改写文章的文章标题和文章内容，包括：接受数据抓取请求，所述数据抓取请求中至少包括待改写文章的数据抓取任务所需的资源配置参数；响应于所述资源配置参数，从预设的文章种子集中选取对应的种子文件，并基于爬虫技术选择URL链接；根据URL链接建立http链接，并与web服务器进行链接以进行抓取，得到抓取数据，对所述抓取数据进行解析，并保存到数据库中；使用pyecharts进行数据可视化，以得到待改写文章，并提取所述待改写文章的文章标题和文章内容。 6.根据权利要求5所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述基于爬虫技术选择URL链接，包括：将所述种子文件中的数据按照key进行分割并分配给TaskTracker；提取出HTML的属性数据与内容数据，将抓取出来的URL链接进行汇集；对所述URL链接进行操作处理，其中所述操作处理包括提取、去重中至少一种，以得到最终选择的URL链接。 7.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述对所述待改写文章的文章标题和文章内容进行识别，得到识别结果，包括：对所述待改写文章的文章标题和文章内容进行预处理，得到结构和语义完整的结构化文本内容；将预处理后的所述待改写文章输入LDA模型， LDA模型对所述待改写文章进行特征提取，得到多个主题特征；分别对所述多个主题特征概率分布中的每一个主题特征概率分布下的词汇进行筛选，以得到主题抽取结果；对所述主题抽取结果进行主题语义标注，以得到识别结果，所述识别结果用于确定所述文章标题和文章内容中的长度特征、位置特征和重要性特征中的至少一种。 8.根据权利要求4所述的基于自然语言处理的文章标题及内容的智能改写方法，其特征在于，所述基于所述识别结果对所述待改写文章的文章标题和文章内容进行分词处理，包括：获取所述待改写文章的文章标题和文章内容，并确定出所述文章标题和文章内容中的词条，以得到词条集合；基于所述词条集合建立向切分词图，其中每个词条对应所述向切分词图中的一条有向边；对所述有向边赋予权值，并确定出从起点到终点的所有路径，以求出长度值，权　利　要　求　书 2/3 页 3 CN 114881012 A 3

专利 基于自然语言处理的文章标题及内容的智能改写系统及方法

专利基于自然语言处理的文章标题及内容的智能改写系统及方法