全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210422675.X (22)申请日 2022.04.21 (71)申请人 科技日报社 地址 100038 北京市海淀区复兴 路15号 (72)发明人 邵德奇 石聪 关培培 李腾飞  冯超 段治平 赵诗阳 赵喆  田兴亚 彭佳  (74)专利代理 机构 北京嘉科知识产权代理事务 所(特殊普通 合伙) 11687 专利代理师 杨波 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06F 40/284(2020.01) G06F 16/34(2019.01) G06F 16/2458(2019.01) G06F 16/215(2019.01) G06F 16/36(2019.01) G06F 16/35(2019.01) (54)发明名称 主题内容智能聚合方法、 装置、 电子设备及 存储介质 (57)摘要 本公开提供一种主题内容智能聚合方法、 装 置、 电子设备及存储介质。 该方法包括: 对源数据 平台中的原始稿件数据的使用频次进行监控并 对原始稿件 数据进行采集; 对原始稿件数据执行 预处理操作, 得到预处理后的原始稿件数据对应 的文本内容数据, 并利用预设的知识加工方式对 文本内容数据进行加工; 基于预定的主题定制页 面, 获取用户输入的与主题相关的定制条件, 利 用定制条件对稿件数据进行筛选, 得到筛选后的 待推送稿件; 基于预定的稿件推送页面, 获取用 户针对主题配置的推送条件, 按照推送条件将待 推送稿件推送至系统平台, 以使系统平台基于推 送的稿件进行主题内容的聚合。 本公开能够实现 快捷地定制化主题内容推送, 实现主题内容的快 速聚合。 权利要求书2页 说明书12页 附图3页 CN 114841155 A 2022.08.02 CN 114841155 A 1.一种主题内容智能 聚合方法, 其特 征在于, 包括: 对源数据平台中的原始稿件数据的使用频次进行监控并对所述原始稿件数据进行采 集, 获得待处 理的原始稿件数据; 对所述原始稿件数据 执行预处理操作, 得到预处理后的原始稿件数据对应的文本 内容 数据, 并利用预设的知识加工方式对所述文本内容数据进行加工, 得到加工后的稿件数据; 基于预定的主题定制页面, 获取用户输入的与主题相关的定制条件, 利用所述定制条 件对所述稿件数据进行筛 选, 得到筛选后的待推送稿件; 基于预定的稿件推送页面, 获取用户针对所述主题配置的推送条件, 按照所述推送条 件将所述待推送稿件推送至系统平台, 以使 所述系统平台基于推送的稿件进 行主题内容的 聚合。 2.根据权利要求1所述的方法, 其特征在于, 所述对源数据平台中的原始稿件数据的使 用频次进行监控并对所述原 始稿件数据进行采集, 包括: 构建与所述源数据平台中的所述原始稿件数据之间的数据传输通道, 基于所述数据传 输通道, 对所述源数据平台中的所述原始稿件数据的使用频次进行统计, 对统计结果中使 用频次大于阈值的原始稿件数据及其对应的互动数据的采集频率进行增加, 以获得使用频 次更高的所述源数据平台 中的原始稿件数据; 其中, 所述原始稿件数据为多源异构数据, 在采集所述原始稿件数据之后, 将所述原始 稿件数据按照统一数据存 储模型存储到主题内容数据库中。 3.根据权利要求1所述的方法, 其特征在于, 所述对所述原始稿件数据执行预处理操 作, 得到预处 理后的原 始稿件数据对应的文本内容数据, 包括: 对所述原始稿件数据进行数据清洗, 并去除所述原始稿件数据的标签和页面干扰信 息, 在利用数据传输通道接入所述原始稿件数据时, 对所述原始稿件 数据进行有效性检验、 数据质量校验和过 滤排重标记, 以得到预处 理后的文本内容数据。 4.根据权利要求1所述的方法, 其特征在于, 所述利用预设的知识加工方式对所述文本 内容数据进行加工, 得到加工后的稿件数据, 包括: 利用所述预设的知识加工方式中的一种或多种方式对所述文本 内容数据进行加工, 得 到加工后的稿件数据, 其中, 所述预设的文本知识加工方式包括以下知识加工方式中的一 种或多种的组合: 自动分词、 关键词提取、 摘要提取、 实体识别、 事件抽取、 关系提取、 文本 分 类、 词性标注、 以及地 域识别。 5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 所述关键词提取包括基于对所述文本内容数据中词语的统计信 息、 词性和位置信 息进 行权重计算, 根据权 重计算结果, 从所述文本内容数据中提取 出若干个核心词语; 所述实体识别及所述事件抽取包括从半结构化或结构化的所述文本内容数据中识别 出与目标相关的实体元 素和事件元素, 并利用所述实体元 素和事件元素生成知识图谱; 所述文本分类包括利用预训练 的语言表征模型对所述文本内容数据进行主题分类, 并 根据分类结果对所述文本内容数据按照主题进 行打标, 并生成所述文本内容数据对应的主 题内容; 所述地域识别包括对所述文本内容数据对应的地域进行识别, 以便根据识别结果为所 述文本内容数据设置相应的地域标签, 其中所述地域识别包括内容地域识别和媒体来源地权 利 要 求 书 1/2 页 2 CN 114841155 A 2域识别。 6.根据权利要求1所述的方法, 其特征在于, 所述基于预定的主题定制页面, 获取用户 输入的与主题相关的定制条件, 利用所述定制条件 对所述稿件数据进行筛 选, 包括: 响应于用户针对所述主题定制页面中的输入框的内容输入操作, 确定用户所输入的定 制条件, 利用所述定制条件对所述稿件 数据进行筛选, 其中, 所述定制条件包括以下条件中 的一种或多种: 关键词、 稿件来源、 主题分类、 地域标签、 发稿时间、 媒体类型、 多媒体属性、 以及内容属性。 7.根据权利要求1所述的方法, 其特征在于, 所述基于预定的稿件推送页面, 获取用户 针对所述主题配置的推送条件, 按照所述推送条件将所述待推送稿件推送至系统平台, 包 括: 响应于用户针对所述稿件推送页面中的选择项的选择操作, 确定用户所选择的推送条 件, 基于所述推送条件将所述待推送稿件推送至系统平台, 其中, 所述推送条件包括以下条 件中的一种或多种: 对接系统、 推送时间、 推送频率、 推送数量、 排序方式、 历史数据、 以及新 增数据。 8.一种主题内容智能 聚合装置, 其特 征在于, 包括: 采集模块, 被配置为对源数据平台中的原始稿件数据的使用频次进行监控 并对所述原 始稿件数据进行采集, 获得待处 理的原始稿件数据; 加工模块, 被配置为对所述原始稿件数据执行预处理操作, 得到预处理后的原始稿件 数据对应的文本内容数据, 并利用预设的知识加工方式对所述文本内容数据进行加工, 得 到加工后的稿件数据; 筛选模块, 被配置为基于预定的主题定制页面, 获取用户输入的与主题相关的定制条 件, 利用所述定制条件 对所述稿件数据进行筛 选, 得到筛选后的待推送稿件; 推送模块, 被配置为基于预定的稿件推送页面, 获取用户针对所述主题配置的推送条 件, 按照所述推送条件将所述待推送稿件推送至系统平台, 以使所述系统平台基于推送的 稿件进行主题内容的聚合。 9.一种电子设备, 包括存储器, 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 所述处 理器执行所述程序时实现如权利要求1至7中任一项所述的方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114841155 A 3

.PDF文档 专利 主题内容智能聚合方法、装置、电子设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 主题内容智能聚合方法、装置、电子设备及存储介质 第 1 页 专利 主题内容智能聚合方法、装置、电子设备及存储介质 第 2 页 专利 主题内容智能聚合方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:55:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。