全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111241434.7 (22)申请日 2021.10.25 (71)申请人 成都安恒信息技 术有限公司 地址 610000 四川省成 都市自由贸易试验 区成都高新区天府 大道北段1480号高 新孵化园6号楼1 10室 (72)发明人 蔡后祥 范渊 吴永越 郑学新  刘韬  (74)专利代理 机构 成都君合集专利代理事务所 (普通合伙) 51228 代理人 尹新路 (51)Int.Cl. G06F 21/16(2013.01) G06T 1/00(2006.01) G06F 40/194(2020.01)G06F 40/216(2020.01) G06F 40/247(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称 一种文本文档溯源 追踪的方法 (57)摘要 本发明涉及文本文档技术领域, 公开了一种 文本文档溯源追踪的方法, 包括: 用户从客户端 获取原始文档; 服务器以原始文档中的文档句子 为坐标单位对原始文档进行分割; 根据预设的生 成同义水印规则对分割后的原始文档添加同义 水印, 生成同义水印文档, 同义水印文档包括二 维坐标数组数据A1; 根据预设的提取同义水印规 则对文档进行排查, 获取文档内容变动的二维数 组信息A2; 预设相似度阈值, 当排查到的文档的 相似度大于或等于相似度阈值时, 获取到添加同 义水印的同义水印文档; 从同义水印文档中获取 用户注册信息, 根据用户注册信息确认用户, 并 将其标记 为泄露用户进行惩罚操作。 本发明用于 解决文本型文档添加水印进行文档泄露追踪溯 源的问题。 权利要求书1页 说明书7页 附图1页 CN 113918895 A 2022.01.11 CN 113918895 A 1.一种文本文档溯源追踪的方法, 其特征在于, 包括以下步骤:  步骤S1.用户在客户端 发送获取原始文档的请求信号, 并获取该用户的用户注册信息对应的原始文档;  步骤S2. 服务器接 收到请求信号后以原始文档中的文档句 子为坐标单位对原始文档进行分割;  步 骤S3.根据预设的生成同义水印规则对分割后的原始文档添加同义水印, 生成同义水印文 档, 所述同义水印文档包括二维坐标数组数据A1;  步骤S4.根据预设 的提取同义水印规则 对文档进行排查, 获取文档内容变动的二 维数组信息A2;  步骤S5.预设相似度阈值, 当排查 到的文档的相似度大于或等于相似度阈值时, 获取到添加同义水印的同义水印文档;  步骤 S6.从同义水印文档中获取用户注册信息, 根据用户注册信息确认用户, 并将其标记为泄露 用户, 对泄 露用户进行惩罚操作。 2.根据权利要求1所述的一种 文本文档溯源追踪的方法, 其特征在于, 所述步骤S1中的 用户注册信息包括用户的ID号信息、 用户的手机号信息和用户的用户名信息 。 3.根据权利要求1所述的一种文本文档溯源追踪的方法, 其特征在于, 所述步骤S2包 括: 预设文档句子坐标轴, 以文档句子行数为Y轴坐标, 以文档句子文字所在位置为X坐标;   根据文档句子坐标轴将原 始文档分割成文档行。 4.根据权利要求3所述的一种 文本文档溯源追踪的方法, 其特征在于, 所述步骤S3 中的 生成同义水印规则包括:  根据用户注册信息在分割后的原始文档中随机选取所述文档行 生成随机替换位置;  根据机器学习对随机替换位置的文字进 行文字同义词替换, 并将文字 同义词替换信息记录为同义水印;  预设文字数量替换率, 根据所述文字数量替换率对随机 替换位置进行替换, 获取随机替换位置的二维坐标数组数据A1, 并获取同义水印文档;  将 二维坐标数组数据A1和对应用户进行关系绑定, 将二维坐标数组数据A1、 对应用户的注册 信息和二 者的绑定关系存 储到服务器。 5.根据权利要求 4所述的一种文本文档溯源 追踪的方法, 其特 征在于, 包括: 所述随机替换位置包括分割后的原始文档中将要被替换的文字内容位置和文字行数 位置; 所述文字同义词替换信息包括被替换的文字位置信息和被替换文字信息 。 6.根据权利要求4所述的一种 文本文档溯源追踪的方法, 其特征在于, 所述根据机器学 习对随机替换位置的文字进行文字同义词替换包括:  根据统计模型和 规则模型进行机器 学习的预 先训练。 7.根据权利要求1所述的一种文本文档溯源追踪的方法, 其特征在于, 所述步骤S4包 括: 步骤S4.1.获取待排查的文档;  步骤S4.2.以文档句子为坐标单位将待排查的文档分 割成行; 步骤S4.3.将分割 好的待排查文档和未分割的待排查文档进行比对, 并获取文档 内容变动的二维数组信息A 2。 8.根据权利要求1所述的一种文本文档溯源追踪的方法, 其特征在于, 所述步骤S5包 括: 根据二维坐标 数组数据A1、 二维数组信息A 2和相似度公式计算 排查到的文档的相似度; 所述相似度公式包括欧氏距离公式、 余弦距离公式、 汉明距离公式和直方图公式。权 利 要 求 书 1/1 页 2 CN 113918895 A 2一种文本文档溯源追踪的方 法 技术领域 [0001]本发明涉及文本文档技术领域, 具体地说, 是一种文本文档溯源追踪的方法, 用于 解决文本型文档添加水印进行文档泄 露追踪溯源的问题。 背景技术 [0002]互联网的开始就是从静态文本文档的展示开始的, 到了移动互联网时代, 文本文 档的网络内容依然是互联网不可或缺的一部分。 对于部分企业来说, 如小说网站、 论文查 重、 新闻网站、 文库网站, 文本文档就是企业盈利的基础, 往往会遇到非法的灰产从业者的 盗取, 进行非法盈利。 以小说 网站为例, 灰产从业者通过注册账户使用爬虫的方式对付费小 说进行爬取, 然后再上传到 盗版网站, 以供其他用户进 行免费阅读, 并进 行大量的广告投放 盈利, 严重损害了作者和小说阅读网站的利益。 小说网站方只能对盗版网站进行举报进行 封禁, 但是盗版 方可以非常方便的再次建站, 从而起 不到从根本上解决该问题的办法。 [0003]为了解决上述问题, 亟需一种方法, 能够为不同的用户生成不同的水印, 这样当小 说被爬虫爬取投放到盗版网站后, 小说网站可以通过检测小说其中的水印痕迹, 查处爬虫 所用的账户和余额等信息, 起到从源头处切断盗版的供应, 显著的提高了 盗版的成本。 同时 该种方法对于其他对文本文档有溯源要求的企业一样可以起到非常好的追踪溯源, 保护企 业利益的作用。 发明内容 [0004]本发明的目的在于提供一种文本文档溯源追踪的方法, 解决文本型文档添加水印 进行文档泄 露追踪溯源的问题, 具有较好的溯源效果和鲁棒 性的效果。 [0005]本发明通过 下述技术方案实现: 一种文本文档溯源 追踪的方法, 包括以下步骤: 步骤S1.用户在客户端发送获取原始文档的请求信号, 并获取该用户的用户注册 信息对应的原 始文档; 步骤S2.服务器接收到请求信号后以原始文档中的文档句子为坐标单位对原始文 档进行分割; 步骤S3.根据预设的生成同义水印规则对分割后的原始文档添加同义水印, 生成 同义水印文档, 同义水印文档包括 二维坐标 数组数据A1; 步骤S4.根据预设的提取同义水印规则对文档进行排查, 获取文档内容变动的二 维数组信息A 2; 步骤S5.预设相似度阈值, 当排查到的文档的相似度大于或等于相似度阈值时, 获 取到添加同义水印的同义水印文档; 步骤S6.从同义水印文档中获取用户注册信息, 根据用户注册信息确认用户, 并将 其标记为泄 露用户, 对泄 露用户进行惩罚操作。 [0006]在本技术方案中, 用户通过请求获取原始待生成水印的文本文档内容, 即原始文 档, 本技术方案主要从两个大方向进 行文档的追溯, 首先是生成水印技术方案, 其次是提取说 明 书 1/7 页 3 CN 113918895 A 3

.PDF文档 专利 一种文本文档溯源追踪的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本文档溯源追踪的方法 第 1 页 专利 一种文本文档溯源追踪的方法 第 2 页 专利 一种文本文档溯源追踪的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:00:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。