敏感词过滤算法(c++实现)

上传者: little_stupid_child | 上传时间: 2019-12-21 20:09:48 | 文件大小: 112KB | 文件类型: zip
该算法基于DFA并结合许多算法并进行相应的简化,最终其算法基本原理为:将所有敏感词库按模块聚合构建成一个词树(所谓聚合,就是将相同字开头的部分进行聚合,以减少对词的查询范围,相当于建立敏感词索引,如:他奶奶的、他妈的、他娘的,这三个词,聚合构建成词树时,“他”字就是这三个词的索引,同时每个词的结尾都有一个结束标志和该词的一些描述,如敏感级别等),然后从头到尾扫描一遍目标文本,当遇到以敏感词树中的索引的字时,查看后面的文本是否构成敏感词(如果这里有以这个敏感词开头的更长的敏感词时,以更长的为匹配结果,并判断该词在文本中前后是否有分隔符来区别其匹配方式),如果是则记录,一遍扫描完之后所有敏感词即被扫描出来了!

文件下载

资源详情

[{"title":"( 5 个子文件 112KB ) 敏感词过滤算法(c++实现)","children":[{"title":"ChatMgr.cpp <span style='color:#111;'> 2.76KB </span>","children":null,"spread":false},{"title":"ChatMgr.h <span style='color:#111;'> 975B </span>","children":null,"spread":false},{"title":"testWords.txt <span style='color:#111;'> 110B </span>","children":null,"spread":false},{"title":"main.cpp <span style='color:#111;'> 1.06KB </span>","children":null,"spread":false},{"title":"StopWords.txt <span style='color:#111;'> 211.21KB </span>","children":null,"spread":false}],"spread":true}]

评论信息

  • zazisb :
    有些错误,改改可以运行
    2019-08-29
  • zazisb :
    有些错误,改改可以运行
    2019-08-29
  • x402596250 :
    不知道好不好用
    2019-04-17
  • 外太空の神 :
    不知道好不好用
    2019-04-17
  • irnhs9 :
    有用,资源不错
    2018-07-28
  • irnhs9 :
    有用,资源不错
    2018-07-28
  • gentlesuperlover :
    有些错误,改改可以运行
    2017-11-22
  • gentlesuperlover :
    有些错误,改改可以运行
    2017-11-22
  • weixin_39978855 :
    有错误 不好处理
    2017-10-30
  • 流水段 :
    有错误 不好处理
    2017-10-30

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明