互联网信息审核场景的应用和发展前景研究
互联网信息审核场景的应用和发展前景研究随着互联网飞速发展,海量信息被生产出来,虚假消息、低俗色情、诈骗广告等内容也随之而来,不但影响平台健康发展,更扰乱了互联网空间。随着国家相关部门对互联网内容的监管
互联网信息审核场景的应用和发展前景研究 随着互联网飞速发展,海量信息被生产出来,虚假消息、低俗色情、诈骗广告等内容也随 之而来,不但影响平台健康发展,更扰乱了互联网空间。随着国家相关部门对互联网内容 的监管力度不断升级,内容风控布局成为各大互联网平台的一项重要工作。 “”“” 内容风控是互联网内容风险防控的简称,由人民网率先提出。内容风控的对象主要 UGC 是互联网内容,呈现形式包括文本、图像、音频、视频等,常见内容风险包括涉 政、涉黄、暴恐、违禁、广告等类别。 + 目前,国内外互联网公司内容风控主要采用人工智能人力审核的模式。即由机器判定疑 似违规内容,人工审核加以确认,对于部分有害信息风险较高的内容或时段可全部由人工 审核。 一、人工智能在互联网内容审核场景的应用 ArtificialIntelligenceAI 人工智能(,英文缩写为),是计算机科学的一个分支,它是利用 机器学习和数据分析方法赋予机器模拟、延伸和拓展人类智能的能力,本质上是对人类思 维的模拟。 采用人工智能技术进行内容审核,可以利用机器的深度学习和相关知识规则匹配,实现 90%95%7*24 到以上不良内容的过滤,其审核效率高、成本低、审核量大,可以小时不 间断工作,节省大量人力成本和管理费用,是目前互联网公司在对文本、图形、音频、视 频等内容审核采用的主要工具。 (一)文本审核 文本是互联网上最广泛存在的信息载体,严格来说可分为两种,一种是纯文字,如一个词 语、一段文本、一篇文章;另一种是图形化了的文字,如一张由文字组成的海报。文本审 OCRLSTM 核主要用到的人工智能技术有(文本识别技术)、上下语义识别技术(深度神 经网络)等。 / 对于不良文字信息,传统的做法是建立关键敏感词词库,文字内容进来后,利用算法进 行匹配,从而加以判别。对于无意义的灌水、乱码等内容,需要用到上下语义识别技术加 以判断。这种算法技术可以判断一句话和上下文是否有关,是否垃圾文本。 OCR 对于图形化文字,最主要使用的是技术,这种技术可以对图像文件进行分析识别, 获取文字及版面信息。此外,对于长短文本、变形变异字体,需要用到垃圾文本处理技

