阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种-600学习网
600学习网终身会员188,所有资源无秘无压缩-购买会员
一年多前,阿里巴巴国际安全内容风险控制服务生小河(化名)发现了一个”咒骂”的特例,以避免用户交互场景中的平台评论。
她的工作是利用技术和规则来识别和清理影响清洁环境的非法内容。起初,一些小广告和芬芳的咒骂只是以文字的形式出现。后来,随着冲突的升级,一些咒骂被嵌入图片中,甚至用多种语言伪装。
为了解决这个问题,阿里巴巴安全升级了其多语言识别技术。最近,阿里巴巴的安全算法团队宣布,它已经开发了用于网络咒骂的人工智能(OCR)技术,可以识别近30种语言,包括英语.阿拉伯语.俄语.法语.西班牙语.日语.韩语.泰语.越南语.波斯语.孟加拉语.尼泊尔语.僧伽罗语.朝鲜语.苏丹语.德语.荷兰语.马来语.塔加禄语.土耳其语.,意大利语.印尼语和其他民族语言甚至包括三种中国少数民族语言。
在一些国际平台上,”买家”在商品评论的英文评论图片中发誓,或者在互动场景中,买家和卖家在俄语的宣誓图片中面对面。国际平台的风险控制团队和算法团队审查了许多案例,发现除了多语言咒骂外,多语言垃圾邮件广告和不良信息也会隐藏在图片中,试图对抗风险控制。
世界上有数百种语言,数十种关键语言。一名工作人员最多会三到四种语言。在国际舞台上,手动识别风险图片是不现实的,多语言识别的技术要求也随着时代的需要而出现。
阿里巴巴安全高级算法工程师云帆介绍,要识别多语言字符,必须了解每种语言的特点以及影响算法识别的问题。每个字符系统都有自己的字体,不同的字体将导致相同字符的不同字体。例如,左图显示了不同字体的汉字形状,以及手写字符中的字符变化。下图右侧显示了手写和印刷俄文字母之间的差异。红涩框表示某些字符的字体样式会发生很大变化。
“字符连接导致字体风格的改变。不同的字符系统.书写和阅读顺序不同,这将影响人工智能识别和语义判断。”云凡说。例如,同一个单词在不同的语言中可能有不同的含义。”Jammer”在荷兰语中的意思是”遗憾”,但在英语中是”信号阻断器”,这可能涉及违规行为。
“过去,当没有多语种识别功能时,如果我们直接截取口语,可能会导致误判。脏词地图识别也是如此,应该根据语言来判断。”小河说。
此外,还有一个脏字图来代替正常的字符顺序和打击风险控制。如下图所示,即使改变了字符顺序,人们也可以很容易地判断单词的含义,但这种”攻击”试图通过扰乱字母顺序来欺骗机器识别。
当然,要训练这么多的语言识别模型并解决多种对抗情况并不容易。技术团队不仅要确保良好的识别效果,还要努力提高计算效率和控制成本,解决培训样本和模型解决方案的问题。
经过一年多的努力研究,阿里巴巴的安全算法团队在这些方面逐一取得了突破。通过改进多语种样本生成方案和多语种识别模型框架,在多图像语言的识别中实现了较高的识别率,识别脏字图像只需0.15秒。目前,该技术也已应用于阿里巴巴的许多国际业务中,整体识别准确率超过95%。复杂背景和手写图片是识别优化的目标。
事实上,脏话拦截只是多语言OCR识别技术应用的场景之一。据阿里巴巴安防国际风险控制部员工Er Wenxuan表示,在互动场景中,大部分违规信息都是垃圾信息。
现在,基于阿里巴巴的安全算法能力,一个单一的国际平台可以拦截数万次包含dange的多语言脏话图像
600学习网 » 阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种-600学习网