阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种-600学习网

600学习网终身会员188,所有资源无秘无压缩-购买会员

一年多前,阿里巴巴国际安全内容风险控制服务生小河(化名)发现了一个”咒骂”的特例,以避免用户交互场景中的平台评论。

她的工作是利用技术和规则来识别和清理影响清洁环境的非法内容。起初,一些小广告和芬芳的咒骂只是以文字的形式出现。后来,随着冲突的升级,一些咒骂被嵌入图片中,甚至用多种语言伪装。

为了解决这个问题,阿里巴巴安全升级了其多语言识别技术。最近,阿里巴巴的安全算法团队宣布,它已经开发了用于网络咒骂的人工智能(OCR)技术,可以识别近30种语言,包括英语.阿拉伯语.俄语.法语.西班牙语.日语.韩语.泰语.越南语.波斯语.孟加拉语.尼泊尔语.僧伽罗语.朝鲜语.苏丹语.德语.荷兰语.马来语.塔加禄语.土耳其语.,意大利语.印尼语和其他民族语言甚至包括三种中国少数民族语言。

在一些国际平台上,”买家”在商品评论的英文评论图片中发誓,或者在互动场景中,买家和卖家在俄语的宣誓图片中面对面。国际平台的风险控制团队和算法团队审查了许多案例,发现除了多语言咒骂外,多语言垃圾邮件广告和不良信息也会隐藏在图片中,试图对抗风险控制。

世界上有数百种语言,数十种关键语言。一名工作人员最多会三到四种语言。在国际舞台上,手动识别风险图片是不现实的,多语言识别的技术要求也随着时代的需要而出现。

阿里巴巴安全高级算法工程师云帆介绍,要识别多语言字符,必须了解每种语言的特点以及影响算法识别的问题。每个字符系统都有自己的字体,不同的字体将导致相同字符的不同字体。例如,左图显示了不同字体的汉字形状,以及手写字符中的字符变化。下图右侧显示了手写和印刷俄文字母之间的差异。红涩框表示某些字符的字体样式会发生很大变化。

“字符连接导致字体风格的改变。不同的字符系统.书写和阅读顺序不同,这将影响人工智能识别和语义判断。”云凡说。例如,同一个单词在不同的语言中可能有不同的含义。”Jammer”在荷兰语中的意思是”遗憾”,但在英语中是”信号阻断器”,这可能涉及违规行为。

“过去,当没有多语种识别功能时,如果我们直接截取口语,可能会导致误判。脏词地图识别也是如此,应该根据语言来判断。”小河说。

此外,还有一个脏字图来代替正常的字符顺序和打击风险控制。如下图所示,即使改变了字符顺序,人们也可以很容易地判断单词的含义,但这种”攻击”试图通过扰乱字母顺序来欺骗机器识别。

当然,要训练这么多的语言识别模型并解决多种对抗情况并不容易。技术团队不仅要确保良好的识别效果,还要努力提高计算效率和控制成本,解决培训样本和模型解决方案的问题。

经过一年多的努力研究,阿里巴巴的安全算法团队在这些方面逐一取得了突破。通过改进多语种样本生成方案和多语种识别模型框架,在多图像语言的识别中实现了较高的识别率,识别脏字图像只需0.15秒。目前,该技术也已应用于阿里巴巴的许多国际业务中,整体识别准确率超过95%。复杂背景和手写图片是识别优化的目标。

事实上,脏话拦截只是多语言OCR识别技术应用的场景之一。据阿里巴巴安防国际风险控制部员工Er Wenxuan表示,在互动场景中,大部分违规信息都是垃圾信息。

现在,基于阿里巴巴的安全算法能力,一个单一的国际平台可以拦截数万次包含dange的多语言脏话图像

免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站,本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
600学习网 » 阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种-600学习网