阿里妈妈图像识别刷新世界最好成绩，一年屏蔽4600万恶意推广 —

产业&商业

阿里妈妈图像识别刷新世界最好成绩，一年屏蔽4600万恶意推广

执牛耳发表于 2016-06-01 12:35

摘要：日前，阿里妈妈图像团队的OCR（图中文字识别）技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩，并大幅超越第二名。RobustReading竞赛是当前OCR技术领域全球最具影响力的比赛。

来源：执牛耳

阅读数： 14631

图. ICDAR Robust Reading Challenge 1end-to-end官方成绩

日前，阿里妈妈图像团队的OCR（图中文字识别）技术刷新了ICDAR Robust Reading竞赛数据集的全球最好成绩，并大幅超越第二名。RobustReading竞赛是当前OCR技术领域全球最具影响力的比赛。这也是继阿里巴巴图像搜索领军人物华先胜获得ACM（美国计算机协会）“杰出科学家”称号之后，阿里的图像识别技术再一次登上国际顶尖舞台。

借助这一领先的OCR技术，阿里妈妈图像团队能够以95%的超高准确率识别图中违规文字信息，有效过滤商家恶意推广，维护消费者权益。2015年，阿里妈妈累计屏蔽了4600万条恶意推广。

OCR是计算机视觉领域的经典问题，长久以来，一直受到学术界和工业界的持续关注。在工业界，Google、Microsoft、Amazon等大型互联网公司，以及商汤科技、旷视科技（拥有Face++、Image++）等计算机视觉技术创业公司，都在OCR技术上耕耘多年。随着技术不断成熟，OCR也开始在互联网及其他行业逐步上线使用。

据阿里妈妈定向算法技术负责人盖坤介绍，在阿里巴巴平台上营销创意、商品等均是以图片形式展示，图像技术是理解这些信息的重要手段。同时，也有不良商家在图片中内嵌一些违规的信息达到其恶意推广的目的，图片内文字违规是比例相当大的一类，而传统监控手段多以人工肉眼来审核，费时费力，尤其是随着图片数量越来越大，这几乎已成为不可完成的任务。针对这一强烈需求，从2014年开始，阿里妈妈图像团队开始重点攻坚OCR技术，通过机器视觉的方式从图片中识别出文字，从而鉴别出违规的文案信息。

对恶意推广的定义，盖坤表示，一方面依据国家相关法律法规，对于违禁品、色情信息、封建迷信、假冒伪劣、减肥丰胸、夸大虚假等违规类型进行不同程度的处罚和管理，另一方面在法规之外平台有着更高要求，对损害消费者利益或进行不正当竞争的推广类型积极尝试进行管控。其中，与消费者关系最为密切的假冒伪劣单项违规类型，被阿里妈妈作为重点审查对象。

相对其他限定场景OCR应用相比，阿里妈妈要处理的创意图片和商品图片上的文字字体、色彩更加多样，文字布局更加灵活，背景包括各种商品、布景或自然场景，蕴含各种复杂纹理，给识别问题带来了更大的挑战。盖坤介绍，在技术路线上，相比于传统方法，抛弃了图像预处理、字符分割等流程，采用了多个深度神经网络和语言模型相结合的方法来组成完整的OCR系统。针对复杂的场景信息，将LSTM（长短时记忆）技术成功应用到建模中去，大大提高识别的准确率。

据悉，现在基于OCR文字识别实时审核已覆盖整个阿里妈妈业务，每天处理图片近千万张，自动反馈疑似违规图片准确率达95%以上；同时将图文审核风险发现时间从“天”降低到“秒”级。数据显示，2015年阿里妈妈累计屏蔽了4600万条恶意推广，有效净化了互联网营销环境。

除OCR过滤恶意推广以外，计算机视觉技术在阿里巴巴集团内部已经获得广泛使用，比如手淘的“拍立淘”产品，通过手机拍照即可搜索相似商品，2015年双11当天，千万消费者使用了“拍立淘”功能，创造了超过数千万元的销售额。另外，在商品图片版权保护、鉴黄等场景也都引入了计算机视觉技术。

喜欢： 0

不喜欢： 0

0条评论

作者

执牛耳

2015年12月25日全面上线。目标：打造全球数字营销技术领域首席媒体平台，成为中国乃至全球数字营销内容聚合门户。目前团队积极依托专业素养，全力为数字营销领域从业者搭建有质感的交流空间。感谢相伴！

文章：3153

深演智能诞生：品友十年的变与不变

执牛耳网编辑Aira 2019-08-29 16:51:41

103287

一篇文章读懂“巨量引擎商业合作伙伴生态”

执牛耳 2019-11-15 19:21:53

96954

2020亲客多实操训练营|亲客多助力服务行业营销再升级

执牛耳 2020-08-24 09:02:18

95486

无尽的博弈——创业邦100未来商业峰会暨2019创业邦年会隆重召开

执牛耳 2019-12-19 14:34:41

88821

深演智能|品友加入天猫消费者运营服务商，共建GROW2.0数字化赋能生态体系

执牛耳 2020-04-13 11:11:29

87990

关于我们

【执牛耳新媒体｜数字营销技术邦】

Digital Marketing Technology Space

——更懂营销的科技商业报道

提供复杂商业环境中的优质数字营销内容，为数字营销业界领袖带来立体式阅读。执牛耳新媒体（www.zhiniuer.net）定位为“数字营销技术邦”，于2015年12月25日全面上线。以打造全球数字营销技术领域首席媒体平台为目标。目前团队积极依托专业素养，全力为数字营销领域从业者搭建有质感的交流空间，执牛耳新媒体内容传播矩阵至今已与百余家互联网企业、媒体传播公司、品牌主、业界品牌活动等建立了深厚的内容交流关系。

网站编号：2415825 主办单位证件号码：110105018978892

信息产业部备案管理系统网址/工信部网站：http://www.beian.miit.gov.cn

反馈建议、业务咨询与媒体合作：13051575215

投稿邮箱：zhiniuerox@163.com

内容主编微信号：AdMarketer

官方微信账号：执牛耳［zhiniuer］、执牛耳传媒［zhiniuermedia］

寻求报道QQ：2603466379

关注我们

1、本网站刊载的所有内容，包括但不限于文字报道、图片、视频、图表、标志标识、商标、版面设计、专栏目录与名称、内容分类标准等，均受《中华人民共和国著作权法》、《中华人民共和国商标法》、《中华人民共和国专利法》及适用之国际公约中有关著作权、商标权、专利权以及或其它财产所有权法律的保护，相应的版权或许可使用权均属本网站所有。

2、凡未经执牛耳新媒体书面授权，任何媒体、网站及个人不得转载、复制、重制、改动、展示或使用执牛耳网站的局部或全部的内容或服务，或在非执牛耳网站所属服务器上建立镜像。如果已转载，请自行删除。同时，我们保留进一步追究相关行为主体的法律责任的权利。

3、本网站摘录或转载的属于第三方的信息，目的在于传递更多信息，并不代表本网站赞同其观点和对其真实性负责，转载信息版权属于原媒体及作者。如其他媒体、网站或个人擅自转载使用，请自负版权等法律责任。

4、对网站上、网站下设的个人主页（专栏主页）以及与本网站链接的其他网站上的信息的准确性以及因该信息而产生的任何纠纷与损失不负任何法律责任。如发现上述信息存在问题欢迎通过电子邮件方式与我们尽快联系。

5、本站之声明以及其修改权、更新权及最终解释权均属【执牛耳新媒体www.zhiniuer.net】所有。

友情链接

备案号：京ICP备15025886号-1 网站编号：2415825 主办单位证件号码：110105018978892 信息产业部备案管理系统网址/工信部网站：https://beian.miit.gov.cn

首页

庖丁解牛

牛耳空间

生态圈

牛栏

活动

我的

投稿