今日头条“灵犬反低俗”升级:100倍维基百科数据量

  • 时间:
  • 浏览:0

7 月 31 日消息,近日今日头条发表声明推出新版“灵犬反低俗助手”,打上去了对图片和文本识别。这人代“灵犬”训练数据集总量是1. 2 个T,为宜 20 倍百度百科或 30 倍维基百科的数据总量,暗含 920 万个样本,准确率提升至91%。

据介绍,新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。后续还将支持语音识别和视频识别。

在文本识别领域,新版“灵犬”共同应用了“Bert”和半监督技术,训练数据集暗含 920 万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用角度学习作为处里方案,在数据、模型、计算力等方面均做了针对性优化。

2018 年 3 月 28 日,今日头条首次上线“灵犬”,支持检测文字和文章链接。 2018 年 5 月 16 日,“灵犬”增加反色情短文本模型和反谩骂模型,将准确率从73%提升至82%。 2019 年 2 月 20 日,“灵犬2.0”正式上线,除了反色情低俗模型,加入反暴力谩骂和反标题党模型,覆盖了主要的低俗低质内容类型,整体识别准确率接近85%

截至 2019 年 6 月,灵犬反低俗助手的使用人次可能性超过了 30 万。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请