杰微刊-视频审核:从优衣库试衣间说起- 文章 - 解放号



杰微刊-视频审核:从优衣库试衣间说起- 文章 - 解放号

"优衣库试衣间"视频之后,北京三里屯的优衣库俨然已经成了朋友圈朝拜的景点之一。这又印证了那个万古不变的真理:黄赌毒的病毒传播属性总是惊人。

不过,不是说好网监手伸的又长又广吗?不是说好视频审核很严格吗?这样的视频是如何在一夜间不断被删又不断流出?

某视频网站的工作人员告诉雷锋网记者,目前他们每天处理的短视频上传量在150万左右,而审核人员不超过50个,视频审核的工作一大部分由机器负责。

图像识别和声音识别都还好说,机器是如何审核视频的?

入门级:MD5

先来看看国家不喜欢什么样的视频。

在下发的《网络视频审查管理规定》中,一共对十类视频不予审查通过,大而言之是反对宪法基本原则的、危害国家统一、泄露国家秘密等。

不过某视频网站告诉雷锋网记者,更接地气一些的形容是三类:色情、暴恐和极端宗教主义。除了规定所有用户自发上传的视频需要进行严格审查之外,网监还会对互联网上已经发布的视频进行二次审核。"参与审核的人数多到让你震惊",某位业内人士这样告诉雷锋网记者。

在中国,每个公民都有一个唯一的身份证号(ID),通过这个ID可以全方位的定位一个人的年龄、性别、出生地等,同比MD5就是视频的ID。网监有一个巨大的危险MD5库,库内藏着各种不能流于世的视频。视频网站都需要接入这个库,并在实际审核中增加自己的库存。

在早期,过滤视频的第一步就是横扫整个库,把MD5吻合的视频直接剔除,并将它提交给公安违禁库。

不过,某短视频网站的工作人员M告诉雷锋网记者,匹配MD5正在逐步弃用,原因在于MD5非常容易被篡改,在视频中加入文字或者修改任意一帧就能实现。

于是,出现了更高级别的审核办法。

性能级:机器审核

通过MD5之后的视频,第二步会经历机器审核的过滤。市面上已经有成熟的第三方公司提供API接口,辅助视频网站进行机器审核。

图普科技的CEO李明强告诉雷锋网,机器审核视频是基于深度学习图像识别云,实际也是将视频截图,由机器审核每一张截图的安全性。不过具体是3秒截一张还是5秒截一张,松紧度由视频网站自己控制。


Read full article from 杰微刊-视频审核:从优衣库试衣间说起- 文章 - 解放号


No comments:

Post a Comment

Labels

Algorithm (219) Lucene (130) LeetCode (97) Database (36) Data Structure (33) text mining (28) Solr (27) java (27) Mathematical Algorithm (26) Difficult Algorithm (25) Logic Thinking (23) Puzzles (23) Bit Algorithms (22) Math (21) List (20) Dynamic Programming (19) Linux (19) Tree (18) Machine Learning (15) EPI (11) Queue (11) Smart Algorithm (11) Operating System (9) Java Basic (8) Recursive Algorithm (8) Stack (8) Eclipse (7) Scala (7) Tika (7) J2EE (6) Monitoring (6) Trie (6) Concurrency (5) Geometry Algorithm (5) Greedy Algorithm (5) Mahout (5) MySQL (5) xpost (5) C (4) Interview (4) Vi (4) regular expression (4) to-do (4) C++ (3) Chrome (3) Divide and Conquer (3) Graph Algorithm (3) Permutation (3) Powershell (3) Random (3) Segment Tree (3) UIMA (3) Union-Find (3) Video (3) Virtualization (3) Windows (3) XML (3) Advanced Data Structure (2) Android (2) Bash (2) Classic Algorithm (2) Debugging (2) Design Pattern (2) Google (2) Hadoop (2) Java Collections (2) Markov Chains (2) Probabilities (2) Shell (2) Site (2) Web Development (2) Workplace (2) angularjs (2) .Net (1) Amazon Interview (1) Android Studio (1) Array (1) Boilerpipe (1) Book Notes (1) ChromeOS (1) Chromebook (1) Codility (1) Desgin (1) Design (1) Divide and Conqure (1) GAE (1) Google Interview (1) Great Stuff (1) Hash (1) High Tech Companies (1) Improving (1) LifeTips (1) Maven (1) Network (1) Performance (1) Programming (1) Resources (1) Sampling (1) Sed (1) Smart Thinking (1) Sort (1) Spark (1) Stanford NLP (1) System Design (1) Trove (1) VIP (1) tools (1)

Popular Posts