Главная » Технологии » Megogo запустит нейросеть для поиска запрещенного контента в библиотеке видеосервиса

Megogo запустит нейросеть для поиска запрещенного контента в библиотеке видеосервиса

Видеосервис Megogo запустит программу-робота на основе многозадачной нейронной сети. Она будет распознавать четыре группы нецензурных слов из списка Роскомнадзора и производные от них, а также сцены курения, употребления алкоголя, секс, а в перспективе — сцены насилия

Megogo запустит в течение месяца запустит нейросеть для распознавания контента, который запрещен законом. Программа-робот сможет распознавать мат, сцены курения и пьянства, секс и в будущем — сцены насилия, рассказал «Ведомостям» гендиректор видеосервиса Виктор Чеканов. В случае успеха работы нейроробота технологию предложат рынку. 

Нейросеть должна проанализировать библиотеку Megogo, которая сегодня состоит из 35 000 тайтлов и более чем 700 000 единиц контента (с учетом всех эпизодов сериалов, доступных на видеосервисе), сообщил Чеканов. «Запуск робота – превентивная мера, цель — выявить контент с матом и указанными сценами, чтобы устранить возможные нарушения: запикать или проставить маркировку «18+», рассказал глава Megogo.

11 ноября Роскомнадзор составил в отношении Megogo административный протокол за несвоевременное устранение нарушений – мат и секс в фильме «Никто не знает про секс». Он имел на видеосервисе маркировку «16+» вместо «18+». Этот фильм вышел в прокат в 2006 году.

Роскомнадзор разъяснил, что по федеральному закону «О защите детей от информации, причиняющей вред их здоровью и развитию» (вступил в силу в сентябре 2012 года) классификация информационной продукции должна осуществляться ее производителями и распространителями самостоятельно. То есть видеосервисы должны самостоятельно определять и при необходимости менять маркировку, если контент не соответствует предусмотренной действующим законодательством возрастной маркировке.

Нейроробот Megogo будет искать нецензурные слова, как те, что входят в список запрещенных Роскомнадзором (четыре группы слов), так и еще два, которые не входят в список, но могут быть расценены как мат.  За использование одного из двух последних слов в апреле 2018 года Роскомнадзор составил в отношении интернет-издания Znak.com протокол об административном нарушении. 

Многозадачная нейронная сеть базируется на двух существующих решениях. Это Vosk, автономный инструмент для распознавания речи с открытым исходным кодом, и система визуального распознавания на основе нейросети. Первый может отнести к матам, например, словосочетание «не психуй», еще сложнее обучить робота распознавать сцены насилия, отметил Чеканов. Через год робот сможет самостоятельно идентифицировать запрещенный к распространению контент, но пока участие человека (тестировщиков и редакторов) в процессе необходимо, добавил собеседник газеты.  «Если технология успешно себя покажет, мы предложим робота рынку», — сообщил гендиректор видеосервиса.

Гендиректор Института исследований интернета Карен Казарян считает, что идентификация мата в речи процесс легко автоматизируемый, но со сценами секса и насилия могут возникнуть проблемы. По его словам, роботы Google (владелец YouTube) и Meta (владелец соцсети Facebook), как правило, обучены на распознавание картинки или видео по наличию в них обнаженных тел и половых органов. «А в художественных фильмах в сценах секса половых органов, как правило, не показывают и актеры не всегда снимаются в них полностью обнаженными», — отметил эксперт. Он добавил, что для модерирования контента с насилием все равно понадобятся люди.