Распознавание контента для взрослых искусственным интеллектом оказалось гораздо сложнее, чем казалось ранее. Так, система искусственного интеллекта сервиса микроблогов Tumblr за время действия запрета на контент для взрослых (с 17 декабря 2018 года) ошибочно пометила “невинные” посты в 455,4 млн блогах сайта и 168,2 млрд постах. 

Об этом пишет издание The Verge.

Во-первых, сложно блокировать контент риска, потому что достаточно сложно решить, что это такое. Определение непристойности – медвежья ловушка, которая восходит примерно к 1896 году, когда Соединенные Штаты впервые приняли законы, регулирующие непристойность.

Поэтому алгоритмы машинного обучения имеют ту же проблему, что и люди.

Именно эту проблему и пытается решить генеральный директор компании Picnix, которая продает специализированную технологию искусственного интеллекта, Брайан ДеЛордж (Brian DeLorge). Один из их продуктов приложение для клиентов – Iris, которое обнаруживает порнографию, чтобы “помочь людям”, “которые не хотят порно в своей жизни”.

Другая проблема состоит в том, что порнографией можно называть очень много разных вещей.

К примеру, фото с вечеринки на пляже может быть заблокировано не потому, что на нем больше оголенного тела, чем на фотографии из офиса, а потому, что оно находится “на грани”.

“Для того чтобы научить ИИ, как обнаружить порно, то первое, что вам нужно сделать, это “кормить” его порно. Много и много порно. Одна из вещей, которые делают люди, – они просто скачивают кучу видео с Pornhub, XVideos. Это одна из тех серых областей, где, например, если вы учитесь на материалах других людей, то знания принадлежит вам?” – отметил соучредитель и технический директор Lemay.ai Дэн Шапиро (Dan Shapiro).

После того, как вы получили учебные наборы данных из порно сайтов, следует убрать все кадры из видео, которые явно не являются порнографией.

Отмечается, что некоторые платформы платят людям за маркировку этого контента. Обучение проходит лучше, когда вы используете большой набор данных, представляющий материал, который вы не хотите видеть, а не просто фотографии. Хороший автоматизированный модератор должен быть обучен на миллионах явных примерах запрещенного контента.

Тем не менее, алгоритму сложно достоверно вычислять такой контент.

С содержанием, которое является явно порнографическим, он работает очень хорошо, но ИИ может неправильно пометить объявление о нижнем белье как явное, потому что на картинке больше обнаженного тела. Это означает, что люди, занимающиеся маркировкой, должны сосредоточиться на этих крайних случаях в своей работе, отдавая приоритет тому, что подобный контент трудно классифицировать.

В издании добавили, что одним из самых сложных для распознавания является аниме-порно.

Дэн Шапиро считает, что для выявления порнографии алгоритму машинного обучения всегда нужен будет человек.

Однако, по мнению представителя компании Zeiler, “будет день, когда искусственный интеллект сам все будет модерировать”. Вмешательство человека, по его словам, будет либо нулевым, либо никаким.

“Задача искусственного интеллекта, как выразилась Элисон Адам в своей книге “Искусственное знание: гендер и машина мышления” 1998 года, заключается в том, чтобы “моделировать некоторые аспекты человеческого интеллекта”, будь то обучение, движение вокруг и взаимодействие в пространстве”, – резюмировали в издании.

Ранее инженеры из Берлинского технического университета изобрели метод, позволяющий обойти систему идентификации личности по рисунку вен на ладони.
В ноябре в Китае система распознавания лиц, использующая искусственный интеллект, выписала штраф местной предпринимательнице Дун Минчжу – якобы за переход дороги на красный свет. Как оказалось, ее портрет был на рекламе на автобусе, проезжавшем мимо.