ЧТО ТАКОЕ КОМПЬЮТЕРНОЕ ЗРЕНИЕ

Компьютерное зрение(машинное зрение, computer vision, CV) представляет собой технологию, в разрезе феномена искусственного интеллекта, позволяющую извлекать информацию из изображений, причем изображения могут быть разного типа. Это могут быть фотографии, могут быть видео, могут быть наборы фотографий или медицинский снимок из магнитно-резонансного томографа. Машинное зрение в сущности представляет собой набор алгоритмов, нацеленных на получение данных из различных графических источников

Компьютерное зрение приобрело особенное развитие с появлением алгоритмов, которые работают с изображениями и сочетают цветовую информацию о точках и их пространственное положение - сенсоры, способные получающить такую информацию, стали более доступными, и научить роботов понимать мир с помощью таких сенсоров стало гораздо проще.

Также, стоит упомянуть у такой возможности технологии CV, как построение трехмерных моделей из изображений, например из набора фотографий или из видео, причем эти фотографии могут быть сняты одним фотографом или скачаны из интернета. К примеру, ставшие уже повседневными роботы-пылесосы, строят внутри себя двухмерную карту помещения, для ориентации в пространстве, а роботы-саперы обладают возможностью строить трехмерные карты помещения, в котором они находятся.

КАК ЭТО РАБОТАЕТ

Главный прогресс технологии CV происходит в областях компьютерного зрения, связанных с пониманием изображений - высокоуровневое компьютерное зрение. Задачи этого направления нацелены, как правило, на достижение результатов, сравнимых с уровнем распознавания информации человеком. Например, система получает фотографию и задание - составить список объектов, которые на этом фото, их класс (человек, автомобиль, собака, кусок лужайки) и то, где они на изображении находятся. Или видео, на котором алгоритм должен определить, что делают люди на этом видео: идут они спокойно по делам или начинается что-то необычное, например драка, и нужно срочно привлечь внимание оператора к этому видео. Потому что недостаточно просто завесить весь город камерами — нужно, чтобы видеопотоки с этих камер как-то обрабатывались.

Ближайший пример использования подобного высокоуровневого компьютерного зрения кроется в коде известных всем социальных сетей - Facebook и Instagram уже давно применяют технологию компьютерного зрения на фото и видео, чтобы на основе полученных данных формировать ленты новостей и интересов для каждого конкретного пользователя. Выглядит это как метки внутри кода для отдельных фото, в которых алгоритм компьютерного зрения хранит описание идентифицированных объектов.

КОГДА НЕОБХОДИМО CV

Компьютерное зрение позволяет решать следующие задачи, вне зависимости от отрасли:

  • Распознавание объектов (поиск объекта на фото или видео);
  • Идентификация (определение класса найденного объекта);
  • Обнаружение(проверка видеоряда на наличие определенного условия);
  • Распознавание текста;
  • Восстановление 3D формы по 2D изображениям;
  • Оценка движения(Определение и следование за перемещениями объекта);
  • Восстановление сцены;
  • Восстановление изображений;
  • Выделение на изображениях структур определенного вида, сегментация изображений;

Сама же инфраструктура, позволяющая реализовать и внедрить технологии компьютерного зрения, как правило, зависит от задач, и в минимальной комплектации может выглядеть как набор из качественного устройства сбора графической информации(камера/фотоаппарат), производительного сервера и программного обеспечения самой технологии. В этот набор, в зависимости от задач, могут быть добавлены датчики для синхронизаций, специфичные приложения и модули ПО, специализированные источники света, лазерные радары и прочее.

РЕЗУЛЬТАТЫ

Использование компьютерного зрения позволяет не только оптимизировать финансовые издержки и сократить в какой-то момент человеческие ресурсы, но и начать видеть то, что человеческий глаз может упускать. В некоторых случаях компьютерное зрение позволяет исключить человеческий фактор, обеспечив при этом бесперебойный анализ и распознавание наблюдаемого мира.

Кейсы