ЧТО ОЗНАЧАЕТ РАЗМЕТКА ДАННЫХ?

Под разметкой данных принято понимать процесс "аннотирования" любых данных с целью перевода их на понятный машине язык. Если говорить простыми словами - то разметка данных это процесс объяснения машине "о чем" эти данные. Это необходимо для обучения моделей ИИ, чтобы потом получить эффективный алгоритм работы с определенным типом данных.

Разметка данных может быть любая - мы можем объяснять роботу, где на фото расположены автомобили и люди, а можем обучать распознавать интонации и настроения в аудиозаписях разговоров. От качества разметки данных зависит и результат обучения нейросети - чем качественнее будут данные и их разметка, тем точнее удастся получить результат от работающего алгоритма.

КАК РАЗМЕЧАЮТСЯ ДАННЫЕ

Процесс разметки данных разнится от их типа. Существуют коробочные инструменты аннтоции данных, позволяющих работать с типовыми задачами разметки - интерьер/экстерьерной разметки, лицевая анимация, ландмарки простых и сложных форм. Но чаще приходится прибегать к узкоспециализированным инструментам, позволяющие работать с уникальными типами данных - к примеру разметка отсканированных графиков различных функций или интонации аудиозаписей. Нередко, инструменты для таких задач разрабатываются "под ключ".

Сама разметка данных подразумевает наличие данных - причем качество этих данных должно позволять создавать эффективную аннотацию. В противном случае, обучение модели распознавания не приведет к хорошим результатам.

Разметка данных - длительный процесс. Его стоимость и продолжительность калькулируются исходя из сложности данных для разметки и объема - разметить тысячу изображений яблок может оказаться быстрее и дешевле, чем разметка 200 изображений графиков тепловых зависимостей в термоядерных реакциях.

РЕЗУЛЬТАТЫ

Современные технологии строятся в первую очередь на данных, поэтому прежде чем приступать к разработке технологического решения на базе машинного обучения или компьютерного зрения, мы прорабатываем тот объем данных, на котором будут обучаться наши алгоритмы. И на этом этапе мы уделяем значительное внимание именно качеству разметки этих данных.

Кейсы