ЗАДАЧА

Международная финансовая структура, занимающаяся венчурными инвестициями в реальный сектор экономими обратилась с проблемой идентификации данных инвестиционных заявок, предоставляемых соискателями. Требовался инструмент автоматизации процесса анализа заявок и финансовых отчетов, с целью повышения эффективности инвестиционной оценки

РЕШЕНИЕ

Прежде чем приступить к созданию инструмента пакетного анализа финансовой документации был проведен разбор и кластеризация самих документов на предмет выявления типовых ошибок и проблем идентификации. Были категоризованы 12 типовых спанов в документе, и отдельно - две категории данных, требующих уточнения оператора.

После этого была развернута нейросеть глубокого обучения, для формирования алгоритма анализа. Всего обучение сети была запущено порядка 8 раз, так как требовалось научить работать алгоритм с несколькими разными типами документов. В конечном счете, была полностью реализована задача NER, что позволило достигнуть ожидаемого результата - на учебной выборке процент полностью идентифицированных документов без вмешательства оператора составил более 78%.

Основной целью было получение данных из докуентов, представленных в неявном виде, поэтому было решено реализовать вспомогательный инструмент, который отправлял оператору запрос на "помощь" в двух случаях - когда алгоритм сомневался в правильности идентификации данных на документах, и в случае, когда распознать данные не удавалось совсем.

РЕЗУЛЬТАТ

Несмотря на продолжительный процесс обучения алгоритма работы с инвестиционными документами, а также общей сложностью распознаваемых данных, в конечном результате удалось достичь 84% точности распознавания и эффективности оценки инвестиционных заявок - около 150 документов из 1000 оказывались с ошибочной идентификацией, во многом связанной со общей сложностью распознавания рукописного текста.

Кейсы