"Платформа ОФД" изобрела технологию потоковой обработки чеков с ошибками и опечатками
Российская IT-компания "Платформа ОФД" разработала собственную технологию обработки коротких текстов, которая позволяет определять, идентифицировать и классифицировать товары, указанные в кассовых чеках магазинов, в том числе таких, где содержатся многочисленные ошибки, опечатки и сокращения, рассказал генеральный директор компании Алексей Баров.
"Порядка 65% чековых записей содержат либо сокращения, либо фактические ошибки, либо непонятные символы. То есть две трети чеков содержат "буквенный мусор", и, чтобы его преобразовать в полезные данные, мы применяем технологию Machine Learning", - сказал Баров на пресс-конференции.
Он напомнил, что сегодня "Платформой ОФД" обрабатываются до 50 миллионов кассовых чеков в день. Потоковая обработка охватывает до 21 миллиона товаров из 3,5 тысячи категорий с шестью уровнями вложенности. Теперь новая технология компании позволяет классифицировать, сравнивать, верифицировать товарные записи, в том числе содержащие ошибки, скоростью более 1 тысячи транзакций в секунду.
"Мы научили нейросети нашей системы четко, оперативно, с минимум погрешностей - распознавать и анализировать поступающую информацию. Это позволяет находить смыслы в наборе букв и цифр", - отметил он.
Директор по продуктам на данных в компании Дмитрий Батюшенков уточнил, что совокупный объем Big Data, хранимой в ЦОДах "Платформы ОФД", уже достигает 5 петабайт.
"Для нас работа с чеками - это работа с короткими текстами "на потоке". То есть не разбор смысла того, что там находится, а в большей степени - приведение неструктурированных данных к единой структуре по четырем параметрам. <...> Работая с текстом, мы разбиваем этот текст на атрибуты и дальше смотрим на "соседей", на что это больше похоже. Для того чтобы машина работала как человек в распознавании этого текста, обучение может занимать от 7 до 100 итераций, потому что на каждой итерации машина обучается и дает более внятный результат", - пояснил Батюшенков.
По его словам, массивы информации используются для помощи ретейлу, производителям и финансовым организациям. Она может использоваться клиентами компании не только для составления аналитики или отчетности, но и для выстраивания более грамотных маркетинговых стратегий.
"Мы можем производителю подсвечивать четкое направление в рамках маркетинговых компаний, давать информацию о его целевой аудитории", - сказал он, отметив, что предоставляемые данные строго обезличены.
"Мы работаем исключительно с фактом, статистикой, мы не даем аналитику и рекомендации", - подчеркнул он.
На сегодняшний день база для работы с короткими текстами "Платформы ОФД" включает 5 миллиардов уникальных записей товаров, 150 миллионов написаний товаров в день. На потоке определяется более 3 миллиардов брендов. Данные агрегируются как из чеков, так и из свободного доступа, например, отраслевых классификаторов, каталогов с сайтов ретейлеров и других.
IT-компания «Платформа ОФД» - аккредитованный оператор фискальных данных. Занимает первую позицию в рейтинге российских ОФД по версии CNews Analytics, является лауреатом премии CNews Awards в номинации «ИТ-проект года для ритейла». Входит в экосистему Сбербанка.
Сделано в России // Made in Russia
Автор: Карина Камалова
