ICT-Online: Насколько важно сейчас для отечественного интегратора уметь применять в работе и собственном бизнесе технологии машинного обучения? В каких сферах, в каких проектах это особенно важно, для каких заказчиков?
Антон Сосенко: В собственном бизнесе мы практически не используем машинное обучение. Пожалуй, единственное применение, это разработка довольно простого бота, помогающего нам в поиске талантливых кандидатов. Количество резюме по вакансиям datascientist, machinelearningengineer, dataanalystочень велико, до нескольких тысяч в неделю, анализ резюме проводится ежедневно, и это очень трудоемкая задача. Бот помогает отсеивать тех, кто нам точно не подходит.
В отношении заказчиков все немного сложнее. Технологии машинного обучения – новая область, многие считают, что применять технологии MLрано, они либо не подходят под специфику предприятия, либо им нельзя доверять (сложно проверять). Но реальность такова, что сейчас генерируются терабайты данных, их нужно как-то обрабатывать, а для заказчиков на первом месте стоят их бизнес-задачи. Если предлагаемое решение соответствует требованиям бизнеса, снижает затраты, сокращает требования к персоналу, то обычно нет причин для возражений, так как заказчики всегда практичны и ориентированы на конечный результат. Поэтому уметь применять современные технологии обработки данных, методы MLв том числе – это важно, и еще важнее уметь предлагать заказчику понятные, основанные на MLрешения, согласующиеся с производственной задачей. Хороший вариант – показать преимущества MLна небольшом пилотном проекте.
Из наиболее перспективных направлений, по которым мы работаем, – решения для промышленной безопасности, предотвращения инцидентов и гибели людей в ходе выполнения опасных работ. Система может оценить степень опасности ситуации раньше человека. Есть интересные и общественно значимые запросы, связанные с обеспечением безопасности движения на дорогах. Кроме того, мы разрабатываем рекомендательные системы и активно работаем в области минимизации потерь в производстве.
ICT-Online: Какие интересные технологии появляются, какие возможности открывают?
Антон Сосенко: В целом методы supervisedlearningявляются стабильными и обеспечивают хороший, гарантированно полезный с практической точки зрения результат. Мы активно ими пользуемся для решения задач, о которых я говорил выше. В том числе используем новые архитектуры глубоких нейронных сетей – рекуррентные сети (RNN) для обработки телеметрии и сверточные сети (CV) для обработки изображений и видео. Один из новых трендов – это аппаратная реализация готовых алгоритмов машинного обучения в гаджетах, с тем, чтобы использовать преимущества методов машинного обучения без постоянной связи с облаком, которое по разным причинам может быть недоступно, либо, когда полоса пропускания не позволяет, например, обрабатывать видео в режиме реального времени.
Еще одно интересное и важное направление связано с обработкой входящих потоков «нестабильных» данных. Качество данных остается критической частью любого решения, основанного на ML. Сейчас алгоритм машинного обучения может быть введен в заблуждение из-за неполных или противоречивых данных. Также не всегда можно получить достаточный объем размеченных данных, а методы unsupervisedlearningпока имеют много ограничений. Один из перспективных подходов основан на применении генерирующих моделей (generative models), позволяющих автоматически генерировать дополнительные наборы данных для обучения или использовать частичное обучение – с очень небольшим объемом размеченных данных. Пока генерирующие модели, например, GAN (GenerativeAdversarialNetwork), не являются вполне стабильными, но данное направление активно развивается и привлекает много талантливых исследователей и разработчиков, так что, думаю, можно рассчитывать на серьезный прогресс в этой области в ближайшее время.
ICT-Online: Какие из них вы уже используете или собираетесь взять на вооружение? История развития направления.
Антон Сосенко: У нас есть собственное подразделение по разработке решений IndustrialIoT: датчиков, сенсоров, специализированных мобильных устройств, промышленных систем позиционирования, сбора и передачи данных. Основные требования сейчас – компактность, низкая стоимость, длительность автономной работы, возможность работать «в поле». Прослеживается явный тренд на миниатюризацию, встраивание в технику, инструмент, оснастку, рабочую одежду. И важнейшая функция – способность выполнять аналитическую обработку данных «на борту», то, что называют сейчас Fogcomputing и EdgeAnalytics.
Поэтому наши инженеры работают в тесном контакте с аналитиками данных и разработчиками в области datascience. Мы используем современные компактные аппаратные решения (чипы), специально созданные для решения задач машинного обучения, в том числе для обработки изображений и видео. Это особенно важно, когда время реакции критично, а инференс (выполнение обученного алгоритма) в облаке может быть недоступен в промышленных условиях или по соображениям безопасности.
Один из примеров – процессы эксплуатации промышленных и технологических объектов. Наша повседневная жизнь требует работы миллионов единиц оборудования – энергетика, тепло, водоснабжение, связь, различные сервисы, о которых мы, как пользователи, можем даже не знать. Инфраструктура является критичной, распределена по огромным территориям. Не всегда процедуры обслуживания выполняются безопасно и качественно, не говоря уже о затратах. Не всегда человек способен в принципе распознать дефект или опасную ситуацию, не всегда хватает квалификации персонала. Время реакции критично, а инференс (выполнение обученного алгоритма) в облаке может быть недоступен в промышленных условиях или по соображениям безопасности.
Второе направление, в котором у нас есть очень интересный опыт, связано как раз с обработкой неполных и противоречивых данных. Наше направление образовалось в результате реализации классических проектов в сложных условиях. Например, была задача в строительстве, где требовалась ежедневная обработка данных, поступающих от сотен организаций в условиях, когда надеяться на унификацию НСИ и единые правила работы разных организаций не приходится. Как сформировать прогноз и оценить вклад участников в конечный результат, если часть данных просто отсутствует, а часть противоречит друг другу? Каким образом руководители и инвесторы будут принимать решения, если у них нет понимания, в какой степени доверять прогнозу и какова доля «стабильных» данных?
Так появилась программная платформа для обработки неполных и противоречивых данных и прогнозной аналитики «Горизонт», которую мы постепенно стали превращать в нечто большее, чем просто некий ETL-инструмент, – за счет возможности работать с нестабильными данными и реализации аналитического движка, основанного на методах машинного обучения. Кроме того, мы активно расширяем возможности применения платформы в разных отраслях.
Что касается распределенных вычислений, первоначально мы не планировали создавать собственный инженерно-технологический центр, а хотели поступить как профессиональные интеграторы и закупить для одного из проектов партнерское решение. В частности, речь шла о применении системы позиционирования реального времени в производстве и возможности использовать мобильные браслеты для идентификации технологических операций (что требует применения ML). Нас остановила не очень выгодная политика лицензирования таких решений, закрытость проприетарных библиотек – получалось негибко и дорого.
Сейчас мы считаем умение разрабатывать аппаратные решения в миниатюрном исполнении и совмещать их с аналитикой на основе машинного обучения нашим конкурентным преимуществом. Мы постепенно превращаемся в технологическую компанию, хотя это, конечно, только начало и еще много предстоит сделать.
ICT-Online: Расскажите о наиболее интересных проектах компании, связанных с машинным обучением.
Антон Сосенко: Все проекты интересны по-своему, и мы особенно восхищаемся уровнем грамотности и практическим качествам наших заказчиков, их умению изыскивать новые способы решения бизнес-задач и использовать наши возможности. Например, мы говорили о тренде в области промышленной безопасности, сейчас мы работаем над решением, которое позволит предотвращать ошибочные действия персонала в ходе выполнения монтажных работ или работ по техническому обслуживанию и ремонтам. Недостаточно просто идентифицировать работу как опасную в случае попадания персонала в заданную зону и проверять, например, надета ли каска, с помощью стационарной системы видеонаблюдения – это распространенная и несложная задача. Необходимо определять ошибочные технологические операции в зоне выполнения опасных работ с плотным расположением различного активного оборудования, в том числе на удаленных объектах.
Интересной является задача по применению аппаратно-программного комплекса на основе ComputerVision и специальных устройств, датчиков для определения степени опасности водителя для окружающих. Крупные компании и производители аппаратных решений активно вкладываются в разработку беспилотных автомобилей и алгоритмов поведения на дорогах. Но кроме этого, есть отдельная группа задач с фокусом на координацию движения, быстрое реагирование и реализацию сценариев безопасности на дорогах, для всех участников, включая дорожные службы.
ICT-Online: Дальнейшие планы компании в части машинного обучения? Какие преимущества даст их достижение?
Антон Сосенко: Мы находимся в процессе отработки универсального и технологичного подхода к решению задач, связанных с машинным обучением. Здесь у нас большие планы сразу по нескольким направлениям. Во-первых, мы непрерывно развиваем нашу программную платформу, уже сейчас мы можем собирать, обрабатывать, оценивать целостность и полноту данных, полученных от различных источников: устройств IndustrialIoT, специализированных мобильных устройств, классических смартфонов и планшетов, стационарных и мобильных видеокамер. Основная цель – сократить время и затраты заказчиков на подключение источников исходных данных, оценку их релевантности, разметку и предобработку данных.
Во-вторых, мы планируем перенести часть услуг в облако и создать удобный сервис, использовать наш собственный центр обработки данных как минимум на этапе внедрения моделей машинного обучения – это даст нам возможность сократить время разработки конечного решения, а заказчику – привлекать меньшее количество ресурсов. К сожалению, облачные сервисы, связанные с аналитикой, не очень популярны в нашей стране, прежде всего по соображениям безопасности, но ряд задач можно решать уже сейчас. И последнее направление – разработка новых классических моделей, максимально приближенных к бизнес-требованиям заказчиков, например, рекомендательных систем. Мы надеемся, что со временем наши заказчики будут больше доверять современным технологиям, станут чаще использовать машинное обучение в основном бизнесе. Сокращение затрат бизнеса является прямым доказательством эффективности современных технологий и финансово стимулирует развитие решений на основе машинного обучения.
Источник: ICT-Online.ru