«Ростелеком» внедрил аналитическую платформу TData вместо решений зарубежных вендоров. О том, какие преимущества предоставил компании переход на новый продукт и как шло импортозамещение, рассказал технический директор офиса по работе с данными «Ростелеком» Борис Емельянов.
Борис Емельянов«Ростелеком»
«Централизация и переход на платформу управления данными TData стали для нас единственным решением»
CNews: С какими системами вы работали до перехода на аналитическую платформу TData? Какие сложности были?
Борис Емельянов: До перехода на платформу TData, мы работали на зарубежных решениях и продуктах российского вендора Arenadata. На самом деле наш проект был гораздо шире, чем просто переход на новую платформу. Мы стремились к централизации отчетности, поскольку в компании существовал разброс систем, каждая из которых использовала свои форматы и стандарты. Это усложняло сбор данных, мешало бизнес-процессам и вызывало дублирование информации, ошибки в отчетах и задержки в принятии решений. И сама поддержка зоопарка систем — то еще удовольствие. Поэтому централизация и переход на единую платформу TData стали для нас единственным решением.
CNews: Какие основные трудности возникли в процессе консолидации данных?
Борис Емельянов: Выделю два ключевых аспекта. Во-первых, это технические вызовы, потому что мы уходили от многообразия вендорских продуктов к единому независимому стеку. Кроме программных продуктов западные вендоры предлагали ПАКи (программно-аппаратные комплексы), что ставило нас еще в большую зависимость от конкретных решений.
Во-вторых, были методологические проблемы, так как многие бизнес-процессы связаны с различными системами. То есть мы одновременно решали две задачи: преодоление технологических барьеров и унификацию методологии по работе с данными.
Мы начали с аудита всех текущих систем, после чего разработали поэтапную стратегию миграции. Потребовалось участие большого числа команд, и многое пришлось сделать для стандартизации подходов. Но это окупилось в будущем, нам удалось упростить последующие процессы создания дата-продуктов благодаря единой методологии.
Дополнительный плюс — универсальность интерфейсов систем, на которые мы переходили. Мы использовали технологии, аналогичные платформе Greenplum. Командам было комфортно переходить на новый стек без необходимости в сложном дополнительном обучении.
CNews: Внешних разработчиков вы тоже привлекали к проекту?
Борис Емельянов: Есть различные сценарии взаимодействия с системой. Бизнес-подразделения, создавая дашборды и дата-продукты, обращаются к внешним подрядчикам, когда это оправданно или есть дефицитов ресурсов. Поэтому важно предоставить удобный интерфейс и понятные правила работы с платформой, чтобы всем было комфортно.
«При создании централизованных решений мы решили не адаптировать ее под каждый уникальный процесс, а сделать универсальной»
CNews: Можно выделить, какие технологии или продукты было сложнее всего заменить, а какие — легче?
Борис Емельянов: Проблемы возникали, если в бизнес-процессах использовались собственные алгоритмы и специфические фичи. При переходе на новый стек их приходилось дорабатывать. Но гибкость нашего подхода позволяла справиться с задачей.
Отдельная тема — инструменты для сбора, анализа и визуализации мета-данных. Это очень важный элемент, т.к. именно от него зависит время внедрения дата-продуктов. Мы рассмотрели решения, представленные на рынке, но нам ничего не подошло. Это было вызвано с одной стороны тем, что предлагаемые решения не ложились на процессы «Ростелекома», в частности на постановку задачи для разработчиков, с другой — инструменты не отвечали требованиям бизнес-пользователей по удобству и простоте использования со стороны широкого круга различных пользователей. Это был один из самых непростых этапов миграции, и мы пришли к тому, что лучшим решением будет подстроить инструменты под свои цели. Сейчас у TData есть собственная система управления данными — RT.DataGovernance.
CNews: Как Вы адаптировали новые решения к конкретным бизнес-процессам? Можете привести примеры?
Борис Емельянов: Платформа поддерживает множество бизнес-процессов. При создании централизованных решений мы решили не адаптировать ее под каждый уникальный процесс, а сделать универсальной.
Мы создали организационную структуру, ориентированную на конкретные направления бизнеса, чтобы улучшить взаимодействие с партнерами и заказчиками.
Также мы заполнили хранилище данными, полезными для различных процессов, и привели их к единой модели. Это сократило время на разработку и адаптацию продуктов, так как все данные уже имели четкие характеристики и атрибуты.
CNews: Есть ли какие-либо функции или возможности, которых пока не хватает платформе? Планируете ли что-то доработать?
Борис Емельянов: Вопросы функциональности возникают постоянно. Понятно, что наши запросы всегда на шаг впереди не только конкретной платформы, но и большинства существующих на рынке.
Мы выбрали классический подход и понимаем, какие функции для нас важнее всего. В компании есть внутренняя система скоринга, которая прозрачна как для наших внутренних заказчиков, так и для команды TData. С помощью этой системы мы приоритизируем задачи в бэклоге и получаем те фичи, которые нужны сейчас.
Надо понимать, что мы один из заказчиков TData, поэтому сейчас мы взаимодействуем с ними в рамках общей дорожной карты развития платформы, которая учитывает потребности всех заказчиков.
«Самое главное преимущество — снижение совокупной стоимости владения (TCO) и устранение монополии на технологии»
CNews: Можете поделиться, что у вас сейчас в приоритете?
Борис Емельянов: У нас большой трек по работе с хранилищем данных. Это очень инертная система, и вносить серьезные технические изменения непросто, так как они влияют на многие бизнес-процессы. Мы очень аккуратно к этому подходим и сейчас сосредоточены на двух ключевых направлениях: управлении вычислительной нагрузкой в RT.Warehouse и упрощении миграции между разными версиями продуктов.
CNews: Каковы основные преимущества нового программного продукта по сравнению с ранее используемыми решениями?
Борис Емельянов: Самое главное преимущество — снижение совокупной стоимости владения (TCO) и устранение монополии на технологии. Одной из причин перехода на решения TData было необоснованное повышение цены другим российским вендором, после перехода на решение TData экономический эффект составил более 600 млн рублей. Второй момент по гибкости и возможностям по масштабированию. Мы понимаем, что раньше нас ограничивали возможности продукта и лицензии, предыдущий вендор не делал заказных доработок под наши нужды. Теперь технологии, которые мы используем, позволяют создавать разные версии и расширять тестовые зоны. То есть мы получили большую гибкость и универсальность в работе с инструментами.
Мы можем развивать функциональность, потому что полностью знакомы с кодом, постоянно взаимодействуем с вендором, который вырос из внутренней команды. Это дает возможность горизонтально масштабировать платформу. Ранее у нас был разрозненный ландшафт: одна система отчетности работала на Oracle, другая — на Microsoft, а некоторые данные собирались вручную. Сейчас мы перешли к единой системе и создали одно из крупнейших корпоративных хранилищ в стране.
CNews: Какой объем данных аккумулируют хранилища «Ростелекома»?
Борис Емельянов: Мы храним и обрабатываем данные из различных источников, включая структурированные и неструктурированные. В общей сложности объем хранимой информации достигает десятка петабайт. Данные проходят этап очистки и распределяются по кластерам, которые содержат информацию разных объемов для разных целей.
CNews: Есть ли у TData ограничения по объему данных в своих хранилищах?
Борис Емельянов: У разных технологий есть свои ограничения. Например, RT.DataLake предназначен для хранения как структурированных, так и неструктурированных данных. Объем хранимой информации здесь практически не ограничен, и есть крупные инсталляции на сотни и тысячи серверов. В то же время некоторые решения в нашем портфеле ориентированы на более узкие специфичные цели и могут иметь внутренние ограничения. Но даже у них есть большой задел. Мы специально выбрали технологический стек, чтобы минимизировать технические барьеры на старте платформы и обеспечить возможность масштабирования.
«У нас реализован процесс защищенной разработки»
CNews: Какие механизмы защиты данных предусмотрены на платформе?
Борис Емельянов: Работа с данными, особенно корпоративными, требует серьезного внимания к безопасности. Мы видим множество громких дел по утечкам и отмечаем, что регуляторы становятся все строже. Безопасность — один из главных приоритетов.
У нас есть блок информационной безопасности, который регулирует работу с данными и помогает строить систему защиты. Мы уделяем внимание базовым аспектам безопасности, таким как сетевая защита, логирование, учет пользовательской активности и интеграция с системами, которые распознают угрозы в реальном времени. Кроме того, мы прилагаем огромные усилия к реализации этих мер в продуктах, которые разрабатываем.
В «Ростелекоме» уже достаточно давно функционирует защищенный репозиторий кода. Он позволяет нам сканировать открытые исходники на уязвимости, что снижает риски получения этих уязвимости.
Кроме того, у нас реализован процесс защищенной разработки, когда минимизируется количество ошибок программистов и тех, кто собирает программные продукты в пакеты.
В прошлом году команда TData активно работала с внешними контролирующими органами, которые занимаются проверкой качества кода и соответствия мер защиты современным стандартам. Поэтому все наши свежие дистрибутивы и обновления уже будут соответствовать самым последним требованиям по безопасности у нас в стране.
CNews: Какие метрики вы используете для оценки эффективности работы аналитической платформы? И как в целом вы оцениваете эффективность?
Борис Емельянов: Мы предоставляем эффективные инструменты и данные для реализации всех бизнес-процессов. Главные характеристики нашей платформы — ее стабильность и доступность. Трудно добиться хороших результатов на платформе, если она работает с перебоями.
В качестве экономического эффекта можно отметить снижение затрат на поддержку зоопарка платформ за счет централизации. Это реальный эффект, потому что поддерживать разные платформы в большом количестве все-таки сложнее и дороже, чем единый инструментальный стек.
Мы делаем фокус на качестве нашего ядра данных: своевременности обновлений и проверке их надежности. У нас множество внутренних метрик, характеризующих работу платформы и нашего подразделения. Мы регулярно измеряем удовлетворенность пользователей через опросы. Анализируем инциденты, чтобы избежать их повторения.
CNews: Как получилось достичь нужного уровня стабильности работы платформы? Как он менялся в ходе развития проекта?
Борис Емельянов: Крупные централизованные решения, поддерживающие множество востребованных бизнес-функций, могут сталкиваться с проблемами из-за повышенного интереса пользователей. Мы запустили ряд бизнес-проектов и иногда сами ощущаем этот эффект.
Текущее состояние системы значительно отличается от того, что было на начальном этапе, когда мы только вырабатывали подходы и накапливали опыт, сталкиваясь с различными трудностями. Сегодня мы достигли определенной стабильности и ясности в работе платформы. Но по-прежнему возникают ситуации, требующие внимательного контроля и управления нагрузкой.
Хотя платформа функционирует эффективно, мы осознаем, что большое количество пользователей и ежедневные обновления отчетов создают дополнительную нагрузку. Поэтому мы уделяем особое внимание административному контролю, стараясь оптимизировать процесс.
Мы мониторим и предотвращаем инциденты, работаем с пользователями, обучаем их, показываем примеры правильной работы и лучшие практики по написанию запросов и приложений. Мы это делаем регулярно.
Еще одним важным аспектом является технологический суверенитет и безопасность open source кода. Многие слышали про историю с закрытием репозитория Greenplum, а исходный код open source решений не всегда является безопасным. Компания TData использует безопасный репозиторий РТК-Феникс, который с одной стороны проверяет библиотеки open source компонент на уязвимости, с другой обеспечивает независимое хранение исходных кодов для обеспечения независимости от опенсорс-сообщества.
«Чем яснее ваша задача, тем проще добиться результата»
CNews: Что бы вы посоветовали компаниям, планирующим перенос данных на новую платформу, и на что им следует обратить внимание в первую очередь?
Борис Емельянов: Они точно движутся в правильном направлении и принимают обоснованные решения. На старте проекта крайне важно уделить внимание четкой формулировке целей, которые вы планируете достичь. Чем яснее ваша задача, тем проще добиться результата.
Нам очень помог поэтапный подход с внедрением через пилотные проекты. Мы не проводили миграцию одномоментно, останавливая весь процесс и затем вновь его запуская. Мы начинали с небольших шагов, фиксировали результаты и анализировали проблемы. И так постепенно приходили к стабильной ситуации и удовлетворению пользователей.
Еще важно не гнаться за новыми технологиями, а комплексно проводить скоринг всего того, что появляется на рынке с точки зрения доступности ресурсов на рынке, крупных внедрений, рисков по развитию решения. После детального тестирования и анализа многие новые технологии уже не кажутся такие привлекательными, выявляются риски \. Мы за сбалансированный подход между инновациями и проверенными решениями.
CNews: Как вы думаете, в будущем изменится работа с данными в России?
Борис Емельянов: В последние годы мы наблюдаем значительные трансформации: рынок стал гораздо разнообразнее, и на него вышло много отечественных решений. Различные издания публикуют карты технологических стеков, на которых представлено огромное количество вендоров.
С накоплением опыта и увеличением клиентской базы крупных вендоров рынок будет постепенно сужаться и сегментироваться. Мелкие игроки скорее всего уступят место проверенным командам, что приведет к некоторой централизации.
Что касается технологического развития, нас ожидает трансформация ландшафта, аналогичная той, что уже произошла на Западе. Мы видим, как в нашей компании растет экспертность пользователей в управлении данными и повышается общая культура работы с ними. Пользователи начинают осознавать преимущества взаимодействия с дата-продуктами и создания таких продуктов. Все это неизбежно ведет к увеличению требований к технологическому стеку инструментов.
Все больше будет расти спрос на разные self-service подходы и решения в ИТ, позволяющие пользователям самостоятельно управлять ресурсами и получать доступ к данным без помощи специалистов.
Стоит упомянуть и искусственный интеллект. Последний год стал знаковым для этой темы, и, хотя хайп вокруг AI начинает понемногу стихать, польза от AI-решений будет все более заметна в различных отраслях. Не исключаю, что этот тренд затронет и сферу работы с данными. Возможно, у нас появятся новые способы взаимодействия с данными: ведь это топливо для обучения и построения внутренних моделей. Вполне вероятно, что будут разработаны агентские AI-решения, которые предоставят пользователям новые возможности и интерфейсы для работы с аналитикой и данными.
«Мы стремимся к более глубокой интеграции с внутренними платформами и планируем усовершенствовать инструменты межкластерного взаимодействия»
CNews: Как вы видите будущее аналитики и работы с данными в «Ростелекоме»?
Борис Емельянов: Все озвученные тренды не обойдут стороной и «Ростелеком». Если говорить о ближайшем будущем, у нас множество планов и четкий бэклог для линейного развития всех инструментов. Мы стремимся к более глубокой интеграции с внутренними платформами и планируем усовершенствовать инструменты межкластерного взаимодействия.
Как я уже упоминал в начале, мы хотим увеличить контроль за нагрузкой. В более широком контексте ожидаем появления новых инструментов в нашем портфеле, которые помогут расширить взаимодействие с пользователями, предоставляя больше гибкости и разнообразия интерфейсов.
CNews: Вы сказали о новых инструментах. Можете ли поделиться деталями?
Борис Емельянов: Новые инструменты, о которых идет речь, связаны с уже устоявшимся трендом разделения слоев хранения и обработки данных. Традиционные базы данных часто объединяют функции хранения, обработки запросов и управления метаданными в одной системе. Это создает ограничения по масштабированию, так как разные пользователи могут иметь разные потребности: кому-то нужно больше хранилища, а кому-то — более мощная обработка данных.
Современные решения, такие как Lakehouse, начинают занимать свою нишу на рынке. На рынке наблюдается рост интереса к решениям, которые объединяют в себе преимущества подходов RT.DataLake и RT.Warehouse. RT.DataLake предоставляет возможность хранения больших объемов неструктурированных данных, создавая своего рода «озеро» информации. В то же время RT.Warehouse предлагает возможности быстрой аналитики и взаимодействия с структурированными данными.
Комбинирование этих двух подходов может быть полезным в различных бизнес-кейсах, и мы видим явный тренд в эту сторону. Но важно помнить, что любые изменения должны быть постепенными. Нельзя разрушать уже налаженные бизнес-процессы, следует их развивать и интегрировать новые возможности для повышения эффективности и анализа данных.