Middle SRE Engineer
Наш клієнт, Growe, провідна консалтингова компанія та група сервісів у сфері iGaming і розваг. Вони створюють стратегії, що працюють, та рішення, які масштабуються. Поєднуючи стратегічне бачення з практичним досвідом, Growe допомагає бізнесам орієнтуватися в динамічній індустрії, відкривати нові можливості, виходити на нові ринки та досягати сталого зростання.
Ідеально для тих, хто прагне:
- Забезпечувати доступність, продуктивність і масштабованість інфраструктури та сервісів завдяки моніторингу, автоматизації та найкращим операційним практикам;
- Очолювати реагування на інциденти, проводити аналіз першопричин та впроваджувати відновлювальні та довгострокові рішення;
- Керувати інфраструктурою за допомогою Terraform, Terragrunt та інструментів автоматизації для забезпечення узгодженості та повторюваності;
- Впроваджувати та підтримувати рішення для метрик, логів і трасування (Prometheus, Grafana, Loki, VictoriaMetrics, CloudWatch), щоб забезпечити видимість системи;
- Виявляти «вузькі місця», оптимізувати системи та покращувати продуктивність інфраструктури;
- Моніторити ресурси, прогнозувати зростання та впроваджувати стратегії масштабування;
- Інтегрувати найкращі практики безпеки в IaC, CI/CD пайплайни та деплойменти;
- Брати участь у чергуваннях 24/7 для своєчасного розв’язання критичних інцидентів;
- Співпрацювати з командами DevOps, PRE, розробки та безпеки для підвищення надійності та проєктування стійких систем;
Підтримувати операційні runbook-и, звіти про інциденти та системну документацію.
Досвід, який стане твоєю перевагою:
- Ступінь бакалавра з комп’ютерних наук, інформаційних технологій або суміжної сфери;
- 3+ роки досвіду в ролі DevOps, SRE або подібній;
- Значний практичний досвід із сервісами AWS, включаючи EC2, ECS, EKS, RDS, DocumentDB, ElastiCache, Keyspaces, S3, EBS, VPC, Route53, KMS, ACM та CloudWatch;
- Володіння Terraform, Terragrunt та Atlantis для відтворюваної та контрольованої версіями інфраструктури;
- Досвід роботи з GitLab CI, FluxCD, Argo Rollouts та інструментами автоматизації (Ansible, Python, Bash);
- Ґрунтовний досвід із Docker, Kubernetes (AWS EKS) та Helm (включно з кастомними шаблонами, ChartMuseum);
- Знання аддонів для кластерів, таких як KEDA, VPA, Karpenter, External-DNS, ingress-nginx, aws-alb-controller та ebs-csi-driver;
- Практичний досвід із Grafana, стеком VictoriaMetrics, Tempo, експортерами метрик, Pingdom, AWS CloudWatch та системами алертингу на кшталт PagerDuty, VMAlert і Alertmanager;
- Володіння Grafana Loki, OpenSearch та Vector Agent для централізованого логування;
- Глибоке розуміння мережевих концепцій, AWS-мереж (VPC, Network Firewall, Transit Gateway, Site-to-Site VPN), управління ідентифікацією та доступом, управління сертифікатами (ACM, Vault, SOPS) та кращих практик безпеки застосунків;
- Знання сервісів Cloudflare, включно з кешуванням, DNS та Workers;
- Досвід роботи з AWS Cost Explorer, KubeCost та кастомними інструментами експорту витрат.
Ми цінуємо:
- Аналітичне мислення – вміння інтерпретувати метрики, логи та поведінку системи для прийняття зважених рішень;
- Уважність до деталей – забезпечення точності у змінах інфраструктури, конфігураціях і процесах деплойменту;
- Адаптивність – швидке освоєння нових інструментів і технологій та здатність ефективно пристосовуватися до мінливих умов.
Наші клієнти пропонують конкурентні переваги для підтримки вашого професійного та особистого зростання, зокрема:
- Орієнтація на здоров’я та добробут;
- Глобальне медичне страхування;
- Можливості для зростання;
- Програми бенефітів (компенсація спорту / стоматології / психолога тощо);
- Бонуси за досягнення результатів;
- Динамічне робоче середовище.
English version:
Our client, Growe, is a leading business advisory and services group in iGaming and Entertainment. Сreators of strategies that work and solutions that scale. Combining strategic vision with hands-on expertise, Growe helps businesses navigate the fast-evolving industry, seize new opportunities, enter new markets, and achieve sustainable growth.
Perfect for those who aim to:
- Ensure availability, performance, and scalability of infrastructure and services through monitoring, automation, and operational best practices;
- Lead incident response, perform root cause analysis, and implement recovery and long-term fixes;
- Manage infrastructure using Terraform, Terragrunt, and automation tools for consistency and repeatability;
- Implement and maintain metrics, logs, and tracing solutions (Prometheus, Grafana, Loki, VictoriaMetrics, CloudWatch) to ensure system visibility;
- Identify bottlenecks, tune systems, and improve infrastructure performance;
- Monitor resources, forecast growth, and implement scaling strategies;
- Integrate security best practices into IaC, CI/CD pipelines, and deployments;
- Participate in 24/7 rotations for the timely resolution of critical incidents;
- Work with DevOps, PRE, development, and security teams to improve reliability and design resilient systems;
- Maintain operational runbooks, incident reports, and system documentation.
Experience you’ll need to bring:
- Bachelor’s degree in Computer Science, Information Technology, or related field;
- 3+ years in a DevOps, SRE, or related role;
- Strong hands-on experience with AWS services including EC2, ECS, EKS, RDS, DocumentDB, ElastiCache, Keyspaces, S3, EBS, VPC, Route53, KMS, ACM, and CloudWatch;
- Proficiency with Terraform, Terragrunt, and Atlantis for reproducible and version-controlled infrastructure;
- Experience with GitLab CI, FluxCD, Argo Rollouts, and automation tools (Ansible, Python, Bash);
- Solid experience with Docker, Kubernetes (AWS EKS), and Helm (including custom templates, ChartMuseum);
- Familiarity with cluster add-ons such as KEDA, VPA, Karpenter, External-DNS, ingress-nginx, aws-alb-controller, and ebs-csi-driver;
- Hands-on experience with Grafana, VictoriaMetrics stack, Tempo, metrics exporters, Pingdom, AWS CloudWatch, and alerting systems like PagerDuty, VMAlert, and Alertmanager;
- Proficiency with Grafana Loki, OpenSearch, and Vector Agent for centralized logging;
- Strong understanding of networking concepts, AWS networking (VPC, Network Firewall, Transit Gateway, Site-to-Site VPN), identity and access management, certificate management (ACM, Vault, SOPS), and application security best practices;
- Familiarity with Cloudflare services including caching, DNS, and Workers;
- Exposure to AWS Cost Explorer, KubeCost, and custom cost export tools.
It's a perfect match if you have those personal features:
- Analytical thinking – skilled at interpreting metrics, logs, and system behavior to drive informed decisions;
- Attention to detail – ensures precision in infrastructure changes, configurations, and deployment processes;
Adaptability – quick to learn new tools and technologies, with strong ability to adjust to changing environments.
We are seeking those who align with our core values:
- GROWE TOGETHER: Our team is our main asset. We work together and support each other to achieve our common goals;
- DRIVE RESULT OVER PROCESS: We set ambitious, clear, measurable goals in line with our strategy and driving Growe to success;
- BE READY FOR CHANGE: We see challenges as opportunities to grow and evolve. We adapt today to win tomorrow.
Our clients offer competitive benefits to support your professional and personal growth, including:
- Health & Wellness Focus;
- Global Medical Coverage;
- Growth Opportunities;
- Benefits Programs (compensation for the gym/stomatology/psychological service & etc.);
- Performance-Driven Rewards;
- Dynamic Work Environment.
Required languages
English | B1 - Intermediate |