Growe Talents

System Reliability Engineer/DevOps

Growe Talents Top Employer

Ідеально для тих, хто прагне:

  • Забезпечувати доступність, продуктивність та масштабованість інфраструктури та послуг за допомогою моніторингу, автоматизації та передових операційних практик;
  • Досліджувати інциденти, проводити аналіз першопричин та впроваджувати відновлення та довгострокові виправлення;
  • Керувати інфраструктурою за допомогою Terraform, Terragrunt та інструментів автоматизації для забезпечення узгодженості та повторюваності;
  • Впроваджувати та підтримувати метрики, журнали та рішення для трасування (Prometheus, Grafana, Loki, VictoriaMetrics, CloudWatch) для забезпечення видимості системи;
  • Виявляти вузькі місця, налаштовувати системи та покращувати продуктивність інфраструктури;
  • Моніторити ресурси, прогнозувати зростання та впроваджувати стратегії масштабування;
  • Інтегрувати передові практики безпеки в IaC, конвеєри CI/CD та розгортання; 
  • Підтримувати управління вразливостями;
  • Приймати участь у 24/7 ротаціях (раз на тиждень) для своєчасного вирішення критичних інцидентів;
  • Співпрацювати з командами DevOps, PRE, розробки та безпеки для підвищення надійності та проектування стійких систем;
  • Вести операційні архіви, звіти про інциденти та системну документацію.

 

Досвід, який стане твоєю перевагою:

  • 3+ роки досвіду роботи на посаді DevOps, SRE або схожій посаді;
  • Практичний досвід роботи з сервісами AWS, включаючи EC2, ECS, EKS, RDS, DocumentDB, ElastiCache, Keyspaces, S3, EBS, VPC, Route53, KMS, ACM та CloudWatch;
  • Володіння Terraform, Terragrunt та Atlantis для відтворюваної та контрольованої версії інфраструктури;
  • Досвід роботи з GitLab CI, FluxCD, Argo Rollouts та інструментами автоматизації (Ansible, Python, Bash);
  • Досвід роботи з Docker, Kubernetes (AWS EKS) та Helm (включаючи користувацькі шаблони, ChartMuseum);
  • Знайомство з доповненнями кластера, такими як KEDA, VPA, Karpenter, External-DNS, ingress-nginx, aws-alb-controller та ebs-csi-driver; 
  • Досвід роботи з Grafana, стеком VictoriaMetrics, Tempo, експортерами метрик, Pingdom, AWS CloudWatch та системами сповіщень, такими як PagerDuty, VMAlert та Alertmanager;
  • Володіння Grafana Loki, OpenSearch та Vector Agent для централізованого ведення журналу;
  • Розуміння мережевих концепцій, мереж AWS (VPC, мережевий брандмауер, транзитний шлюз, Site-to-Site VPN), управління ідентифікацією та доступом, управління сертифікатами (ACM, Vault, SOPS) та передових практик безпеки додатків;
  • Знайомство з сервісами Cloudflare, включаючи кешування, DNS та Workers;
  • Досвід роботи з AWS Cost Explorer, KubeCost та спеціальними інструментами експорту витрат;
  • Сертифікати: AWS, Terraform, Kubernetes або Helm є перевагою.

 

Ми цінуємо:

  • Мислення, орієнтоване на вирішення проблем: методично підходить до складних питань та знаходить практичні рішення;
  • Аналітичне мислення: здатність інтерпретувати метрики, журнали та поведінку системи для прийняття обґрунтованих рішень;
  • Увага до деталей: забезпечення точності змін в інфраструктурі, конфігураціях та процесах розгортання;
  • Адаптивність: комфортне вивчення нових інструментів, технологій та адаптація до змін у середовищі;
  • Співпраця та командна робота: ефективна робота з міжфункціональними командами та чітке спілкування;
  • Відповідальність за виконання задач, реагування на інциденти;
  • Бажання навчатися: слідкування за передовими практиками DevOps, SRE, хмарних технологій та безпеки;
  • Ефективна комунікація: здатність чітко пояснювати технічні концепції як технічним, так і нетехнічним зацікавленим сторонам.

 

Наші клієнти пропонують конкурентні переваги для підтримки вашого професійного та особистого зростання, зокрема:

  • Орієнтація на здоров’я та добробут;
  • Глобальне медичне страхування;
  • Можливості для зростання;
  • Програми бенефітів (компенсація спорту / стоматології / психолога тощо);
  • Бонуси за досягнення результатів;
  • Динамічне робоче середовище.

 

English version:

 

Perfect for those who aim to:

  • Ensure availability, performance, and scalability of infrastructure and services through monitoring, automation, and operational best practices;
  • Lead incident response, perform root cause analysis, and implement recovery and long-term fixes;
  • Manage infrastructure using Terraform, Terragrunt, and automation tools for consistency and repeatability;
  • Implement and maintain metrics, logs, and tracing solutions (Prometheus, Grafana, Loki, VictoriaMetrics, CloudWatch) to ensure system visibility;
  • Identify bottlenecks, tune systems, and improve infrastructure performance;
  • Monitor resources, forecast growth, and implement scaling strategies;
  • Integrate security best practices into IaC, CI/CD pipelines, and deployments; 
  • Support vulnerability management;
  • Participate in 24/7 rotations (once a week) for timely resolution of critical incidents;
  • Work with DevOps, PRE, development, and security teams to improve reliability and design resilient systems;
  • Maintain operational runbooks, incident reports, and system documentation.
     

Experience you’ll need to bring:

  • 3+ years in a DevOps, SRE, or related role;
  • Strong hands-on experience with AWS services including EC2, ECS, EKS, RDS, DocumentDB, ElastiCache, Keyspaces, S3, EBS, VPC, Route53, KMS, ACM, and CloudWatch;
  • Proficiency with Terraform, Terragrunt, and Atlantis for reproducible and version-controlled infrastructure;
  • Experience with GitLab CI, FluxCD, Argo Rollouts, and automation tools (Ansible, Python, Bash);
  • Solid experience with Docker, Kubernetes (AWS EKS), and Helm (including custom templates, ChartMuseum);
  • Familiarity with cluster add-ons such as KEDA, VPA, Karpenter, External-DNS, ingress-nginx, aws-alb-controller, and ebs-csi-driver;
  • Experience with Grafana, VictoriaMetrics stack, Tempo, metrics exporters, Pingdom, AWS CloudWatch, and alerting systems like PagerDuty, VMAlert, and Alertmanager;
  • Proficiency with OpenSearch, and Vector Agent for centralized logging;
  • Strong understanding of networking concepts, AWS networking (VPC, Network Firewall, Transit Gateway, Site-to-Site VPN), identity and access management, certificate management (ACM, Vault, SOPS), and application security best practices;
  • Familiarity with Cloudflare services, including caching, DNS, and Workers;
  • Exposure to AWS Cost Explorer, KubeCost, and custom cost export tools;
  • Certifications: AWS, Terraform, Kubernetes, or Helm are a plus.

 

It's a perfect match if you have those personal features:

  • Problem-Solving Mindset: Approaches complex issues methodically and finds practical solutions under pressure;
  • Analytical Thinking: Able to interpret metrics, logs, and system behavior to make informed decisions;
  • Attention to Details: Ensures accuracy in infrastructure changes, configurations, and deployment processes;
  • Adaptability: Comfortable learning new tools, technologies, and adjusting to changing environments;
  • Collaboration & Teamwork: Works effectively with cross-functional teams and communicates clearly;
  • Ownership & Responsibility: Takes accountability for tasks, incidents, and service reliability;
  • Continuous Learning: Keeps up-to-date with DevOps, SRE, cloud, and security best practices;
  • Effective Communication: Can explain technical concepts clearly to both technical and non-technical stakeholders.

 

Our clients offer competitive benefits to support your professional and personal growth, including: 

  • Health & Wellness Focus;
  • Global Medical Coverage;
  • Growth Opportunities;
  • Benefits Programs (compensation for the gym/stomatology/psychological service & etc.);
  • Performance-Driven Rewards;
  • Dynamic Work Environment.

Required languages

English B1 - Intermediate
Ukrainian Native
Published 17 March
62 views
·
14 applications
To apply for this and other jobs on Djinni login or signup.
Loading...