Senior Data Scientist

Descrição do cargo

Buscamos uma pessoa que vai ajudar a levar inteligência de dados ao produto. Você vai ser responsável por conectar as outras áreas da Lett com resultados vindos de ciência de dados e outras ferramentas, além de modelos industriais disponíveis das plataformas de nuvem e consultas de bases de dados existentes. O seu objetivo é difundir e democratizar o acesso aos dados produzidos por estes modelos e resultados.

Você vai trabalhar junto à pessoas Cientistas de Dados, Engenheiras de Dados, DevOps e de Aquisição de Dados, além de outras áreas e negócio, visando acelerar, automatizar e disponibilizar acesso a dados que alimenta modelos de ML e estatística.

Suas responsabilidades

  • Conhecer e interagir com as diferentes áreas da Lett com o objetivo de ter um conhecimento amplo do negócio e das bases de dados;
  • Desenvolver e implantar arquiteturas e processos que suportem as soluções de Data Science de forma escalável;
  • Gerenciar o deploy de modelos de ML/Estatística em produção conforme as melhores práticas de MLOps;
  • Planejar e automatizar os processos, visando democratizar o acesso a dados vindos de Data Science para outras áreas;
  • Trabalhar em conjunto com os times de engenharia de dados e DevOps no desenvolvimento de infraestrutura para ingestão e transformação de dados;
  • Manipular bases vindo de fontes de dados distintas na núvem;
  • Pesquisar, aprender e difundir conhecimento sobre ferramentas que melhorem os processos de desenvolvimento;
  • Participar dos processos de revisão de código, versionamento de experimentos e criação de métricas e monitoramento ****em produção de modelos de ML e estatística;
  • Democratizar o acesso a dados utilizando ferramentas e desenvolvimento de interfaces (como APIs, ETLs, SQL); e trabalhar diretamente com equipes de produto.

Detalhes

  • 40h semanais
  • Contratação CLT
  • Salário compatível com o mercado;
  • Vale refeição / alimentação;
  • Plano de saúde e odontológico Bradesco;
  • Horários flexíveis;
  • Autonomia e liberdade de trabalho;
  • Muita capacidade de testar e colocar em prática novas ideias;
  • Trabalho remoto.

Requisitos

  • Docker e docker-compose

  • Data warehouses, data lakes, suas interfaces (engines SQL, processos de ETL, acesso direto objetos) e sua organização ( particionamento, formas de orientar dados, custo e performance);

  • Estar muito confortável com SQL, bancos de dados relacionais, bancos orientados a documento e armazenamento de arquivo;

  • Formas de processamento na núvem (filas, jobs, workers, functions... etc);

  • Ferramentas de deploy, versionamento de código e infraestrutura na núvem;

  • Ser capaz de criar fluxos de execução paralela ou concorrente de processamento, assim como execução distribuída quando aplicável;

  • Saber interagir de forma técnica e não-tecnica com outros membros da equipe e com pessoas de outras áreas;

  • Estar familiarizado com o processo de pesquisa e desenvolvimento de Data Science (versionamento de datasets, limpeza de dados, versionamento de modelo, métricas de inferência, ciclo de treinamento e teste, etc...).

Diferenciais

  • ⭐⭐⭐⭐⭐ AWS (S3, EC2, Beanstalk, SQS, SageMaker, RDS e Batch)
  • ⭐⭐⭐⭐⭐ Metaflow
  • ⭐⭐⭐⭐⭐ Python
  • ⭐⭐⭐ AsyncIO, processos e threads no Python
  • ⭐⭐⭐ Airflow
  • ⭐⭐⭐ Dremio/Athena ou Presto/BigQuery
  • ⭐⭐⭐ PostgreSQL, MongoDB e ElasticSearch
  • ⭐⭐ Terraform
  • ⭐⭐ Jenkins
  • ⭐⭐ Sklearn, Tensorflow e Keras,
  • ⭐⭐ Jupyter Notebooks
  • ⭐ SageMaker
  • ⭐ pySpark

Outras ferramentas são sempre bem vindas!