Job description
O Centro de Integração de Dados e Conhecimentos para Saúde (Cidacs/Fiocruz Bahia) está em busca de um Pesquisador em Arquitetura de Dados e Engenharia de Big Data para Saúde para integrar a equipe da Plataforma de Dados. Esta posição é fundamental para o desenvolvimento e aprimoramento das infraestruturas de dados utilizadas para a realização das pesquisas em saúde do Centro na área da Ciência de Dados.
O pesquisador será responsável por projetar, otimizar e manter arquiteturas escaláveis para o processamento e integração de grandes volumes de dados. Atuará na construção de datalakes, data lakehouses e pipelines de dados, dentre outras estratégias de organização de dados, garantindo eficiência, segurança e governança em ambientes distribuídos de Big Data. O pesquisador trabalhará em colaboração com engenheiros e cientistas de dados, e especialistas em saúde para desenvolver soluções inovadoras e impulsionar avanços tecno-científicos, realizando pesquisas em Ciência de Dados aplicadas às necessidades no Cidacs.
Dentre os principais desafios do pesquisador estão as atividades de aprimoramento das estruturas longitudinais da Coortes do Cidacs, realizando o desenvolvimento metodológico em arquitetura de dados e ambientes computacionais, que permitam uma operação das estruturas longitudinais da Coortes dos Cidacs de forma eficaz e eficiente, trabalhando em ambiente seguro e controlado, desconectado disponível no Cidacs. Também, caberá ao pesquisador desenvolver pesquisas aplicadas e desenvolvimentos em temas de Ciência de Dados Populacional do Centro e a produção científica nesta área.
Este é um cargo de pesquisa com duração inicial de 2 anos, podendo ser renovado ao final do período, conforme o desempenho do pesquisador e as necessidades do projeto.
Nossa cultura valoriza a colaboração interdisciplinar, o uso de tecnologias de ponta e o compromisso com a ética e a segurança dos dados. Buscamos profissionais motivados por desafios, inovação e impacto social. Se você deseja aplicar sua experiência em arquitetura de dados e engenharia de Big Data para transformar a pesquisa em saúde no Brasil, essa vaga é para você!
Main responsibilities
ESSAS SÃO AS PRINCIPAIS RESPONSABILIDADES E ATRIBUIÇÕES:
* Colaborar com equipes multidisciplinares, internas e externas, incluindo cientistas de dados, epidemiologistas e analistas, traduzindo desafios científicos em soluções tecnológicas inovadoras;
* Desenvolver pesquisas em Ciência de Dados Populacional nas prioridades do Cidacs;
* Participar de reuniões e sessões técnicas para disseminar conhecimento e garantir a eficiência nas operações de dados;
* Apoiar iniciativas de modernização da arquitetura de dados, incorporando novas tecnologias e boas práticas para ambientes de Big Data;
* Projetar e otimizar bancos de dados estruturados (SQL) e não estruturados (NoSQL) para atender às demandas das pesquisas do Cidacs;
* Documentar arquiteturas, fluxos e estratégias de dados, assegurando a facilidade de manutenção e escalabilidade das soluções;
* Auxiliar na avaliação, implementação e otimização de data lakes e data lakehouses voltados para pesquisa em saúde;
* Desenvolver e gerenciar pipelines de dados utilizando ferramentas de processamento distribuído;
* Monitorar o desempenho e a escalabilidade da arquitetura de dados, identificando e solucionando gargalos de performance em ambientes distribuídos;
* Implementar estratégias de governança e segurança de dados, garantindo conformidade com diretrizes regulatórias;
* Auxiliar nas atividades de pré-processamento, vinculação de dados e construção de datasets para estudos epidemiológicos e análises avançadas;
* Elaborar e apresentar relatórios técnicos periódicos sobre a infraestrutura e processos de dados do Cidacs.
Requirements and skills
O QUE VOCÊ PRECISA CONHECER PARA SE CANDIDATAR:
* Formação superior em Ciência da Computação, Engenharia de Computação, Sistemas de Informação ou áreas correlatas;
* Possuir título de mestre e/ou doutor nas áreas de formação superior indicadas acima;
* Mínimo de 2 anos de experiência em arquitetura de dados e gestão de bancos de dados em grande escala;
* Conhecimento avançado em modelagem de dados e bancos de dados relacionais (SQL) e não relacionais (NoSQL);
* Experiência em arquiteturas de dados distribuídas e escaláveis, especialmente em ambientes de Big Data (ex.: Apache Spark, ElasticSearch);
* Experiência em projetar e otimizar data lakes e data lakehouse (ex.: MinIO, Delta Lake);
* Conhecimento de otimização de grandes volumes de dados em arquiteturas distribuídas, utilizando motores de consulta (ex.: Trino, Presto);
* Experiência em integração e transformação de dados em larga escala, incluindo processos ETL/ELT;
* Conhecimento em automação de pipelines de dados usando orquestradores como Apache Airflow;
* Experiência com controle de versão (Git) e práticas de CI/CD para desenvolvimento e implementação de pipelines de dados;
* Experiência avançada em ambientes Linux e scripting (ex.: Bash, Python);
* Capacidade de colaborar com times multidisciplinares, incluindo cientistas de dados e analistas de dados;
* Nível de inglês para interação com grupos de pesquisa internacionais, leitura e escrita de documentação e artigos.
CONSIDERAMOS ESTES REQUISITOS COMO DIFERENCIAIS:
* Experiência com dados de saúde pública e estudos epidemiológicos com o de coortes;
* Publicações nas áreas de computação aplicadas à saúde;
* Conhecimento em otimização de queries e design de esquemas para bancos de dados voltados para alta performance;
* Experiência com bancos de dados orientados a colunas (ex.: Cassandra, HBase) e motores de consulta distribuídos (ex.: Trino, Presto);
* Familiaridade com governança de dados e frameworks de boas práticas (ex.: DMBOK);
* Conhecimento avançado em containers e orquestração de containers (ex.: Docker, Kubernetes);
* Certificações em Big Data, bancos de dados ou arquitetura de dados;
* Inglês avançado, especialmente para manter conversações com grupos internacionais.
Additional information
O Cidacs/Fiocruz Bahia oferece um ambiente dinâmico e colaborativo, onde profissionais da ciência de dados, epidemiologia e tecnologia trabalham juntos para gerar conhecimento e impacto na saúde. Como parte da equipe, o pesquisador terá acesso a infraestrutura computacional avançada, oportunidades de colaboração com instituições nacionais e internacionais e um ambiente que valoriza a inovação e o desenvolvimento contínuo.
Período da Bolsa de Pesquisa
* Este é uma posição de pesquisa com duração inicial de 12 meses, podendo ser renovado ao final do período, conforme o desempenho do pesquisador e as necessidades dos projetos.
Benefícios oferecidos:
* Incentivo à continuidade da trajetória acadêmica, apoiando o pesquisador na realização de um doutorado/pós-doutorado em temas alinhados aos interesses estratégicos do CIDACS;
* Acesso a uma infraestrutura computacional robusta, incluindo clusters de processamento de Big Data e ambientes seguros para análise de dados;
* Ambiente multidisciplinar e oportunidades de colaboração com pesquisadores de diversas áreas, incluindo epidemiologia, saúde pública e computação;
* Possibilidade de participação em projetos internacionais, eventos científicos e redes de pesquisa;
* Oportunidade de capacitação por meio de cursos, treinamentos e participação em conferências científicas;
* Flexibilidade no regime de trabalho, incluindo possibilidade de atuação híbrida (presencial e remoto);
* Auxílio para publicação científica e incentivo à produção acadêmica na área de Ciência de Dados aplicada à Saúde;
* Integração em um centro de referência nacional e internacional no uso de dados para a pesquisa em saúde pública;
Áreas prioritárias para pesquisa no doutorado / pós-doutorado:
* Arquitetura e Engenharia de Dados para Saúde – Desenvolvimento e otimização de infraestruturas para armazenamento, processamento e análise de grandes volumes de dados populacionais e epidemiológicos.
* Ciência de Dados Populacional e Saúde Pública – Modelagem, integração e análise de bases de dados de saúde em larga escala, com foco na produção de conhecimento para políticas públicas.
* Privacidade, Segurança e Governança de Dados – Estratégias de proteção e governança de dados sensíveis, especialmente em ambientes distribuídos e de pesquisa confiável (TREs).
* Inteligência Artificial e Machine Learning em Saúde – Aplicação de técnicas avançadas de IA para extração de conhecimento a partir de dados epidemiológicos e clínicos.
* Infraestrutura Computacional para Pesquisa em Saúde – Desenvolvimento de soluções escaláveis e seguras para apoiar estudos longitudinais e análise de coortes populacionais.
Se você deseja aplicar seu conhecimento para desafios reais de Big Data e ciência de dados populacional, contribuindo para o avanço da pesquisa em saúde no Brasil e no mundo, venha fazer parte do Cidacs/Fiocruz Bahia!
#J-18808-Ljbffr