Cientista de Dados Sênior

Atividades:

  • Projetar e implementar modelos de OCR utilizando frameworks e bibliotecas avançadas para remoção de dados de documentos estruturados e não estruturados.
  • Analisar, preparar e pré-processar grandes volumes de dados textuais para uso em modelos de aprendizado de máquina e deep learning.
  • Desenvolver pipelines de processamento de dados, incluindo a remoção, transformação e armazenamento dos resultados OCR.
  • Integrar soluções de OCR com outras ferramentas e sistemas para automatizar fluxos de trabalho e processos de análise de dados.
  • Realizar treinamentos e ajustes finos em modelos de OCR para melhorar as correções em cenários específicos, como idiomas, fontes, formatos e ruídos.
  • Explorar e aplicar técnicas de PNL (Processamento de Linguagem Natural) para enriquecer a análise e categorização dos textos extraídos.
  • Colaborar com equipes multidisciplinares para garantir a integração das soluções de OCR em projetos maiores de análise de dados.
  • Monitorar e melhorar o desempenho dos modelos de OCR em produção, garantindo sua escalabilidade e confiabilidade.
  • Pesquisar novas tecnologias e tecnologias relacionadas a OCR e inteligência artificial, mantendo-se atualizado com as tendências do setor.

Requisitos:

  • Formação superior em Ciência da Computação, Engenharia, Matemática, Estatística ou áreas correlatas. Pós-graduação ou especialização em áreas de IA ou Ciência de Dados é desejável.
  • Experiência consolidada em projetos de ciência de dados, com foco em OCR e processamento de imagens.
  • Conhecimento avançado em frameworks de deep learning, como TensorFlow, PyTorch ou Keras.
  • Experiência com bibliotecas de OCR, como Tesseract, Google Vision, AWS Textract, ABBYY FineReader, ou similares.
  • Habilidade com técnicas de pré-processamento de imagens (OpenCV ou PIL) para melhorar a qualidade dos documentos antes da análise.
  • Conhecimento em linguagens de programação como Python ou R, com foco em aplicações de ciência de dados.
  • Familiaridade com bancos de dados relacionais e não relacionais para armazenamento e consulta de dados textuais.
  • Experiência com ferramentas de versionamento de código (Git) e práticas de MLOps.

Competências:

  • Capacidade de traduzir problemas de negócios complexos em soluções técnicas eficientes.
  • Orientar equipes em projetos de alta complexidade e contribuir para o crescimento técnico de colegas.
  • Compromisso com a entrega de soluções de alta qualidade e impacto mensurável.
  • Habilidade de apresentar insights técnicos a públicos técnicos e não técnicos de forma clara e objetiva.
  • Proatividade para propor soluções novas e superar desafios técnicos.

Diferenciais:

  • Familiaridade com modelos pré-treinados como Google Vision AI, AWS Textract ou Azure Cognitive Services.
  • Conhecimento em técnicas avançadas de PNL para análise e organização de textos extraídos.
  • Experiência com implantação de soluções OCR em ambientes de produção e escaláveis, incluindo nuvem (Azure, AWS, Google Cloud).
  • Certificações relevantes, como Microsoft Certified: Azure AI Engineer Associate ou Google Cloud Professional Data Engineer.

Conheça o Programa + Dadoteca:

  • Gympass
  • Zenklub
  • Bônus anual de renovação contratual
  • Incentivo financeiro para curso de idiomas
  • Incentivo financeiro para certificações Microsoft, Databricks, GCP, AWS
  • Ifood benefícios

Place of work

Talent Job Seeker

United States of America

Employer profile

Identifica el mejor Talento con Talent Job Seeker

Local radius

  • New York City
  • Los Angeles
  • Chicago
  • Brooklyn
  • Houston
  • Queens
  • Philadelphia
  • Phoenix
  • Manhattan
  • San Antonio



Job ID: 9127849 / Ref: b55176b2377de981a58b16399ee163e7

Talent Job Seeker

Place of work
Talent Job Seeker
Employees
51-200
Industry
Personnel Services