Visum logo

Data Engineer / Expert(e) Data Warehouse & Synchronisation Multi-BDD

Visum
Full-time
On-site
Paris, Paris, France
€55,000 - €65,000 EUR yearly

Contrat : CDI
Lieu : Paris (Hybride) – 3 jours / semaine au bureau
Début : Dès que possible
Rémunération : Selon expérience à partir de 55K + Pack BSPCE

🧠 Contexte

Chez Visum, nous opérons plusieurs SaaS dans la data B2B, dont Reverse Contact et Scrapin.

Nous disposons d’une base PostgreSQL brute de plusieurs centaines de millions de lignes issue de données collectées. Nous souhaitons la transformer en une base de données analytique enrichie et rapide d’accès, pour alimenter :

  • Nos futurs datasets clients (format Parquet / CSV),

  • Nos outils internes d’analyse (Metabase, etc.),

  • Et nos services temps réel (API, triggers, etc.).

🚀 Objectif de la mission

Nous lançons un chantier stratégique pour passer d’une base “bronze” à un datawarehouse silver/gold, avec une logique de synchronisation multi-base :

  • PostgreSQL brut → ClickHouse / Parquet / BigQuery

  • Transformations → Silver/Gold avec catégorisation, scoring, étiquetage IA

  • Stockage optimisé pour requêtes massives, statistiques, ou extractions scalables

🛠️ Missions principales

  • Concevoir une architecture de synchronisation PostgreSQL vers ClickHouse, Parquet, ou BigQuery

  • Mettre en place ou adapter des outils comme PeerDB, Spark, Airflow, dbt, etc.

  • Définir les règles de transformation et d’enrichissement (normalisation, catégorisation, scoring automatique, LLM, etc.)

  • Organiser l’export automatisé vers des formats plats (Parquet, CSV, etc.) pour nos clients

  • Gérer la scalabilité des traitements pour plusieurs centaines de millions de lignes

  • Collaborer étroitement avec notre CTO et l’équipe tech

💡 Profil recherché

  • Expérience solide en data engineering, gestion de volumes massifs

  • Excellente maîtrise de PostgreSQL + outils comme ClickHouse, Parquet, BigQuery, DuckDB

  • Connaissances en synchronisation multi-base (CDC, replication, PeerDB, etc.)

  • À l’aise avec Spark, dbt, Airflow, ou d’autres outils d’orchestration / calcul distribué

  • Intérêt pour l’IA appliquée à la donnée (LLM pour enrichissement ou catégorisation)

  • Autonomie, pragmatisme et rigueur

🧩 Ce que nous proposons

  • Équipe tech solide (CTO, VP Eng, backend et frontend devs)

  • Environnement data très riche et challengeant

  • Projet structurant à très fort impact produit + business

  • Flexibilité (Hybride : 3 jours au bureau Paris 13e)

  • BSPCE + 20 tickets resto par mois à 14€