Diseñar, desarrollar y mantener las tuberías de datos de la organización, asegurando la disponibilidad, calidad y confiabilidad de la información que almacenamos en nuestro data lake corporativo, con la finalidad de enriquecerlo para el beneficio de las diferentes unidades del grupo pisa.
responsabilidades y actividades
* diseñar y desarrollar las tuberías de datos de la organización, asegurando la precisión, organización y disponibilidad de la información.
* procesar y preparar información a partir de grandes volúmenes de datos que deberán ser explotados por los científicos de datos.
* verificar y recomendar mejoras a los pipelines de datos que ya están en funcionamiento con la finalidad de tener una mejora continua en el procesamiento y calidad de la información almacenada en nuestro data lake.
* capacitar a los equipos de datos en buenas prácticas para que puedan explotar big query de una manera eficiente.
experiencia
* manejo de almacén/lago de datos (bigquery, redshift, synapse) (3 años).
* desarrollo de pipelines cdc (change-data-capture) en lotes (batch) y/o tiempo real (3 años).
* plataformas de computación en la nube (gcp, aws, azure, etc.) (3 años).
conocimientos
* servicios de etl/elt: gcp dataflow/dataproc, aws glue, azure data factory.
* plataformas de mensajes: apache kafka, google pub/sub, aws kinesis, azure event hubs.
* orquestador de tareas: apache airflow, apache zookeeper.
* herramientas: python, sql.
* orquestador de contenedores: docker y kubernetes.
licenciatura en ciencia de datos o ciencias de la computación.
#j-18808-ljbffr