Discussion:
[pyar] Pregunta termino data pipeline
Victor Andres Martinez Hernandez
2018-08-31 20:15:29 UTC
Permalink
Hola gente cómo van ?

Quisiera pedir ayuda con algo. Estoy buscando trabajo hace unos días, en
temas relacionados a Python, automatización Etl, bi etc. He visto muchos
cargos de Data Engineer y siempre salta un término que no conozco y lo
piden mucho. El término es "Data pipeline".

Realmente no sé si es un término "rebuscado" o fancy para referirse a un
proceso normal de tratamiento de datos o que... He buscado en Google pero
no me queda claro, alguien me puede ayudar ? Y en caso de que sea realmente
algo que debo aprender, tendrá alguna documentación al respecto ?

Gracias!
Sebastian Bassi
2018-08-31 22:47:01 UTC
Permalink
Hola,

Hay que ver el contexto, pero en general se refiere al flujo de datos,
desde el origen y los pasos que lleva su procesamiento. Y depende la escala
las tecnologia relacionadas que podrias aprender. Por un lado leer los
datos desde las fuente, puede ser parseo (BeautifulSoup, parsers de XML,
HTML, las herramientas de panda tipo dataframe, etc ) y/o conectores con
bases de datos y/o APIs (ahi tenes que saber request y como consumir API
RESTs, en algunos casos, SOAP). Luego en el medio probablemente necesites
manejo de colas, porque varian las velocidades de consumo de la info con la
de parseo, entonces tenes que usar algo tipo RabbitMQ y/o Celery. O si te
va AWS: SQS. La idea es que los pasos intermedios de una transformacion de
datos no tienen que estar acoplados. cosa que si un server desaparece, no
tengas que parar toda la producción, sino que se vayan acumulando y luego
se pueda redistribuir. A veces tambien esto puede involucrar Hadoop o
alguna implementacion de MapReduce. Luego esto termina o un una DB (MySQL,
PostGreSQL, MongoDB, DynamoDB, etc) o en una presentación (Jupyter o alguna
lib grafica).
Ahi nombré varias tecnologias, no son las únicas, porque en algunos lugares
te pueden pedir que manejes cosas del deploy (y sea un puesto mas de devop
que dev puro) y tengas que saber tambien kubernetes y dockers, pero
entiendo que cuando se habla de data pipeline se refieren al uso combinado
de esas herramientas. Lo importante es la integración, no es algo que se
aprende leyendo el manual de cada una, sino usandolas para un proyecto.
Espero que te sirve como para tener una idea.







On Fri, Aug 31, 2018 at 1:15 PM Victor Andres Martinez Hernandez <
Post by Victor Andres Martinez Hernandez
Hola gente cómo van ?
Quisiera pedir ayuda con algo. Estoy buscando trabajo hace unos días, en
temas relacionados a Python, automatización Etl, bi etc. He visto muchos
cargos de Data Engineer y siempre salta un término que no conozco y lo
piden mucho. El término es "Data pipeline".
Realmente no sé si es un término "rebuscado" o fancy para referirse a un
proceso normal de tratamiento de datos o que... He buscado en Google pero
no me queda claro, alguien me puede ayudar ? Y en caso de que sea realmente
algo que debo aprender, tendrá alguna documentación al respecto ?
Gracias!
_______________________________________________
Sitio web: http://www.python.org.ar/
Para administrar la lista (o desuscribirse) entrar a
http://listas.python.org.ar/listinfo/pyar
La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
Argentina - http://www.usla.org.ar
--
Sebastian Bassi
Victor Andres Martinez Hernandez
2018-09-02 18:13:45 UTC
Permalink
Hola Sebastian,
Te agradezco mucho el haberte tomado el tiempo para dar una respuesta tan
completa y clara. Entiendo ahora si lo que quiere decir, haré algunos proyectos
para ir aplicando como tal estas integraciones.
Muchas gracias!





On Fri, Aug 31, 2018 5:47 PM, Sebastian Bassi ***@google.com wrote:
Hola,
Hay que ver el contexto, pero en general se refiere al flujo de datos, desde el
origen y los pasos que lleva su procesamiento. Y depende la escala las
tecnologia relacionadas que podrias aprender. Por un lado leer los datos desde
las fuente, puede ser parseo (BeautifulSoup, parsers de XML, HTML, las
herramientas de panda tipo dataframe, etc ) y/o conectores con bases de datos
y/o APIs (ahi tenes que saber request y como consumir API RESTs, en algunos
casos, SOAP). Luego en el medio probablemente necesites manejo de colas, porque
varian las velocidades de consumo de la info con la de parseo, entonces tenes
que usar algo tipo RabbitMQ y/o Celery. O si te va AWS: SQS. La idea es que los
pasos intermedios de una transformacion de datos no tienen que estar acoplados.
cosa que si un server desaparece, no tengas que parar toda la producción, sino
que se vayan acumulando y luego se pueda redistribuir. A veces tambien esto
puede involucrar Hadoop o alguna implementacion de MapReduce. Luego esto termina
o un una DB (MySQL, PostGreSQL, MongoDB, DynamoDB, etc) o en una presentación
(Jupyter o alguna lib grafica).Ahi nombré varias tecnologias, no son las únicas,
porque en algunos lugares te pueden pedir que manejes cosas del deploy (y sea un
puesto mas de devop que dev puro) y tengas que saber tambien kubernetes y
dockers, pero entiendo que cuando se habla de data pipeline se refieren al uso
combinado de esas herramientas. Lo importante es la integración, no es algo que
se aprende leyendo el manual de cada una, sino usandolas para un proyecto.Espero
que te sirve como para tener una idea.





On Fri, Aug 31, 2018 at 1:15 PM Victor Andres Martinez Hernandez <
***@gmail.com> wrote:
Hola gente cómo van ?
Quisiera pedir ayuda con algo. Estoy buscando trabajo hace unos días, en temas
relacionados a Python, automatización Etl, bi etc. He visto muchos cargos de
Data Engineer y siempre salta un término que no conozco y lo piden mucho. El
término es "Data pipeline".
Realmente no sé si es un término "rebuscado" o fancy para referirse a un proceso
normal de tratamiento de datos o que... He buscado en Google pero no me queda
claro, alguien me puede ayudar ? Y en caso de que sea realmente algo que debo
aprender, tendrá alguna documentación al respecto ?
Gracias! _______________________________________________
Lista de Correo de PyAr - Python Argentina - ***@python.org.ar
Sitio web: http://www.python.org.ar/

Para administrar la lista (o desuscribirse) entrar a
http://listas.python.org.ar/listinfo/pyar

La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de Argentina
- http://www.usla.org.ar
--
Sebastian Bassi


Victor Andres Martinez HernandezAdministrador de redes
Loading...