[pyar] Consulta sobre hacer un web scrapper para un homebanking

Discussion:

Rafael Bermúdez

2018-07-09 17:31:57 UTC

Buenas!

Este es mi primer mensaje en la lista, espero que no estÃ© violando ninguna
regla con la pregunta. De ser asÃ, mis disculpas!

Estoy aprendiendo Python, y querÃa implementar algo que me sea Ãºtil, y de
lo cual pueda sacar algÃºn concepto nuevo o interensante. Se me ocurriÃ³
hacer un script que se logueÃ© en mi homebanking, saque cierta informaciÃ³n
del mismo, y guarde (o suba a google drive) lo que me interese en un XLS.

Mis preguntas son:

- Â¿Es legal hacer esto?
- Considerando que no guardarÃa mi informaciÃ³n de logueo en ningÃºn lado
(ya que no sÃ© aÃºn cÃ³mo encriptar archivos o algo similar), y que esto lo
corrererÃa localmente en mi computadora, Â¿hay algÃºn riesgo obvio que no
estarÃa considerando?
- De no haber problema en los cuestiones anteriores, Â¿algÃºn tip o
sugerencia?

En principio usarÃa requests <http://docs.python-requests.org/en/master/> para
hacer las llamadas, y por lo que pude ver, quizÃ¡ Beautiful Soup
<https://www.crummy.com/software/BeautifulSoup/bs4/doc/> para levantar la
data que necesito.

Gracias!
Rafael

--
BermÃºdez Rafael

Sebastian Bassi

2018-07-09 17:53:35 UTC

Permalink

Post by Rafael BermÃºdez
Estoy aprendiendo Python, y querÃa implementar algo que me sea Ãºtil, y de
lo cual pueda sacar algÃºn concepto nuevo o interensante. Se me ocurriÃ³
hacer un script que se logueÃ© en mi homebanking, saque cierta informaciÃ³n
del mismo, y guarde (o suba a google drive) lo que me interese en un XLS.
- Â¿Es legal hacer esto?
HabrÃa que ver los terminos y condiciones del sitio, en general prohiben

el uso de "bots", pero si ese es el caso no es que sea "ilegal" en el
termino de cometer un delito, pero si una infracciÃ³n a sus normas y puede
tener consecuencias tipo que te saquen la cuenta. Tambien pueden acusarte
de "hackeo", que si bien no tiene sentido dicha acusaciÃ³n no impide que la
puedan hacer. Hay miles de ejemplos de empresas haciendo acusaciones sin
fudamento, que muchas veces terminan desestimadas pero mientras tanto tenes
que hacerte cargo de abogados, perder tiempo, etc. Ademas lo que es legal
varia en cada pais, la gran mayoria de los que estamos aca no somos
abogados, asi que cualquier cosa que te digan aca (incluso esto) tomalo con
cuidado.

Post by Rafael BermÃºdez
- Considerando que no guardarÃa mi informaciÃ³n de logueo en ningÃºn
lado (ya que no sÃ© aÃºn cÃ³mo encriptar archivos o algo similar), y que esto
lo corrererÃa localmente en mi computadora, Â¿hay algÃºn riesgo obvio que no
estarÃa considerando?

Si el login es via https y las credenciales no las guardas en la PC, no veo
riesgo importante.

Post by Rafael BermÃºdez
- De no haber problema en los cuestiones anteriores, Â¿algÃºn tip o
sugerencia?
Antes de scrapear agotÃ¡ la posibilidad mas prolija que es usar una API

para levantar los datos, mira las docs a ver si existe dicha API y/o
preguntÃ¡ en el banco, aunque no tengan supongo que les sirve para saber que
hay demanda para ese servicio.

Post by Rafael BermÃºdez
En principio usarÃa requests <http://docs.python-requests.org/en/master/> para
hacer las llamadas, y por lo que pude ver, quizÃ¡ Beautiful Soup
<https://www.crummy.com/software/BeautifulSoup/bs4/doc/> para levantar la
data que necesito.

Esas 2 herramientas estÃ¡n muy bien para eso. Otra opcion que consideraria,
que ademas haria mas dificil la deteccion desde el servidor que estas
usando un script, es usar Selenium con el navegador. Vos haces un script en
Python que le dice al browser que hacer, ademas podes acceder luego
cualquier parte del DOM. Vos usas un script pero para los logs del server
el que estÃ¡ haciendo el request es el navegador, serÃ¡ menos sospechoso que
usando requests o cualquier otra alternativa headless.

David Arch

2018-07-09 22:59:47 UTC

Permalink

Post by Sebastian Bassi

Si el login es via https y las credenciales no las guardas en la PC, no
veo riesgo importante.

Post by Rafael BermÃºdez
- De no haber problema en los cuestiones anteriores, Â¿algÃºn tip o
sugerencia?
Antes de scrapear agotÃ¡ la posibilidad mas prolija que es usar una API

para levantar los datos, mira las docs a ver si existe dicha API y/o
preguntÃ¡ en el banco, aunque no tengan supongo que les sirve para saber que
hay demanda para ese servicio.

Post by Rafael BermÃºdez
En principio usarÃa requests <http://docs.python-requests.org/en/master/>
para hacer las llamadas, y por lo que pude ver, quizÃ¡ Beautiful Soup
<https://www.crummy.com/software/BeautifulSoup/bs4/doc/> para levantar
la data que necesito.

AdemÃ¡s de hacer la detecciÃ³n mÃ¡s difÃcil, en sitios complejos que hacen
muchos pedidos con muchos parÃ¡metros y tienen mucho Ajax dando vuelta es
muchÃsimo mÃ¡s fÃ¡cil sacar lo que querÃ©s usando Selenium.
Si querÃ©s solamente usar requests en muchos casos vas a tener que hacer un
trabajo de ingenierÃa inversa bastante importante para saber que llamadas
que hace la pÃ¡gina son importantes (y sus argumentos) para llevar a cabo lo
que querÃ©s hacer en particular.
Si usas selenium seguramente tu script va correr mÃ¡s lento que haciendo los
pedidos usando requests pero vas a poder tener algo funcionando mucho
antes.

Post by Sebastian Bassi
_______________________________________________
Sitio web: http://www.python.org.ar/
Para administrar la lista (o desuscribirse) entrar a
http://listas.python.org.ar/listinfo/pyar
La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
Argentina - http://www.usla.org.ar

Mariano Verdú

2018-07-10 11:11:47 UTC

Permalink

Comparto con la idea de David, agrego que podes dockerizar selenium (e
inclusive tu proceso) para simplificar un poco quizÃ¡s la ejecuciÃ³n logrando
un ambiente controlado, limpio y descartable. :P

Casualmente WebWhatsappWrapper[0] hace algo similar.

o/

[0] https://github.com/mukulhase/WebWhatsapp-Wrapper/

Post by David Arch

Post by Sebastian Bassi

Post by Rafael BermÃºdez
Estoy aprendiendo Python, y querÃa implementar algo que me sea Ãºtil, y
de lo cual pueda sacar algÃºn concepto nuevo o interensante. Se me ocurriÃ³
hacer un script que se logueÃ© en mi homebanking, saque cierta informaciÃ³n
del mismo, y guarde (o suba a google drive) lo que me interese en un XLS.
- Â¿Es legal hacer esto?
HabrÃa que ver los terminos y condiciones del sitio, en general prohiben

Si el login es via https y las credenciales no las guardas en la PC, no
veo riesgo importante.

Post by Rafael BermÃºdez
- De no haber problema en los cuestiones anteriores, Â¿algÃºn tip o
sugerencia?
Antes de scrapear agotÃ¡ la posibilidad mas prolija que es usar una API

para levantar los datos, mira las docs a ver si existe dicha API y/o
preguntÃ¡ en el banco, aunque no tengan supongo que les sirve para saber que
hay demanda para ese servicio.

Post by Rafael BermÃºdez
En principio usarÃa requests
<http://docs.python-requests.org/en/master/> para hacer las llamadas, y
por lo que pude ver, quizÃ¡ Beautiful Soup
<https://www.crummy.com/software/BeautifulSoup/bs4/doc/> para levantar
la data que necesito.

Esas 2 herramientas estÃ¡n muy bien para eso. Otra opcion que
consideraria, que ademas haria mas dificil la deteccion desde el servidor
que estas usando un script, es usar Selenium con el navegador. Vos haces un
script en Python que le dice al browser que hacer, ademas podes acceder
luego cualquier parte del DOM. Vos usas un script pero para los logs del
server el que estÃ¡ haciendo el request es el navegador, serÃ¡ menos
sospechoso que usando requests o cualquier otra alternativa headless.

AdemÃ¡s de hacer la detecciÃ³n mÃ¡s difÃcil, en sitios complejos que hacen
muchos pedidos con muchos parÃ¡metros y tienen mucho Ajax dando vuelta es
muchÃsimo mÃ¡s fÃ¡cil sacar lo que querÃ©s usando Selenium.
Si querÃ©s solamente usar requests en muchos casos vas a tener que hacer un
trabajo de ingenierÃa inversa bastante importante para saber que llamadas
que hace la pÃ¡gina son importantes (y sus argumentos) para llevar a cabo lo
que querÃ©s hacer en particular.
Si usas selenium seguramente tu script va correr mÃ¡s lento que haciendo
los pedidos usando requests pero vas a poder tener algo funcionando mucho
antes.

_______________________________________________
Sitio web: http://www.python.org.ar/
Para administrar la lista (o desuscribirse) entrar a
http://listas.python.org.ar/listinfo/pyar
La lista de PyAr esta Hosteada en USLA - Usuarios de Software Libre de
Argentina - http://www.usla.org.ar

Rafael Bermúdez

2018-07-10 17:38:17 UTC

Permalink

Gracias a todos por las respuestas, muy Ãºtil!

Voy a investigar ahora Selenium entonces.

Post by Mariano VerdÃº
Comparto con la idea de David, agrego que podes dockerizar selenium (e
inclusive tu proceso) para simplificar un poco quizÃ¡s la ejecuciÃ³n logrando
un ambiente controlado, limpio y descartable. :P
Casualmente WebWhatsappWrapper[0] hace algo similar.
o/
[0] https://github.com/mukulhase/WebWhatsapp-Wrapper/

Post by David Arch

Post by Rafael BermÃºdez
Estoy aprendiendo Python, y querÃa implementar algo que me sea Ãºtil, y
de lo cual pueda sacar algÃºn concepto nuevo o interensante. Se me ocurriÃ³
hacer un script que se logueÃ© en mi homebanking, saque cierta informaciÃ³n
del mismo, y guarde (o suba a google drive) lo que me interese en un XLS.
- Â¿Es legal hacer esto?
HabrÃa que ver los terminos y condiciones del sitio, en general

prohiben el uso de "bots", pero si ese es el caso no es que sea "ilegal" en
el termino de cometer un delito, pero si una infracciÃ³n a sus normas y
puede tener consecuencias tipo que te saquen la cuenta. Tambien pueden
acusarte de "hackeo", que si bien no tiene sentido dicha acusaciÃ³n no
impide que la puedan hacer. Hay miles de ejemplos de empresas haciendo
acusaciones sin fudamento, que muchas veces terminan desestimadas pero
mientras tanto tenes que hacerte cargo de abogados, perder tiempo, etc.
Ademas lo que es legal varia en cada pais, la gran mayoria de los que
estamos aca no somos abogados, asi que cualquier cosa que te digan aca
(incluso esto) tomalo con cuidado.

Si el login es via https y las credenciales no las guardas en la PC, no
veo riesgo importante.

Post by Rafael BermÃºdez
- De no haber problema en los cuestiones anteriores, Â¿algÃºn tip o
sugerencia?
Antes de scrapear agotÃ¡ la posibilidad mas prolija que es usar una API

para levantar los datos, mira las docs a ver si existe dicha API y/o
preguntÃ¡ en el banco, aunque no tengan supongo que les sirve para saber que
hay demanda para ese servicio.

Post by Rafael BermÃºdez
En principio usarÃa requests
<http://docs.python-requests.org/en/master/> para hacer las llamadas,
y por lo que pude ver, quizÃ¡ Beautiful Soup
<https://www.crummy.com/software/BeautifulSoup/bs4/doc/> para levantar
la data que necesito.

Esas 2 herramientas estÃ¡n muy bien para eso. Otra opcion que
consideraria, que ademas haria mas dificil la deteccion desde el servidor
que estas usando un script, es usar Selenium con el navegador. Vos haces un
script en Python que le dice al browser que hacer, ademas podes acceder
luego cualquier parte del DOM. Vos usas un script pero para los logs del
server el que estÃ¡ haciendo el request es el navegador, serÃ¡ menos
sospechoso que usando requests o cualquier otra alternativa headless.

AdemÃ¡s de hacer la detecciÃ³n mÃ¡s difÃcil, en sitios complejos que hacen
muchos pedidos con muchos parÃ¡metros y tienen mucho Ajax dando vuelta es
muchÃsimo mÃ¡s fÃ¡cil sacar lo que querÃ©s usando Selenium.
Si querÃ©s solamente usar requests en muchos casos vas a tener que hacer
un trabajo de ingenierÃa inversa bastante importante para saber que
llamadas que hace la pÃ¡gina son importantes (y sus argumentos) para llevar
a cabo lo que querÃ©s hacer en particular.
Si usas selenium seguramente tu script va correr mÃ¡s lento que haciendo
los pedidos usando requests pero vas a poder tener algo funcionando mucho
antes.

--
BermÃºdez Rafael

Facundo Batista

2018-07-18 19:36:12 UTC

Permalink

Considerando que no guardaría mi información de logueo en ningún lado (ya
que no sé aún cómo encriptar archivos o algo similar), y que esto lo
correrería localmente en mi computadora, ¿hay algún riesgo obvio que no
estaría considerando?

Si en algún momento decidís tener los tokens locales en tu máquina,
este proyecto te va a ser útil: https://pypi.org/project/infoauth/

Saludos,
--
. Facundo

Blog: http://www.taniquetil.com.ar/plog/
PyAr: http://www.python.org/ar/
Twitter: @facundobatista
_______________________________________________
Lista de Correo de PyAr - Python Argentina - ***@python.org.ar
Sitio web: http://www.python.org.ar/

Para administrar la lista (o desuscribirse) entrar a http://listas.python.org.ar/listinfo/pyar

La lista de PyAr esta Hosteada en USLA - Usuarios de Softwar