Jean Jacques Delannoy
2018-08-18 08:51:12 UTC
Hola lista buenos días hace poco me metí en el mundo de python y spark, y estoy teniendo un problema de parseo al guardar un data frame y no pude encontrar ninguna solución.
La situación es la siguiente:
Cuanto intento guardar el data frame sin modificarlo de ninguna forma en formato json o guardarlo en una nueva colección de mongodb recibo la siguiente excepción
Error:
com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast STRING into a TimestampType (value: BsonString{value='2018-05-18T14:18:30.736Z'})
cuando realizo el printSchema del data frame a ningún campo se le asigna un conflict type.
información adicional:
driver: org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
Spark 2.2.0
Hadoop 2.7.3
Python 3.4
Ya no se que más hacer para poder guardarlo, convertirlo a pandas no es posible porque el data set es muy grande.
cualquiera guía o dirección por la cual ir es bienvenida.
Gracias y Saludos.
Jean
La situación es la siguiente:
Cuanto intento guardar el data frame sin modificarlo de ninguna forma en formato json o guardarlo en una nueva colección de mongodb recibo la siguiente excepción
Error:
com.mongodb.spark.exceptions.MongoTypeConversionException: Cannot cast STRING into a TimestampType (value: BsonString{value='2018-05-18T14:18:30.736Z'})
cuando realizo el printSchema del data frame a ningún campo se le asigna un conflict type.
información adicional:
driver: org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
Spark 2.2.0
Hadoop 2.7.3
Python 3.4
Ya no se que más hacer para poder guardarlo, convertirlo a pandas no es posible porque el data set es muy grande.
cualquiera guía o dirección por la cual ir es bienvenida.
Gracias y Saludos.
Jean