Una base de datos «sucia» es el enemigo número uno de la productividad. Nombres mal escritos, correos electrónicos duplicados, formatos de fecha inconsistentes o filas vacías pueden arruinar un reporte o hacer que una campaña de marketing falle estrepitosamente. Tradicionalmente, limpiar estos datos requería horas de fórmulas complejas de Excel o conocimientos avanzados de Python y SQL.
Hoy, Gemini actúa como tu ingeniero de datos personal. Gracias a su capacidad para reconocer patrones y entender el lenguaje natural, puede ayudarte a identificar errores, proponer fórmulas de limpieza e incluso escribir scripts de automatización. Aquí tienes la guía paso a paso para purificar tus datos.
1. El «Diagnóstico» de la Data
Antes de limpiar, debes saber qué está mal. Gemini puede ayudarte a crear un checklist de errores comunes basado en una muestra de tus datos.
El Prompt Maestro de Inicio:
«Actúa como un experto en Data Cleansing. Tengo una base de datos de [ej: clientes en formato CSV]. Los encabezados son: [Lista de encabezados]. Aquí tienes una muestra de 5 filas: [Pega una muestra de tus datos]. Analiza esta muestra y dime qué posibles errores de consistencia ves y qué pasos de limpieza me recomiendas para dejarla impecable.»
2. Normalización de Formatos (Nombres y Fechas)
Uno de los problemas más comunes es tener datos en diferentes formatos (ej: «Juan Perez», «j. perez», «JUAN PEREZ»). Gemini puede generar la lógica para unificar todo.
Prompt de normalización:
«Necesito unificar la columna de ‘Nombres’. Quiero que todos empiecen con mayúscula y el resto en minúscula, eliminando espacios extra al principio y al final. Dame la fórmula de Excel para hacerlo y también el código en Python usando la librería Pandas por si decido hacerlo de forma masiva.»
3. Identificación y Manejo de Duplicados
Eliminar duplicados no siempre es tan fácil como borrar filas idénticas; a veces los duplicados son «parciales» (mismo correo pero distinto teléfono).
Estrategia con la IA:
- Detección inteligente: «¿Cómo puedo identificar registros duplicados si el nombre varía ligeramente pero el ‘ID Fiscal’ o el ‘Email’ es el mismo? Dame un criterio de validación lógica».
- Lógica de borrado: «Si encuentro dos registros del mismo cliente, ¿qué criterio me sugieres para decidir cuál conservar (ej: el que tenga la fecha de actualización más reciente)?»
4. Limpieza de Emails y Teléfonos
Los datos de contacto suelen ser los más propensos al error humano. Gemini puede ayudarte a validar sintaxis de forma masiva.
Prompt de validación:
«Genera una expresión regular (Regex) para validar que los correos electrónicos en mi columna B tengan un formato correcto. Además, dame una fórmula para limpiar números de teléfono, eliminando paréntesis, guiones y espacios, dejando solo los dígitos con el prefijo de país +51.»
5. Segmentación y Clasificación Automática
A veces la limpieza implica separar datos que están juntos (como «Ciudad y Estado» en una misma celda) o categorizar registros.
Prompt de segmentación:
«Tengo una columna llamada ‘Dirección’ que contiene [Calle, Distrito, Ciudad]. Necesito separar estos tres elementos en columnas diferentes. ¿Qué función de Excel o script de Python puedo usar para dividir el texto usando la coma como separador?»
6. Checklist de Datos «Listos para Usar»
Antes de dar por terminada la limpieza, verifica estos puntos con Gemini:
- [ ] Valores Nulos: ¿Qué debo hacer con las celdas vacías? ¿Llenarlas con «N/A», con el promedio o eliminar la fila?
- [ ] Consistencia: ¿Todos los precios tienen el mismo símbolo de moneda y separador de decimales?
- [ ] Seguridad: «¿Cómo puedo anonimizar los datos sensibles (como DNI o apellidos) de esta lista antes de compartirla con otro departamento?».
- [ ] Automatización: «Escribe un script corto que automatice todos estos pasos para que pueda usarlo cada vez que descargue el reporte mensual».


