Esta documentación describe las actividades realizadas en el notebook Proyecto_laptop_DS.ipynb. El trabajo se enfocó en explorar y preparar los datos, identificar inconsistencias y obtener estadísticas descriptivas que permiten comprender las características del conjunto de datos.
Link al proyecto: https://drive.google.com/drive/folders/1AwpHN4r_hkAPrpR0xHv_bAJeHeYtBrpa?usp=sharing
Descripción
1. Eliminación de Datos Duplicados
- Se eliminaron las filas duplicadas del dataset utilizando
df.drop_duplicates(inplace=True).
- Objetivo: Evitar redundancias y asegurar que cada fila sea única.
2. Corrección de Errores Tipográficos y Formato
- Se estandarizaron los formatos de las columnas
Ram, Memory, Gpu y OpSys:
- Se eliminaron espacios en blanco.
- Se convirtieron a mayúsculas.
- Objetivo: Unificar el formato de los datos para facilitar su análisis.
3. Manejo de Tipos de Datos Incorrectos
- Columna
Price:
- Se convirtió a tipo numérico usando
pd.to_numeric, manejando errores con errors="coerce" para convertir valores no válidos en NaN.
- Se eliminaron filas con valores
NaN en Price.
- Objetivo: Asegurar que los datos numéricos estén en el formato correcto.
4. Detección y Eliminación de Valores Atípicos (Outliers)
- Se identificaron valores atípicos en la columna
Price utilizando el rango intercuartílico (IQR).
- Se filtraron los valores fuera del rango
[Q1 - 1.5 * IQR, Q3 + 1.5 * IQR].
- Objetivo: Eliminar datos extremos que podrían distorsionar el análisis.