View on GitHub

Aprendizaje Automático en Python

Curso de aprendizaje automático en Python

Obtener datos
Transformar a formato tabular, con una fila por observación y una columna por variable
Dividir datos en entrenamiento y test (opcionalmente validación)
Crear nuevas variables (feature engineering)
Transformar todas las variables a numéricas (one-hot encoding)
(Opcional) Reducir número de variables:
- Selección de variables (feature selection), métodos filtro, wrapper, …
- Reducción de dimensionalidad (dimensionality reduction), PCA
Modelizar:
1. Definir tipo de problema: clasificación, regresión, clustering, …
2. Elegir modelo:
  - Linear/Logistic regression
  - Ridge Regression, Lasso, Elastic Net
  - SVM
  - Neural Networks
  - Random Forest
  - Gradient Boosting, XGBoost, LightBoost, CatBoost
3. Seleccionar hyper-parametros
  - Grid Search
  - Random Search
  - Bayesian Optimization
Análisis resultados
- Regresión: MAE, MSE
- Clasificación: confussion matrix, accuracy, sensitivity, specificity, …
Volver a 4. Importante a la hora de comparar ya sea para elegir modelos, hyper-parametros, variables a usar, etc. usar siempre el error sobre el conjunto de validación o bien validación cruzada
Reportar el error en test de la configuración final y a producción