En machine learning una forma muy común de mostrar los resultados de un modelo aplicado a un problema de clasificación es a través de una matriz de confusión. El siguiente script de awk crea una matriz de confusión a partir de un fichero donde la primera columna es la salida del modelo (binaria, 0 ó 1) y la segunda columna es la variable de salida real (también binaria, 0 ó 1):
Un uso bastante común de este script es cuando tenemos un fichero con datos de test (data.test) donde cada columna representa una variable, separadas por comas. Una de esas columnas es la variable de salida (clase 0 ó clase 1). Para este ejemplo, vamos a suponer que dicha variable de salida se encuentra en la primera columna. Además, en un fichero aparte (modelo.output) tendríamos una única columna con la salida de nuestro modelo de clasificación aplicado en ese mismo fichero de test. En este caso, el script anterior se usa de la siguiente manera:
La salida del comando anterior (suponiendo que el script de awk se encuentra en el fichero conf_matrix.awk) sería algo del estilo:
Twitter Facebook LinkedIn
The Git Team maintains a bash script that sets a message in your prompt displaying the current branch and status. The script can be found here. To install th...
Inspired partly by this and this Stackoverflow questions, I wanted to test what is the fastest way to create a new column using dplyr as a combination of oth...
This small example aims to provide some use cases for the tidyr package. Let’s generate some example data first:
library(lubridate)
library(tibble)
library(...
The name for the different functions that work with probability distributions in R and SciPy is different, which is often confusing. The following table list...