Visualizando Modelos de Machine Learning

Juan Gabriel Gomila Matemáticas | ML
25/11/2025 7:24am 9 minutos

Leer el artículo

Audio generated by DropInBlog's Blog Voice AI™ may have slight pronunciation nuances. Learn more

🤖 Visualizando Modelos de Machine Learning: ¿Por qué tu gráfico del clasificador no coincide con la matriz de confusión?

El aprendizaje automático o machine learning es una mezcla fascinante de matemáticas, programación y visualización. Sin embargo, a veces surgen dudas muy interesantes cuando tratamos de entender cómo se comporta un modelo internamente.

Una de las más comunes (y que suele confundir incluso a quienes ya tienen experiencia) es la siguiente:

“He entrenado una regresión logística con tres variables, pero el gráfico del clasificador que muestra la frontera de decisión solo usa dos.
¿Por qué los resultados del gráfico no coinciden con la matriz de confusión?”

Si te has hecho esta pregunta, estás pensando como un verdadero científico de datos 👏.
Vamos a explicarlo en detalle, paso a paso, y con una buena dosis de intuición matemática.

🎯 1. El dilema: tres variables, dos dimensiones

Supongamos que estás trabajando con un modelo de regresión logística (aunque este problema aplica también a árboles de decisión, SVMs o redes neuronales).

Tu dataset tiene tres variables independientes:

Age (edad)
EstimatedSalary (salario estimado)
Gender_binario (sexo, convertido a 0 o 1)

Y tu variable dependiente (target) es Purchased — si el usuario compró o no un producto.

El modelo se entrena sin problemas:


from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state=0)
classifier.fit(X_train, y_train)

Hasta aquí, todo bien.
Pero cuando intentas graficar el clasificador —como se hace en el curso Machine Learning de la A a la Z— notas algo extraño:

👉 El gráfico solo muestra dos variables (por ejemplo, Edad y Salario).
👉 Los puntos y la frontera de decisión no coinciden exactamente con las predicciones ni con la matriz de confusión del modelo.

¿Por qué pasa esto?

🧩 2. El origen del problema: la visualización 2D de un modelo multidimensional

La regresión logística (y en general cualquier modelo de clasificación lineal) aprende un hiperplano de decisión.
Si tu modelo tiene tres variables (x₁, x₂, x₃), la frontera de decisión es un plano en 3D, descrito por:

$w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3} + b = 0$

En un espacio tridimensional, esto se puede visualizar, pero ¿qué pasa si tienes más variables?
Simple: el modelo sigue funcionando, pero nosotros ya no podemos representarlo visualmente.

Por eso, cuando intentas graficar el clasificador en 2D, solo se muestran dos de las variables, y las demás se deben mantener fijas (por ejemplo, Gender = 0).

El resultado: el gráfico muestra una “rebanada” del espacio de decisión, no el modelo completo.

📊 3. Matriz de confusión vs gráfico del clasificador

La matriz de confusión es una representación matemática del desempeño global del modelo:
evalúa cuántas predicciones fueron correctas o incorrectas sobre todo el conjunto de datos, usando todas las variables.

En cambio, el gráfico del clasificador solo representa un subconjunto bidimensional de los datos.
Por tanto, la frontera que ves en pantalla es una proyección del modelo real, y puede no coincidir con lo que ocurre en el espacio total de tres dimensiones.

💡 En resumen:

La matriz de confusión evalúa el modelo completo (todas las features).
El gráfico solo visualiza una “vista parcial” del modelo.

No hay contradicción entre ambos: simplemente estás mirando el problema desde ángulos diferentes.

🧠 4. Cómo hacerlo correctamente en Python

Supongamos que entrenaste un modelo con tres variables.
Para visualizarlo correctamente en 2D, debes fijar una variable y graficar las otras dos.
Por ejemplo, si Gender = 0 (hombres):


import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

# Fijamos Gender = 0
X_set = X_test[X_test[:, 2] == 0]
y_set = y_test[X_test[:, 2] == 0]

X1, X2 = np.meshgrid(
    np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
    np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)
)

plt.contourf(
    X1, X2,
    classifier.predict(np.array([X1.ravel(), X2.ravel(), np.zeros(X1.ravel().shape)]).T).reshape(X1.shape),
    alpha=0.75, cmap=ListedColormap(('red', 'green'))
)
plt.title('Clasificador con Gender = 0')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.show()

Aquí:

Mantenemos fija la tercera variable (Gender=0).
Graficamos las dos variables restantes (Age, Salary).
El resultado es una frontera de decisión 2D, válida solo para ese valor de Gender.

Si quisieras graficar para mujeres (Gender=1), bastaría cambiar el valor fijo y repetir.

⚙️ 5. Alternativa práctica: entrenar un modelo 2D para visualizar

Una estrategia útil es entrenar una versión simplificada del modelo solo con las dos variables que quieres visualizar.


classifier_2d = LogisticRegression(random_state=0)
classifier_2d.fit(X_train[:, :2], y_train)

Así obtienes:

Un modelo 2D para graficar fácilmente.
Y mantienes tu modelo 3D para las predicciones reales y la matriz de confusión.

Esto es lo que se hace en muchos cursos (como Machine Learning de la A a la Z), donde se prioriza la intuición visualdel algoritmo.

🧮 6. La matemática detrás del plano de decisión

Desde el punto de vista matemático, la frontera de decisión de la regresión logística se basa en el sigmoide de una combinación lineal:

$p (y = 1∣ x) = \frac{1}{1 + e ^{- (w_{1} x_{1} + w_{2} x_{2} + w_{3} x_{3} + b)}}$

Cuando fijas x₃ (en este caso, Gender), esa variable se convierte en una constante, y la ecuación se simplifica a:

$p (y = 1∣ x_{1}, x_{2}) = \frac{1}{1 + e ^{- (w_{1} x_{1} + w_{2} x_{2} + c)}}$

donde c = w_3 * gender + b.
Es decir: el plano se desplaza según el valor que tenga la variable fijada.
Por eso las fronteras cambian entre Gender=0 y Gender=1.

📚 Si quieres profundizar en la matemática detrás de esto, te recomiendo el curso Fundamentos de Matemáticas para Machine Learning, donde se explica en detalle cómo las funciones lineales y sigmoides construyen estos espacios de decisión.

📈 7. Y si tengo más de tres variables…

A partir de 3 dimensiones, ya no podemos visualizar el hiperplano directamente.
Lo que puedes hacer es:

Reducir la dimensionalidad (por ejemplo con PCA, t-SNE o UMAP).
Usar herramientas interactivas 3D, como Plotly, para inspeccionar proyecciones.
Analizar importancia de variables con técnicas como feature importance o SHAP values.

En el curso Machine Learning de la A a la Z, estos métodos se abordan en las secciones de Model Evaluation y Dimensionality Reduction, donde aprenderás a equilibrar interpretabilidad y precisión en modelos complejos.

💡 8. Lo que debes recordar

Concepto	Explicación
La matriz de confusión	Evalúa el modelo completo, con todas las variables.
El gráfico del clasificador	Muestra solo una proyección 2D, fijando las demás variables.
Diferencias entre ambos	Son naturales: el gráfico es una simplificación visual del modelo real.
Cómo resolverlo	Fijar una variable o crear un modelo reducido para visualización.
Dónde aprender más	Machine Learning de la A a la Z y Matemáticas para Machine Learning.

🚀 9. Conclusión: ver no siempre es entender… pero ayuda

La visualización en Machine Learning es una herramienta poderosa, pero tiene sus límites.
Un modelo puede tener decenas de variables, y cada una de ellas cambia la forma del espacio de decisión.
Por eso, los gráficos son representaciones parciales, útiles para la intuición, pero no para evaluar el modelo completo.

👉 Si tus fronteras de decisión no coinciden con la matriz de confusión, no estás haciendo nada mal: simplemente estás viendo una proyección 2D de algo que ocurre en un espacio de más dimensiones.

El verdadero desafío —y la belleza del Machine Learning— está en entender ambas perspectivas: la geométrica (visual) y la matemática (analítica).
Y si dominas ambas, podrás explicar tus modelos con la claridad de un científico de datos y la precisión de un matemático.

🎓 Aprende más con Frogames Formación

Si este tema te resultó interesante, te recomiendo dos cursos esenciales para seguir creciendo en este camino:

🔹 Machine Learning de la A a la Z — Aprende a implementar, interpretar y visualizar los principales algoritmos de ML, desde regresión hasta redes neuronales.
🔹 Fundamentos de Matemáticas para Machine Learning — Domina las bases matemáticas (álgebra lineal, cálculo y estadística) que te permitirán entender cómo piensan los algoritmos de aprendizaje automático.

Ambos forman parte de la ruta completa de Machine Learning y Ciencia de Datos en Frogames Formación, donde el objetivo no es solo que ejecutes código… sino que entiendas lo que ocurre detrás de cada línea.

« Volver al Blog