**SVRAI** Teoría de la Probabilidad Fundamentos Mínimos La **Teoría de la Probabilidad** es el estudio de la **incertidumbre**. En este resumen se intentan dar los fundamentos necesarios para poder entender los algoritmos más habituales en **Ciencias de la Computación** (en particular, algoritmos de *Sistemas Multiagente* y algoritmos de *Aprendizaje Automático*). Aquí solo se intenta cubrir la parte más fundamental de la teoría de la probabilidad, pero ha de tenerse en cuenta que la teoría matemática de la probabilidad es mucho más sofisticada, y profundiza en una rama del análisis conocida como **Teoría de la Medida**. Tampoco entraremos las demostraciones de los resultados que se presentan, ni en detalles de más nivel que los necesarios para formar la intuición necesaria para nuestro objetivo. Además, con el fin de aligerar un poco algunas de las presentaciones, se han eliminado algunas restricciones que tienen sentido matemático, pero que podrían confundir a los interesados por la Teoría de la Probabilidad desde un ángulo menos formal. Así pues, pedimos disculpas por adelantado por las imprecisiones que seguro hay. # Introducción
La **Teoría de la Probabilidad** es una rama de las matemáticas que estudia los **fenómenos aleatorios** (procesos cuyos resultados no son previsibles, no pueden determinarse en ningún caso antes de que se produzcan) y **estocásticos** (procesos cuyos comportamientos intrínsecos son no deterministas). Se observa la contraposición entre estos fenómenos y los fenómenos deterministas, los cuales arrojan resultados previsibles que vienen determinados por las condiciones del contexto.
Debe tenerse en cuenta que los resultados pueden no ser deterministas no solo porque el proceso en sí sea puramente aleatorio (en las condiciones en las tal tipo de proceso exista o pueda existir) sino también porque no se tenga acceso a ciertas variables del contexto que quedan ocultas a nuestro registro en el evento. Así, muchos fenómenos se modelizan como aleatorios, pero lo que ocurre realmente es que hay un desconocimiento de algunas de las condiciones que determinan su comportamiento. En los procesos reales que se modelizan mediante distribuciones de probabilidad (las funciones que asignan a cada posible suceso del fenómeno un valor de probabilidad de que ocurra) corresponden a modelos complejos donde no se conocen *a priori* todos los parámetros que intervienen; ésta es una de las razones por las cuales la **Estadística**, que busca determinar estos parámetros, no se reduce a la teoría de la probabilidad, sino que la contiene. Por ello, en contraposición a la Estadística, más amplia y potente, la Teoría de Probabilidad da mecanismos para asignar un valor numérico a cada posible resultado que pueda ocurrir en el fenómeno analizado, con el fin de cuantificar dichos resultados y saber si un suceso en dicho fenómeno es más probable que otro.
En 1933, Andréi Kolmogórov propuso un sistema de axiomas para la Teoría de la Probabilidad, basado en dos teorías matemáticas fundamentales: la **Teoría de Conjuntos** y la **Teoría de la Medida**, desarrollada pocos años antes por Lebesgue, Borel y Frechet entre otros.
La aproximación axiomática de Kolmogórov generaliza el marco clásico de la probabilidad, que se basaba en la regla de cálculo de *casos favorables sobre casos posibles*, y permitió la formalización rigurosa de muchos resultados que no estaban bien justificados a la vez que abordaba el estudio de problemas fuera de los marcos clásicos haciendo uso del marco recién introducido por él. # Probabilidad y Agentes Inteligentes Los agentes en entornos reales se ven inevitablemente obligados a tomar decisiones basadas en información incompleta. Incluso cuando un agente analiza el mundo para averiguar más información, rara vez descubre el estado exacto de éste. Por ejemplo, un médico no sabe exactamente lo que ocurre en el interior de un paciente, un profesor no sabe exactamente lo que entiende un alumno y un robot no sabe con certeza lo que hay en una habitación que abandonó hace unos minutos (porque no tiene la certeza de qué ha pasado tras su marcha). Cuando un agente inteligente debe actuar, tiene que utilizar la información de que dispone, sea completa o no, sea exacta o no. Por ello, en el caso de trabajar con agentes inteligentes, es interesante considerar el razonamiento con incertidumbre que surge cuando un agente no es omnisciente (que refleja la mayoría de las situaciones reales). Para tomar una buena decisión, un agente no puede limitarse a suponer cómo es el mundo y actuar según esa suposición. Debe considerar múltiples hipótesis al tomar una decisión. Por ejemplo, consideremos las situaciones que se pueden dar en el siguiente ejemplo: !!! Tip Mucha gente considera sensato llevar el cinturón de seguridad cuando viaja en coche porque, en caso de accidente, llevar el cinturón reduce el riesgo de sufrir lesiones graves. Sin embargo, si consideramos un agente que se compromete con las suposiciones que realiza y basa su decisión coherentemente con estas suposiciones, si el agente supone que no va a tener un accidente, no se molestará en llevar el cinturón de seguridad, y si supone que va a tener un accidente, no saldrá. En ninguno de los dos casos se pondría el cinturón de seguridad. Otro agente puede no llevar el cinturón de seguridad porque el inconveniente de llevarlo es mucho mayor que el mayor riesgo de lesión o muerte si tiene un accidente, y no se queda en casa demasiado preocupado por un accidente como para no salir, considerando que los beneficios de salir, incluso con el riesgo de un accidente, superan los beneficios del enfoque, extremadamente cauteloso, de no salir nunca. La decisión de salir y de llevar el cinturón de seguridad depende de la probabilidad de tener un accidente, de la ayuda que el cinturón de seguridad supone en caso de accidente, de la incomodidad de llevar el cinturón y de la importancia de salir. Las distintas compensaciones pueden ser diferentes para distintos agentes. Podemos encontrar ejemplos de estos comportamientos en la gente real, desde algunas personas que no se ponen el cinturón de seguridad hasta otras que no van en coche por el riesgo de sufrir un accidente. El razonamiento con incertidumbre se ha estudiado desde los campos de la **Teoría de la Probabilidad** y la **Teoría de la Decisión**. La probabilidad es la esencia del cálculo en los juegos de azar (así nació). Cuando un agente toma decisiones y no está seguro de los resultados de sus acciones, está apostando sobre los resultados. Sin embargo, a diferencia de un jugador de casino, un agente que tiene que sobrevivir en el mundo real no puede optar por no apostar, y cualquier cosa que haga (incluso no hacer nada) implica incertidumbre y riesgo. Si no tiene en cuenta las probabilidades de los posibles resultados, acabará perdiendo en el juego frente a un agente que sí lo haga. Esto no significa, sin embargo, que tomar la mejor decisión garantice una victoria. Es muy común aprender probabilidad como la teoría de lanzar monedas y tirar dados. Aunque ésta puede ser una buena forma de presentarla, la probabilidad es aplicable a un conjunto de aplicaciones mucho más rico. En general, la probabilidad es un cálculo de creencias diseñado para tomar decisiones. La visión de la probabilidad como una medida de la creencia se conoce como **Probabilidad Bayesiana** o **Probabilidad Subjetiva**. El término *subjetivo* significa *perteneciente al sujeto*. Por ejemplo, supongamos que hay tres agentes, Alice, Bob y Chris, y un dado de 6 caras que se ha lanzado y que todos coinciden en que está bien equilibrado. Supongamos que Alice observa que el resultado es un $6$ y le dice a Bob que el resultado es par, pero Chris no sabe nada del resultado y tampoco tiene esta información de Alice. En este caso, Alice tiene una probabilidad de $1$ de que el resultado sea un $6$, Bob tiene una probabilidad de $\frac{1}{3}$ de que sea un $6$ (asumiendo que Bob cree a Alice), y Chris puede tener una probabilidad de $\frac{1}{6}$ de que el resultado sea un 6. Todos tienen diferentes probabilidades porque todos tienen diferentes conocimientos, a pesar de que el evento es el mismo. La probabilidad se refiere al resultado de este lanzamiento particular del dado, no de un evento genérico de lanzamiento de dados. Suponemos que la incertidumbre es **epistemológica** (perteneciente a las creencias de un agente sobre el mundo) y no **ontológica** (cómo es el mundo). Por ejemplo, si dicen que alguien es muy alto, se sabe que tiene cierta altura pero sólo se tiene un conocimiento vago sobre el valor real de su altura. La teoría de la probabilidad es el estudio de cómo el conocimiento afecta a la creencia. La creencia en una proposición se mide en términos de un número en $[0,1]$. Que su probabilidad sea $0$ significa que la proposición se cree que es definitivamente falsa (ninguna nueva evidencia cambiará esa creencia), y que su probabilidad sea $1$ significa que se cree que es definitivamente cierto. Utilizar estos valores es solo una convención. Si la probabilidad de un agente sobre cierta proposición es mayor que $0$ y menor que $1$, esto no significa que sea cierta en algún grado, sino que el agente ignora si es verdadera o falsa. En este caso, la probabilidad refleja el grado de ignorancia del agente, no el grado de verdad de la proposición. # Elementos de Probabilidad Para definir una probabilidad en un conjunto necesitamos algunos elementos básicos que compondrán los ladrillos con los que construir un edificio suficientemente robusto como para soportar un conocimiento científico: - **Espacio de muestras**, $\Omega$: El conjunto de todos los resultados de un experimento aleatorio. Cada elemento $w\in \Omega$ se puede considerar como una descripción (más o menos completa, dependiendo de nuestro conocimiento) del estado del mundo real. - **Espacio de eventos**, $\mathscr{F}$: Un conjunto cuyos elementos, $A \in \mathscr{F}\subseteq \mathscr{P}(\Omega)$ (llamados **eventos**) son subconjuntos de $\Omega$ (es decir, $A \subseteq \Omega$ es una colección de posibles resultados de un experimento, o un conjunto de posibles observaciones del mundo). Este conjunto debe verificar: - $\emptyset \in \mathscr{F}$. - Si $A \in \mathscr{F}$, entonces $\Omega - A \in \mathscr{F}$. - Si $A_1,A_2,\dots \in \mathscr{F}$, entonces $\displaystyle{\bigcup_i A_i\in \mathscr{F}}$ (observa que son una cantidad numerable). - **Medida de probabilidad**: Una función $P : \mathscr{F} \to \mathbb{R}$ que satisface las siguientes propiedades (**Axiomas de Probabilidad**) y permite *medir* la probabilidad de un evento: - $P(A) \geq 0$, para todo $A \in \mathscr{F}$. - $P(\Omega) = 1$. - Si $A_1, A_2,\dots$ son una cantidad numerable de eventos disjuntos (es decir, $A_i\cap A_j=\emptyset$ para $i\neq j$), entonces: $P(\displaystyle{\bigcup_i A_i}) = \displaystyle{\sum_i P(A_i)}$. ![](img/muestral.jpg width="75%") A partir de los axiomas de probabilidad se puede deducir la siguiente serie de propiedades de forma más o menos directa: - Si $A \subseteq B$, entonces $P(A) \leq P(B)$. - $P(A \cap B) \leq min(P(A),P(B))$. - $P(A \cup B) \leq P(A) + P(B)$. - $P(\Omega - A) = 1 − P(A)$. - Si $A_1,\dots,A_k$ son eventos disjuntos tales que $\Omega=\displaystyle{\bigcup_{i=1}^k A_i}$, es decir, una partición de $\Omega$, entonces: $\displaystyle{\sum_i P(A_i)=1}$. Sea $B\in \mathscr{F}$, con $P(B)>0$. La **probabilidad condicional** de cualquier evento, $A$, respecto a $B$ se define como: $$P(A|B)=\displaystyle{\frac{P(A\cap B)}{P(B)}}$$ Intuitivamente, $P(A|B)$ es la medida de probabilidad del evento $A$ tras observar la ocurrencia del evento $B$. Dos eventos se llaman **independientes** si y sólo si $P(A\cap B) = P(A)P(B)$ o, equivalente, $P(A|B) = P(A)$. Por lo tanto, la independencia equivale a decir que la observación de $B$ no tiene ningún efecto en la probabilidad de que $A$ ocurra. ![](img/condicional.jpg width="75%") # Variables Aleatorias Una **variable aleatoria** es, simplemente, una función $X: \Omega \to \mathbb{R}$. Normalmente, denotaremos las variables aleatorias por letras mayúsculas $X$, y usaremos letras minúculas, $x$, para denotar el valor que puede tomar. Si una variable toma un número finito de valores (por ejemplo, el número de caras en 100 tiradas de una moneda, o el número de acciones que puede tomar un agente) se dice que la variable es **discreta**, en caso contrario se dice que es **continua**. De forma habitual usaremos la siguiente notación (abreviada): $$P(X = k) = P(\{ω : X(ω) = k\})$$ $$P(a \leq X \leq b) := P(\{ω : a \leq X(ω) \leq b\})$$ ## Función de Distribución Acumulada ![](img/desidis.gif align="right" width="500px") Una **Función de Distribución Acumulada** (CDF) asociada a una variable aleatoria, $X$, es una función $F_X : \mathbb{R} \to [0,1]$ que se relaciona con la medida de probabilidad de la siguiente forma: $F_X(x)= P(X \leq x)$. Usando esta función se puede calcular la probabilidad de cualquier evento. A partir de su definición y de las propiedades de las medidas de probabilidad, se verifican las siguientes propiedades para las funciones de distribución acumulada: - $0 \leq F_X(x) \leq 1$. - $\displaystyle{\lim_{x\to -\infty} F_X(x) = 0}$. - $\displaystyle{\lim_{x\to +\infty} F_X(x) = 1}$. - Si $x \leq y$ entonces $F_X(x) \leq F_X(y)$ (es creciente). ## Función de Masa de Probabilidad ![](img/Fmasa.png align="right" width="300px") Cuando una variable aleatoria es discreta hay formas más simples de representar la medida de probabilidad asociada especificando directamente la probabilidad de cada valor que puede tomar la variable. En este caso, podemos definir la **Función de Masa de Probabilidad** (PMF) asociada como la función $p_X : \Omega \to \mathbb{R}$ como: $$p_X(x) = P(X = x)$$ Es fácil probar que se verifican las siguientes propiedades: - $0 \leq p_X(x) \leq 1$. - $\displaystyle{\sum_{x\in Val(X)} p_X(x) = 1}$. - $\displaystyle{\sum_{x\in A} p_X(x) = P(X \in A)}$. ## Funciones de Densidad Para algunas variables aleatorias continuas la función de distribución acumulada, $F_X(x)$ es diferenciable en todos sus puntos. En este caso se define la **Función de Densidad** (PDF) como la derivada de $F_X$: $$\displaystyle{f_X(x)=\frac{dF_X(x)}{dx}}$$ En este sentido, teniendo en cuenta la definición anterior, para valores pequeños de $\Delta x$ se tiene que: $$P(x \leq X \leq x + \Delta x) \approx f_X(x)\Delta x$$ Debido a las propiedades de $F_X$ se puede probar que se verifican las siguientes propiedades en $f_X$: - $f_X(x) \geq 0$. - $\displaystyle{\int_{-\infty}^{+\infty} f_X(x) = 1}$. - $\displaystyle{\int_A f_X(x)dx = P(X \in A)}$. ![](img/Fdensidad.jpg width="50%") ## Esperanza Supongamos que $X$ es una variable aleatoria discreta con PMF $p_X(x)$, y sea $g: \mathbb{R} \to \mathbb{R}$ una función arbitraria. En este caso, $g(X)$ se puede considerar una nueva variable aleatoria, y podemos definir la **esperanza** (o **valor esperado**) de $g(X)$ como: $$\displaystyle{E[g(X)]= \sum_x g(x)p_X(x)}$$ Si $X$ es una variable aleatoria continua con PDF $f_X(x)$, entonces el valor esperado de $g(X)$ se define como: $$\displaystyle{E[g(X)] = \int_{-\infty}^{+\infty} g(x) f_X(x) dx}$$ Intuitivamente, la esperanza de $g(X)$ se puede ver como una *media ponderada* de los valores que $g(x)$ puede tomar para los diferentes valores de $x$, donde los pesos vienen dados por $p_X(x)$ o $f_X(x)$. Como caso especial, obsérvese que la esperanza de la propia variable aleatoria, $E[X]$, se obtiene tomando $g(x) = x$, y también se le conoce como **media** de $X$. Se verifican las siguientes propiedades: - $E[\bar{a}] = a$ para cualquier constante $a\in \mathbb{R}$ (donde $\bar{a}$ es la función constante que siempre devuelve $a$). - $E[af(X)] = aE[f(X)]$ para cualquier constante $a\in \mathbb{R}$. - (Linealidad de la Esperanza) $E[f(X) + g(X)] = E[f(X)] + E[g(X)]$. - $E[\mathbf{1}_{ X = k }] = P(X = k)$. ## Varianza La **varianza** de una variable aleatoria, $X$, es una medida de cómo de concentrada está la distribución alrededor de su media. Formalmente, se define como: $$Var[X] = E[(X − E(X))^2]$$ Usando las propiedades de la sección anterior podemos dar expresiones alternativas de la varianza: $$\begin{aligned} Var[X] &= E[(X − E[X])^2] \\\ &= E[X^2 − 2E[X]X + E[X]^2]\\\ &= E[X^2 ] − 2E[X]E[X] + E[X]^2\\\ &= E[X^2 ] − E[X] ^2 \end{aligned}$$ Y se verifican las siguientes propiedades: - $Var[\bar{a}] = 0$, para cualquier constante $a\in \mathbb{R}$. - $Var[af(X)] = a^2 Var[f(X)]$, para cualquier constante $a\in \mathbb{R}$. ## Algunas variables aleatorias habituales ### Discretas - $X \sim Bernoulli(p)$ (donde $0 \leq p \leq 1$): $$p(x) =\begin{cases} p, & \text{si } x = 1 \\\ 1 − p, &\text{si } x = 0\end{cases}$$ - $X \sim Binomial(n,p)$ (donde $0 \leq p \leq 1$): El número de $1$'s en $n$ ejecuciones independientes de una $Bernoulli(p)$. $$\displaystyle{p(x) =\binom{n}{x} p^x (1-p)^{n-x}}$$ - $X \sim Geometric(p)$ (donde $p > 0$): el número de intentos de una $Bernoulli(p)$ hasta que salga un $1$. $$p(x) = p(1 − p)^{x−1}$$ • $X \sim Poisson(\lambda)$ (donde $\lambda > 0$): una probabilidad sobre los enteros no negativos para modelar la frecuencia de eventos raros. $$\displaystyle{p(x) = e^{-\lambda}\frac{\lambda^x}{x!}}$$ ### Continuas - $X \sim Uniform(a,b)$ (donde $a < b$): igual densidad de probabilidad para todos los valores reales entre $a$ y $b$. $$f(x) =\begin{cases}\frac{1}{(b−a)}, &\text{si } a \leq x \leq b\\ 0, &\text{en otro caso}\end{cases}$$ - $X \sim Exponential(\lambda)$ (donde $\lambda > 0$): densidad de probabilidad exponencial decreciente en $\mathbb{R}^+$. $$f(x) =\begin{cases}\lambda e^{-\lambda x}, &\text{si } x\geq 0\\ 0, &\text{en otro caso}\end{cases}$$ - $X \sim Normal(\mu,\sigma^2)$: también conocida como distribución Gaussiana. $$\displaystyle{f(x) =\frac{1}{\sqrt{2\pi} \sigma} e^{- \frac{1}{2\sigma^2}(x-\mu)^2}}$$ # Dos Variables Aleatorias En muchas situaciones puede haber más de una cantidad que nos interese conocer durante un experimento aleatorio. Por ejemplo, en un experimento en el que tiramos una moneda diez veces, puede que nos importe tanto el número de caras que aparecen como la longitud de la serie más larga de caras consecutivas. ![](img/distbin.jpg width="75%") ## Distribuciones conjuntas y marginales Supongamos que tenemos dos variables aleatorias $X$ e $Y$ que miden distintas observaciones de un mismo experimento. Una manera de trabajar con estas dos variables aleatorias es considerar cada una de ellas por separado. Si lo hacemos, sólo necesitaremos $F_X(x)$ y $F_Y(y)$. Pero si queremos conocer los valores que $X$ e $Y$ toman simultáneamente durante los resultados del experimento aleatorio, necesitamos una estructura más complicada conocida como **función distribución acumulativa conjunta** de $X$ e $Y$, definida por: $$F_{XY}(x,y) = P(X \leq x,Y \leq y)$$ Puede demostrarse que, conociendo la función de distribución acumulativa conjunta anterior, se puede calcular la probabilidad de cualquier evento que involucre a $X$ e $Y$. La CDF conjunta, $F_{XY}(x,y)$ y las CDFs de las variables por separado, $F_X(x)$ y $F_Y(y)$, están relacionadas por: $$F_X(x) = \lim_{y\to \infty} F_{XY}(x,y)$$ $$F_Y(y) = \lim_{x\to \infty} F_{XY}(x,y)$$ En este contexto, a las funciones $F_X(x)$ y $F_Y(y)$ se les llama **funciones de distribución marginales** de $F_{XY}(x,y)$, y se verifican las siguientes propiedades: - $0 \leq F_{XY}(x,y) \leq 1$. - $\displaystyle{\lim_{x,y\to \infty} F_{XY}(x,y) = 1}$. - $\displaystyle{\lim_{x,y\to -\infty} F_{XY}(x,y) = 0}$. ## Funciones de Masa Conjuntas y Marginales Si $X$ e $Y$ son variables aleatorias discretas, entonces la **función de masa conjunta** se define como $p_{XY} : \mathbb{R}\times\mathbb{R} \to [0,1]$, definida por: $$p_{XY}(x,y) = P(X = x,Y = y)$$ Donde $0 \leq p_{XY}(x,y) \leq 1$ para todo $x,y$ y: $$\displaystyle{\sum_x \sum_y p_{XY}(x,y) = 1}$$ La relación que existe entre la PMF conjunta y las de cada variable es: $$\displaystyle{p_X(x) =\sum_y p_{XY}(x,y)}$$ y similarmente para $p_Y(y)$, y se denominan también **funciones de masa marginales**. ## Funciones de Densidad Conjuntas y Marginales Sean $X$ e $Y$ variables aleatorias continuas con función de distribución conjunta $F_{XY}$. En caso de que esta función sea diferenciable en todo $x$ e $y$, podemos definir la función de densidad conjunta como: $$\displaystyle{f_{XY}(x,y) =\frac{\partial^2 F_{XY}(x,y)}{\partial x\partial y}}$$ Como en el caso unidimensional, $f_{XY}(x,y) \neq P(X = x,Y = y)$ (es decir, que no dan información puntual, porque en el caso continuo un punto tiene medida de probabilidad nula), pero: $$\displaystyle{\int\int_{x\in A} f_{XY}(x,y)dxdy = P((X,Y ) \in A)}$$ Podemos definir: $$\displaystyle{f_X(x) = \int_{-\infty}^{\infty} f_{XY}(x,y)dy}$$ como la **función de densidad marginal** para $X$ (análogo para $Y$). ## Distribuciones Condicionales Las distribuciones condicionales buscan responder preguntas que relacionan los valores que pueden tomar dos variables dentro de un mismo experimento, por ejemplo: ¿Cuál es la distribución de probabilidad sobre $Y$ cuando sabemos que $X$ toma cierto valor?. En el caso discreto, la función de masa condicional de $X$ dado $Y$ es simplemente: $$\displaystyle{p_{Y|X} (y|x) = \frac{p_{XY}(x,y)}{p_X(x)}}$$ suponiendo que $p_X(x)\neq 0$. En el caso continuo la situación es técnicamente un poco más complicada porque la probabilidad de que una variable aleatoria continua tome un valor específico es $0$. Ignorando este detalle, simplemente definimos, por analogía con el caso discreto, la **densidad condicional de $Y$ dado $X=x$** como $$\displaystyle{f_{Y|X}(y|x) =\frac{f_{XY}(x,y)}{f_X(x)}}$$ suponiendo que $f_X(x) \neq 0$. ## Regla de Bayes Una fórmula muy útil que a menudo aparece cuando intentamos derivar la expresión de la probabilidad condicional de una variable en función de otra es la **regla de Bayes**: En el caso discreto: $$\displaystyle{p_{Y|X}(y|x) =\frac{p_{XY}(x,y)}{p_X(x)}=\frac{p_{X|Y}(x|y) p_Y(y)}{\displaystyle{\sum_{y'} p_{X|Y}(x|y') p_Y(y')}}}$$ Si las variables son continuas: $$\displaystyle{f_{Y|X}(y|x) =\frac{f_{XY}(x,y)}{f_X(x)}=\frac{f_{X|Y}(x|y) f_Y(y)}{\displaystyle{\int_{-\infty}^{\infty} f_{X|Y}(x|y') f_Y(y')dy'}}}$$ ## Independencia Dos variables aleatorias, $X$ e $Y$, on independientes si $F_{XY}(x,y) = F_X(x) F_Y(y)$ para todos los valores de $x$ e $y$. Equivalentemente: - Para variables discretas: $p_{XY}(x,y) = p_X(x) p_Y(y)$, para todos $x$ e $y$. - Para variables discretas: $p_{Y|X}(y|x) = p_Y(y)$, siempre que $p_X(x) \neq 0$, para todo $y$. - Para variables continuas: $f_{XY}(x,y) = f_X(x)f_Y(y)$, para todos $x,y \in \mathbb{R}$. - Para variables continuas: $f_{Y|X}(y|x) = f_Y(y)$, siempre que $f_X(x) \neq 0$, para todo $y\in \mathbb{R}$. Informalmente, dos variables aleatorias, $X$ e $Y$, son independientes si *conocer* el valor de una de ellas no tiene ningún efecto en la distribución condicional de probabilidad de la otra variable. Formalmente: Si $X$ e $Y$ son independientes entonces para cualesquiera subconjuntos $A,B \subseteq \mathbb{R}$, se tiene que $$P(X \in A,Y \in B) = P(X \in A)P(Y \in B)$$ Usando el resultado anterior se puede probar que si $X$ es independiente de $Y$ entonces cualquier función de $X$ es independiente de cualquier función de $Y$. ## Esperanza y Covarianza Supongamos que tenemos dos variables aleatorias discretas, $X$, $Y$ y $g : \mathbb{R}^2\to \mathbb{R}$. Entonces el valor esperado de $g$ viene definido como: $$\displaystyle{E[g(X,Y )] =\sum_x \sum_y g(x,y)p_{XY}(x,y)}$$ Para variables continuas la expresión análoga es: $$\displaystyle{E[g(X,Y )] =\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x,y)f_{XY}(x,y)dxdy}$$ Podemos hacer uso de este concepto para estudiar la relación entre ambas variables. En particular, la **covarianza** de ambas variables se define como: $$Cov[X,Y ] = E[(X − E[X])(Y − E[Y ])]$$ Usando un argumento similar al que vimos para la varianza podemos reescribir: $$\begin{aligned} Cov[X,Y ] &= E[(X − E[X])(Y − E[Y ])] \\\ &= E[XY − XE[Y ] − Y E[X] + E[X]E[Y ]] \\\ &= E[XY ] − E[X]E[Y ] − E[Y ]E[X] + E[X]E[Y ]] \\\ &= E[XY ] − E[X]E[Y ]\end{aligned}$$ Cuando $Cov[X,Y ] = 0$ decimos que $X$ y $Y$ están **no correlacionadas** (esto no significa que sean independientes). Se verifican las siguientes propiedades: - (Linealidad de la esperanza) $E[f(X,Y ) + g(X,Y )] = E[f(X,Y )] + E[g(X,Y )]$. - $Var[X + Y ] = Var[X] + Var[Y ] + 2Cov[X,Y ]$. - Si $X$ e $Y$ son independientes, entonces $Cov[X,Y ] = 0$. El recíproco es falso, es decir, se pueden dar ejemplos de variables no correlacionadas que no son independientes. - Si $X$ e $Y$ son independientes, entonces $E[f(X)g(Y )] = E[f(X)]E[g(Y )]$. # Múltiples Variables Aleatorias Las nociones e ideas introducidas en las secciones anteriores pueden generalizarse a más de dos variables aleatorias: $X_1(ω)$, $X_2(ω)$, $\dots$, $X_n(ω)$. Los resultados y definiciones se mantienen, aunque desde el punto de vista técnico obtengamos expresiones más complicadas.