1.1 “ POBLACIÓN Y MUESTRA ALEATORIA”

-Población

Todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas lo que se denomina como población.

Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo.

A su vez, cada elemento de la población tiene una serie de características que pueden ser objeto del estudio estadístico.

Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres que se llaman variables estadísticas.

La población puede ser según su tamaño de dos tipos:

Población finita: el número de elementos que la forman es finito, por ejemplo el número de alumnos de un centro de enseñanza.

Población infinita: el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado.

Ahora bien, normalmente en un estudio estadístico, no se puede trabajar con todos los elementos de la población sino que se realiza sobre un subconjunto de la misma al que se le llama muestra, es decir un determinado número de elementos de la población.

-Muestra Aleatoria

Una muestra estadística o muestra aleatoria o simplemente muestra es un subconjunto de casos o individuos de una población estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo.

Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor número de datos provoca también menos errores en su manipulación.

El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su cálculo.

Espacio Muestral

El espacio muestral del que se toma una muestra concreta está formado por el conjunto de todas las posibles muestras que se pueden extraer de una población mediante una determinada técnica de muestreo.

Parámetro o Estadístico muestral

Un parámetro estadístico o simplemente un estadístico muestral es cualquier valor calculado a partir de la muestra, como por ejemplo la media, varianza o una proporción, que describe a una población y puede ser estimado a partir de una muestra. Valor de la población.

Estimación

Una estimación es cualquier técnica para conocer un valor aproximado de un parámetro referido a la población, a partir de los estadísticos muestrales calculados a partir de los elementos de la muestra.

Nivel de confianza

El nivel de confianza de una aseveración basada en la inferencia estadística es una medida de la bondad de la estimación realizada a partir de estadísticos muestrales.

Ejemplo

La descripción de una muestra, y los resultados obtenidos sobre ella, puede ser del tipo mostrado en el siguiente ejemplo:

Dimensión de la población: ej. 222.222 habitantes

Probabilidad del evento: ej. Hombre o Mujer 50%

Nivel de confianza: ej. 96%

Desviación tolerada: ej. 5% Resultado ej. 196

Tamaño de la muestra: ej. 270

La interpretación de esos datos sería la siguiente:

· La población a investigar tiene 222.222 habitantes y queremos saber cuántos son hombres o mujeres.

· Estimamos en un 50% para cada sexo y para el propósito del estudio es suficiente un 90% de seguridad con un nivel entre 90 - 5 y 90 + 5.

· Generamos una tabla de 270 números al azar entre 1 y 222.222 y en un censo numerado comprobamos el género para los seleccionados.

Ventajas de la elección de una muestra

El estudio de muestras es preferible, en la mayoría de los casos, por las siguientes razones:

1. Si la población es muy grande (en ocasiones, infinita, como ocurre en determinados experimentos aleatorios) y, por tanto, imposible de analizar en su totalidad.

2. Las características de la población varían si el estudio se prolonga demasiado tiempo.

3. Reducción de costos: al estudiar una pequeña parte de la población, los gastos de recogida y tratamiento de los datos serán menores que si los obtenemos del total de la población.

4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor rapidez.

5. Viabilidad: la elección de una muestra permite la realización de estudios que serían imposible hacerlo sobre el total de la población.

6. La población es suficientemente homogénea respecto a la característica medida, con lo cual resultaría inútil malgastar recursos en un análisis exhaustivo (por ejemplo, muestras sanguíneas).

7. El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda, precisión de un proyectil, etc.).

Descripción matemática de una muestra aleatoria

El uso de muestras para deducir fiablemente características de la población requiere que se trate con muestras aleatorias. Si la muestra estadística considerada no constituye una muestra aleatoria las conclusiones basadas en dicha muestra no son fiables y en general estarán sesgadas en algún aspecto.

En términos matemáticos, dada una variable aleatoria X con una distribución de probabilidad F, una muestra aleatoria de tamaño N es un conjunto finito de N variables independientes, con la misma distribución de probabilidad F.1

En general, resulta muy difícil comprobar si una determinada muestra es o no aleatoria, cosa que sólo puede hacerse considerando otro tipo de muestreos aleatorios robustos que permitan decir si la primera muestra era aleatoria o no.

1.2 “Obtención de datos estadísticos”

¿Para qué necesitamos obtener datos en estadística?

En la estadística es importante obtener datos, para Proporcionar la introducción imprescindible para un estudio de investigación, Medir el desempeño en un servicio o proceso de producción, Nos Ayudar en la formulación de alternativas para la toma de decisiones. Algunos ejemplos de para qué es necesario obtener datos son los siguientes:

n Un gerente desea investigar si la calidad del servicio o de los productos se ajustan a los estándares de la compañía.

¿De qué manera podemos obtener datos estadísticos?

La información puede obtenerse por muestreo, observando pasivamente una muestra y anotando los valores de las variables, o por diseño de experimentos, fijando los valores en ciertas variables y observando la respuesta de otras.

El muestreo es por lo tanto una herramienta de la investigación científica, cuya función Básica es determinar que parte de una población debe examinarse, con la finalidad de hacer Inferencias sobre dicha población. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar las características de ésta.

Tipos de muestreo

Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.

1. Muestreo probabilístico

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de Ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras

Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

1.1. Muestreo aleatorio simple:

El procedimiento empleado es el siguiente:

1) se asigna un número a cada individuo de la población.

2) A través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido.

1.2. Muestreo aleatorio sistemático:

Este procedimiento exige, como el anterior, numerar todos los elementos de la población,

Pero en lugar de extraer números aleatorios sólo se extrae uno. Se parte de ese número aleatorio “i”, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k.

1.3. Muestreo aleatorio estratificado:

Trata de evitar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error maestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...)

1.4. Muestreo aleatorio por conglomerados:

Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población.

2. Métodos de muestreo no probabilísticos

A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa.

2.1. Muestreo por cuotas:

También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél.

2.2. Muestreo intencional o de conveniencia:

Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.

2.3. Bola de nieve:

Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.

2.4. Muestreo Discrecional:

A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio.

1.3 “Medidas de tendencia central”

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización.

Entre las medidas de tendencia central tenemos:

· Media aritmética.

· Media ponderada.

· Media geométrica.

· Media armónica.

· Mediana.

· Moda.

Media aritmética o Media

Es el promedio de un conjunto de valores.

Ejemplo, la media aritmética de 34, 27, 45, 55, 22, 34 (seis valores) es Se obtiene de la suma de todos los valores dividida entre la cantidad de valores.

Media Ponderada

Es apropiada cuando en un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso) respecto de los demás datos

Se obtiene del cociente entre la suma de los productos de cada dato por su peso o ponderación y la suma de los pesos.

Media geométrica

Es un promedio muy útil en conjuntos de números que son interpretados en orden de su producto, no de su suma.

Se obtiene de la multiplicación de todos los valores, elevada a la potencia de la cantidad de valores dividiendo a uno ‘‘1’.

Media armónica

La media armónica es un promedio muy útil en conjuntos de números que se definen en relación con alguna unidad.

Mediana

Representa el valor de la variable de posición central en un conjunto de datos ordenados.

Ejemplo: tenemos el siguiente conjunto de números 8,3,7,4,11,2,9,4,10,11,4 ordenamos: 2,3,4,4,4,7,8,9,10,11,11 En esta secuencia la mediana es 7, que es el número central. Y si tuviésemos: 8,3,7,4,11,9,4,10,11,4, entonces ordenamos: 3,4,4,4,7,8,9,10,11,11 y la mediana (Md) está en: los números centrales son 7 y 8, lo que haces es sumar 7 + 8 y divides entre 2 y Md= 7.5.

Los pasos son:

1. Ordena los valores en orden del menor al mayor.

2. Cuenta de derecha a izquierda, o al revés, hasta encontrar el valor o valores medios.

Moda

Es el valor con una mayor frecuencia en una distribución de datos.

Ejemplo Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma:

Entre 1,1 y 1,15 hay 1 estudiante

Entre 1,2 y 1,25 hay 2 estudiantes

Entre 1,3 y 1,35 hay 2 estudiantes

Entre 1,45 y 1,55 hay 3 estudiantes

Entre 1,5 y 1,6 hay 4 estudiantes

Entre 1,6 y 1,7 hay 10 estudiantes

Entre 1,7 y 1,8 hay 8 estudiantes

Entre 1,8 y 1,9 hay 2 estudiantes

Clase modal = 1,6 y 1,7 (es la que tiene frecuencia absoluta más alta: 10).

1.4 “Medidas de dispersión”

Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución.

Las medidas de dispersión son:

Rango o recorrido

El rango es la diferencia entre el mayor y el menor de los datos de una distribución estadística.

Desviación media

La desviación respecto a la media es la diferencia entre cada valor de la variable estadística y la media aritmética.

Di = x - x

La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la

media.

La desviación media se representa por

Ejemplo

Calcular la desviación media de la distribución:

9, 3, 8, 8, 9, 8, 9, 18

Desviación media para datos agrupados

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:

Varianza

La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística.

La varianza se representa por

Propiedades de la varianza

ü La varianza será siempre un valor positivo o cero, en el caso de que las puntuaciones sean iguales.

ü Si a todos los valores de la variable se les suma un número la varianza no varía.

ü Si todos los valores de la variable se multiplican por un número la varianza queda multiplicada por el cuadrado de dicho número.

ü Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza total.

1.5 “Tabla de distribución de frecuencias”

La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente

Tipos de frecuencias:

Frecuencia absoluta

La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico. Se representa por f_i.

Frecuencia relativa

La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento y se representa por n_i.

Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado. Se representa por F_i.

Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento.

Distribución de frecuencias agrupadas

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua.

Probabilidad y estadistica ITR

sábado, 2 de febrero de 2013

Estadistica descriptiva