SAPO Campus Wiki UA

Análise Quantitativa

O conteúdo publicado na Wiki do SAPO Campus de Aveiro deve ser considerado como estando em desenvolvimento. O seu conteúdo não foi validado cientificamente pela Universidade de Aveiro.

De WikiCampus

Tabela de conteúdo

Etapas do Tratamento de Dados

Marczky et al. (2005) consideram as seguintes etapas do tratamento de dados:

1 - Registar e seguir dados

O registo e o seguimento dos dados processa-se da seguinte forma:

a) diário de recrutamento dos sujeitos

Consiste em elaborar um registo/diário completo de todos os sujeitos abordados para participar no estudo, registando as datas em que os sujeitos foram abordados, verificando se cumpriram os critérios para participar no estudo e se deram o seu consentimento por escrito, com o objectivo de seguir a inscrição dos sujeitos e determinar se o grupo resultante é representativo da população que o investigador pretende estudar.

b) acompanhamento

Adicionalmente, deve existir um sistema bem delineado para seguir os sujeitos e dar ao investigador informações actualizadas sobre o estado geral do estudo, incluindo participação dos sujeitos, recolha de dados e registo de dados.

2 - Selecção de dados

A selecção dos dados é feita imediatamente a seguir à recolha de dados, mas antes do registo dos dados, para seleccionar a sua relevância. Tem como objectivos: - Analisar se as respostas são legíveis e compreensíveis; - Averiguar se as respostas se encontram dentro dos limites aceitáveis para o estudo; - Ver se as respostas são completas; - Verificar se toda a informação foi incluída. Este processo realiza-se pela pertinência de se averiguar se há necessidade de contactar novamente com os sujeitos com vista a corrigir omissões, erros ou inadequações e pode valer-se da recolha de dados com a ajuda de programas específicos para o efeito (SPSS, R, STATA, EXCEL, etc). Estes programas permitem programação para: - Aceitar respostas dentro de determinados parâmetros, - Verificar campos deixados em branco ou fazer verificação cruzada de respostas entre determinados itens para detectar inconsistências; - Transferência de dados para uma base de dados permanente, automatizando o procedimento de entrada de dados.

3 - Construir uma base de dados

Consiste em criar um livro de código dos dados, uma lista escrita ou computorizada que dê uma descrição completa e clara das variáveis que vão ser incluídas na base de dados. Esta base de dados é essencial quando o investigador começa análise dos dados, pois serve de guia na reanálise de determinados dados, ajuda lembrar o significado do nome de determinada variável ou que dados foram usados para determinada análise; Deve conter, no mínimo, para cada variável:

- Nome;

- Descrição;

- Formato (número, data, texto);

- Instrumento ou método de recolha;

- Data de recolha;

- Respondente ou grupo;

- Localização (na base de dados);

- Notas

4 - Entrada de dados

A entrada de dados realiza-se através da utilização de programas de base de dados (Excel, Acess, SPSS) que permitam definir a gama, formatos e tipos de dados que podem ser aceites em determinados campos, o que poupa tempo na inserção de dados que não estejam dentro desses parâmetros e que não serão aceites pelo programa.

5 - Transformar dados

Envolve:

a) Identificação e codificação de valores em falta

Os valores em falta resultam de sujeitos que não responderam, ou de observações falhadas, ou dados incorrectos que são rejeitados pela base de dados. Para que os resultados não sejam enviesados, programas estatísticos como o SPSS dão a hipótese de ignorar os casos de variáveis em falta ou tratá-las automaticamente como estando em branco.

b) Computar totais e novas variáveis

Consiste em criar novas variáveis baseadas em valores de outras variáveis.

c) Reverter itens de escalas

Para diminuir a propensão dos sujeitos de darem a mesma resposta padronizada o investigador pode decidir reverter a escala em alguns itens. Contudo, deve ter o cuidado, antes de analisar os dados, de recodificar os itens revertidos para que as respostas sigam a mesma direcção.

d) Recodificar variáveis

Algumas variáveis podem ser mais facilmente analisadas e interpretadas se recodificadas em categorias. Por exemplo, um investigador pode querer agrupar dentro de limites específicos variáveis como a idade ou rendimentos monetários.

Estatística Descritiva - Descrever os Dados

A estatística descritiva é utilizada quando se deseja apresentar as descrições dos dados observados. No seu âmbito faz-se a recolha, classificação e organização de dados, procurando sintetizar-se e representar de forma compreensível a informação contida num conjunto de dados. Esta tarefa concretiza-se na construção de tabelas, gráficos, análise das não respostas, identificação de observações aberrantes (outliers) e no cálculo de valores que representem a informação contida nos dados, sem distorção nem perda de informação.

As estatísticas descritivas mais utilizadas são: - contagem de frequência; - medidas de tendência central (média, mediana e moda); - medidas de dispersão ou variabilidade (intervalo de variação, desvio médio e desvio padrão).

Contagem de frequência

É o registo do número de vezes que determinada característica é observada ou ocorre no estudo; é uma maneira fácil de resumir os dados e de forma a que seja acessível a qualquer público.

Medidas de localização ou de tendência central

São valores que por si só representam todos os dados, permitem-nos perceber a ordem de grandeza do conjunto de observações e de localizar a zona de frequência máxima.

- média resume um grande número de dados num único valor. É a medida mais empregue, presta-se a posteriores análises estatísticas, depende de todos os valores da série, é estável, variando o menos possível de amostra para amostra extraídas da mesma população e pode ser tratada algebricamente. No entanto, pode ser enganosa quando os dados se encontram mais dispersos.

- mediana é o valor médio de um conjunto de dados ordenados por ordem crescente, divide o conjunto dos dados estatísticos em dois grupos: 50% dos valores observados são inferiores à mediana e 50% são superiores. A sua principal vantagem é não ser afectada por outlier.

- moda é o valor dos dados que ocorre com mais frequência, mas é muito pobre para posteriores operações; pode não existir (conjunto amodal) e se existir pode não ser única, nesses casos a distribuição diz-se bimodal (caso de duas modas) ou multimodal (mais de duas modas).

Medidas de dispersão ou variabilidade

- amplitude total (intervalo de variação) é a diferença entre os valores extremos da variável; pode dar uma ideia um pouco distorcida do estudo. É muito variável, pouco significativa e não tem em consideração as frequências das observações.

- desvio médio indica o quanto, em média, os dados diferem da média da distribuição; é calculado utilizando todos os dados, mas como considera os valores absolutos dos desvios não possui grandes propriedades matemáticas.

- desvio padrão é a medida de dispersão mais utilizada, está relacionado com a distribuição normal (média, mediana e moda todas iguais ou muito próximas); diz-nos o quanto os valores da variável estão desviados da média. Quanto menor for o desvio padrão, mais equilibrada será a distribuição. É um dos indicadores para a escolha de um teste estatístico.

Estatística Inferencial - Testar Hipóteses e Modelos

A inferência estatística ultrapassa o nível de descrição, permite estimar as características desconhecidas de uma população, mesmo que a população não tenha sido analisada na totalidade, e testar se são plausíveis determinadas hipóteses formuladas sobre essas características. O objectivo da inferência estatística consiste, em última análise, em fazer previsões a partir da parte para o todo, ou seja, com base na análise de um conjunto limitado de alguns dados recolhidos (amostra) junto de um conjunto total de indivíduos (população), pretendendo-se caracterizar a população.

Norton (2009) concentrou-se em três tipos de testes: os testes para correlações, testes de diferenças de média (amostras emparelhadas e amostras independentes) e testes de ajustamento.

Os testes podem-se dividir em paramétricos e não paramétricos. Designam-se por testes paramétricos os testes que satisfazem simultaneamente as seguintes condições:

- A distribuição da população subjacente às observações tem uma forma particular (por exemplo, ser normal);

- os testes incidem sobre um ou vários parâmetros de uma ou mais populações (por exemplo, média ou variância);

Designam-se por testes não paramétricos quando não verificam uma das condições anteriores, isto é:

- em geral, a forma da distribuição não é conhecida;

- muitas vezes não envolvem parâmetros;

- as inferências são muito menos restritas;

Regra geral, utilizam-se testes paramétricos quando:

- os dados têm um verdadeiro valor numérico;

- os dados na amostra/s se encontram agrupados em torno da média ou de medidas de tendência central (homogeneidade);

- os tamanhos das amostras são grandes e aproximadamente iguais;

Utilizam-se testes não paramétricos quando:

- os dados não têm um verdadeiro valor numérico como, por exemplo, na medida produzida por escalas de Likert (neste caso, como temos uma medida ordinal, os números não têm quaisquer propriedades matemáticas);

- a dispersão dos dados indica uma grande variabilidade;

- o tamanho da amostra é pequeno ou desigual.

Os testes paramétricos, são mais poderosos. No entanto, só devem ser usados quando as distribuições são normais e os desvios-padrão das amostras são mais ou menos semelhantes, caso contrário, é mais seguro utilizar testes não paramétricos.

Testes de correlação

Existe ambiguidade se estes testes são considerados como uma estatística descritiva ou inferencial. Estes testes permitem-nos verificar se existe relação entre duas variáveis. Os dois atributos podem ser quantitativos ou os dois qualitativos ou um quantitativo e o outro qualitativo. O estudo é mais completo quando os dois atributos são quantitativos e discretos. Quando contínuos devem adaptar-se mediante o recurso às respectivas variáveis das marcas. A correlação mede a força ou grau de relacionamento entre as variáveis. No entanto, obter uma forte correlação não significa que exista uma relação causal entre as variáveis, apesar das correlações também poderem ser usadas para fazer previsões sobre resultados.

Há três tipos de questões que se levantam ao analisar dados referentes a duas ou mais variáveis:

1) Existe alguma correlação ou relação estatística entre os fenómenos ou variáveis observados?

2) Se existe, há alguma lei matemática simples que caracterize grosso modo a relação estatística?

3) É possível medir a intensidade dessa correlação ou relação estatística?

Os testes mais utilizados são:

Ró de Spearman (teste não paramétrico)

É uma medida de associação entre duas variáveis ordinais que não faz suposições sobre a distribuição de frequências dessas variáveis; varia entre -1 e 1 e usa em vez do valor observado, apenas a ordem das observações. Aplica-se igualmente em variáveis intervalares/rácio como alternativa ao coeficiente R de Pearson, quando não se verifica a normalidade da distribuição.

Coeficiente de correlação de Pearson (teste paramétrico)

Mede o grau da correlação entre duas variáveis de escala intervalar ou razão; varia entre -1 e 1 e indica o sentido e a intensidade da relação entre essas variáveis. O valor 0 (zero) significa que não há relação linear, o valor 1 indica uma relação linear perfeita positiva e o valor -1 também indica uma relação linear perfeita mas negativa ou inversa, ou seja quando uma das variáveis aumenta a outra diminui. Quanto mais próximo estiver de 1 ou de -1, mais forte é a associação linear entre as duas variáveis.

Testes de diferença de médias

para amostras emparelhadas (medidas repetidas)

Estes testes são usados quando queremos estudar diferenças significativas entre dois conjuntos de dados do mesmo grupo de sujeitos.

Teste do sinal

Permite analisar diferenças entre duas condições no mesmo grupo de sujeitos (exemplo: pré-teste e pós-teste); compara os valores de uma variável ordinal em duas condições, classificando cada par apenas pelo sinal das diferenças, "+", "-" ou "0". Aplica-se em amostras retiradas de uma população contínua. Pode ser útil em estudos de observação ou estudos de questionário onde exista um critério de emparelhamento. É um teste não paramétrico alternativo ao teste t, quando não se verificam os pressupostos deste último teste.

Teste de Wilcoxon

O mais poderoso teste não paramétrico para diferenças entre variáveis emparelhadas. Entra não só com o sinal das diferenças, "+", "-" ou "0", mas também tem em conta o valor absoluto dessas diferenças, ordenando-as de forma crescente. As observações devem ser independentes e retiradas da mesma população. Esta população deve ser contínua e simétrica. Também é um teste não paramétrico alternativo ao teste t, quando este não verifica os pressupostos. Este teste representa uma melhoria relativamente ao teste do sinal, pois não despreza a informação dada pelas diferenças.


Teste T-Student

Apresenta duas versões para variáveis emparelhadas e para grupos independentes.O teste t para medidas repetidas compara os valores de uma variável intervalar ou rácio em duas condições de emparelhamento, compara as médias de duas variáveis para um mesmo grupo, trabalha com a média e a distribuição dos dados em torno dessa média para ambas as condições. Quando n < 30 exige que se verifique a normalidade das variáveis. Exemplo: Comparar a tensão arterial de um grupo de indivíduos antes e depois de um tratamento. As variáveis a comparar serão a tensão arterial antes do tratamento e depois do tratamento.

para grupos independentes

Teste T-Student

Compara as médias de uma variável para dois grupos de casos independentes ou de um conjunto de variáveis quantitativas relacionadas entre si. Pode ser utilizado quando o número de casos é bastante pequeno. Para comparar duas amostras independentes o teste t é mais potente quando a distribuição é normal. Exemplos: Permite saber se a taxa de colesterol de um gestor é a mesma da população em geral ou se os licenciados trabalham 40 horas por semana em média, etc.

Teste de Mann-Whitney (teste não-paramétrico)

O Teste de Mann-Whitney (teste não-paramétrico) é o mais utilizado quando se tem grupos independentes e grupos de tamanhos irregulares aplica-se para testar se as populações de onde foram retiradas as amostras têm a mesma lei de probabilidades, permitindo comparar as funções distribuição de uma variável ordinal medida em duas amostras independentes. O Teste Mann-Whitney é uma alternativa ao teste t. Para distribuições próximas da normal há em geral uma ligeira diferença entre as potências dos dois métodos. Quando nada se sabe sobre a forma da distribuição o teste Mann é nitidamente mais eficiente que o teste t e deve portanto ser utilizado.


Análise de variância (ANOVA)

Permite, fundamentalmente, verificar se existe uma diferença significativa entre as médias de dois ou mais grupos e se os factores exercem influência em alguma variável dependente. Os factores propostos podem ser de origem qualitativa ou quantitativa, mas a variável dependente necessariamente deverá ser contínua. Para se aplicar este teste é necessário verificar os seguintes pressupostos: - as observações dentro de cada grupo devem ter distribuição normal; -as observações são independentes entre si; - as variâncias de cada grupo são iguais. ANOVA é um teste que compara médias oriundas de grupos diferentes, como por exemplo médias históricas de questões de satisfação, empresas que operam simultaneamente com diferentes rendimentos, entre muitas outras aplicações.


Análise de variância multivariada (MANOVA)

É uma extensão da análise de variância univariada. A análise de variância não permite comparar o grupo, quando as variáveis dependentes se tornam mais do que uma variável dependente métrica. A MANOVA pode ter em conta várias variáveis dependentes. A MANOVA executa análise de variância univariada e multivariada, bem como análise de covariância e permite identificar se mudanças na variável independente(s) têm efeitos significativos sobre as variáveis dependentes, assim como, identificar as interacções entre as variáveis dependentes e entre as independentes. Quando as variáveis dependentes se referem a avaliações do mesmo conceito por sujeitos diferentes, este teste permite verificar se o efeito dos factores é específico ou pelo contrário se pode generalizar. Os pressupostos assumidos são semelhantes aos da análise de variância.

Testes de ajustamento (aderência)

Teste Qui-quadrado

Compara as categorias de uma variável nominal e pode ser utilizado em situações onde se tem simplesmente observações ou dados categóricos (por exemplo, sim/não resposta a um questionário). Colocam-se esses dados numa tabela de contingência e, em seguida, aplica-se o teste qui-quadrado, comparando-se se os valores observados são significativamente diferentes dos valores esperados. O teste Qui-quadrado permite analisar a relação de independência entre variáveis nominais com duas ou mais categorias qualitativas, aplica-se tanto para a análise univariada, como bivariada ou multivariada. Geralmente os dados resultam da contagem de objectos em cada uma das categorias, pretendendo-se comparar as frequências observadas com as frequências esperadas. O Qui-quadrado mede a probabilidade das diferenças encontradas nos dois grupos da amostra serem devidas ao acaso, partindo do pressuposto que, na verdade, não há diferenças entre esses grupos na população donde provêm. No entanto, o Qui-quadrado tem limitações e só pode ser utilizado quando os seguintes pressupostos sejam satisfeitos:

1. As observações devem ser independentes;

2. Os itens de cada grupo são seleccionados aleatoriamente;

3. As observações são frequências ou contagens;

4. Cada observação pertence a uma e uma só categoria;

5. Nenhuma frequência esperada pode ser inferior a 1;

6. Não se aplica se 20% das observações ou valores esperados forem inferiores a 5. Neste caso, deve utilizar-se como alternativa o teste de Fisher;


Teste de Fisher

É uma alternativa ao teste Qui-Quadrado quando temos duas tabelas 2X2 e frequências esperadas baixas. Este teste pode ser utilizado como teste de independência ou homogeneidade.

Bibliografia

Marczky, G., DeMatteo, D. & Festinger, D. (2005). Essentials of Research Design and Methodology. John Wiley and Sons, Inc. Hoboken, New Jersey.

Norton, L.S. (2009). Action Research in Teaching and Learning. A practical guide to conducting pedagogical research in universities. Oxon and New York: Routledge e Taylor & Francis e-Library.

Pestana, M.H. & Gageiro, J.N. (2005). Análise de dados para Ciências Sociais. A complementaridade do SPSS. 4ª edição. Lisboa: Editora Sílabo.


Análise_e_Tratamento_de_dados