Termos Interativos Numa Regressão

 

Essa semana uma colega que parecia desesperada, me perguntou sobre uma solução das mais simples possíveis para conhecer o efeito de interação entre duas variáveis que ela estava aplicando em seu modelo de regressão linear. O cálculo é bem simples, mas o melhor é mesmo conhecer a fundo a lógica que envolve o procedimento. Este post irá se dedicar a esse por menor do mundo quantitativo - terra inóspita para muitos cientistas sociais. Estou com o pacote estatístico Stata aberto em meu laptop, e vou demonstrar isso usando uma base de dados que mede as notas de alunos (variável dependente - DV) e as relaciona à variáveis independentes (IV) tais como atributos individuais e da escola onde estudam os alunos.

Estes dados podem ser obtidos copiando e colando a seguinte linha de comando em seu Stata:

use http://www.ats.ucla.edu/stat/stata/faq/hsb2

Para ficar mais fácil, vamos manter apenas as duas variáveis dependentes (DV) e também duas ou três variáveis independentes (IV); digamos, queremos explicar os scores alcançados pelos alunos em redação e matemática usando os atributos de cor (raça), sexo e tipo de escola. Então usamos a seguinte linha para executar isso:

keep write math female race schtyp

Agora vamos colacar as mãos na massa numérica. O modelo abaixo é bem simples:

Considere o seguinte modelo linear: y = b0 + b1 x1 + b2 x2 + b3 x3

Ou seja, 

math = b0 + b1female + b2race + b3schtyp  (MODELO 1)

Onde a nota na matéria math pode ser explicada e até predita com a ajuda dos parâmetros sexo (male = 1 | female = 2), raça (white | african-american | hispanic | asian) e tipo de escola (schtyp = public | privada). Todavia qualquer um pode concluir que estas características não são únicas para cada indivíduo. Muito frequentemente haverá a sobreposição dessas categorias e queremos saber calcular o efeito dessa sobreposição; assim utilizamos também interação entre essas variáveis para medir isso.

math = b0 + b1female + b2race + b3schtyp + b4female * race + b5female * schtyp  (MODELO 2)

math = b0 + (b1 + b2race + b3schtypfemale  b2race + b3schtyp                    (MODELO 3)

No MODELO 3 o coeficiente (b1) é precisamente o efeito de ser female = 2 (feminino) quando b2 (race) e b3 (schtyp) forem ambos nulos. Isto é tão verdade que você pode reescrever a equação como no MODELO 2. Então o efeito de ser female = 2 é (b1 + b4 female  + b5 schtyp), o qual será b1 quando ambos female e schtyp forem nulos (no caso da base de dados o menor valor é 1, então quando forem 1).

O coeficiente (b2) é o efeito beta de (race) quando o efeito de female for nulo (female = 1; ou seja, for male). Podemos ver isso quando reescrevemos o MODELO 2 no MOLEDO 4.

math = b0 + b1female + b2race + b3schtyp + b4female * race + b5female * schtyp  (MODELO 2)

math = b0 + b1 + (b2 + b4female  race + b3schtyp  b5female * schtyp                 (MODELO 4)

Portanto, o efeito de raça (race) é (b2 + b4female) , que se torna b2 quando female  é nulo.

Agora o coeficiente do tipo de escola (i.e. publica ou privada) é o efeito de b3 (schtyp) quando female é nulo. Reescrevendo o MODELO 2  no MOELDO 5 temos que:

math = b0 + b1female + b2race + b3schtyp + b4female * race + b5female * schtyp  (MODELO 2)

math = b0 + b1female + b2race (b3 + b5 female) schtyp + b4female * race              (MODELO 5)

Portanto, o efeito do tipo de escola (schtyp) é (b3 + b5 female ), o qual se torna b3 quando female for nulo. 

Para analisar dos dados usando o MODELO 1, basta digitar este comando em seu Stata

reg math female race schtyp 

O que deve retornar os seguintes coeficientes betas:

-------------------------

                         b

-------------------------

female           -.577521

race             1.749964

schtyp           1.981537

_cons            44.65879

-------------------------

Agora vamos construir os termos interativos usando o seguinte:

g b4 = female*race
g b5 = female*schtyp

Finalmente vamos pedir a regressão linear com os novos termos interativos como no MODELO 2.

reg math female race schtyp b4 b5

Os resultados são os que seguem:

-------------------------
                        b
-------------------------
female           -.981085
race             1.300592
schtyp           3.238561
b4                .797802
b5              -2.014238
_cons            44.74908
-------------------------
A partir daqui é só aplicar os cálculos mostrados nas etapas anteriores para descobrir os efeitos matemáticos "verdadeiros".

 

“Todo homem que se vende recebe muito mais do que vale.” (Barão de Itararé)

"Every man who sell himself gets much more than worth"

Trabalho em equipe na tradução do R para o português BR

 

Abaixo o agradecimento recebido do R core time pela ajuda na tradução das mensagens do software.

Translations were contributed by language translation teams. 
Contributions we are aware of include:
de:	Detlef Steuer, Uwe Ligges, Martin Maechler
fr:	Philippe Grosjean, Frédéric Lehobey, Jean Thioulouse
it:	Stefano Calza, Marcello Chiodi, Stefano M. Iacus, Daniele Medri,	Angelo Mineo, Stefano Pagnotta
ja:	Nobuo Funao, Shigeru Mase, Shigenobu Aoki, Masafumi Okada
ko:	park ui-il
nn:	Karl Ove Hufthammer
pt_BR:	Fernando Henrique Ferraz P. da Rosa, Cesar Henrique Torres,	
Daniel Silva, Marcio Nicolau, Diogo Provete, Colin R Beasley
ru:	Dmitri I. Gouliaev, Alexey Shipunov, Alexey Garkovenko
zh_CN:	Fei Chen, Ronggui Huang
zh_TW:	Wei-Lun Chao
Embora seja um software livre e por isso melhorado coletivamente por pessoas comuns e apaixonados pelo projeto ao redor do mundo, posso mencionar que R que já está na versão 2.13 evoluiu muito desde o seu aparecimento em 1993. Hoje, o R é campeão na preferência de analistas em muitas áreas como matemática, estatística, física, agronomia etc.

 

O fim do mundo está perto!

 

Hoje recebi o aviso do Google Video informando que não mais manterão o serviço. Pelo que eu me lembro é a primeira vez que recebo um aviso desses.
Já pensou como será a vida novamente sem o grande número de serviços gratuitos que a gigante oferece? 

 

Chart for job approval built using excel.

I found this chart a kind of promissing stuff; it's produced by overlapping two charts in excel.

The readability of this figure is pretty intuitive allowing anyone to compare and meassure the results very quickly.

 

Installing rgdal package into R in a Mac OS

After help R Mac users on intallation of rgdal package, I decide put step-by-step here.
 
Do following commands not seem to work for you?

> setRepositories(ind=1:2)
> install.packages("rgdal")


1. Go to
 

http://www.kyngchaos.com/software/frameworks
and install the Unix Compatibility Frameworks in this order:

GDAL Complete

In all cases:
1.1. Double click and you will get a *.dmg file in Downloads (or Descargas). 
Wait until the download completes (GDAL).

GDAL:    you must install both gdal.pkg and numpy.pkg

Once you have all  packages installed, 

2. Open a Terminal (Applications/Utilities/Terminal) and write 
export PATH=/Library/Frameworks/GDAL.framework/Programs:$PATHand hit Return

3. Go to
http://www.kyngchaos.com/software/frameworks
and (by the middle of the page) download the rgdal version that corresponds to your R package (i.e. rgdal 0.6.29-1 - R 2.12 package for R version 2.12)

4. Close the Terminal and start R

5. Install sp:
> install.packages("rgdal")
which will result on this message:
inferring 'repos = NULL' from the file name

Select a mirror near you from the list. sp will be downloaded and installed

6. Install rgdal:
> install.packages("/Users/Daniel/Downloads/rgdal/rgdal_0.6-29.tgz")

7. Then test with:
> require(rgdal)

which will result on this message:
Loading required package: rgdal 
Loading required package: sp 
Geospatial Data Abstraction Library extensions to R successfully loaded 
Loaded GDAL runtime: GDAL 1.7.3, released 2010/11/10 
Path to GDAL shared files: 
/Library/Frameworks/GDAL.framework/Versions/1.7/Resources/gdal 
Loaded PROJ.4 runtime: Rel. 4.7.1, 23 September 2009 
Path to PROJ.4 shared files: (autodetected) 

8. Quit R (you do not have to save your workspace)

How can you do a smart job getting campaign finance data from TSE?

 

This is pretty easy, but got me out of bed for one night. So, going to the answer, you can find one file here, that is the list of web address to download thousands of .CSV files. Each file has all registered details about revenues and expenditures of each candidate. That I mean, more than 22 thousands (i). For this exercise, I'll use just revenues data; lets hands on keyboard.  

 

require(xlsx)

web <- read.xlsx(file.choose(), 1)

mysites =web$web

rm(web) # remove it because I need a lot of memory;

 

#run this code and relax for 3 or four hours;

 

big.data <- NULL

base <-NULL

  for (i in mysites) {

  try(base <- read.table(i, sep=";", header=T, as.is=T, fileEncoding="windows-1252"), TRUE)

  if(!is.null(base)) big.data <- rbind(big.data, base)

  }

 

#... half day after

 

names(big.data)

head(big.data,10)

tail(big.data, 10)

fix(base)

srt(big.data)

 

Comparando coeficientes estimados

 

Imagine um estudo que queira testar se Y, num intervalo de (0|1) onde 0 significa "Não eleito" e 1 significa “Eleito”, é influenciado pela quantidade de recursos (X) aqui medido em porcentagens (%) do total de recursos usado em todo o distrito. Ou seja, o teste é basicamente descobrir se o modelo incluindo “X” se ajusta melhor do que sem essa variável.

mX <- lmer(Y~X+(1|DISTRICT),family=binomial)
m <-lmer(Y~1+(1|DISTRICT),family=binomial)

anova(mX, m) 

De fato, o teste F demonstra que X é mesmo importante para explicar a variação em Y, mas,imagine agora que o estudo precise também descobrir quanto de “X” influencia ou está relacionado a Y. Como obter essa informação a partir dos dados obtidos com o modelo de regressão?

Pegando o intercepto e o coeficiente angular com o comando summary() no R podemos facilmente plotar as médias de probabilidade usando a funçãoplogis(). Plotar as médias torna a análise do problema mais fácil e intuitiva.

 

X <- seq(0.0, 5.0, length = 100)
plot(X, plogis(1.6898789+0.007075*X), type = "l")



No primeiro gráfico a diferença na probabilidade de ser eleito escolhendo gastar X=0.0 ou X=5 é muito pequena e portanto não é relevante eleitoralmente. Assim precisaríamos ter a variável “X” no modelo porque melhora o ajuste, mas “X” não demonstra ter relevância no sucesso eleitoral. Esse é o tipo de coisa que pode acontecer quando se tem uma grande quantidade de dados.

Para ser prático, eu manteria “X” no modelo e concluiria, sob essa perspectiva, que a variável “X” tem um efeito negligenciável (na vida real dos candidatos). Contudo, há de se pensar que este também é um caso onde rejeitar a hipótese nula (H0) estatística permite aceitar a hipótese nula eleitoral. Obviamente essa decisão deve ser bem mais forte do que não ser capaz de rejeitar a hipótese nula eleitoral. 

Agora veja o seguinte exemplo:

X <- seq(0.0, 5.0, length = 100)

plot(X, plogis(.898789+0.99*X), type = "l")



O que mudou? A situação agora parece ser bem diferente; 1% de gastos a mais aumenta a probabilidade de ser eleito em 0.10.


 

How to get winner candidate by cities using Stata

Did you ever ask how to know every "curral eleitoral" in Brazil?

So, I'll show in few command lines of Stata how to complete this task. Despite Stata is a non-freely statistical package what I'll present here is an approach to do that, not the only way. So, if you understand how to "thinking" the problem you can get same result in almost all softwares, including excel, R, SPSS etc.  

First, we need data containing nominal votes per candidate by cities. I'll use the last Brazilian general electoral data that I put it here.

The basic steps are: 1) inspect the data; 2) generate a flag variable to first most voted candidate in each city, and last, 3)  which city is the most preferable constituency or lager base for each candidate. In other words, I want to discover which city is most important for each candidates who ran to the Câmara dos Deputados.

After download the data, just type or copy and paste in command window 

ds /*inspecting data vars*/

gsort +state +municipio -votonominal /*here we can inspect 

values for votonominal in descending order*/

bys state municipio (votonominal): gen flagcity = 1  if _n == _N /*generating 

winner by city flag = 1*/

bys state municipio (votonominal): list if _n == _N 

/*Now we can look into flag var and keep just winner candidates for analyses*/

We can do the same steps to get a output  by candidate

bys state ID (votonominal): gen flagcandidate = 1  if _n == _N /*generating 

larger constituency by candidates; flag = 1*/

Finally we can keep just first cities by candidates with the following line.

keep if flagcandidate == 1

 

 

Segue Abaixo o Fichamento que fiz sobre o "THE CIVIC CULTURE" de Almond & Verba
CHAPTER I
AN APPROACH TO POLITICAL CULTURE
Esse estudo é um estudo sobre a Cultura Política da Democracia. A cultura política é sustentada por estruturas, e essas, por processos. Particularmente, os autores desse estudo clássico buscam verificar um conjunto de variáveis de Cultura Política, que desempenha importante função para a estabilidade democrática nas cinco nações analisadas (Estados Unidos, Grã-Bretanha, Itália, Alemanha e México). Cada variável desse conjunto, diz os autores, é o resultado de um processo de interação entre os indivíduos, as instituições sociais e os valores culturais dessas nações.
Esse estudo, assim como muitos outros, foi motivado pelos eventos ocorridos desde a Segunda Guerra Mundial. Esse acontecimento em particular fez surgir várias questões sobre o futuro da democracia à nível mundial. Basicamente, após o termino da guerra, emergiram dois modelos de participação estatal: o democrático e o totalitário. “The democratic state offers the ordinary man the opportunity to take part in political decision-making process as an influential citizen; the totalitarian offers him the role of the ‘participant subject’”. (pp. 3) Ambos os modelos disputavam espaço, e influência junto as nações que emergiam no cenário mundial.
Todavia, nossos autores estão interessados exclusivamente em estudar a forma democrática de participação, para eles, caso uma nação adote esse modelo de participação, ela precisará não somente de instituições democráticas formais, como o sufrágio universal, partidos políticos e eleições legislativas, mas também precisará desenvolver cultura política.
A cultura política democrática envolve as principais idéias sobre liberdade e dignidade individuais, essas idéias orientam a forma como as elites políticas tomam as decisões, suas atitudes e suas normas, também orientam as atitudes do cidadão comum, seu sentimento de cidadão e sua relação com o governo/elites. Uma estrutura política democrática somada a uma cultura cívica desenvolve o que os autores chamaram de Cultura Política Democrática.
Embora seja uma tarefa um tanto quanto difícil, esse estudo de Cultura Política procura aprofundar o conhecimento sobre as atitudes e os sentimentos dos cidadãos, em relação à democracia em cinco países distintos. Como veremos, existe uma grande diferença entre em gostar da democracia e aprender a conviver nela.
POLITICAL SUBCULTURE

Quando uma parte da população está orientada para a participação, e outra parte não, estão agindo caracteristicamente de forma paroquial ou subjetivamente e vice-versa. Isso acaba provocando diferenças singnificantes na orientação política.
Os autores emprestam o termo “subculture” para se referir a esse componente da cultura política. Eles distinguem ainda sub-cultura política em duas clivagens: (1) a parte da população que está orientada através dos inputs e outputs, mas, ao mesmo tempo são militantes orientados pela estrutura política (policy subcultures); (2) esta outra clivagem ocorre em um sistema cultural misto entre paroquial-subjetivo (parochial-subject culture). Uma parte da população pode estar orientada difusamente através das autoridades tradicionais, enquanto a outra parte orienta-se pela autoridade central do sistema (vertical as well as a horizontal clevage).
Uma total e bem sucedida mudança de cultura subjetiva para participante, envolve uma grande difusão das orientações positivas através de infra-estruturas democráticas, aceitação das normas e obrigações cívicas e de desenvolvimento de um senso de competência cívica por grande parte da população.
Através da análise do caso francês (heterogeneity) e do caso inglês (homogeneity), os autores propõem que a clivagem subcultural tem atenuado, e a homogeneidade cultural tem se extendido da orientação estrutural para políticas de orientação. Por isso, esse livro procura dedicar-se ao estudo das orientações políticas, das estruturas políticas e dos processos, da não orientação para a substância das demandas políticas e dos outputs.
THE CIVIC CULTURE: A MIXED POLITICAL CULTURE

No primeiro momento os autores apresentaram as origens históricas da Cultura Cívica, e da sua função no processo de mudança social. Mas o livro apresenta também, análises e descrições sobre a cultura e as regras (plays) de manutenção do sistema político democrático.
Vale lembrar que a Cultura Cívica não é entendida por Almond & Verba, como geralmente descrita nos livros textos de civismo, esses manuais em geral, descrevem os cidadãos como indivíduos engajados politicamente, indivíduos racionais guiados unicamente pela razão e não pelas emoções, indivíduos bem informados e prontos para tomar decisões políticas (através do voto). Para os autores, essa seria uma espécie de cultura mais alguma coisa (plus). Isso eqüivaleria se todos os indivíduos fossem orientados ideologicamente para o processo político de input.
Em primeiro lugar, esclarecem os autores, a Cultura Cívica é uma cultura participante-militante. Indivíduos não são orientados somente pelos inputs políticos ou por políticas (political input). Eles são freqüentemente orientados positivamente para as estruturas de inputs (estruturas de incentivos) e seus processos (the input process). “...the civic culture is a participant political culture in which the political culture and political structure are congruente”. (pp. 30)
O mais importante é que na cultura cívica participante as orientações políticas são combinadas, e não substituídas por orientações subjetivas ou paroquiais. Ou seja, quando os indivíduos se tornam participantes do processo político eles não deixam suas orientações paroquiais ou subjetivas, e apenas agrega as novas orientações. Os autores chamam isso de sense of transformation, not the elimination.
Para eles, as orientações políticas paroquiais e subjetivas são absolutamente congruentes com as orientações políticas participante. Essa mistura proporciona uma situação que favorece a participação política, porém, não é seguida por atitudes políticas cívicas. A manutenção das “atitudes tradicionais” com as orientações de participação cívica desenvolve uma cultura política balanceada, no qual, a atividade política, envolvimento, e racionalidade existem, mas são balanceadas pela passividade, tradicionalidade e pela crença nos valores paroquiais.
MICRO AND MACROPOLITICS: POLITICAL CULTURE AS THE CONNECTING LINKS

A bibliografia recente nas ciências sociais tem apontado interessantes resultados de estudos sobre atitudes em motivações políticas em indivíduos e em grupos. Entender como os indivíduos e os grupos agem, e porque agem, é de fundamental importância para o entendimento do funcionamento dos sistemas políticos, bem como do uso de seus incentivos (outputs).
Entretanto, para os autores, muitos desses estudos têm falhado em fazer a conexão entre as tendências psicológicas dos indivíduos e dos grupos, e os processos e estruturas políticas.
Essa relação entre macro e micropolítica, possibilita segundo Almond & Verba, caracterizar conceitualmente, mesmo que de forma não muito precisa, toda a população em um tipo de sistema político através do conceito de cultura política; e utilizar também o conceito de sub-cultura para definir partes da população, estruturas, regras em particular ou subsistemas do sistema político democrático. Esses conceitos analíticos de cultura política ajudarão no estabelecimento e reconhecimento de quais tendências comportamentais existe no sistema político como um todo, bem como em suas partes, especialmente orientações de grupos (subcultures), ou em pontos-chave de iniciativas ou de decisão na estrutura política (role culture). Em outras palavras, é possível relacionar psicologia política com a performance do sistema político, identificando os tipos de atitudes e comportamentos mais freqüentes utilizados na estrutura do sistema político.
Por isso os autores alertam para a importância de se entender a relação de congruência entre a Cultura Política e a Estrutura Política, como forma de pesquisar os problemas políticos relacionados à estabilidade e a mudança.
Na hipótese dos autores, as pesquisas como as que mostram a importância do aprendizado sobre as orientações políticas e da experiência com o sistema político, não têm sido enfatizadas. Semelhantemente, o aprendizado não possui somente o caráter cognitivo, mas também envolve sentimentos políticos, expectativas e avaliações. Isso só é possível em grande parte, pela experiência política, e menos da simples projeção das orientações políticas, das necessidades básicas e das atitudes que são produtos da socialização infantil.
Os dados apresentados pelos autores (Almond & Verba) mostram a existência de orientação cívica fartamente na Grã-Bretanha e nos EUA, mas relativamente escassa, nos outros três países, Alemanha, Itália e México. Essa grande diferença de Cultura Política entre os países trouxe mais luzes à análise.
Os autores viram mais claramente como pode estar relacionado às características do ambiente social e as principais interações sociais, especificamente a memória política e as diferenças entre estrutura política e desempenho do sistema político. Os autores ainda lançaram um desafio às próximas pesquisas, ao reconhecer que uma pesquisa mais produtiva em psicologia política, aponta os autores, deveria tratar da socialização infantil, tendências e modos de personalidade, orientações políticas, e estruturas e processos políticos como variáveis separadas em um complexo sistema multirelacional de causalidade.
Segundo eles, apud Pye & Lucian, mudanças rápidas e descontinuidade na cultura política e na socialização, proporcionam dramáticas conseqüências para o desenvolvimento da personalidade, bem como, características do sistema político.
THE COUTRIES INCLUDED IN THE STUDY

Os autores escolheram cinco democracias referenciais de experiência político-histórica. De um lado os EUA e a Grã-Bretanha representando os casos de sucesso de experiência de governos democráticos. Analisar esses dois países serviu para mostrar quais os tipos de atitudes que estão associadas a estabilidade e ao funcionamento do sistema democrático, a quantidade de incidência dessas atitudes, e sua distribuição entre os diferentes grupos da população.
A Alemanha foi incluída na análise comparativa devido a sua larga história política, semelhante a Grã-Bretanha, a Alemanha teve um longo período de governo legítimo efetivo, antes da introdução das instituições democráticas. Depois da unificação, desenvolveu o Rechatsstaat e uma cultura política subjetiva.
Outra característica importante é que tanto a Alemanha, quanto a Grã-Bretanha tiveram em comum diferentes atitudes frente a autoridade. Mas observando a história, a maior diferença entre as duas nações está na eficácia do controle do governo no período pré-democrático. No caso inglês, o controle nunca foi completo, ou exaustivo como na Alemanha.
Por outro lado, a inclusão da Itália e do México no estudo serviu como exemplo de sociedades não bem-desenvolvidas ou subdesenvolvidas, ou seja, servem como exemplos de sistemas políticos em transição.
Na comparação da experiência histórico-político das cinco nações, Almond & Verba procuraram traduzir em quantidade, distribuição demográfica, regularidade e relação da memória histórica com os sentimentos e expectativas da população.

THE FIVE-NATION SURVEY

Trata-se de um Estudo Multicontextual, desenvolvido após a aplicação de cerca de 5.000 entrevistas, aproximadamente 1.000 entrevistas em cada um dos cinco países. As entrevistas foram desenvolvidas em um espaço de tempo pouco maior que 1 ano. O estudo ainda previa a reentrevista de cerca de 125 pessoas em cada país entre os 1.000, mas por alguns motivos essa quantidade nem sempre foi alcançada.
[ página principal ] [ ver mensagens anteriores ]



Meu Perfil
BRASIL , Homem , Portuguese , English

 
    Visitante número: