quinta-feira, 24 de maio de 2007

Amostragem sobre mobilidade

Com este trabalho tem-se por objectivo determinar a média de carros que circula na Avenida Columbano Bordalo Pinheiro, na zona em que esta passa por baixo da estação de comboios de Sete Rios e do cruzamento com a Rua de Campolide, por semana entre as 8h e as 21h. O ponto em que foi controlado o volume de tráfego está assinalado na figura 1 e na figura 2 com uma circunferência vermelha e o local de observação onde se fizeram as contagens está representado na figura 3.

Figura 1 – Mapa da zona de Sete Rios


Figura 2 – Vista aérea da zona de Sete Rios


Figura 3 – Fotografia do ponto de contagem

A Avenida Columbano Bordalo Pinheiro une um dos nós do Eixo Norte-Sul, onde também se juntam a Estrada de Benfica e a Rua das Furnas à Avenida dos Combatentes na zona da Praça de Espanha e à Avenida Calouste Gulbenkien. Na zona da estação de Sete Rios sofre uma bifurcação, onde se inicia a Rua de Campolide.

A zona da avenida escolhida para contabilização do tráfego tem apenas um sentido (Eixo Norte-Sul – Praça de Espanha), que de certa forma liga uma zona mais periférica da cidade a uma zona mais central. Como tal, espera-se que o tráfego seja mais intenso nas horas da manhã do que durante o resto do dia, embora também seja de esperar um volume de carros significativos à hora de ponta à tarde.


Na seguinte tabela apresenta-se o número de carros contados nesta via a diferentes horas, de diferentes dias.

Tabela 1 – Amostras

Data

Dia da semana

Hora inicial

Hora final

Contagem

15/05/07

3ª Feira

08h03

08h13

235

16/05/07

4ª Feira

11h54

12h04

301

17/05/07

5ª Feira

08h34

08h44

516

17/05/07

5ª Feira

16h32

16h42

350

18/05/07

6ª Feira

16h44

16h54

328

19/05/07

Sábado

10h34

10h44

219

19/05/07

Sábado

14h52

15h02

245

20/05/07

Domingo

11h37

11h47

160

20/05/07

Domingo

17h18

17h28

187

21/05/07

2ª Feira

09h13

09h23

511

A partir destas contagens procedeu-se à determinação dos valores de desvio padrão para verificar se se trata de uma mostra aleatória simples ou estratificada. Tem-se assim a seguinte tabela para estes valores.

Tabela 2 – Desvios padrão

Desvio padrão dos dias úteis

37.07986875

Desvio padrão dos dias de fim-de-semana

115.129058

Desvio padrão total

124.887327

Analisando a tabela verifica-se que os desvios padrão dos dias úteis e dos dias de fim de semana são menores do que o desvio padrão de todas as contagens, isto permite concluir que a variabilidade dentro dos vários subgrupos é inferior á variabilidade no total da população. Verifica-se também que o desvio padrão dos dias de semana é muito maior do que o dos dias úteis, ou seja um dos subgrupos tem maior variabilidade do que o outro. Estes dois factores levam a concluir que o tipo de amostragem que melhor se adequa a esta amostra é a estratificada, tendo dois estratos correspondentes aos dias úteis e de fim-de-semana.

Desta forma assumindo uma margem de erro (d) de 36 carros, um nível de confiança (1-α) de 90% e tendo em conta os valores da tabela 3 obtêm-se, através da fórmula abaixo, aproximadamente 10 amostras na população total (n). Destas 6 pertencentes ao estrato dos dias úteis e 4 ao dos dias de fim-de-semana.

Tabela 3 – Dados para os cálculos do número de amostras a utilizar

Z

1,645

Peso_du

5/7 = 0.714285714

Peso_fds

2/7 = 0.285714286

α

0,1


Visto isto pode-se então preceder ao cálculo das médias relativas a cada estrato.


E analisando os resultados verifica-se que, como era de esperar pelas contagens, em média passam mais carros durante os dias de semana do que durante o fim-de-semana.

Porém o que se pretende é a média de carros que passam independentemente do dia da semana.



Sabendo que este é o numero médio que passa em 10 minutos num qualquer dia da semana é necessário estabelecer uma relação para determinar a média diária no intervalo de tempo entre as 8h e as 21h. Desta forma sabendo que esse intervalo corresponde a 13 horas, o que significa 780 minutos por dia, ou seja, 5460 minutos por semana.

Conclui-se assim que em média passam 177294 carros por semana entre as 8h e as 21h neste troço da Avenida Columbano Bordalo Pinheiro.

quinta-feira, 10 de maio de 2007

Análise Estatística de Poluição Atmosférica

Introdução

Este trabalho tem como objectivo o tratamento estatístico de dados obtidos em algumas das estações de monitorização da qualidade do ar do Instituto do Ambiente e a sua posterior interpretação.
Entende-se por qualidade do ar o nível de poluição deste, sendo que quanto menores e menos nocivos forem os poluentes existentes no ar, maior é a sua qualidade. Contudo a qualidade do ar não depende apenas dos poluentes, mas também do local onde estão a ser emitidos e das condições atmosféricas, por exemplo. [1]
A poluição do ar pode ter diversas consequências tanto no ser humano como no meio que o rodeia. Os poluentes atmosféricos podem provocar um aumento de doenças, principalmente respiratórias e cardíacas. Também as plantas são afectadas por determinados poluentes, que podem tanto reduzir a sua capacidade fotossintética como afectá-las através da contaminação dos solos. Para além dos seres vivos, algumas rochas, monumentos e construções humanas podem sofrer os efeitos nocivos destes poluentes. [2]
Como a qualidade do ar é uma forma de avaliar a poluição atmosférica é importante saber que o índice de qualidade do ar é calculado através dos valores de monóxido de carbono, dióxido de azoto, dióxido de enxofre, ozono e partículas finas (PM10). [3]
No entanto, neste trabalho apenas se vai trabalhar os valores de monóxido de carbono, dióxido de azoto, partículas finas e ainda de monóxido de azoto. Com estes dados, pretende-se saber se é possível estabelecer uma relação entre os valores de PM10 e os valores dos outros poluentes na estação de monitorização da Escavadeira.
PM10 é a forma de denominar as partículas microscópicas de material sólido, fumo, poeiras e vapor condensado que existem no ar com tamanho inferior a 10µm. Existem diversas fontes deste poluente tanto naturais (como por exemplo a erosão dos solos, o sal marinho, erupções vulcânicas e o pólen) como humanas (por exemplo o tráfego, a indústria, as obras de construção civil e até alguns processos agrícolas). Este poluente primário será o principal responsável pelo aumento das doenças respiratórias uma vez que quando as partículas são inaláveis podem-se alojar no sistema respiratório, danificando-o. Também afectam as plantas, obstruindo os estomas e condicionando assim as suas trocas gasosas. As construções humanas podem ser também afectadas, principalmente as tintas. [4], [5], [7]
O monóxido de carbono é um poluente primário (é emitido directamente da fonte para a atmosfera) inodoro e incolor. Tem como origem as indústrias e o tráfego, principalmente veículos sem catalisadores. Este composto tem uma maior afinidade com a hemoglobina (proteína responsável pelo transporte de oxigénio pelo corpo, existente em moléculas específicas – glóbulos vermelhos – que constituem o sangue) que o oxigénio. Portanto afecta principalmente o sistema cardiovascular e o sistema nervoso. Em concentrações baixas causa problemas normalmente a pessoas com doenças cardiovasculares, em concentrações mais elevadas os sintomas de intoxicação são tonturas, dor de cabeça, fadiga e sonolência e finalmente, quando em concentrações extremas pode conduzir a uma morte por envenenamento. [4], [5]
O dióxido de azoto é um poluente primário emitido pela indústria, pois resulta da queima de combustíveis a temperaturas elevadas e pelo tráfego. Pode ser detectado pela sua cor castanha clara (em concentrações baixas) ou por uma brisa castanha com cheiro forte e irritante (quando em concentrações elevadas). Pode afectar a saúde pública quando em elevadas concentrações, provocando doenças respiratórias, principalmente em crianças ou doentes asmáticos. Também pode ser bastante prejudicial para o ambiente visto que é um agente acidificante, integrando fenómenos como as chuvas ácidas. [4], [5], [6]
O monóxido de azoto é também um poluente primário com origem no tráfego e na indústria. Nas suas concentrações normais na atmosfera não é nocivo e é um gás que não é facilmente detectado pois é inodoro e incolor. Nas condições propícias pode dar origem ao dióxido de azoto por oxidação, sendo esse um poluente bem mais tóxico. Com condições meteorológicas favoráveis pode também reagir com compostos orgânicos voláteis dando origem a ozono, outro poluente. [8]
Neste trabalho, serão analisadas 7 estações relativamente a estes poluentes, pertencentes à rede de qualidade de ar de Lisboa e Vale do Tejo e são: Avenida da Liberdade, Entrecampos, Olivais, Reboleira, Loures, Restelo e Escavadeira. Esta funcionará como principal estação na primeira parte do trabalho em que se procurará o melhor modelo explicativo da relação dos poluentes. Na segunda parte do trabalho serão utilizadas as outras estações numa análise em componentes principais.


1ª Parte – Regressão linear

Escavadeira
A estação da Escavadeira está situada na Área Metropolitana de Lisboa Sul, conselho do Barreiro, freguesia do Barreiro. Esta é uma zona de indústrias e habitações, sendo considerada industrial pelo tipo de influência.

Com os dados obtidos nesta estação estabeleceu-se uma matriz de correlação entre as variáveis quantidades medidas de Partículas <10µm,>Dióxido de Azoto, Monóxido de Carbono e Monóxido de Azoto (tabela 1).
Os dados obtidos na tabela 1 permitem, entre outras coisas, determinar a correlação existente entre as diferentes variáveis pelos valores da correlação de Pearson, neste caso em concreto interessa verificar qual a variável independente (NO2, NO e CO) que mais se correlaciona com a variável dependente (PM10). As variáveis cujo este valor seja maior são aquelas em que a correlação é melhor, ou seja, o NO2 que tem 0,636.
Através desta matriz também é possível verificar a correlação das variáveis independentes entre si, o que é importante pois duas variáveis independentes com correlação elevada não vão ser utilizadas as duas na regressão linear, mas apenas uma delas. Pela análise da matriz pode-se verificar que não existem valores de correlação muito elevados entre estas variáveis, o que faz prever um modelo de regressão com as três variáveis independentes.

Tabela 1 – Matriz de correlação

Em seguida procedeu-se a uma regressão linear testando-se várias hipóteses até se encontrar o modelo que melhor explique a relação entre estes poluentes, considerando-se sempre como variável dependente PM10 e como variáveis independentes os seguintes poluentes: NO2, NO e CO.
Para a regressão linear existem dois métodos que podem ser utilizados o backward e o forward, que obtêm de maneira diferente os modelos de regressão linear.
O método backward faz um modelo com todas as variáveis independentes em relação à variável dependente que se pretende calcular e vai eliminando aquelas cujos coeficientes não sejam significativamente diferentes de zero ou que tenham a variância explicativa menos alterada.

Na tabela 2 é possível analisar os coeficientes de correlação (que corresponde ao R) e de determinação (visto no R Square). O coeficiente de determinação permite-nos calcular a percentagem de variância explicada pelo modelo que por seu lado inferir a sua robustez. Utilizando o valor de R2 pode-se verificar que a variância explicada pelo modelo será de 46,6% logo o modelo não pode considerado robusto para estimação (para tal acontecer R2x100>=75%) e muito menos para previsão (R2x100>=85%).

Tabela 2 – Resumo dos dados principais do modelo

Também é necessário testar se o R da regressão é aceitável, pois se R=0 as variáveis são independentes. Para esse efeito utiliza-se o teste ANOVA a um nível de significância de 0,05. Como se verifica na tabela 3, a probabilidade de aceitar a hipótese R=0 é menor que o nível de significância, logo aceita-se a hipótese que R≠0, isto é, que as variáveis são dependentes.

Tabela 3 – Teste ANOVA

Na tabela 4 analisa-se os coeficientes da regressão e a constante através de um teste de hipóteses, em que a leitura é semelhante à da tabela anterior pois o nível de significância é o mesmo. É possível ver que o coeficiente da variável NO é considerado zero, logo deverá ser eliminado.

Tabela 4 – Teste aos coeficientes do modelo

Através deste método não é possível analisar porque razão não pode ser utilizado um modelo de regressão linear com apenas 2 variáveis, o que parece viável tendo em conta a conclusão a que se chegou em relação ao coeficiente da variável NO.

Para tentar perceber as outras possibilidades utiliza-se o método forward. Este faz um modelo para a variável independente e vai acrescentando variáveis dependentes, ao modelo, por ordem decrescentes de coeficientes de correlação.
Podem ser analisados na tabela 5 os coeficientes de correlação, de determinação e a robustez dos vários modelos obtidos. De todos estes, o modelo mais robusto é o 3, visto que é o que tem o maior coeficiente de determinação.

Tabela 5 – Resumo dos três modelos obtidos

Analisando os resíduos dos 3 modelos obtidos na tabela 6, pode concluir-se que para qualquer um deles o R é aceitável e que em nenhum dos casos se considera que as variáveis sejam independentes (em todos os casos a probabilidade de aceitar R=0 é menor que 0,05).

Tabela 6 – Teste ANOVA aos resíduos dos modelos

Através da análise dos coeficientes das variáveis e das constantes nos vários modelos verifica-se que nenhum deve ser eliminado excepto o coeficiente do NO no último modelo. No entanto este modelo é o que deve ser considerado. Este facto pode ser explicado tendo em conta os coeficientes de determinação e a percentagem de variância explicada pelo modelo. Como o terceiro modelo é mais robusto, este factor prevalece sobre a possibilidade de considerar o coeficiente do NO igual a zero (que é o indicado na tabela 7).

Tabela 7 – Teste aos coeficientes dos modelos

Na tabela que se segue são expostas as variáveis excluídas em cada um dos modelos.

Tabela 8 – Variáveis excluídas

Ao analisar os resultados obtidos com ambos os métodos constatou-se que apenas diferiam no número de modelos apresentados, mas os resultados dos parâmetros em estudo de cada modelo eram idênticos, assim foi considerado válido o modelo que não excluía nenhuma das variáveis (o único obtido pelo método de backward e o terceiro obtido pelo método de forward).

Já tendo o modelo escolhido é necessário verificar a existência de outliers, eliminando-os caso existam.
Outliers são dados considerados anormais porque estão 3 vezes o desvio padrão do erro acima ou abaixo da média dos erros. Neste caso o desvio padrão do erro era de 13,77322 logo são considerados outliers todos os valores superiores a 41,34966 ou inferiores a -41,34966, uma vez que a médias dos erros é zero, como pode ser visto na tabela 9.

Tabela 9 – Elementos estatísticos dos erros do modelo de regressão

Neste modelo foram encontrados quatro outliers que se eliminaram.

Após excluir os outliers voltou-se a fazer a regressão linear obtendo-se novos valores.

Com a eliminação dos outliers é visível um aumento dos valores dos coeficientes de correlação e determinação, o que implica uma maior percentagem de variância explicada (52,5%), logo uma maior consistência deste. (Tabela 10)

Tabela 10 – Resumo dos dados principais do modelo

Verifica-se na tabela 11 que o R continua a ser aceitável e que a probabilidade de aceitar R=0 continua a ser inferior ao nível de significância logo as variáveis não são independentes.

Tabela 11 – Teste ANOVA

Os coeficientes das variáveis e a constante deste novo modelo apresentam sempre um valor diferente de zero, tendo em conta o resultado do teste de hipótese apresentado na tabela 12. Pode-se tirar esta conclusão pois nenhuma das probabilidades de se considerar algum dos coeficientes ou a constante nulos é superior a 0,05 (nível de significância).

Tabela 12 – Teste aos coeficientes do modelo

Repetiu-se a identificação de outliers, que desta vez eram valores acima de 36,47868 e abaixo de -36,47868, pois o desvio padrão era 12,15956. Não foram encontrados outliers pelo que se considerou este o melhor modelo.

Tabela 13 – Elementos estatísticos dos erros do modelo de regressão

Para verificar a robustez do modelo é necessário proceder á análise dos erros, e estes têm que obedecer a quatro condições: a sua média terá de ser igual a zero, o gráfico dos valores estimados e do erro padrão não deve ter qualquer tipo de padrão, assim como o gráfico dos erros residuais por ordem de data, e a distribuição de probabilidade dos erros deve ser normal.
A primeira condição já havia sido identificada anteriormente na Tabela 13.
Pela análise do gráfico dos valores estimados pelo erro padrão (Fig.1) verifica-se que não existe qualquer tipo de padrão, e o mesmo acontece com o gráfico dos erros residuais pelas datas (Fig.2).

Figura 1 – Gráfico dos valores estimados pelo erro padrão


Figura 2 – Gráfico dos erros residuais pelas datas


A normalidade da distribuição de probabilidades dos erros é verificada pelo teste de Probability Plot (Fig.3).

Figura 3 – gráfico do teste Probability Plot

Tendo-se verificado as condições conclui-se que este é um modelo que deve ser escolhido.


2ª Parte – Análise em componentes principais

Pretende-se agora realizar uma análise em componentes principais aos dados de PM10, NO2, NO e CO das 6 estações já referidas na introdução e que estão descritas mais pormenorizadamente abaixo:
Þ
Avenida da Liberdade: está localizada na Área Metropolitana de Lisboa, conselho de Lisboa, freguesia de São José. Esta é uma zona de comércios, hotéis, teatros, universidades e escritórios, onde circulam diariamente milhares de pessoas a pé e de transportes, sendo assim uma das avenidas com maior tráfego automóvel da cidade pelo que quanto ao tipo de influência se considera de tráfego (b). [10]
Þ
Entrecampos: situa-se na Área Metropolitana de Lisboa Norte, concelho de Lisboa, freguesia de Nossa Senhora de Fátima. A zona de Entrecampos é uma zona urbana, com uma grande actividade pois é uma zona relativamente central da cidade de Lisboa. Como tal esta estação quanto ao tipo de influência que sofre pode ser considerada de tráfego (b).
Þ
Olivais: pode ser localizada na Área Metropolitana de Lisboa Norte, concelho de Lisboa, freguesia de Santa Maria dos Olivais. A zona dos Olivais é uma zona urbana, caracterizando-se por áreas de habitação, comércio e serviços, e também uma zona que sofreu a influência da construção do Parque das Nações. Quanto ao tipo de influência é considerada uma estação de fundo (a).
Þ
Reboleira: localiza-se na Área Metropolitana de Lisboa Norte, no conselho da Amadora, freguesia da Reboleira. Esta é uma zona de aglomeração urbana, formada essencialmente por áreas de habitação, comércio e alguns serviços básicos, tendo ainda alguns espaços de verdes e de lazer e um Parque Urbano. Em termos de influência é uma estação de fundo (a). [9]
Þ
Loures: situa-se na Área Metropolitana de Lisboa Norte, concelho e freguesia de Loures. Esta é uma zona urbana, com um alto cariz habitacional, pois situa-se na periferia da capital, podendo ser considerada uma zona “dormitório”. Pelo tipo de influência que sofre pode ser considerada uma estação de fundo (a).
Þ
Restelo: localiza-se na Área Metropolitana de Lisboa Norte, conselho de Lisboa, freguesia de São Francisco Xavier. É uma zona urbana na margem do Tejo, maioritariamente habitacional com estabelecimentos comerciais e algumas infraestruturais administrativas, não tendo complexos industriais. Pelo tipo de influência que sofre considera-se uma estação de fundo (a). [11]

(a)Estação de fundo é uma estação que não está sujeita a influência directa de nenhuma fonte de poluição e é representativa de uma área abrangente.
(b)Estação de tráfego mede essencialmente as emissões dos veículos, numa área de apenas algumas centenas de metros.
(c)Estação industrial é uma estação que monitoriza uma área sujeita a influência de industrias.

Uma análise em componentes principais tem por objectivos a identificação da estrutura de um determinado conjunto de variáveis assim como a simplificação destes mesmos.
Para se realizar este procedimento deve-se começar por escolher o tipo de matriz que se vai usar.
Normalmente a matriz de covariância é preferida à matriz de correlação, mas a primeira só é valida quando as variáveis utilizadas têm as mesmas unidades e a mesma ordem de grandeza. A matriz de correlação deve ser utilizada quando uma destas duas condições não se verifica.
Neste caso as unidades são as mesmas, no entanto, a ordem de grandeza é um pouco variável (entre as dezenas e os milhares). Contudo esta variação não é tão elevada que não se possa utilizar uma matriz de covariância, considerando que não são significativas as ligeiras diferenças entre as ordens de grandeza.
Então, utilizando a matriz de covariância, gerou-se um modelo que resultou de um conjunto de operações matriciais. O resultado pode ser observado na tabela seguinte (tabela 14) e considera-se que é necessário o número de componentes das quais a percentagem acumulada de variância explicada seja superior ou igual a 75%, pois é gerado um número de componentes igual ao número de variáveis.
Neste caso verifica-se que este valor é logo ultrapassado pela primeira componente e nestas situações considera-se que são necessárias duas componentes.
Nesta tabela também se encontram os valores próprios de cada componente que representam o poder explicativo de cada uma delas.

Tabela 14 – Valores próprios e percentagens de variância explicada

De seguida deve-se analisar qual das componentes explica melhor cada uma das variáveis utilizadas na análise. Para esse efeito foi gerada a tabela 15 da qual se retira que todas as variáveis são melhor explicadas pela 1ª componente uma vez que em todas elas o valor absoluto na 1ª componente é superior ao valor absoluto na 2ª componente.

Tabela 15 – Matriz das componentes

Para se detectar comportamentos semelhantes entre variáveis é necessário construir um gráfico com cada uma das componentes em cada um dos eixos. Este gráfico está na figura 4 e verifica-se que as variáveis estão todas aglomeradas. É também visível o que mesmo que se tinha visto na tabela anterior, que todas as variáveis são explicadas unicamente pela primeira componente.

Figura 4 – Gráfico das componentes

Da análise em componentes principais pode-se concluir que os valores dos poluentes PM10, NO2, NO e CO das 6 estações têm todos comportamentos semelhantes, o que não representa um comportamento muito diferente do que seria esperado, pois estes poluentes têm algumas origens comuns e também porque apesar das estações da Reboleira e de Loures se situarem na periferia de Lisboa têm um tipo de movimento (pelo menos a nível de tráfego, que é uma fonte comum a todos os poluentes) semelhante.


Conclusões gerais

Na primeira parte do trabalho pode-se concluir que qualquer um dos 3 poluentes utilizados como variáveis independentes (NO2, NO e CO) se relaciona com os valores de PM10 na estação da Escavadeira. No entanto, cada um deles tem um peso diferente na relação com PM10 sendo que o NO é o poluente que se relaciona menos com os valores de PM10.
Da segunda parte do trabalho pode-se concluir que todos os poluentes têm comportamentos semelhantes em todas as estações, o que se pode explicar pelo facto de apesar de espalhadas situam-se todas na Área Metropolitana de Lisboa, estando expostas ao mesmo tipo de influências e movimentos, logo apresentam dados com comportamentos idênticos.


Referências bibliográficas

[1] http://www.qualar.org/index.php?page=5&subpage=3

[2] http://pt.wikipedia.org/wiki/Polui%C3%A7%C3%A3o_atmosf%C3%A9rica

[3] http://www.qualar.org/index.php?page=5&subpage=4

[4] http://www.qualar.org/index.php?page=5&subpage=7

[5] http://www.qualar.org/index.php?page=5&subpage=8

[6] http://pt.wikipedia.org/wiki/Di%C3%B3xido_de_azoto

[7] http://it.wikipedia.org/wiki/PM10

[8] http://sig.cm-aveiro.pt/ambiria/Page.aspx?id=50

[9] http://www.cm-amadora.pt/web/_pdf/as08re.pdf

[10] http://pt.wikipedia.org/wiki/Avenida_da_Liberdade