quarta-feira, 6 de junho de 2007

Métodos de interpolação

Introdução

Este trabalho tem por objectivo o desenvolvimento de uma carta de precipitação de uma região do Sahel no Ocidental africano (região identificada na figura 1), a partir de um mapa vectorial apenas com os valores de precipitação para algumas estações nesta mesma zona.

Figura 1 – Mapa do Sahel [1]

Em Sistemas de Informação Geográfica, para atingir este objectivo utiliza-se uma metodologia, denominada interpolação. Esta metodologia consiste numa estimativa dos valores do atributo dos locais não amostrados, partindo de outros pontos dos quais se tem valores obtidos no terreno, na mesma zona para a qual pretendemos fazer a estimativa. A base da interpolação é a tendência que os valores de um atributo têm para ser mais semelhantes em zonas próximas e mais diferentes em zonas afastadas.
É então possível passar um conjunto de dados de amostragens ou observações, no formato vectorial, para um mapa contínuo, no formato raster (que é o formato mais utilizado quando se pretende comparar mapas, fazer operações de álgebra de mapas ou adicionar vários layers à mesma imagem). O mapa obtido tem várias utilidades, entre elas e provavelmente a mais importante, a sua utilização como base para apoiar processos de decisão espacial.
O conjunto de dados a analisar neste trabalho estão organizados na figura 2, apresentando por cada estação o valor da precipitação que foi medido nesta.

Figura 2 – Dados recolhidos no terreno

Analisando esta figura é notória uma tendência para que a quantidade de precipitação diminua de cima para baixo, o que revela que a precipitação (variável em análise) é direccional.

Para uma melhor análise a nível quantitativo do conjunto de dados recolhidos fez-se um histograma destes dados, que é apresentado na figura 3.

Figura 3 – Histograma dos dados recolhidos

Este histograma foi construído com base em 252 amostras e cada classe tem uma amplitude de 5mm, a média é de 148,345mm, o desvio padrão 42,055mm, o valor máximo de precipitação 228mm e o mínimo zero.
Analisando a forma do histograma pode-se considerar que é na zona entre os 160 e 180mm que se verifica maiores frequências, isto é, a quantidade de dados obtidos neste intervalo é superior à quantidade de dados obtidos noutras classes.

Com esta ideia aproximada da distribuição dos dados tanto no espaço como a nível estatístico pode-se proceder à interpolação, tendo sempre em conta que esta não dará uma superfície que exprima a realidade tal qual como ela é, mas sim uma estatística e uma aproximação dos valores reais. Esta margem de erro que existe na interpolação pode ser avaliada de várias formas, através de processos de validação por exemplo, e de uma forma menos rigorosa, através da comparação dos histogramas dos mapas obtidos entre si e com o histograma dos dados.


Métodos que podem ser utilizados na interpolação

Existem vários métodos que podem ser utilizados para interpolar uma imagem, sendo que cada um deles tem as suas vantagens e desvantagens e estão melhor ou pior adaptados a um determinado tipo de dados.

A primeira forma de interpolação a ser utilizada é a análise de tendências.
Este método é aproximado, global e estatístico, isto é, as tendências gerais dos dados são respeitadas e traduzidas por uma função para toda a área em estudo, que tem em conta a aleatoriedade da variável e avalia a superfície criada estatisticamente.
A análise de tendências consiste na adaptação de um polinómio aos dados que foram recolhidos, através de uma regressão múltipla dos valores do atributo em função da localização geográfica.
O método apresenta algumas vantagens como por exemplo os erros aleatórios encontrados em cada ponto de recolha de dados ser independente e o ajustamento ser dado por dados estatísticos, no entanto, só costuma produzir bons resultados quando a variável em estudo apresenta uma relação conhecida com outras variáveis e é muito sensível à existência de outliers.
Existem outras limitações inerentes à análise de tendências, como por exemplo o facto de um modelo polinomial produzir uma superfície arredondada, que depois não se verifica na realidade.

No caso em estudo realizaram-se análises de tendências com polinómios de graus diferentes, que geraram superfícies com variações ligeiramente diferentes como se pode observar nas figuras 4,5 e 6. Para obter estas figuras e o histograma no IDRISI utilizaram-se os seguintes comandos:

Figura 4 – Análise de tendências ajustada com polinómio de grau 1


Figura 5 – Análise de tendências ajustada com polinómio de grau 2


Figura 6 – Análise de tendências ajustada com polinómio de grau 3

Obtidas as superfícies, pode-se verificar que todas elas apresentam o mesmo comportamento direccional dos dados, mas que na superfície de grau 3 esse padrão já é um pouco mais complexo e não é tão contínuo como nas outras duas superfícies.


Outro método que pode ser utilizado é o inverso da distância pesada (IDW), em que o valor do ponto que se está a estimar é obtido fazendo uma média ponderada com os pontos mais próximos. Desta forma, quanto mais próximo estiver um ponto do ponto que se está a estimar maior será o seu peso e quanto mais afastado estiver, menor será o seu peso.
O IDW é um método local, pois aplica-se repetidamente a diversos subconjuntos de pontos do total de pontos amostrados; é um método determinístico uma vez que não utiliza nem a estatística nem a probabilidade; e finalmente é um método exacto visto que todos os pontos obtidos através de amostragem são respeitados e a superfície obtida passa por todos os pontos conhecidos.
Uma particularidade deste método é ser possível definir qual o peso da distância no cálculo da média ponderada através do expoente que é aplicado à distância (quanto maior for o expoente, maior é a influência da distância na média).

Para se implementar este método no IDRISI e o respectivo histograma utilizaram-se os seguintes comandos:

Neste caso específico foram calculadas as superfícies através deste método com a utilização de expoente 1 e expoente 2, como se pode verificar nas figuras 7 e 8.

Figura 7 – Inverso do peso da distância, expoente 1

Figura 8 – Inverso do peso da distância, expoente 2

Estas duas figuras apresentam algumas variações entre si, que no entanto não são muito acentuadas e como os mapas obtidos através da análise de tendências, apresentam o mesmo comportamento direccional revelado pelos dados, embora com formas mais acentuadas e menos suaves que as obtidas por análise de tendências.

Pode também ser utilizado como método de interpolação o chamado método dos polígonos de Thiessen. Este interpolador é local, determinístico e exacto, como o IDW e pelas mesmas razões.
Este método normalmente ajusta melhor dados nominais do que dados contínuos, como é o caso, uma vez que as alterações nas fronteiras dos polígonos são abruptas e todo o polígono fica com o valor que estava atribuído ao ponto que foi utilizado para calcular o polígono.
O cálculo dos polígonos depende da configuração dos pontos amostrais e é determinada a região mais próxima dum ponto, segundo um polígono de Thiessen ou um poliedro de Voronoi (como também são chamados).
Este método é robusto, mas não é sensível ao tipo de variável que está em estudo.
Para se utilizar este método no IDRISI é necessário seguir os seguintes passos:

Gerou-se uma superfície usando como interpolador os Polígonos de Thiessen que se encontra representada na figura 9.

Figura 9 – Polígonos de Thiessen

Como se pode observar na figura, o comportamento direccional mantém-se. Contudo para uma variável como a precipitação, que apresenta um comportamento muito mais continuo do que discreto, parece que os polígonos de Thiessen fornecem informação pouco detalhada e exacta, pois áreas significativas tomam um único valor de precipitação, o que não se adequa à realidade.

Existe ainda outro interpolador bastante utilizado denominado kriging. Este faz parte da modelação geoestatística que tem como base a premissa que pontos mais próximos no espaço tendem a ter valores mais parecidos que pontos mais afastados.
Este método assume a variabilidade aleatória que existe entre os vários pontos amostrais, estudando variáveis regionalizadas, isto é, variáveis que apresentam continuidade ponto a ponto mas que as mudanças entre eles são tão complexas que não pode ser descrita por nenhuma função determinista.
Para se verificar se a variável é regionalizada faz-se um variograma, a partir da semivariância. O variograma indica o nugget (quando a semivariância é muito reduzida), o sill (patamar a que a semivariância estabiliza) e o range (distância a partir da qual se atinge o sill e já não se pode considerar o modelo válido). O variograma também pode indicar se a variável é anisotrópica (quando a variável tem comportamentos distintos segundo diferentes direcções).
O kriging baseia-se numa média ponderada que atribui pesos aos pontos conhecidos, através dos valores de semivariância que estes apresentam.
Este interpolador tem várias vantagens porque os erros de estimação apresentam a variância mínima, é linear (as suas estimativas são combinações lineares dos dados conhecidos) e não enviezada (tenta que a média dos erros seja nula).

Para avaliar se a variável em estudo é regionalizada ou não fez-se o variograma da precipitação na região do Sahel. Para construir o variograma ajustado aos dados da precipitação seguiram-se os seguintes comandos no IDRISI:

O variograma da precipitação na região em estudo é apresentado na figura 10, juntamente com a nuvem dos resíduos.

Figura 10 – Variograma e nuvem dos resíduos

Pela nuvem dos resíduos pode-se constatar que os dados apresentam realmente um comportamento direccional logo o variograma que vai ser calculado deve ter em conta esse aspecto.
Do variograma obtido apenas interessam os pontos e devem ser retirados 3 valores que serão essenciais para o ajuste de um modelo ao variograma. Esses 3 valores correspondem ao nugget (ou efeito pepita) que é de 270, ao sill que toma o valor de 550 e ao range que é de 200. Estes são os valores que serão utilizados para ajustar um modelo aos pontos. A figura 11 traduz esse ajuste.

Figura 11 – Variograma ajustado

O modelo que foi utilizado foi o Gaussiano e como se pode verificar este modelo apenas ajusta o conjunto dos dados até ao valor do range, logo para pontos a distâncias superiores a 200 este modelo não é efectivo e não tem um bom ajuste.

Depois de se confirmar que a variável é regionalizada e anisotrópica, procede-se com o kriging, seguinto os passos abaixo descritos no IDRISI e deste procedimento resultam dois mapas.

O primeiro mapa (figura 12) representa a distribuição da precipitação na área pretendida, o segundo (figura 13) representa o erro associado a cada zona do mapa de precipitação, portanto as zonas em que o modelo gerado através de kriging está mais ajustado.

Figura 12 – Kriging


Figura 13 – Mapa dos erros associados ao kriging

Analisando o mapa de precipitação mantém-se o comportamento direccional dos dados, como seria de esperar e a superfície é suave. O mapa dos erros permite verificar que no canto superior esquerdo o erro é muito elevado, logo aquela zona do mapa não estará muito ajustada. Também é possível verificar que as zonas com maior erro são zonas em que a densidade de pontos com valores conhecidos é menor, logo existe menos informação por onde estimar a superfície de distribuição da precipitação.


Análise comparativa dos resultados de cada método

Tendo obtido quatro mapas de interpolação diferentes para os mesmos dados, é necessário agora compará-los, bem como aos histogramas resultantes de cada mapa, com os dados recolhidos para determinar a qualidade de cada método neste caso.


O primeiro método foi a análise de tendências, em que se obterem três mapas distintos ajustados com grau 1, 2 e 3 do polinómio.
No caso da análise de tendências ajustada com polinómio de grau pode ver-se que os valores (Fig.4) seguem a mesma distribuição direccional dos dados recolhidos (Fig.5), aumentando da parte inferior do mapa para o cimo. Analisando os dois histogramas (Figs.3 e 14) verificamos que aqui existem muitas discrepâncias, nos dados recolhidos ocorrem variações acentuadas em relação á quantidade de valores que se tem para cada nível de precipitação, sendo os valores entre 160 e 180mm aqueles em que a frequência de dados é maior; no caso do histograma da analise de tendências com polinómio de grau 1 apresenta mais ou menos a mesma frequência para todos os valores de precipitação entre 43 e 203mm aproximadamente, sendo esta progressivamente menor para precipitações acima e abaixo destes valores. Isto seria de esperar tendo em conta que no mapa os valores se distribuem de forma quase regular, para os valores intermédios de precipitação, sendo as áreas de valores extremos mais reduzidas.

Figura 14 – Histograma da análise de tendências ajustada com polinómio de grau 1


No mapa da analise de tendência com polinómio de grau 2 (Fig.5) tem-se uma distribuição um pouco mais distinta da do mapa dos dados (Fig.2), sendo que aos valores de precipitação em cada um dos mapas não correspondem bem à mesma área, porém mantêm a mesma direcção,
aumento dos valores de baixo para cima. Na análise dos histogramas (Figs.3 e 15) podemos ver que embora em ambos as frequências dos dados estejam a aumentar, os valores que não correspondem um ao outro, neste caso os valores de precipitação com maior frequência estão entre 170 e 190mm, ou seja um pouco superiores aos valores medidos.

Figura 15 – Histograma da análise de tendências ajustada com polinómio de grau 2

Por ultimo na analise de tendências com ajustamento a polinómio de grau 3 temos um mapa (Fig.6) com um padrão mais complexo do que os anteriores, mas que segue a mesma direcção porém de forma menos continua; este é dos três mapas aquele cuja distribuição mais se assemelha com a do mapa de dados (Fig.2), pois este também não tem uma distribuição tão contínua nem uniforme como os outros mapas fazem crer. Nos histogramas as semelhanças já não são assim tantas, enquanto que nos dados a frequência dos valores vai aumentando á medida que a precipitação aumenta, neste (Fig.16) existem dois picos de frequência, um entre os 144 e 164mm aproximadamente e o outro entre os 164 e os 184mm aproximadamente; é de notar que este ultimo corresponde a valores de precipitação muito próximos daqueles em que a frequência é maior no dados (160 e 180mm).

Figura 16 – Histograma da análise de tendências ajustada com polinómio de grau 3

Com o método do inverso da distância pesada obtiveram-se dois mapas sem diferenças muito significativas, um para exponente 1 (Fig.7) e outro para exponente 2 (Fig.8), com superfícies que seguem o mesmo comportamento direccional dos dados, embora de forma mais acentuada e menos suave. Os padrões são muito semelhantes aos das análises de tendências. Em comparação com os dados recolhidos o seu padrão é mesmo muito idêntico, revelando até valores de precipitação isolados no meio de outros diferentes.

Os seus histogramas (Figs.17 e 18) também são bastante semelhantes entre si, e com o histograma dos dados recolhidos (Fig.3). Em todos eles a maior frequência de dados obtidos está entre valores de precipitação de 160 e 180mm, sendo menores para valores mais baixos e mais altos, mas com algumas oscilações.

Figura 17 – Histograma do inverso do peso da distância com exponente 1


Figura 18 – Histograma do inverso do peso da distância com exponente 2

Outro método usado foi o dos polígonos de Thiessen, com o qual obtemos um mapa (Fig.9) com uma superfície bastante descontínua e discreta que atribui valores todos iguais a uma área á volta dum ponto com valor conhecido. Porem comparando-o com o mapa dos dados recolhidos é bem visível que segue a mesma direcção e um padrão algo semelhante.

Comparando o histograma referente a este método (Fig.19) com o dos dados recolhidos, as semelhanças são muito poucas, desta forma o mais sensato será assumi-las insignificantes.

Figura 19 – Histograma dos polígonos de Thiessen

O último método utilizado foi o Kriging, que fornece a informação em dois mapas, um do modelo (Fig.12) e outro dos erros a ele associados (Fig.13). Porém para a análise comparativa apenas nos interessa o modelo, que é dado como uma superfície suave, bastante semelhante ao modelo de análise de tendências, mas neste caso descontínua. Comparando-o com o mapa dos valores recolhido verifica-se que segue o mesmo comportamento direccional e tem uma distribuição muito semelhante.

Olhando para os histogramas, o dos dados recolhidos (Fig.3) e o do modelo (Fig.20), verifica-se que em termos de aspecto têm algumas semelhanças, contudo com uma análise pormenorizada verifica-se que isto não é verdade. No modelo a maior frequência dos dados ocorre para valores de precipitação da ordem dos 170 / 190mm, ou seja um pouco superiores aos valores em que as frequências são maiores nos dados recolhidos.

Figura 20 – Histograma do Kriging

Para validar a interpolação recorre-se a um conjunto de pontos de coordenadas e valores de precipitação conhecidos no mapa dos dados recolhidos e, a partir deles determinamos o seu valor de precipitação em cada mapa de cada método. Através desses valores criamos uma matriz de validação feira (Fig.21) que nos permite analisar os erros de cada modelo.

Tabela 1 – Matriz de validação

Pela análise desta tabela verifica-se que o método que apresenta maior erro médio, 643.666667, é o método dos polígonos de Thiessen, isto deve-se ao facto de se atribuírem a uma determinada área, em redor dum ponto de valor conhecido, o mesmo valor desse ponto. Assim ao verificar um valor de um ponto, por este modele, ele será igual ao valor do ponto que lhe estiver mais próximo, e não tem em conta que possa ser ligeiramente diferente.

Por outro lado o método do inverso do peso da distância de exponente 2 é aquele em que o erro médio é menor, 106.333333, isto porque este método atribui a um ponto cujo valor não se conhece um valor médio ponderado de todos os pontos á sua volta, desta forma continua a persistir a maior influencia dos pontos mais próximos, mas o ponto que se pretende determinar apresentará um valor diferente deles, o que minimiza as discrepâncias entre os valores estimados e os valores medidos.


Escolha do modelo mais apropriado

Perante todos estes modelos é necessários escolher aquele, que pelas suas características, melhor se adequa ao nosso estudo. Assim é necessário que o modelo cumpra com alguns requisitos.

Sendo a precipitação uma variável com uma distribuição relativamente continua é de esperar que o mapa de interpolação, feito através dos dados das estações de monitorização, também o seja. É também de esperar que este apresente um padrão de distribuição e uma direcção semelhante aos dados, neste caso valores de precipitação que em geral aumentam de cima para baixo.

Outro aspecto importante a considerar, agora em temos de histograma, é frequência dos valores, que devem ser semelhantes, embora em ordens de grandeza diferentes, tanto no histograma dos dados recolhidos como no histograma do modelo de interpolação.

Por fim é necessário verificar o valor dos erros médios, que devem ser o mais pequeno possível, isto para que os valores dos pontos no mapa interpolado sejam o mais parecido possível com os valores recolhidos nesses pontos.

Desta forma, embora muitos possam satisfazer uma ou mais condições, apenas num dos modelos podem verificar-se todas estas condições. Reconhece-se assim como mais apropriado o método do inverso da distância pesada com exponente 2, uma vez que nele se verificam todas as condições necessárias para se considerar um bom modelo de interpolação.

Todos os outros métodos apresentam uma ou outra condicionante que não lhe confere uma boa adaptação a este caso. A análise de tendências dá uma superfície muito suave e não tem em conta ou outliers, os polígonos de Thiessen não são apropriados para variáveis contínuas e por isso levavam a um erro médio bastante elevado, e o Kriging gera erros associados na zonas em que a densidade de pontos é menor.


quinta-feira, 24 de maio de 2007

Amostragem sobre mobilidade

Com este trabalho tem-se por objectivo determinar a média de carros que circula na Avenida Columbano Bordalo Pinheiro, na zona em que esta passa por baixo da estação de comboios de Sete Rios e do cruzamento com a Rua de Campolide, por semana entre as 8h e as 21h. O ponto em que foi controlado o volume de tráfego está assinalado na figura 1 e na figura 2 com uma circunferência vermelha e o local de observação onde se fizeram as contagens está representado na figura 3.

Figura 1 – Mapa da zona de Sete Rios


Figura 2 – Vista aérea da zona de Sete Rios


Figura 3 – Fotografia do ponto de contagem

A Avenida Columbano Bordalo Pinheiro une um dos nós do Eixo Norte-Sul, onde também se juntam a Estrada de Benfica e a Rua das Furnas à Avenida dos Combatentes na zona da Praça de Espanha e à Avenida Calouste Gulbenkien. Na zona da estação de Sete Rios sofre uma bifurcação, onde se inicia a Rua de Campolide.

A zona da avenida escolhida para contabilização do tráfego tem apenas um sentido (Eixo Norte-Sul – Praça de Espanha), que de certa forma liga uma zona mais periférica da cidade a uma zona mais central. Como tal, espera-se que o tráfego seja mais intenso nas horas da manhã do que durante o resto do dia, embora também seja de esperar um volume de carros significativos à hora de ponta à tarde.


Na seguinte tabela apresenta-se o número de carros contados nesta via a diferentes horas, de diferentes dias.

Tabela 1 – Amostras

Data

Dia da semana

Hora inicial

Hora final

Contagem

15/05/07

3ª Feira

08h03

08h13

235

16/05/07

4ª Feira

11h54

12h04

301

17/05/07

5ª Feira

08h34

08h44

516

17/05/07

5ª Feira

16h32

16h42

350

18/05/07

6ª Feira

16h44

16h54

328

19/05/07

Sábado

10h34

10h44

219

19/05/07

Sábado

14h52

15h02

245

20/05/07

Domingo

11h37

11h47

160

20/05/07

Domingo

17h18

17h28

187

21/05/07

2ª Feira

09h13

09h23

511

A partir destas contagens procedeu-se à determinação dos valores de desvio padrão para verificar se se trata de uma mostra aleatória simples ou estratificada. Tem-se assim a seguinte tabela para estes valores.

Tabela 2 – Desvios padrão

Desvio padrão dos dias úteis

37.07986875

Desvio padrão dos dias de fim-de-semana

115.129058

Desvio padrão total

124.887327

Analisando a tabela verifica-se que os desvios padrão dos dias úteis e dos dias de fim de semana são menores do que o desvio padrão de todas as contagens, isto permite concluir que a variabilidade dentro dos vários subgrupos é inferior á variabilidade no total da população. Verifica-se também que o desvio padrão dos dias de semana é muito maior do que o dos dias úteis, ou seja um dos subgrupos tem maior variabilidade do que o outro. Estes dois factores levam a concluir que o tipo de amostragem que melhor se adequa a esta amostra é a estratificada, tendo dois estratos correspondentes aos dias úteis e de fim-de-semana.

Desta forma assumindo uma margem de erro (d) de 36 carros, um nível de confiança (1-α) de 90% e tendo em conta os valores da tabela 3 obtêm-se, através da fórmula abaixo, aproximadamente 10 amostras na população total (n). Destas 6 pertencentes ao estrato dos dias úteis e 4 ao dos dias de fim-de-semana.

Tabela 3 – Dados para os cálculos do número de amostras a utilizar

Z

1,645

Peso_du

5/7 = 0.714285714

Peso_fds

2/7 = 0.285714286

α

0,1


Visto isto pode-se então preceder ao cálculo das médias relativas a cada estrato.


E analisando os resultados verifica-se que, como era de esperar pelas contagens, em média passam mais carros durante os dias de semana do que durante o fim-de-semana.

Porém o que se pretende é a média de carros que passam independentemente do dia da semana.



Sabendo que este é o numero médio que passa em 10 minutos num qualquer dia da semana é necessário estabelecer uma relação para determinar a média diária no intervalo de tempo entre as 8h e as 21h. Desta forma sabendo que esse intervalo corresponde a 13 horas, o que significa 780 minutos por dia, ou seja, 5460 minutos por semana.

Conclui-se assim que em média passam 177294 carros por semana entre as 8h e as 21h neste troço da Avenida Columbano Bordalo Pinheiro.

quinta-feira, 10 de maio de 2007

Análise Estatística de Poluição Atmosférica

Introdução

Este trabalho tem como objectivo o tratamento estatístico de dados obtidos em algumas das estações de monitorização da qualidade do ar do Instituto do Ambiente e a sua posterior interpretação.
Entende-se por qualidade do ar o nível de poluição deste, sendo que quanto menores e menos nocivos forem os poluentes existentes no ar, maior é a sua qualidade. Contudo a qualidade do ar não depende apenas dos poluentes, mas também do local onde estão a ser emitidos e das condições atmosféricas, por exemplo. [1]
A poluição do ar pode ter diversas consequências tanto no ser humano como no meio que o rodeia. Os poluentes atmosféricos podem provocar um aumento de doenças, principalmente respiratórias e cardíacas. Também as plantas são afectadas por determinados poluentes, que podem tanto reduzir a sua capacidade fotossintética como afectá-las através da contaminação dos solos. Para além dos seres vivos, algumas rochas, monumentos e construções humanas podem sofrer os efeitos nocivos destes poluentes. [2]
Como a qualidade do ar é uma forma de avaliar a poluição atmosférica é importante saber que o índice de qualidade do ar é calculado através dos valores de monóxido de carbono, dióxido de azoto, dióxido de enxofre, ozono e partículas finas (PM10). [3]
No entanto, neste trabalho apenas se vai trabalhar os valores de monóxido de carbono, dióxido de azoto, partículas finas e ainda de monóxido de azoto. Com estes dados, pretende-se saber se é possível estabelecer uma relação entre os valores de PM10 e os valores dos outros poluentes na estação de monitorização da Escavadeira.
PM10 é a forma de denominar as partículas microscópicas de material sólido, fumo, poeiras e vapor condensado que existem no ar com tamanho inferior a 10µm. Existem diversas fontes deste poluente tanto naturais (como por exemplo a erosão dos solos, o sal marinho, erupções vulcânicas e o pólen) como humanas (por exemplo o tráfego, a indústria, as obras de construção civil e até alguns processos agrícolas). Este poluente primário será o principal responsável pelo aumento das doenças respiratórias uma vez que quando as partículas são inaláveis podem-se alojar no sistema respiratório, danificando-o. Também afectam as plantas, obstruindo os estomas e condicionando assim as suas trocas gasosas. As construções humanas podem ser também afectadas, principalmente as tintas. [4], [5], [7]
O monóxido de carbono é um poluente primário (é emitido directamente da fonte para a atmosfera) inodoro e incolor. Tem como origem as indústrias e o tráfego, principalmente veículos sem catalisadores. Este composto tem uma maior afinidade com a hemoglobina (proteína responsável pelo transporte de oxigénio pelo corpo, existente em moléculas específicas – glóbulos vermelhos – que constituem o sangue) que o oxigénio. Portanto afecta principalmente o sistema cardiovascular e o sistema nervoso. Em concentrações baixas causa problemas normalmente a pessoas com doenças cardiovasculares, em concentrações mais elevadas os sintomas de intoxicação são tonturas, dor de cabeça, fadiga e sonolência e finalmente, quando em concentrações extremas pode conduzir a uma morte por envenenamento. [4], [5]
O dióxido de azoto é um poluente primário emitido pela indústria, pois resulta da queima de combustíveis a temperaturas elevadas e pelo tráfego. Pode ser detectado pela sua cor castanha clara (em concentrações baixas) ou por uma brisa castanha com cheiro forte e irritante (quando em concentrações elevadas). Pode afectar a saúde pública quando em elevadas concentrações, provocando doenças respiratórias, principalmente em crianças ou doentes asmáticos. Também pode ser bastante prejudicial para o ambiente visto que é um agente acidificante, integrando fenómenos como as chuvas ácidas. [4], [5], [6]
O monóxido de azoto é também um poluente primário com origem no tráfego e na indústria. Nas suas concentrações normais na atmosfera não é nocivo e é um gás que não é facilmente detectado pois é inodoro e incolor. Nas condições propícias pode dar origem ao dióxido de azoto por oxidação, sendo esse um poluente bem mais tóxico. Com condições meteorológicas favoráveis pode também reagir com compostos orgânicos voláteis dando origem a ozono, outro poluente. [8]
Neste trabalho, serão analisadas 7 estações relativamente a estes poluentes, pertencentes à rede de qualidade de ar de Lisboa e Vale do Tejo e são: Avenida da Liberdade, Entrecampos, Olivais, Reboleira, Loures, Restelo e Escavadeira. Esta funcionará como principal estação na primeira parte do trabalho em que se procurará o melhor modelo explicativo da relação dos poluentes. Na segunda parte do trabalho serão utilizadas as outras estações numa análise em componentes principais.


1ª Parte – Regressão linear

Escavadeira
A estação da Escavadeira está situada na Área Metropolitana de Lisboa Sul, conselho do Barreiro, freguesia do Barreiro. Esta é uma zona de indústrias e habitações, sendo considerada industrial pelo tipo de influência.

Com os dados obtidos nesta estação estabeleceu-se uma matriz de correlação entre as variáveis quantidades medidas de Partículas <10µm,>Dióxido de Azoto, Monóxido de Carbono e Monóxido de Azoto (tabela 1).
Os dados obtidos na tabela 1 permitem, entre outras coisas, determinar a correlação existente entre as diferentes variáveis pelos valores da correlação de Pearson, neste caso em concreto interessa verificar qual a variável independente (NO2, NO e CO) que mais se correlaciona com a variável dependente (PM10). As variáveis cujo este valor seja maior são aquelas em que a correlação é melhor, ou seja, o NO2 que tem 0,636.
Através desta matriz também é possível verificar a correlação das variáveis independentes entre si, o que é importante pois duas variáveis independentes com correlação elevada não vão ser utilizadas as duas na regressão linear, mas apenas uma delas. Pela análise da matriz pode-se verificar que não existem valores de correlação muito elevados entre estas variáveis, o que faz prever um modelo de regressão com as três variáveis independentes.

Tabela 1 – Matriz de correlação

Em seguida procedeu-se a uma regressão linear testando-se várias hipóteses até se encontrar o modelo que melhor explique a relação entre estes poluentes, considerando-se sempre como variável dependente PM10 e como variáveis independentes os seguintes poluentes: NO2, NO e CO.
Para a regressão linear existem dois métodos que podem ser utilizados o backward e o forward, que obtêm de maneira diferente os modelos de regressão linear.
O método backward faz um modelo com todas as variáveis independentes em relação à variável dependente que se pretende calcular e vai eliminando aquelas cujos coeficientes não sejam significativamente diferentes de zero ou que tenham a variância explicativa menos alterada.

Na tabela 2 é possível analisar os coeficientes de correlação (que corresponde ao R) e de determinação (visto no R Square). O coeficiente de determinação permite-nos calcular a percentagem de variância explicada pelo modelo que por seu lado inferir a sua robustez. Utilizando o valor de R2 pode-se verificar que a variância explicada pelo modelo será de 46,6% logo o modelo não pode considerado robusto para estimação (para tal acontecer R2x100>=75%) e muito menos para previsão (R2x100>=85%).

Tabela 2 – Resumo dos dados principais do modelo

Também é necessário testar se o R da regressão é aceitável, pois se R=0 as variáveis são independentes. Para esse efeito utiliza-se o teste ANOVA a um nível de significância de 0,05. Como se verifica na tabela 3, a probabilidade de aceitar a hipótese R=0 é menor que o nível de significância, logo aceita-se a hipótese que R≠0, isto é, que as variáveis são dependentes.

Tabela 3 – Teste ANOVA

Na tabela 4 analisa-se os coeficientes da regressão e a constante através de um teste de hipóteses, em que a leitura é semelhante à da tabela anterior pois o nível de significância é o mesmo. É possível ver que o coeficiente da variável NO é considerado zero, logo deverá ser eliminado.

Tabela 4 – Teste aos coeficientes do modelo

Através deste método não é possível analisar porque razão não pode ser utilizado um modelo de regressão linear com apenas 2 variáveis, o que parece viável tendo em conta a conclusão a que se chegou em relação ao coeficiente da variável NO.

Para tentar perceber as outras possibilidades utiliza-se o método forward. Este faz um modelo para a variável independente e vai acrescentando variáveis dependentes, ao modelo, por ordem decrescentes de coeficientes de correlação.
Podem ser analisados na tabela 5 os coeficientes de correlação, de determinação e a robustez dos vários modelos obtidos. De todos estes, o modelo mais robusto é o 3, visto que é o que tem o maior coeficiente de determinação.

Tabela 5 – Resumo dos três modelos obtidos

Analisando os resíduos dos 3 modelos obtidos na tabela 6, pode concluir-se que para qualquer um deles o R é aceitável e que em nenhum dos casos se considera que as variáveis sejam independentes (em todos os casos a probabilidade de aceitar R=0 é menor que 0,05).

Tabela 6 – Teste ANOVA aos resíduos dos modelos

Através da análise dos coeficientes das variáveis e das constantes nos vários modelos verifica-se que nenhum deve ser eliminado excepto o coeficiente do NO no último modelo. No entanto este modelo é o que deve ser considerado. Este facto pode ser explicado tendo em conta os coeficientes de determinação e a percentagem de variância explicada pelo modelo. Como o terceiro modelo é mais robusto, este factor prevalece sobre a possibilidade de considerar o coeficiente do NO igual a zero (que é o indicado na tabela 7).

Tabela 7 – Teste aos coeficientes dos modelos

Na tabela que se segue são expostas as variáveis excluídas em cada um dos modelos.

Tabela 8 – Variáveis excluídas

Ao analisar os resultados obtidos com ambos os métodos constatou-se que apenas diferiam no número de modelos apresentados, mas os resultados dos parâmetros em estudo de cada modelo eram idênticos, assim foi considerado válido o modelo que não excluía nenhuma das variáveis (o único obtido pelo método de backward e o terceiro obtido pelo método de forward).

Já tendo o modelo escolhido é necessário verificar a existência de outliers, eliminando-os caso existam.
Outliers são dados considerados anormais porque estão 3 vezes o desvio padrão do erro acima ou abaixo da média dos erros. Neste caso o desvio padrão do erro era de 13,77322 logo são considerados outliers todos os valores superiores a 41,34966 ou inferiores a -41,34966, uma vez que a médias dos erros é zero, como pode ser visto na tabela 9.

Tabela 9 – Elementos estatísticos dos erros do modelo de regressão

Neste modelo foram encontrados quatro outliers que se eliminaram.

Após excluir os outliers voltou-se a fazer a regressão linear obtendo-se novos valores.

Com a eliminação dos outliers é visível um aumento dos valores dos coeficientes de correlação e determinação, o que implica uma maior percentagem de variância explicada (52,5%), logo uma maior consistência deste. (Tabela 10)

Tabela 10 – Resumo dos dados principais do modelo

Verifica-se na tabela 11 que o R continua a ser aceitável e que a probabilidade de aceitar R=0 continua a ser inferior ao nível de significância logo as variáveis não são independentes.

Tabela 11 – Teste ANOVA

Os coeficientes das variáveis e a constante deste novo modelo apresentam sempre um valor diferente de zero, tendo em conta o resultado do teste de hipótese apresentado na tabela 12. Pode-se tirar esta conclusão pois nenhuma das probabilidades de se considerar algum dos coeficientes ou a constante nulos é superior a 0,05 (nível de significância).

Tabela 12 – Teste aos coeficientes do modelo

Repetiu-se a identificação de outliers, que desta vez eram valores acima de 36,47868 e abaixo de -36,47868, pois o desvio padrão era 12,15956. Não foram encontrados outliers pelo que se considerou este o melhor modelo.

Tabela 13 – Elementos estatísticos dos erros do modelo de regressão

Para verificar a robustez do modelo é necessário proceder á análise dos erros, e estes têm que obedecer a quatro condições: a sua média terá de ser igual a zero, o gráfico dos valores estimados e do erro padrão não deve ter qualquer tipo de padrão, assim como o gráfico dos erros residuais por ordem de data, e a distribuição de probabilidade dos erros deve ser normal.
A primeira condição já havia sido identificada anteriormente na Tabela 13.
Pela análise do gráfico dos valores estimados pelo erro padrão (Fig.1) verifica-se que não existe qualquer tipo de padrão, e o mesmo acontece com o gráfico dos erros residuais pelas datas (Fig.2).

Figura 1 – Gráfico dos valores estimados pelo erro padrão


Figura 2 – Gráfico dos erros residuais pelas datas


A normalidade da distribuição de probabilidades dos erros é verificada pelo teste de Probability Plot (Fig.3).

Figura 3 – gráfico do teste Probability Plot

Tendo-se verificado as condições conclui-se que este é um modelo que deve ser escolhido.


2ª Parte – Análise em componentes principais

Pretende-se agora realizar uma análise em componentes principais aos dados de PM10, NO2, NO e CO das 6 estações já referidas na introdução e que estão descritas mais pormenorizadamente abaixo:
Þ
Avenida da Liberdade: está localizada na Área Metropolitana de Lisboa, conselho de Lisboa, freguesia de São José. Esta é uma zona de comércios, hotéis, teatros, universidades e escritórios, onde circulam diariamente milhares de pessoas a pé e de transportes, sendo assim uma das avenidas com maior tráfego automóvel da cidade pelo que quanto ao tipo de influência se considera de tráfego (b). [10]
Þ
Entrecampos: situa-se na Área Metropolitana de Lisboa Norte, concelho de Lisboa, freguesia de Nossa Senhora de Fátima. A zona de Entrecampos é uma zona urbana, com uma grande actividade pois é uma zona relativamente central da cidade de Lisboa. Como tal esta estação quanto ao tipo de influência que sofre pode ser considerada de tráfego (b).
Þ
Olivais: pode ser localizada na Área Metropolitana de Lisboa Norte, concelho de Lisboa, freguesia de Santa Maria dos Olivais. A zona dos Olivais é uma zona urbana, caracterizando-se por áreas de habitação, comércio e serviços, e também uma zona que sofreu a influência da construção do Parque das Nações. Quanto ao tipo de influência é considerada uma estação de fundo (a).
Þ
Reboleira: localiza-se na Área Metropolitana de Lisboa Norte, no conselho da Amadora, freguesia da Reboleira. Esta é uma zona de aglomeração urbana, formada essencialmente por áreas de habitação, comércio e alguns serviços básicos, tendo ainda alguns espaços de verdes e de lazer e um Parque Urbano. Em termos de influência é uma estação de fundo (a). [9]
Þ
Loures: situa-se na Área Metropolitana de Lisboa Norte, concelho e freguesia de Loures. Esta é uma zona urbana, com um alto cariz habitacional, pois situa-se na periferia da capital, podendo ser considerada uma zona “dormitório”. Pelo tipo de influência que sofre pode ser considerada uma estação de fundo (a).
Þ
Restelo: localiza-se na Área Metropolitana de Lisboa Norte, conselho de Lisboa, freguesia de São Francisco Xavier. É uma zona urbana na margem do Tejo, maioritariamente habitacional com estabelecimentos comerciais e algumas infraestruturais administrativas, não tendo complexos industriais. Pelo tipo de influência que sofre considera-se uma estação de fundo (a). [11]

(a)Estação de fundo é uma estação que não está sujeita a influência directa de nenhuma fonte de poluição e é representativa de uma área abrangente.
(b)Estação de tráfego mede essencialmente as emissões dos veículos, numa área de apenas algumas centenas de metros.
(c)Estação industrial é uma estação que monitoriza uma área sujeita a influência de industrias.

Uma análise em componentes principais tem por objectivos a identificação da estrutura de um determinado conjunto de variáveis assim como a simplificação destes mesmos.
Para se realizar este procedimento deve-se começar por escolher o tipo de matriz que se vai usar.
Normalmente a matriz de covariância é preferida à matriz de correlação, mas a primeira só é valida quando as variáveis utilizadas têm as mesmas unidades e a mesma ordem de grandeza. A matriz de correlação deve ser utilizada quando uma destas duas condições não se verifica.
Neste caso as unidades são as mesmas, no entanto, a ordem de grandeza é um pouco variável (entre as dezenas e os milhares). Contudo esta variação não é tão elevada que não se possa utilizar uma matriz de covariância, considerando que não são significativas as ligeiras diferenças entre as ordens de grandeza.
Então, utilizando a matriz de covariância, gerou-se um modelo que resultou de um conjunto de operações matriciais. O resultado pode ser observado na tabela seguinte (tabela 14) e considera-se que é necessário o número de componentes das quais a percentagem acumulada de variância explicada seja superior ou igual a 75%, pois é gerado um número de componentes igual ao número de variáveis.
Neste caso verifica-se que este valor é logo ultrapassado pela primeira componente e nestas situações considera-se que são necessárias duas componentes.
Nesta tabela também se encontram os valores próprios de cada componente que representam o poder explicativo de cada uma delas.

Tabela 14 – Valores próprios e percentagens de variância explicada

De seguida deve-se analisar qual das componentes explica melhor cada uma das variáveis utilizadas na análise. Para esse efeito foi gerada a tabela 15 da qual se retira que todas as variáveis são melhor explicadas pela 1ª componente uma vez que em todas elas o valor absoluto na 1ª componente é superior ao valor absoluto na 2ª componente.

Tabela 15 – Matriz das componentes

Para se detectar comportamentos semelhantes entre variáveis é necessário construir um gráfico com cada uma das componentes em cada um dos eixos. Este gráfico está na figura 4 e verifica-se que as variáveis estão todas aglomeradas. É também visível o que mesmo que se tinha visto na tabela anterior, que todas as variáveis são explicadas unicamente pela primeira componente.

Figura 4 – Gráfico das componentes

Da análise em componentes principais pode-se concluir que os valores dos poluentes PM10, NO2, NO e CO das 6 estações têm todos comportamentos semelhantes, o que não representa um comportamento muito diferente do que seria esperado, pois estes poluentes têm algumas origens comuns e também porque apesar das estações da Reboleira e de Loures se situarem na periferia de Lisboa têm um tipo de movimento (pelo menos a nível de tráfego, que é uma fonte comum a todos os poluentes) semelhante.


Conclusões gerais

Na primeira parte do trabalho pode-se concluir que qualquer um dos 3 poluentes utilizados como variáveis independentes (NO2, NO e CO) se relaciona com os valores de PM10 na estação da Escavadeira. No entanto, cada um deles tem um peso diferente na relação com PM10 sendo que o NO é o poluente que se relaciona menos com os valores de PM10.
Da segunda parte do trabalho pode-se concluir que todos os poluentes têm comportamentos semelhantes em todas as estações, o que se pode explicar pelo facto de apesar de espalhadas situam-se todas na Área Metropolitana de Lisboa, estando expostas ao mesmo tipo de influências e movimentos, logo apresentam dados com comportamentos idênticos.


Referências bibliográficas

[1] http://www.qualar.org/index.php?page=5&subpage=3

[2] http://pt.wikipedia.org/wiki/Polui%C3%A7%C3%A3o_atmosf%C3%A9rica

[3] http://www.qualar.org/index.php?page=5&subpage=4

[4] http://www.qualar.org/index.php?page=5&subpage=7

[5] http://www.qualar.org/index.php?page=5&subpage=8

[6] http://pt.wikipedia.org/wiki/Di%C3%B3xido_de_azoto

[7] http://it.wikipedia.org/wiki/PM10

[8] http://sig.cm-aveiro.pt/ambiria/Page.aspx?id=50

[9] http://www.cm-amadora.pt/web/_pdf/as08re.pdf

[10] http://pt.wikipedia.org/wiki/Avenida_da_Liberdade