Análise de Dados Experimentais I. Fundamentos de Estatística e Estimação de Parâmetros.
Autores: Marcio Schwaab e José Carlos Pinto
Editora: E-Papers (www.e-papers.com.br)
A história desse livro começa no segundo período de aulas do curso de Doutoramento do Programa de Engenharia Química do Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia da Universidade Federal do Rio de Janeiro (PEQ/COPPE/UFRJ), em Junho de 1987. Motivado pela necessidade de reduzir os tempos de desenvolvimento e confecção de teses de Mestrado e Doutorado e os custos dos trabalhos experimentais, o Prof. José Luiz Fontes Monteiro, da área de Cinética e Catálise – envolvido, portanto, com a manipulação de centenas de dados experimentais e esforços contínuos para caracterização de parâmetros cinéticos de reações químicas – propôs a dois alunos do curso “COQ878 – Problemas Especiais em Cinética e Reatores” (José Carlos Pinto e Marcos Wandir Nery Lobão) que desenvolvessem um projeto de disciplina visando à implementação de algumas rotinas de planejamento experimental para estimação ótima de parâmetros, descritas por Froment e Bischoff em um livro clássico da área de Cinética de Reações Químicas (“Chemical Reactor Analysis and Design“, G.F. Froment and K.B. Bischoff, 1st Ed., John Wiley & Sons, New York, 1979). O projeto foi aceito e então, à medida que os estudos avançaram, Zé Carlos, Zé Luiz e Marquinhos foram se entusiasmando com o tema. Começamos a sentir necessidade de aprofundar os conhecimentos e a verificar que muitas de nossas dúvidas e perguntas ainda não haviam sido respondidas pela literatura técnica. Pronto! Estava aberta uma linha de pesquisa da qual nunca mais nos afastamos. Durante esses primeiros momentos, foi extremamente importante observar que os parâmetros cinéticos obtidos para uma reação de desidrogenação de etanol a etanal, conduzido por Franckaerts e Froment (J. Franckaerts e G.F. Froment,“Kinetic Study of the Dehydrogenation of Ethanol“, Chemical Engineering Science, 19, 807-818, 1964), ao longo do qual foram coletados mais de 500 experimentos, poderiam ser reproduzidos com o mesmo nível de confiança estatística com não mais do que 25 experimentos (J.C. Pinto, M.W. Lobão e J.L. Monteiro, “Sequential Experimental Design for Parameter Estimation: a Different Approach”, Chemical Engineering Science, 45, 883-892, 1990). Do ponto de vista da estimação dos parâmetros, o ganho era simplesmente fantástico, de maneira que a isca foi mordida irreversivelmente.
Ao longo desses anos, muitas foram as aventuras no mundo da estimação de parâmetros e planejamento experimental. Tivemos a oportunidade de desenvolver novas técnicas e de formular aplicações em várias áreas afins à área de Engenharia Química, como na Química, na Biotecnologia, na Engenharia de Materiais, na Mecânica etc., sempre com resultados extremamente satisfatórios. No entanto, para nossa surpresa, sempre que uma nova oportunidade de aplicação aparecia, tínhamos que primeiramente convencer nossos interlocutores de que aquele conjunto de técnicas podia de fato ser útil para o trabalho por eles desenvolvidos. Alguns argumentos foram ouvidos com tanta freqüência, que merecem ser aqui discutidos:
Argumento 1: “Nada substitui o bom senso do experimentador!” Nada pode ser mais preconceituoso do que essa frase. Aliás, diz-se que a qualidade mais bem distribuída por Deus sobre a Terra foi exatamente o bom senso, pois todos acham que o têm em boa quantidade. Brincadeiras à parte, o certo é que não parece ser de bom senso a decisão de usar um conjunto de técnicas que podem ser colocadas num contexto matemático formal, onde pode ser provado que é possível minimizar erros de análise e maximizar a certeza das conclusões tiradas, já que essas duas propriedades são continuamente buscadas por quaisquer investigadores. Parece de bom senso, pois, utilizar o conjunto de técnicas aqui apresentadas. Creditamos esse primeiro argumento a uma certa postura conservadora que todos nós possuímos, em particular quando pensamos que algo que nunca usamos possa ter alguma utilidade. E o fato é que a disciplina de Estimação de Parâmetros e Planejamento de Experimentos é parte integrante de pouquíssimos currículos escolares, de forma que poucos são os investigadores que de fato tiveram a oportunidade de verificar formalmente as vantagens que esses conjuntos de técnicas podem proporcionar. Se você quer começar a ler esse livro, desarme-se e tenha espírito aberto!
Argumento 2: “Já usei estas técnicas e não alcancei qualquer resultado positivo!”
Nada pode doer mais no crente do que a descrença embasada. Como um crente como nós podemos convencer alguém a usar algo que não funcionou? Bom, a experiência acumulada ao longo desses anos tem mostrado que a freqüência com que se houve esse segundo argumento é bem maior do que a freqüência com que nos deparamos com problemas que não podem ser resolvidos e otimizados com o uso do conjunto de técnicas aqui apresentadas. Na realidade, com freqüência as técnicas aqui apresentadas e discutidas são usadas como caixas-pretas, onde se imagina que um conjunto de dados pode ser alimentado, resultando numa resposta ótima desejada. Nada mais falso do que esta expectativa, em parte vendida por nós crentes. Toda e qualquer resposta ótima fornecida pelo conjunto de técnicas aqui apresentadas depende de que certas hipóteses sejam satisfeitas. Por exemplo, às vezes é necessário que os erros tenham uma distribuição estatística particular, às vezes é necessário que o sistema se comporte linearmente (ou seja, que o efeito global possa ser obtido como uma soma dos efeitos causados por cada variável do problema), às vezes é necessário que as variáveis sejam medidas de forma independente etc. E como saber se essas hipóteses são satisfeitas pelo sistema estudado? Bom, supõe-se que o experimentador possa fornecer essas informações, o que nem sempre é verdade! Portanto, para sermos bem sucedidos é necessário que sejamos capazes de avaliar a qualidade das hipóteses feitas, o que significa que devemos estar cientes das hipóteses feitas e que devemos ser capazes de caracterizar de forma apropriada o processo de obtenção dos dados experimentais. Logo, essas técnicas não devem ser usadas como caixas-pretas, pois basta que uma das hipóteses seja falsa para que toda a utilidade da técnica seja desfeita! Esteja pronto para interagir com as técnicas aqui apresentadas e a verificar as hipóteses. Esse conjunto de técnicas não vai ter realmente nenhuma utilidade se você não estiver disposto a analisar as hipóteses e adequar o seu problema ao contexto correto.
Argumento 3: “Tem muita Matemática e eu preciso de algo prático!”
Esse é um argumento difícil de rebater, pois de fato tudo o que aqui será apresentado toma por base princípios de Cálculo, Álgebra e, principalmente, Estatística. Apesar disso, uma vez entendidas as hipóteses fundamentais em que se baseiam as técnicas, é possível aplicá-las como receitas bem estruturadas. Além disso, muito provavelmente você não vai ter que desenvolver qualquer rotina computacional para a sua aplicação, uma vez que vários grupos de pesquisa ao redor do mundo produzem continuamente pacotes computacionais cada vez mais sofisticados, onde resultados podem ser obtidos com o clicar de um mouse. E, se isso ainda não o convence a desenvolver a aplicação sozinho, por que não trabalhar em conjunto com um grupo capaz de tocar a tarefa matemática de forma apropriada?
E foi assim, desenvolvendo aplicações e simultaneamente ouvindo e questionando esses e outros argumentos ao longo desses 10 anos, que fomos amadurecendo a idéia de escrever esse livro. Hoje acreditamos que a gama de aplicações possíveis para as técnicas apresentadas nesse livro são infinitamente mais amplas do que o universo de aplicações sugere. Mais ainda, acreditamos sinceramente que todo investigador deveria ter a oportunidade de estudar formalmente essas técnicas já nos cursos de graduação como disciplina básica, tendo em vista que o horizonte de aplicações extrapola os limites das áreas tecnológicas. Apesar disso, estamos também convencidos de que nós crentes não temos sido muito eficientes na comunicação com o grande público de usuários potenciais dessas técnicas e de que temos vendido caixas-pretas, como se fosse possível tratar todos os problemas do mundo da mesma forma.
O objetivo fundamental desse livro é apresentar técnicas de estimação de parâmetros e planejamento de experimentos para todos aqueles interessados em aplicações experimentais práticas e no desenvolvimento de novas aplicações e técnicas. Procura-se valorizar aqui o contexto em que as técnicas podem ser utilizadas, discutindo-se as hipóteses fundamentais e as principais limitações existentes. Não temos o objetivo de apresentar uma visão exaustiva de qualquer dos pontos discutidos, uma vez que nesse caso teríamos que escrever uma enciclopédia. Sempre que necessário, leitura suplementar é sugerida como referência para soluções existentes para problemas específicos.
A idéia básica que permeia todo o livro e que une todos os volumes desta série é a de que existe um experimentador interessado em conhecer em um problema particular se e como determinadas variáveis influenciam outras. Por exemplo, se e como as quantidades de leite, açúcar e sal alteram o gosto do Panettone. Além disso, se possível, o experimentador gostaria de otimizar os valores de certas variáveis do problema. Por exemplo, quais são as quantidades de leite, açúcar e sal que permitem fazer o Panettone mais saboroso. Finalmente, a resposta adequada deve ser obtida com a máxima precisão possível, no menor tempo possível e com o menor custo. É aos experimentadores e pesquisadores interessados nesse cenário que nos dirigimos. A apresentação é certamente influenciada pela nossa formação de engenheiros, de forma que algumas vezes alguns procedimentos heurísticos são utilizados, em detrimento de procedimentos teóricos mais bem embasados.
Para atingir os objetivos propostos, a série “Análise de Dados Experimentais” será composta por três volumes e organizada da seguinte maneira:
Volume 1: Fundamentos de Estatística e Estimação de Parâmetros.
Neste volume são abordadas as questões relacionadas ao desenvolvimento dos aspectos teóricos e numéricos da estimação de parâmetros. O livro se inicia com a definição de conceitos e ferramentas estatísticas, fundamentais para a estimação de parâmetros, passando depois pela formulação do procedimento de estimação de parâmetros e pela análise dos resultados obtidos, sempre sob a luz da estatística. A tese que permeia a discussão é a de que a técnica de estimação de parâmetros só atinge a plenitude do rigor científico quando pode ser suportada por argumentos estatísticos sólidos.
Volume 2: Planejamento de Experimentos.
Neste volume são abordadas as questões relacionadas ao planejamento de experimentos, visando à construção de procedimentos de planejamento experimental que permitam otimizar de alguma forma os resultados finais perseguidos pelo experimentador. Dá-se ênfase à compreensão dos argumentos teóricos que fundamentam o desenvolvimento dos procedimentos de planejamento, analisando-se o significado e a utilidade de diferentes classes de técnicas experimentais, incluindo desde os planos fatoriais clássicos até os procedimentos avançados de planejamento seqüencial de experimentos. A tese que permeia a discussão é a de que os planejamentos experimentais devem ser encarados como procedimentos sofisticados de otimização da etapa de estimação de parâmetros.
Volume 3: Reconciliação de Dados e Controle de Qualidade
Neste volume são abordadas as questões relacionadas à análise de dados industriais, visando à otimização e ao controle dos processos. Por isso, discutem-se procedimentos de Reconciliação de Dados e de Controle de Qualidade, dando-se ênfase particular aos procedimentos de estimação de parâmetros que podem ser implementados em linha e em tempo real no ambiente industrial. A tese que permeia a discussão é a de que é possível implementar modelos fenomenológicos e empíricos nos sistemas de aquisição e manipulação de dados das plantas industriais, para fins de monitoramento e controle avançado do processo.
Análise de Dados Experimentais. I. Fundamentos de Estatística e Estimação de Parâmetros. O primeiro volume desta série foi dividido em seis capítulos da seguinte maneira:
Capítulo 1: Princípios Básicos de Estatística
O principal objetivo desse capítulo é introduzir conceitos básicos de estatística, como a noção de aleatoriedade e de determinismo, e definir as grandezas estatísticas fundamentais: probabilidade, média, variância, covariância etc. A leitura desse capítulo não é necessária para aqueles que conhecem a conceituação estatística fundamental, embora seja recomendada para todos os leitores porque estabelece os fundamentos e o linguajar técnico usado em todos os demais capítulos do livro.
Capítulo 2: Distribuições de Probabilidade
O principal objetivo desse capítulo é introduzir os conceitos de distribuição de probabilidade em problemas discretos e contínuos, os quais são depois usados para caracterização dos dados. A leitura desse capítulo não é necessária para aqueles que conhecem a conceituação estatística fundamental e as distribuições estatísticas mais comuns.
Capítulo 3: O Problema Amostral – Inferências e Comparações
O principal objetivo desse capítulo é introduzir os conceitos de inferência amostral das grandezas estatísticas fundamentais e construir procedimentos para comparação entre estas grandezas. Esses procedimentos são fundamentais para caracterização apropriada da qualidade dos dados amostrados. A leitura desse capítulo não é necessária para aqueles que conhecem as técnicas básicas de inferência e comparação estatística. No entanto, como esses procedimentos são usados em todos os demais capítulos dessa série de livros, é possível que mesmo o leitor experimentado sinta-se motivado para enfrentar essa leitura.
Capítulo 4: Estimação de Parâmetros
O principal objetivo desse capítulo é definir o procedimento de estimação de parâmetros em bases estatísticas firmes e apresentar o arcabouço teórico necessário para interpretação adequada dos resultados finais. São valorizados nesse capítulo principalmente os aspectos teóricos formais e a discussão das hipóteses fundamentais, em detrimento dos aspectos numéricos do problema. Acreditamos sinceramente que mesmo o leitor mais experimentado vai encontrar nesse capítulo discussões teóricas úteis sobre o problema de estimação de parâmetros.
Capítulo 5: Procedimentos Numéricos para Estimação de Parâmetros
O principal objetivo desse capítulo é apresentar procedimentos numéricos apropriados para obtenção das estimativas paramétricas, uma vez que em raríssimas vezes é possível obter tais estimativas de forma direta, como função explícita dos dados experimentais. Valoriza-se aqui a apresentação conceitual e o desenvolvimento de algoritmos numéricos básicos, em detrimento dos detalhes numéricos, que são propostos como leitura adicional. Aqueles pouco interessados nos aspectos algorítmicos de implementação dos procedimentos de estimação podem dispensar a leitura desse capítulo. No entanto, recomendamos a leitura cuidadosa desse texto a todos, uma vez que o leitor certamente terá que usar procedimentos numéricos para resolver seus problemas reais. Dessa forma, mesmo os usuários de pacotes comerciais poderão encontrar nesse capítulo informações úteis sobre como escolher e definir critérios numéricos para resolução de problemas.
Capítulo 6: Soluções dos Exercícios Propostos
O principal objetivo desse capítulo é apresentar a solução dos exercícios propostos no final de cada um dos outros capítulos. Como os exercícios são propostos com o objetivo de provocar o leitor e forçá-lo a exercitar os conceitos apresentados, esse capítulo apresenta algumas reflexões úteis sobre algumas conseqüências dos princípios e procedimentos apresentados nos demais capítulos do livro. O leitor deve procurar fazer os exercícios antes de ler as soluções encaminhadas, para que possa também absorver com mais intensidade as soluções que nós apresentamos para as nossas próprias perguntas.
Esperamos conseguir passar a vocês ao longo desses seis capítulos o mesmo entusiasmo que sentimos desde aqueles primeiros dias de 1987. Se não formos felizes na nossa estratégia, não desista e tente de novo, pois temos certeza de que o esforço vale à pena!
Marcio Schwaab
José Carlos Pinto
Rio de Janeiro, Outubro de 2007
Veja, abaixo, o sumário do livro:
- Princípios Básicos de Estatística
- A Natureza dos Problemas Científicos e da Experimentação
- Metodologia Científica e Experimentação
- As Fontes de Erro e o Ideal Determinístico
- Os Conceitos de Probabilidade e de Média
- O Conceito de Variáveis Independentes e as Propriedades da Média
- Os Conceitos de Espalhamento, Variância e Covariância
- Extensão dos Conceitos de Distribuição, Média e Variância para Variáveis Contínuas
- Conclusões
- Leitura Adicional
- Exercícios Sugeridos
- Distribuições de Probabilidade
- A Distribuição Binomial
- A Distribuição de Poisson
- A Distribuição Hipergeométrica
- A Distribuição Uniforme ou Retangular
- A Distribuição Exponencial
- A Distribuição Normal
- A Distribuição Log-Normal
- Extensão de Conceitos para Sistemas Multidimensionais
- A Distribuição Multinomial
- A Distribuição Normal Multidimensional
- Conclusões
- Leitura Adicional
- Exercícios Sugeridos
- O Problema Amostral: Inferências e Comparações
- Definição de Intervalo de Confiança
- O Problema de Amostragem
- Distribuições e Intervalos de Confiança de Grandezas Amostrais
- Fazendo Comparações entre Grandezas Amostrais
- A Região de Confiança em Problemas Multidimensionais
- Conclusões
- Leitura Adicional
- Exercícios Sugeridos
- Estimação de Parâmetros
- Modelos, Modelagem e Simulação
- Classificação de Modelos
- Definição do Problema de Estimação de Parâmetros
- Características Fundamentais do Problema de Estimação de Parâmetros
- A Definição da Função Objetivo
- O Método da Máxima Verossimilhança
- Interpretação Estatística dos Dados Estimados
- Conclusões
- Leitura Adicional
- Exercícios Sugeridos
- Procedimentos Numéricos para Estimação de Parâmetros
- Definição do Problema Numérico de Otimização
- Método de Newton
- Método de Gauss-Newton
- Outros Métodos com Derivadas
- Métodos de Busca Direta
- Métodos Heurísticos
- Cálculo Numérico da Região de Confiança dos Parâmetros
- A Forma de Apresentação dos Dados Experimentais
- Conclusões
- Leitura Adicional
- Exercícios Sugeridos
- Soluções dos Exercícios Propostos
- Capítulo 1
- Capítulo 2
- Capítulo 3
- Capítulo 4
- Capítulo 5
- Apêndice A