Uma alternativa para o cálculo do número de reprodução em Maringá

Gostaria de deixar claro que, de maneira alguma, posso ser considerado um epidemiologista. O intuito desse post é de alguma forma poder contribuir com estimativas mais precisas para o número de reprodução em Maringá, mas conclusões devem ser tomadas mediante a utilização de uma variedade parâmetros.

O número de reprodução é o número esperado de infecções decorrentes de um indivíduo que se tornou infeccioso no tempo $t$. Do ponto de vista da saúde pública, é de interesse que esse número permaneça abaixo do limiar epidêmico ($R=1$), o que indica que a epidemia está desacelerando. O número de reprodução básico $R_0$ é a estimativa para essa quantidade no início da epidemia, quando a população inteira está suscetível à doença. Porém, ao passo que parcela da população ganha imunidade e medidas de intervenção são tomadas, o número de reprodução básico não tem mais validade e a atenção muda para o cálculo do que chamamos de número de reprodução que varia no tempo $R(t)$. Como exemplo, é possível citar os números de reprodução instantâneo e efetivo. Como se bem sabe, nenhum modelo é perfeito visto que sempre existem suposições e hipóteses necessárias para que a modelagem seja realizada. Além disso, existe uma limitação inerente da natureza do dado que, sendo mais ou menos detalhado, impacta na qualidade do modelo. A seguir, vou discorrer um pouco sobre a implementação que fizemos desses dois modelos para o caso de Maringá e sobre a limitação de dados públicos disponíveis nesse caso.

Lista de Conteúdos

Número de reprodução efetivo

Anteriormente, no website Observatório COVID-19 Maringá, calculamos o número de reprodução instantâneo $R_{inst}(t)$ utilizando o pacote EpiEstim do R [1]. Uma breve explicação sobre esse modelo se encontra no final desta postagem. Em poucas palavras, ele estima o número de reprodução instântaneo por meio do padrão de transmissibilidade do vírus nos últimos dias. Ao acompanhar a evolução da COVID-19 em Maringá, percebemos que as estimativas desse parâmetro poderiam estar atrasadas em alguns dias. Isso acontece devido à natureza dos dados disponibilizados pela Secretaria Municipal de Saúde de Maringá, uma vez que utilizamos dados dos casos confirmados diários de COVID-19. Disso, dois principais problemas decorrem:

  • Primeiro, consideramos que o número diário de casos confirmados de COVID-19 tem a mesma interpretação de número de infecções diárias por COVID-19. No entanto, sabe-se que existe um período de incubação do vírus, um atraso da notificação e, além disso, um atraso decorrente da espera pelo resultado do teste. A data de confirmação não é igual à data de infecção do indivíduo. Assim, nossas estimativas do número de reprodução instântaneo sempre estarão atrasadas em relação ao seu valor verdadeiro;
  • O segundo problema é que, como o volume de testes varia, é certo que estamos subestimando o número de confirmados.

Esses dois problemas podem ser resolvidos utilizando o modelo do número de reprodução instantâneo aliado a técnicas de nowcasting [2] e correções no número de confirmados pelo volume de testagem. Porém, para isso, seriam necessários dados de atraso para todos os confirmados e de volume de testagem diária, o que não temos. A alternativa que aqui apresento realiza essas correções de maneira unificada, isto é, por meio de um único processo que engloba todas essas considerações. Além disso, ela relaxa a necessidade de possuir a integridade dos dados de atraso de notificação. Com esse intuito, consideramos que o atraso pode ser aproximadamente constante no tempo e estimado por informações retiradas de outra base de dados. Recorremos ao método utilizado pelo website rt.live para o cálculo do número de reprodução efetivo $R_{ef}(t)$. Diferentemente do número de reprodução instantâneo, estimativas do número de reprodução efetivo advêm de simulações da epidemia como um todo, e não utilizam apenas os dados dos últimos dias. Dessa forma, o modelo pode ser denominado generativo, pois gera a curva de contágio desde o início da epidemia. Inicialmente, supomos que o número de reprodução $R_{ef}(t)$ caminha aleatoriamente, isto é, $$ \log R_{ef}(t) \sim \mathcal{N}[R_{ef}(t-1), \sigma=0.1]\ , $$ em que $\sigma$ indica o quão rapidamente o número de reprodução pode variar diariamente. Além disso, supomos que existem uma parcela de indivíduos que iniciam a epidemia e estão distribuídos como $$ \text{Primeiros infectados} \sim Exp(\lambda=50)\ . $$ A partir disso, podemos simular a epidemia por meio da relação $$ I(t) = R_{ef}(t)\sum_s I(t-s)w(s)\ , $$ sendo $I(t)$ o número de infectados no tempo $t$, $w(s)$ a distribuição de probabilidade do intervalo de tempo de geração e $s$ o número de dias anteriores. A distribuição de probabilidade $w(s)$ é a distribuição da diferença das datas de infecção entre casos primários e secundários. Utilizamos as estimativas de Nishiura et al. [3] para gerar a distribuição $w(s)$ com média $\mu=4.7$ dias e desvio padrão $\sigma=2.9$ dias, como utilizados no rt.live. O primeiro erro do modelo utilizado anteriormente foi considerar que $I(t)$ é o número de infectados diários, mas, na verdade, utilizamos dados de confirmados diários. Temos estimativas para o tempo de incubação do vírus ($\approx$ 5 dias [4]) e para o atraso do resultado do teste ($\approx$ 2 dias). Para incorporar o atraso da notificação, utilizamos informações do banco de dados SRAG 2020 disponibilizados pelo DATASUS. A Síndrome Respiratória Aguda Grave (SRAG) é um conjunto de sintomas (febre, tosse/dor de garganta, dispineia/saturação de oxigênio/desconforto respiratório) e tem notificação obrigatória no Sistema de Informação da Vigilância Epidemiológia da Gripe (SIVEP-Gripe). Esse sistema existe desde 2009 e foi criado com intuito de coletar informações sobre SRAG na epidemia de H1N1. O preenchimento é realizado através de uma ficha cadastral que inclui dados como data de primeiro sintomas e data de notificação. Recentemente, em 21/03/2020, o SARS-CoV-2 passou a integrar o painel de vírus testados para casos de SRAG. Utilizamos os dados de casos positivados de COVID-19 em Maringá nesse banco de dados para estimar o atraso entre os primeiros sintomas e a notificação do caso. Consideramos, aqui, que o atraso de notificação é constante no tempo (uma hipótese importante). Em outras palavras, consideramos que, desde o começo da epidemia até hoje, os casos têm o mesmo atraso de notificação. Além disso, o dado que possuímos é parcial, pois nem todos os casos de COVID-19 evoluem para SRAG, mas consideramos que é uma aproximação razoável. Uma melhor solução seria utilizar a base de dados integral para todos os casos confirmados na cidade se estes fossem disponibilizados pela Secretaria de Saúde, porém, este não é o caso. A partir do banco de dados SRAG 2020, do tempo de incubação do vírus e do atraso da testagem, estimamos uma distribuição de probabilidade que denominaremos $h(s)$ sendo $s$ o número de dias anteriores à confirmação do caso. A partir dessa distribuição, realizamos uma convolução para estimar a data de infecção dos casos, ou seja, $$ I(t) = I_{c}(t)*h(s)\ , $$ em que $I_{c}(t)$ o número de casos confirmados no tempo $t$.

O segundo problema (de testagem) pode ser contornado utilizando uma distribuição binomial negativa com um parâmetro de exposição para cada dia. A distribuição binomial negativa é mais flexível que uma distribuição de Poisson, pois permite que a variabilidade seja diferente do parâmetro de localização do modelo. O parâmetro de exposição, por sua vez, leva em consideração as diferentes taxas de testagem diárias. Em outras palavras, ajustamos o número de casos pela quantidade de “oportunidade” que um evento possui. Para entender melhor, considere que a taxa possa ser escrita como $$ \text{taxa} = \dfrac{\text{contagem}}{\text{exposição}}\ . $$ Para ser mais didático, considere que duas pessoas frequentam determinado hospital. Uma delas frequenta 3 vezes por semana e a outra 3 vezes por ano. É evidente que as taxas são diferentes, pois estão em escalas de tempo diferentes, apesar de a contagem de idas ao hospital ser a mesma. Dessa maneira, precisamos considerar a contagem levando em consideração a exposição, para isso, reescrevemos a equação anterior como $$ \text{contagem} = \text{taxa}\cdot\text{exposição}\ . $$ No caso da COVID-19, a exposição é a quantidade de testes diários. Se há mais testes, é claro que possivelmente o número de casos confirmados deve ser maior. Incorporando essa informação ao modelo temos que o número de infectados pode ser escrito como $$ I(t) \sim NegBin(\mu, \alpha)\ , $$ $$ \mu = I(t) \cdot \text{exposição}\ , $$ $$ \alpha \sim Gamma(\mu=6,\sigma=1)\ , $$ de acordo com esta definição da distribuição binomial negativa. O número de testes diários foi estimado utilizando dados dos boletins diários de acordo com a relação: $$ \text{testes} = \text{número de confirmados diário} + \text{número de encerrados diário}\ . $$ Completamos os dados de testagem anteriores à data de 31/03/2020 supondo que havia uma frequência uniforme de trinta testes diários, uma vez que esses dados não estavam disponíveis à época.

Como já mencionamos, este modelo difere daquele para o número de reprodução instantâneo, pois gera a curva inteira de infecção de acordo com os dados e, assim, tem como condição que a curva seja quasi-contínua. Estimativas com novos dados diários mudam as estimativas de datas anteriores e, ao atualizar todas as estimativas com novas informações, considero que é um modelo que pode ser considerado mais honesto. Além disso, incorporamos as soluções para os dois problemas anteriormente constatados. Dessa forma, o número de reprodução estimado deve representar a situação atual de infectividade da COVID-19 de maneira mais próxima da realidade. Amostramos esse modelo utilizando o pacote PyMC3 do Python.

Número de reprodução instantâneo

Como mencionado anteriormente, o número de reprodução básico $R_0$ do modelo SIR é uma propriedade da fase inicial da epidemia e indica o número de casos secundários médio que decorrem de um indivíduo infectado. Nesse período inicial, existe um regime exponencial de crescimento para o número de infectados $I(t)$. No entanto, em estágios mais avançados da epidemia, essa suposição não é mais verdadeira, sendo necessária a adoção de modelos alternativos. Uma opção é a escolha de abordagens que levam em conta o perfil de infectividade dos contaminados, também conhecidos como modelos time-since-infection [5]. A partir deles, é possível calcular o número de reprodução instantaneamente no tempo $t$, que apresenta a mesma interpretação do número de reprodução básico, porém tem validade para qualquer momento da epidemia. Para isso, podemos modelar a transmissão de COVID-19 como um processo de Poisson por meio de uma abordagem Bayesiana. O número de reprodução instantâneo pode ser descrito como $$ R_{inst}(t) = \dfrac{I(t)}{\sum_{s=1}^{\tau} I(t-s)w(s)}\ , $$ em que $w(s)$ é o perfil de infectividade, ou distribuição do tempo de geração, e $\tau$ é a janela temporal considerada para estimar o $R_{inst}(t)$, considerando que o número de reprodução instantâneo permanece constante no intervalo $[t-\tau+1, t]$. O perfil de infectividade $w(s)$ é uma distribuição de probabilidade que depende do tempo desde a infecção por COVID-19. Dessa forma, maiores valores de $w(s)$ indicam que os infectados $I(t-s)$ estão mais suscetíveis a transmitir a doença nesse período. A distribuição $w(s)$ depende apenas em fatores biológicos individuais como características do vírus e severidade dos sintomas [1]. Dessa maneira, o número de reprodução instantâneo $R_{inst}(t)$ como calculado na equação acima equivale ao número médio de casos gerados pelos infectados na janela de $\tau$ dias anteriores. A verossimilhança para $I(t)$ pode ser escrita como uma distribuição de Poisson, isto é, $$ \mathcal{L}[I(t)| I(t-\tau+1),\dots,I(t-1), w, R_{inst}(t)] = \dfrac{[R_{inst}(t)\Lambda(t)]^{I(t)}e^{R_{inst}(t)\Lambda(t)}}{I(t)!}\ , $$ em que $$ \Lambda(t)=\sum_{s=1}^{\tau}I(t-s)w(s)\ . $$ Dessa forma, supondo independência estatística entre os períodos, a verossimilhança dentro da janela $\tau$ pode ser escrita como $$ \mathcal{L}[I(t-\tau+1),\dots,I(t)| w, R_{inst}(t)] = \prod_{s=t-\tau+1}^{t} \dfrac{[R_{inst}(t)\Lambda(s)]^{I(s)}e^{-R_{inst}(t)\Lambda(s)}}{I(s)}\ . $$ Usando o teorema de Bayes, podemos calcular a distribuição a posteriori para estimar $R_{inst}(t)$, isto é, $$ P[R_{inst}(t),I(t-\tau+1),\dots,I(t)| w ] \propto \mathcal{L}[I(t-\tau+1),\dots,I(t)| R_{inst}(t), w ] P[R_{inst}(t)]\ . $$ Seguindo o procedimento proposto pelos sites epiforecasts.io e covid19br, consideramos que o perfil de infectividade é uma distribuição Gamma com média de 4.8 dias e desvio padrão de 2.3 dias, valores estimados em [3] e utilizados por esses dois sites. Além disso, atribuímos incerteza ao perfil de infectividade amostrando a média e o desvio padrão de distribuições normais truncadas centradas nos valores descritos anteriormente para um total de 500 repetições. Consideramos que $R_{inst}(t)$ apresenta uma distribuição Gamma como priori, com média 2.6 e desvio padrão 2, o que leva em consideração estimativas do número de reprodução básico em Wuhan no começo da epidemia [6]. Por fim, para a janela temporal $\tau$, adotamos o tempo $\tau=7$ dias uma vez que a série temporal de casos por COVID-19 aparenta uma periodicidade semanal. Aplicamos esse modelo utilizando o pacote EpiEstim do R.

Só lembrando: nesse modelo, consideramos que o número de infectados diário apresenta a mesma interpretação do número de confirmados diário. Sabemos, porém, que existe um atraso na confirmação dos casos. Desde o dia em que a pessoa é infectada, leva-se um tempo para o vírus incubar (cerca de cinco dias) e os sintomas se manifestarem. Além disso, também pode existir um atraso de notificação e de espera pelos resultados dos testes. Esses problemas seriam resolvidos se tivéssemos os dados referentes ao atraso de notificação e de data do começo dos sintomas para cada caso confirmado, a fim de realizar medidas de nowcasting [2]. Além disso, o modelo não leva em consideração o volume de testagem variável (isto é, que o número de testes varia diariamente), o que pode causar uma subestimação do número de reprodução instantâneo. Ainda assim, acredito que as estimativas do número de reprodução instantâneo podem transmitir informações importantes sobre o avanço da epidemia (mesmo que com atraso). Diferentemente do número de reprodução efetivo, as estimativas são mais sensíveis às variações mais recentes dos números de casos confirmados diários uma vez que não existe a condição de que a curva seja quasi-contínua.

Resultados

As figuras abaixo mostram, respectivamente, estimativas para o número de reprodução efetivo $R_{ef}(t)$ e instantâneo $R_{inst}(t)$ seguindo os procedimentos aqui descritos.

Figura: evolução temporal do $R_{ef}(t)$ em Maringá.

Figura: evolução temporal do $R_{inst}(t)$ em Maringá.

,

A figura abaixo mostra a evolução temporal das variáveis presentes no modelo generativo: i) o número de confirmados (em cinza); ii) o número de confirmados esperado (em verde); iii) o número de confirmados esperado supondo testagem uniforme (em laranja); iv) o número de infectados esperado (em roxo).

Figura: evolução temporal das variáveis presentes no modelo generativo em Maringá.

O código para reprodução dessa análise está disponível em ansesu/rt_livemaringa. O código-base e maiores detalhes sobre o modelo podem ser encontrados no repositório original rtcovidlive/covid-model.

Recursos interessantes

Referências

[1] A. Cori, N. M. Ferguson, C. Fraser, S. Cauchemez, A New Framework and Software to Estimate Time-Varying Reproduction Numbers During Epidemics. American Journal of Epidemiology 178, 1505–1512 (2013).

[2] L. S. Bastos, T. Economou, M. F. C. Gomes, D. A. M. Villela, F. C. Coelho, O. G. Cruz, O. S. T. Bailey, C. T. Codeço, A modelling approach for correcting reporting delays in disease surveillance data. Statistics in Medicine 38, 4363-4377 (2019)

[3] H. Nishiura, N.M. Linton, A.R. Akhmetzhanov, Serial interval of novel coronavirus (COVID-19) infections. International Journal of Infectious Diseases 93, 284-286 (2020).

[4] S. A. Lauer, K. H. Grantz, Q. Bi, F. K. Jones, Q. Zheng, H. R. Meredith, A. S. Azman, N. G. Reich, J. Lessler, The incubation period of coronavirus disease 2019 (COVID-19) from publicly reported confirmed cases: Estimation and application. Annals of Internal Medicine 172, 577-582 (2020).

[5] C. Fraser, Estimating Individual and Household Reproduction Numbers in an Emerging Epidemic. PLOS ONE 2(8), e758 (2007).

[6] S. Abbott, J. Hellewell, J. Munday, S. Funk, The transmissibility of novel Coronavirus in the early stages of the 2019-20 outbreak in Wuhan: Exploring initial point-source exposure sizes and durations using scenario analysis. Wellcome Open Research 5, 17 (2020).

comments powered by Disqus
Próximo

Relacionados