Abstract:
RESUMO: Os modelos utilizados nas predições genômicas assumem diferentes distribuições para o
efeito dos marcadores, como normal, t e dupla-exponencial, no entanto utilizam apenas a
distribuição normal para a variável resposta ��. A distribuição t(.) apresenta uma simetria
equivalente à normal, mas tem caudas pesadas, que confere menor sensibilidade a
outliers, melhor adaptabilidade e maior variabilidade. Essas características podem
favorecer o ajuste de um modelo mais robusto, assim como a dupla-exponencial, sendo
que esta última ainda tem uma maior concentração em torno da média. Portanto, o
objetivo com esta pesquisa foi desenvolver modelos Bayesianos de seleção genômica
ampla usando a distribuição t (Bayes t) e a dupla-exponencial (Bayes DE) para a variável
resposta. Para isso, foi proposto e desenvolvido um modelo Bayesiano no software R e
foram utilizados parâmetros, como DIC, acurácia e análise residual, para quantificar a
diferença entre os ajustes dos modelos propostos ao RRBLUP, já consolidado e que
apresenta as mesmas características dos propostos. Para validação dos modelos, foram
simulados dados genômicos que variaram de acordo com o tamanho da amostra em 1.000
gerações. Os dados foram gerados com três níveis de variância fenotípica: 5, 10 e 15.
Além disso, os ajustes foram aplicados em amostras com tamanhos de 300, 1.000 e 2.000
animais. Os resultados apontam que, quando existem outliers na amostra, os modelos
com distribuições t e Laplace são mais robustos. As médias residuais dos 3 modelos
avaliados foram centrados em 0, mas a dispersão dos ajustes propostos foi inferior e,
portanto, foram melhores. Em todos os cenários testados, os modelos propostos foram
mais acurados em relação ao RRBLUP. O modelo Bayes t foi o mais acurado e qu
apresentou menor variabilidade residual, principalmente para tamanhos amostrais
menores. Os modelos também foram aplicados em uma amostra de 389 ovinos da raça
Santa Inês, com a variável resposta área de olho de lombo. Os resíduos dos 3 se
concentraram em torno de 0, de modo que o Bayes t foi o melhor, bem como foi o de
menor dispersão residual e o de menor DIC entre os três ajustes. A correlação entre os
valores preditos e observados no Bayes t foi 0,8006, enquanto nos modelos RRBLUP e
no Bayes DE, foram 0,6835 e 0,6901, respectivamente. Portanto, os métodos propostos
surgem como alternativas de modelos robustos para dados com presença de outliers e
para tamanhos de amostras pequenos, em especial o Bayes t, que se mostrou melhor.
ABSTRACT: The models used in genomic predictions assume different distributions for the effect of
markers, such as normal, t and double-exponential, but only use the normal distribution
for the response variable yi. The t(.) Distribution has a symmetry equivalent to normal, but
has heavy tails, which gives less sensibility to outliers, better adaptability and greater
variability. These characteristics may favor the fit of a more robust model, as well as the
double-exponential one, with the latter still having a higher concentration around the
average. Therefore, the objective of this research was to develop Bayesian models of
Genomic Wide Selection using the t (Bayes t) and double-exponential (Bayes DE)
distribution for the response variable. For this, a Bayesian model was proposed and
developed in the R software and parameters such as DIC, accuracy and residual analysis
were used to quantify the difference between the adjustments of the proposed models to
the already consolidated RRBLUP and presenting the same characteristics as those
proposed. To validate the models, genomic data were simulated, which varied according
to the sample size in 1,000 generations. Data were generated with three levels of
phenotypic variance: 5, 10 and 15. In addition, adjustments were applied to samples with
sizes of 300, 1,000 and 2,000 animals. The results show that when there are outliers in
the sample, the models with t and Laplace distributions are more robust. The residual
averages of the 3 models evaluated were centered at 0, but the dispersion of the proposed
adjustments was lower and therefore were better. In all scenarios tested, the proposed
models were more accurate than RRBLUP. The Bayes t model was the most accurate and
showed the lowest residual variability, especially for smaller sample sizes. The models
were also applied to a sample of 389 Santa Inês sheep, with the response variable loin eye
area. Residues of the 3 were concentrated around 0, so Bayes t was the best, as well as
the one with the lowest residual dispersion and the lowest DIC among the three fits. The
correlation between the predicted and observed values in Bayes t was 0.8006, while in
RRBLUP and Bayes DE models were 0.6835 and 0.6901, respectively. Therefore, the
proposed methods appear as alternatives to robust models for outlier data and for small
sample sizes, especially Bayes t, which was better.