Abstract:
RESUMO: A genômica revolucionou os programas de melhoramento genético animal e garantiu
importantes ganhos produtivos em características de interesse econômico. Nesse aspecto, a
simulação de dados otimizou o desenvolvimento de métodos genômicos. Isso devido
proporcionar avaliação de cenários que imitam populações reais a relativamente baixo custo e
menos tempo. Neste estudo, objetivou-se investigar estratégias de implementação da seleção
genômica em ovinos por meio do uso da simulação de dados com foco em programas de
melhoramento de ovinos em regiões/países em desenvolvimento, como o Nordeste do Brasil.
Cenários de imputação de genótipos e predição/seleção genômica foram investigados. No
capítulo 1, através de dados gerados pelo software QMSim foram simulados 16 cenários
utilizando duas herdabilidades (0,30 e 0,10), números de animais genotipados (20K e 1K),
estruturas de rebanho (com e sem troca de reprodutores. A imputação foi feita de um SNP chip
de baixa densidade (6K) para um chip média densidade (50K). Dentro de cada cenário gerado
foram realizados dois métodos de imputação, um populacional e outro que considera a
informação de família (pedigree), totalizando 32 cenários. Os resultados foram comparados
usando a acurácia de imputação de SNPs e indivíduos, através da correlação entre as matrizes
padronizada dos genótipos imputados e reais. Verificou-se que as acurácias de imputação de
SNPs variaram de 0,922 a 0,96 nos cenários com tamanho efetivo maior e de 0,927 a 0,944 nos
tamanhos efetivos menores. Nos cenários com maior número de animais genotipados as médias
de acurácia variaram de 0,943 a 0,96 e de 0,922 a 0,934 nos cenários com menos animais
genotipados. O uso de diferentes estruturas de rebanhos resultou em acurácias de imputação
semelhantes. Os resultados de acurácia de imputação de indivíduos foram semelhantes aos de
acurácia de imputação de SNPs descritos anteriormente. Observou-se menor dispersão da
acurácia de imputação de SNPs nos cenários com maior Ne, assim como também nos cenários
em que houve maior quantidade de animais genotipados. Os cenários de imputação avaliados
foram eficientes e permitiram obter acurácias de imputação maiores que 0,90 em todos os
cenários avaliados. No capítulo 2, todos os cenários criados anteriormente com a herdabilidade
0,10 foram utilizados para análises de predição genômica, no intuito de avaliar o efeito das
estratégias de imputação sobre as acurácias de predição. O método single-step GBLUP foi
utilizado para a predição dos GEBVs usando ambos os genótipos imputados e reais. Para as
medidas de validação, a acurácia de predição foi obtida pela correlação de Pearson entre o TBV
e o GEBV na população de validação. O viés de predição foi avaliado pela diferença entre a
média do GEBV e TBV e a dispersão dos GEBVs foi medida como 1 menos o coeficiente de
regressão do TBV sobre o GEBV. As médias dos cenários foram comparadas pelo teste t e
tukey a 5%. Os resultados mostraram que não houve diferenças entre os cenários reais e
imputados para todas as métricas avaliadas pelo teste t entre pares de média (cenários com
genótipos imputados e reais) para todas as medidas de validação utilizadas nesse estudo. No
entanto, a comparação entre diferentes cenários imputados mostrou diferenças nas três métricas
pelo teste tukey a 5%. Maiores médias de acurácias foram observadas nas populações com
maior porcentagem de troca de reprodutores (0,8500) e menores médias ocorreram nas
populações sem troca (0,4140). Houve tendência de aumento do viés nas populações sem troca
de reprodutores (-18,5096) e menores vieses foram observados nas populações com troca (-
13,2610). As dispersões foram relativamente baixas em todos os cenários avaliados. Os
cenários de predição avaliados tiveram melhores valores de acurácia, viés e dispersão quando
x
se tinha maior proporção de troca de reprodutores. A imputação dos genótipos não afetou a
predição dos valores genéticos.
ABSTRACT: Genomics has revolutionized animal genetic improvement programs and guaranteed important
productive gains in traits of economic interest. In this respect, data simulation has optimized
the development of genomic methods. This is because it provides assessment of scenarios that
imitate real populations at relatively low cost and less time. The objective of this study was to
investigate strategies for implementing genomic selection in sheep through the use of data
simulation with a focus on sheep improvement programs in developing regions/countries, such
as the Northeast of Brazil. Genotype imputation and genomic prediction/selection scenarios
were investigated. In chapter 1, using data generated by QMSim software, 16 scenarios were
simulated using two heritabilities (0.30 and 0.10), numbers of animals (20K and 1K), herd
structures (with and without changing breeders). Imputation was done from a low density SNP
chip (6K) to a medium-density SNP chip (50K). Within each scenario generated, two
imputation methods were carried out, one population-based and the other that considers family
relationships, totaling 32 scenarios. The results were compared using the imputation accuracy
of SNPs and individuals, through the correlation between the standardized matrices of the
imputed and real genotypes. It was found that SNP imputation accuracies varied from 0.922 to
0.96 in scenarios with larger effective sizes and from 0,927 to 0.944 in smaller effective sizes.
In scenarios with a greater number of genotyped animals, average accuracy ranged from 0,943
to 0,96 and from 0,922 to 0,934 in scenarios with fewer genotyped animals. Herd structures
(with or without sire exchange) resulted in similar accuracy values, between 0,922 and 0,96.
The same minimums and maximums were observed for the accuracy values of individuals
within the scenarios described previously. A better dispersion of SNPs and accuracy values was
observed in scenarios with higher Ne, as well as in those in which there were a greater number
of genotyped animals. Population size also influenced the increase in accuracy. The assessed
imputation scenarios were efficient and allowed imputation accuracies greater than 0,90 to be
obtained in all evaluated scenarios. Chapter 2 utilized all previously created scenarios for
genomic selection/prediction, in order to evaluate the effect of imputation strategies on
prediction accuracies. In chapter 2, all previously created scenarios with heritability 0.10 were
used for genomic prediction analyses, in order to evaluate the effect of imputation strategies on
prediction accuracies. The single-step GBLUP method was used for the prediction of GEBVs
using both imputed and real genotypes. For validation measurements, prediction accuracy was
obtained by Pearson's correlation between TBV and GEBV in the validation population.
Prediction bias was assessed by the difference between the mean of GEBV and TBV and the
dispersion of GEBVs was measured as 1 minus the regression coefficient of TBV on GEBV.
The means of the scenarios were compared using the t and Tukey test at 5%. The results
indicated no significant differences between the real and imputed scenarios for all metrics
evaluated by the t test between pairs of means (scenarios with imputed and real genotypes) for
all validation measures used in this study. However, the comparison between different imputed
scenarios showed differences in the three metrics using the 5% Tukey test. Higher average
accuracies were observed in populations with a higher percentage of reproductive exchange
(0.8500) and lower averages occurred in populations without exchange (0.4140). There was a
tendency for bias to increase in populations without breeder exchange (-18.5096) and smaller
biases were observed in populations with exchange (-13.2610). Dispersions were relatively low
in all scenarios evaluated. The prediction scenarios evaluated had better accuracy, bias and
xii
dispersion values when there was a higher proportion of reproductive exchange. Genotype
imputation did not affect the prediction of genetic values.