Programa de Pós Graduação em Ciência da Computação tem a honra de convidar toda a comunidade acadêmica para participar da Defesa de Dissertação de Mestrado abaixo relacionada:
Matrícula: 201620070018.
Titulo: "Um Novo Índice de Validade Cluster Baseado no Espalhamento Equidistante Mútuo para Clusterização Crisp"
Orientador: Prof. Dr. Claudomiro de Souza de Sales Junior
Data: 22/08/2018
Hora: 10h30
Local: Sala FC-02 do Instituto de Ciências Exatas e Naturais da Ufpa.
Banca Examinadora:
- Prof. Dr. Claudomiro de Souza de Sales Junior - Orientador (PPGCC/UFPA)
- Prof. Dr. Ronnie Cley de Oliveira Alves - Membro Interno (PPGCC/UFPA)
- Profa. Dra. Regiane Silva Kawasaki Francês - Membro Externo (FACOMP/UFPA)
Resumo
A Clusterização de dados tem sido amplamente utilizada na descoberta do conhecimento para revelar estruturas de dados úteis ao analista. Como uma das tarefas mais importantes do reconhecimento de padrões, a clusterização particiona um conjunto de dados em grupos cujos elementos do mesmo cluster sejam semelhantes e elementos de cluster diferentes são dissimilares. Elementos de clusterização em geral supõem que o número de clusters K é conhecido, embora não haja conhecimento prévio sobre o conjunto de dados. Consequentemente, o significado dos grupos definidos precisa ser válido. Índices de validade de cluster são comumente usados para realizar a validação de resultados de clusterização. No entanto, a maioria deles é considerada dependente do número de objetos de dados e, geralmente, tende a ignorar grupos pequenos e de baixa densidade. Além disso, soluções de cluster subótimas são frequentemente selecionadas quando os clusters estão em um certo grau de sobreposição ou baixa separação. Assim sendo, propomos um novo índice de validade interna não paramétrico baseado no espalhamento equidistante mútuo dentro do cluster para clusterização crip. Sete diferentes índices de validade foram analisados em comparação com o índice proposto, a fim de detectar o número de clusters em conjunto de dados. Experimentos em dados sintéticos e do mundo real mostram a eficácia e confiabilidade de nossa abordagem para validar o hiperparâmetro K.
Palavras-Chave: Índice de validade de cluster, Espalhamento Equidistante mútuo, Número de cluster, Clusterização crip, Aprendizagem não supervisionada.
Matrícula: 201720070005.
Titulo: "Aprimorando Montagens Metagenômicas Através do Particionamento de Dados de Sequenciamento pelo Conteúdo GC ".
Orientador: Prof. Dr. Rommel Thiago Jucá Ramos
Data: 31/08/2018
Hora: 14h00
Local: Auditório do Centro de Genômica e Biologia da Ufpa.
Banca Examinadora:
- Prof. Dr. Rommel Thiago Jucá Ramos - Orientador (PPGCC/UFPA)
- Prof. Dr. Jefferson Magalhães de Morais - Membro Interno (PPGCC/UFPA)
- Prof. Dr. Nelson Cruz Sampaio Neto - Membro Interno (PPGCC/UFPA)
- Prof. Dr. Luiz Carlos Guimarães - Membro Externo (UFPA)
Resumo
A montagem de dados metagenômicos sequenciados por plataforma NGS acarreta em grandes desafios computacionais, especialmente devido ao grande volume de dados, erros de sequenciamento e variações de tamanho, complexidade, diversidade e abundância dos organismos presentes em um determinado metagenoma. Para superar esses problemas, este trabalho propõe o desenvolvimento de uma ferramenta de bioinformática de código aberto chamada GCSplit, que divide as sequências metagenômicas em subconjuntos usando uma métrica pouco dispendiosa computacionalmente: O conteúdo GC. Experimentos realizados em dados reais, obtidos no banco de dados SRA, mostram que o pré-processamento de leitura curtas com o GCSplit antes da montagem reduz o consumo de memória e gera resultados de maior qualidade, como aumento no tamanho do maior contig e na memória N50, enquanto tanto o valor L50 quanto o número total de contigs produzidos na montagem foram reduzidos. O GCSplit está disponível através do endereço https://github.com/mirand863/gcsplit.
Palavras-Chave: Particionamento de dados, Ferramentas de bioinformática, Pré-Processamento de dados metagenômicos.