Algoritmo bate recorde mundial ao demonstrar capacidade de processar conjunto de dados que superam a memória disponível de um computador

Por | Social Media na Uníntese |

Tags: , , , , , ,

Um algoritmo de aprendizado de máquina demonstrou bateu o recorde de processar dados que excedem a memória disponível de um computador. Identificando os principais recursos de um enorme conjunto de dados e dividindo-os em lotes gerenciáveis que não sobrecarregam o hardware do computador. 

Desenvolvido no Laboratório Nacional de Los Alamos, o algoritmo estabeleceu um recorde mundial na fatoração de enormes conjuntos de dados durante um teste no Summit do Laboratório Nacional de Oak Ridge. Sendo assim,o quinto supercomputador mais rápido do mundo.

Algoritmo recorde

Igualmente eficiente em laptops e supercomputadores, o algoritmo altamente escalável resolve obstáculos de hardwares que impedem o processamento de informações de aplicações ricas em dados na pesquisa do câncer, imagens de satélite, redes de mídia social, ciência de segurança nacional e pesquisa de terremotos, para citar apenas alguns.

"Desenvolvemos uma implementação 'sem memória' do...

Deseja ler mais sobre este conteúdo? Clique no botão abaixo

Um algoritmo de aprendizado de máquina demonstrou bateu o recorde de processar dados que excedem a memória disponível de um computador. Identificando os principais recursos de um enorme conjunto de dados e dividindo-os em lotes gerenciáveis que não sobrecarregam o hardware do computador. 

Desenvolvido no Laboratório Nacional de Los Alamos, o algoritmo estabeleceu um recorde mundial na fatoração de enormes conjuntos de dados durante um teste no Summit do Laboratório Nacional de Oak Ridge. Sendo assim,o quinto supercomputador mais rápido do mundo.

Algoritmo recorde

Igualmente eficiente em laptops e supercomputadores, o algoritmo altamente escalável resolve obstáculos de hardwares que impedem o processamento de informações de aplicações ricas em dados na pesquisa do câncer, imagens de satélite, redes de mídia social, ciência de segurança nacional e pesquisa de terremotos, para citar apenas alguns.

“Desenvolvemos uma implementação ‘sem memória’ do método de fatoração de matriz não negativa que permite fatorar conjuntos de dados maiores do que era possível anteriormente em um determinado hardware.”

Ismael Boureima – físico computacional do Laboratório Nacional de Los Alamos e primeiro autor do artigo no The Journal of Supercomputing sobre o algoritmo recorde
“Ismael Boureima”

Essa implementação deles simplesmente divide o big data em unidades menores que podem ser processadas com os recursos disponíveis. Assim, é uma ferramenta útil para acompanhar o crescimento exponencial de conjuntos de dados.

“A análise de dados tradicional exige que os dados se ajustem às restrições de memória. Nossa abordagem desafia essa noção”

Manish Bhattarai – cientista de aprendizado de máquina em Los Alamos e coautor do artigo
“Manish Bhattarai”

Os autores introduziram uma solução de falta de memória. Quando o volume de dados excede a memória disponível, o algoritmo criado o divide em segmentos menores. Dessa forma, ele processa esses segmentos um de cada vez, colocando-os dentro e fora da memória. Esta técnica os equipa com a capacidade única de gerenciar e analisar conjuntos de dados extremamente grandes com eficiência.

A tecnologia dos algoritmos distribuídos

O algoritmo distribuído para sistemas de computadores modernos e heterogêneos de alto desempenho pode ser útil em hardware tão pequeno quanto um computador desktop. Ou tão grande e complexo como Chicoma, Summit ou os próximos supercomputadores Venado, disse Boureima.

“A questão não é mais se é possível fatorar uma matriz maior, mas sim quanto tempo levará a fatoração”

Ismael Boureima

A implementação de Los Alamos aproveita recursos de hardware, como GPUs, para acelerar a computação e interconectar rapidamente para mover dados entre computadores com eficiência. Ao mesmo tempo, o algoritmo realiza eficientemente várias tarefas simultaneamente.

Os algoritmos de alto desempenho desenvolvidos no projeto SmartTensors em Los Alamos incluem a fatoração de matrizes não negativas.

No aprendizado de máquina, a fatoração de matrizes não negativas pode ser usada como uma forma de aprendizado não supervisionado para extrair significado dos dados, disse Boureima. “Isso é muito importante para o aprendizado de máquina e a análise de dados. Porque o algoritmo pode identificar recursos latentes explicáveis nos dados que têm um significado específico para o usuário”.

A corrida recorde

No recorde executado pela equipe de Los Alamos, o algoritmo processou uma matriz densa de 340 terabytes e uma matriz esparsa de 11 exabytes, usando 25.000 GPUs.

Estamos alcançando a fatoração de exabytes, o que ninguém mais fez, até onde sabemos”

Boian Alexandrov – coautor do artigo e físico teórico de Los Amos que liderou a equipe que desenvolveu a plataforma de inteligência artificial SmartTensors

A decomposição ou fatoração de dados é uma técnica especializada de mineração de dados que visa extrair informações pertinentes, simplificando os dados em formatos compreensíveis.

Bhattarai enfatizou ainda a escalabilidade de seu algoritmo, observando que em contraste, os métodos convencionais muitas vezes enfrentam gargalos. Principalmente devido ao atraso na transferência de dados entre os processadores de um computador e sua memória.

Também mostramos que não precisamos necessariamente de grandes computadores. Escalar para 25.000 GPUs é ótimo se você puder pagar, as nosso algoritmo será útil em computadores desktop para algo que você não conseguiria processar antes”

Ismael Boureima

Se você quer ficar por dentro do que acontece no mundo tecnológico e quer fazer parte dos líderes que vão mudar o futuro cadastre-se abaixo!