Robô humanoide tira selfies com visitante na 7ª edição da Exposição Mundial de Voz em Hefei, província de Anhui, leste da China, no dia 24 de outubro de 2024. (Xinhua/Fu Tian)
"Ver o novo modelo da DeepSeek é muito impressionante em termos de como eles fizeram um modelo de código aberto que faz essa computação de tempo de inferência e é supereficiente em computação".
Beijing, 29 jan (Xinhua) -- A comunidade de inteligência artificial (IA) está empolgada sobre o DeepSeek-R1, um novo modelo de código aberto desenvolvido pela startup chinesa DeepSeek.
Lançado em 20 de janeiro, ele rapidamente chegou ao topo das listas gratuitas da loja de aplicativos da Apple na segunda-feira, ultrapassando o ChatGPT da OpenAI.
De acordo com a DeepSeek, em tarefas como matemática, codificação e raciocínio em linguagem natural, o desempenho desse modelo é comparável aos modelos líderes de pesos pesados como a OpenAI, mas só com uma fração do dinheiro e do poder de computação de seus concorrentes.
Aqui está o que a DeepSeek fez e por que está abalando a indústria de IA.
O QUE É DEEPSEEK?
Oficialmente conhecida como DeepSeek Artificial Intelligence Fundamental Technology Research Co., Ltd., a empresa foi fundada em julho de 2023. Como uma startup de tecnologia inovadora, a DeepSeek se dedica a desenvolver modelos de linguagem de ponta (LLMs) e tecnologias relacionadas.
Desde seu primeiro modelo "DeepSeek LLM" lançado em janeiro do ano passado, a empresa passou por várias rodadas de iteração. Em dezembro, a startup lançou seu LLM de código aberto "V3", que ultrapassou todos os LLMs de código aberto da Meta e rivalizou com o GPT4-o de código fechado da OpenAI, de acordo com relatos da mídia dos EUA.
O modelo R1 recém-lançado alcançou um importante avanço tecnológico, usando métodos puros de aprendizado profundo para que a IA surgisse espontaneamente com capacidades de raciocínio.
Ao contrário de abordagens tradicionais como Chain-of-Thought (CoT) e Supervised Fine-Tuning (SFT), a DeepSeek se destacou na indústria de IA ao adotar o Reinforcement Learning (RL) como método de treinamento central.
Enquanto CoT e SFT dependem de raciocínio passo a passo e grandes quantidades de dados rotulados, respectivamente, o RL permite que os modelos aprendam por meio de mecanismos de interação e recompensa, tornando-o mais adequado para tarefas complexas e dinâmicas.
Com a adoção do RL, a startup aprimorou o raciocínio, a adaptabilidade e a eficiência de seus modelos, destacando-a como pioneira no campo.
Quando questionado sobre o significado de "DeepSeek", seu mais recente chatbot R1 respondeu: "O nome reflete a missão da empresa de conhecer detalhadamente e avançar as tecnologias fundamentais da IA, visando expandir os limites da inovação e aplicação da IA".
"MAIOR JÁ NÃO É O MAIS INTELIGENTE SEMPRE"
De acordo com seu relatório técnico do modelo V3, o custo de fabricação da DeepSeek é de aproximadamente 5,57 milhões de dólares americanos, o menos caro entre os LLMs.
O renomado economista americano Jeffrey Sachs, professor e diretor do Centro de Desenvolvimento Sustentável da Universidade de Columbia, disse à Xinhua que o avanço feito pela DeepSeek "mostra a possibilidade de IA avançada a custos muito mais baixos do que se acreditava amplamente nos Estados Unidos até recentemente".
O modelo DeepSeek-V3 faz com que "pareça fácil hoje com um lançamento de pesos abertos de um LLM de nível de fronteira treinado com orçamento tão baixo (2.048 GPUs por 2 meses, 6 milhões de dólares)", postou no X, Andrej Karpathy, membro fundador da OpenAI.
Comparado a outros modelos bem conhecidos, a DeepSeek obteve uma redução de ordem de magnitude.
O custo é "um contraste gritante com os milhões, se não bilhões, que as empresas dos EUA normalmente investem em tecnologias semelhantes", disse Marc Andreessen, importante investidor em tecnologia, descrevendo o R1 da DeepSeek como "um dos avanços mais incríveis" que ele já viu.
O desenvolvimento da indústria de IA há muito tempo depende do acúmulo de poder de computação. O modelo de baixo custo da DeepSeek pode virar o cenário de IA de cabeça para baixo.
Elogiando o Relatório Técnico do modelo DeepSeek-V3 como "ótimo e detalhado", Karpathy disse que vale a pena ler o relatório.
O banco de investimento e provedor de serviços financeiros dos EUA, Morgan Stanley, acreditava que a DeepSeek demonstra um caminho alternativo para treinamento de modelo eficiente do que a atual corrida armamentista entre hiperescaladores, aumentando significativamente a qualidade dos dados e melhorando a arquitetura do modelo.
"Maior já não é o mais inteligente sempre", disse.
Pessoas visitam área de exposição da empresa chinesa Shokz na Feira de Produtos Eletrônicos de Consumo (CES, na sigla em inglês) 2025 em Las Vegas, Estados Unidos, no dia 7 de janeiro de 2025. (Foto por Zeng Hui/Xinhua)
MODELO DE CÓDIGO ABERTO
"Ver o novo modelo da DeepSeek é muito impressionante em termos de como eles fizeram um modelo de código aberto que faz essa computação de tempo de inferência e é supereficiente em computação", disse o CEO da Microsoft, Satya Nadella.
O código aberto permite que pesquisadores, desenvolvedores e usuários acessem o código subjacente do modelo e de seus "pesos", os parâmetros que determinam como o modelo processa informações, possibilitando que eles usem, modifiquem ou aprimorem o modelo para atender às suas necessidades.
A DeepSeek se beneficiou muito dos princípios de código aberto e, por sua vez, demonstra um forte comprometimento em compartilhar conhecimento e contribuir para o avanço coletivo da tecnologia.
O cientista chefe de IA da Meta, Yann LeCun, disse: "Eles tiveram novas ideias e as construíram com base no trabalho de outras pessoas. Como seu trabalho é publicado e de código aberto, todos podem lucrar com ele".
"Esse é o poder da pesquisa aberta e do código aberto", acrescentou LeCun.
Concordando com LeCun, Sachs, economista dos EUA, disse: "O modelo de negócios e desenvolvimento da DeepSeek é de código aberto, que é um modelo atraente e bem-sucedido para ciência, tecnologia e negócios".
Enquanto a contraparte americana da DeepSeek, a OpenAI, começou inicialmente como uma organização de código aberto, mas depois mudou para um modelo de código fechado, a DeepSeek tomou um caminho diferente.
Destacando a importância de incentivar a colaboração e a inovação por meio de princípios de código aberto, Liang Wenfeng, fundador da DeepSeek, disse que construir um ecossistema tecnológico robusto é a prioridade.
"Não escolheremos código fechado", Liang deixou clara a posição da empresa.