네이처 게재 논문서 "개발 준비단계 때 엔비디아 A100 칩 보유" 첫 인정

딥시크 로고
[EPA 연합뉴스 자료사진. 재판매 및 DB금지]
원본프리뷰
(서울=연합뉴스) 권숙희 기자 = 중국의 인공지능(AI) 스타트업 딥시크가 '저비용 고사양'으로 주목받은 자사의 생성형 AI 모델 훈련비용이 4억원에 불과하다고 주장했다.
19일 로이터통신에 따르면 딥시크가 자사 AI 모델 'R1' 훈련 비용의 구체적인 추정치를 처음으로 공개한 내용을 담은 동료심사 논문이 지난 17일 국제 학술지 네이처에 실렸다.
딥시크 창업자 량원펑이 공동 발표한 논문을 통해 딥시크 측은 추론에 초점을 맞춘 R1 모델의 훈련 비용에 29만4천달러(약 4억821만원)가 들었다고 주장했다.
또 모델 훈련에는 엔비디아의 H800 칩 512개를 사용했다고 밝혔다.
올해 1월 공개됐던 딥시크의 다른 논문에서는 이 내용들이 포함되지 않았었다.
올해 1월 딥시크가 전세계를 깜짝 놀라게 하며 등장한 뒤 딥시크가 주장하는 저비용과 저사양 칩 사용은 업계에서 여러 의심을 낳았었다.
챗GPT를 만든 미국 AI기업인 오픈AI의 샘 올트먼 최고경영자(CEO)는 2023년 기초적인 모델 훈련에 1억달러(약 1천389억원)보다도 더 비용이 들었다고 말한 적 있다고 로이터는 짚었다.
특히 중국 수출이 제한된 엔비디아의 H100과 A100 등을 딥시크가 확보했을 것이라는 주장이 제기돼 왔다.
딥시크 측은 이번에 발표한 논문에 딸린 추가 정보에서 엔비디아 A100을 보유하고 있으며 개발 준비단계에서 그것들을 사용했다고 처음으로 인정했다.
이는 수출이 금지되기 전 비축해둔 것으로, 매사추세츠공대(MIT)의 정보기술매체 테크놀로지 리뷰 등 이전 보도들에 따르면 해당 비축량은 1만∼5만개로 추산된다.
딥시크 측은 초기 단계 이후 R1은 엔비디아 H800 512개로 구성된 클러스터에서 80시간 동안 학습됐다고 강조했다. H800은 중국이 구입 가능한 칩이다.
중국 관영 신화통신도 이 논문을 자세히 소개하며 R1 모델이 AI 업계에서 처음으로 동료심사 논문을 거친 대형언어모델(LMM)로 부상했다고 밝혔다.
그러면서 신화통신은 R1 훈련비용이 경쟁 모델들에 비해 현저히 낮지만, R1을 뒷받침하는 기반 모델 구축에 투입된 대략 600만달러(약 83억5천만원)는 별개라고 설명했다.
또 R1은 순수 강화 학습(reinforcement learning) 방식으로 추론 능력을 향상시킨 것으로 나타났다.
인간의 선택에 기반한 예시를 AI가 수동적으로 학습하는 방식이 아니라 AI가 정확한 답변을 하면 보상 받고 틀린 답변을 하면 페널티를 받는 구조 속에서 스스로 진화하도록 유도했다.
suki@yna.co.kr
저작권자(c)연합뉴스. 무단전재-재배포금지