
The national artificial intelligence (AI) foundation model project, aimed at enhancing the country's AI sovereignty, faces challenges due to allegations that some leading contenders borrowed key components from Chinese models. This controversy has sparked a debate regarding the definition of "development from scratch."
Two of the five competing consortia, led by Naver Cloud and Upstage, are under scrutiny for their adherence to the project's fundamental requirement of independent development.
Naver Cloud recently faced criticism after claims emerged from developer communities suggesting its flagship model, HyperCLOVA X SEED 32B Think, bears a striking resemblance to Alibaba's open-sourced Qwen 2.4 large language model (LLM) in its vision encoder, a component essential for processing images and video. Comparisons using cosine similarity and Pearson correlation indicated that the values of the two models' vision encoders were over 99.5 percent and 98.9 percent similar, respectively.
In response, Naver Cloud confirmed the use of external open-source modules but rejected allegations of copying, framing the decision as a strategic engineering choice. The company stated that it opted for a verified external encoder to enhance compatibility with global technologies and improve system efficiency, while asserting that the core reasoning engine of the model was developed completely in-house.
Moreover, Naver Cloud highlighted its innovation in integrating multimodal capabilities from text, audio, and visuals, asserting that these decisions were not driven by a lack of technological expertise, noting its own visual technologies like Vuclip.
The situation escalated when Naver Cloud released a technical report on the HyperCLOVA X 8B Omni model, revealing that the model’s vision encoder utilizes Alibaba's Qwen2.5-VL architecture, alongside an audio encoder based on OpenAI’s Whisper model. The company maintained that the vision encoders merely function to convert images and video, clarifying that the foundational model responsible for reasoning and identity is entirely proprietary.
Upstage, another consortium, faced similar allegations concerning its Solar Open 100B model. The CEO of Sionic AI claimed that Upstage’s model incorporated components from the Chinese Zhipu’s GLM-4.5-Air, citing a 96.8 percent similarity in LayerNorm parameters, which are crucial for maintaining balance and stability within AI models.
Upstage responded by publicly detailing its development process and hosting a verification session with experts. The CEO defended the model, saying that the identified similarities were statistically insignificant and that the model was developed entirely from an independent pipeline of data collection, architecture design, training, and tuning.
During this verification session, Upstage demonstrated that the overlap was just 0.0004 percent of the entire network. While the controversy surrounding Upstage was resolved quickly, with a public apology from Sionic AI's CEO, scrutiny continues for Naver Cloud as the Ministry of Science and ICT prepares to complete its initial evaluations on January 15, determining which of the five consortia will be eliminated from the project.
2025년 12월 30일, 서울 코엑스에서 열린 국가 인공지능(AI) 기초 모델 프로젝트 발표 이벤트 동안 사람들이 네이버 클라우드 부스를 방문하고 있다.
국가 인공지능(AI) 기초 모델 프로젝트는 국가의 AI 주권을 향한 중요한 단계로 홍보되고 있으나, 주요 후보들이 중국 모델에서 핵심 요소를 차용했다는 주장이 제기되면서 예기치 않은 turbulence를 겪고 있다. 이는 '무에서 개발하기'에 대한 정의를 놓고 논란을 촉발하고 있다.
다섯 개 컨소시엄 중 두 개가 네이버 클라우드와 업스테이지가 프로젝트의 필수 '무에서 시작하기' 요건을 충족했는지에 대한 논란에 휘말렸다.
네이버 클라우드는 프로젝트의 주력 모델인 HyperCLOVA X SEED 32B Think가 알리바바의 오픈 소스 모델 Qwen 2.4와 비전 인코더에서 유사하다는 주장으로 비판을 받았다. 비전 인코더는 이미지와 비디오를 AI가 이해할 수 있는 데이터로 변환하는 구성 요소이다.
두 모델의 비전 인코더 값에 대한 코사인 유사도와 피어슨 상관계수는 각각 99.5%와 98.9%를 초과하여 거의 동일한 패턴을 나타낸다고 보고되었다.
네이버 클라우드는 외부 오픈 소스 모듈을 사용했다고 인정하면서도 알리바바 모델을 복제했다는 주장을 부인하고, 전략적 엔지니어링 결정이라고 주장했다. 회사는 "글로벌 기술 생태계와의 호환성을 최적화하고 시스템 효율성을 향상시키기 위해 검증된 외부 인코더를 채택했다"고 설명하며, 모델의 핵심 추론 엔진은 전적으로 자체 개발되었다고 강조했다.
회사는 텍스트, 오디오, 비주얼을 통합하는 진정한 혁신이 있다고 주장하며, 이는 기술 능력이 부족해서가 아님을 지적했다. "네이버는 Vuclip과 같은 고유한 비주얼 기술을 보유하고 있다"고 덧붙였다.
논란은 회사가 HyperCLOVA X 8B Omni 모델의 기술 보고서를 글로벌 오픈 액세스 아카이브 arXiv에 공개하면서 더욱 격화되었으며, 이 모델의 비전 인코더가 알리바바의 Qwen2.5-VL 아키텍처를 사용하고 오디오 인코더는 OpenAI의 Whisper 모델을 기반으로 하고 있음을 드러냈다.
네이버 클라우드는 비전 인코더가 단순히 이미지와 비디오를 변환하는 기능을 제공할 뿐이며, 추론과 정체성에 책임이 있는 기초 모델 자체는 완전히 독점적이라고 주장했다.
업스테이지 CEO 김성훈은 2025년 4월 16일 서울 중앙에서 열린 회사 기자회견에서 비슷한 논란에 휘말렸던 Solar Open 100B 모델과 관련하여 이야기했다. Sionic AI의 CEO 고석현은 업스테이지 모델이 중국의 Zhipu GLM-4.5-Air의 요소를 재사용했다고 주장하며, 두 모델 간 LayerNorm 파라미터에서 96.8% 유사성이 있다고 주장했다. LayerNorm 파라미터는 AI 모델 내부 설정으로, 정보가 각 레이어를 통과할 때 데이터 값을 균형 있고 안정적으로 유지하여 모델이 신뢰성 있게 학습하고 예측할 수 있도록 돕는다.
업스테이지는 즉시 그 주장을 반박하며 개발 과정을 공개하고, 금요일에 전문가들과 온라인으로 검증 세션을 진행했다.
회사의 CEO 김성훈은 유사성이 통계적으로 중요하지 않으며, 자신의 모델이 데이터 수집, 아키텍처 설계, 훈련 및 조정을 통해 독립적으로 개발되었다고 주장했다.
검증 세션 동안 그는 겹치는 부분이 전체 네트워크의 0.0004%에 불과함을 보여주었다.
업스테이지의 논란은 고석현이 공개 사과하면서 빠르게 진정되었으나, 네이버 클라우드에 대한 조사는 여전히 강도높게 진행되고 있으며, 과학기술정보통신부는 1월 15일 첫 번째 평가를 완료하고 다섯 개 컨소시엄 중 어떤 것을 프로젝트에서 가장 먼저 제외할지를 결정할 예정이다.