음성 인공지능에 재확대전개, 차세대 전장지로 부상 / Tech firms double down on voice AI as next battleground emerges


<div class="editor-img-box"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/97517c62-9eed-445f-8e93-d912066bb5ad.jpg?w=728" alt="gettyimagesbank" decoding="async" loading="eager" fetchpriority="high"></picture><div class="caption"><p>gettyimagesbank</p></div></div><p class="editor-p">Global tech and local firms are intensifying efforts to develop Korean-language optimized AI and multimodal voice technologies as voice becomes a key interface for artificial intelligence (AI) across devices and environments.</p><p class="editor-p">Major tech companies are embedding voice into AI agents to understand context, execute multistep tasks, and interact naturally across devices, signaling a shift from simple command-based assistants to more capable, context-aware systems.</p><p class="editor-p">Google announced Gemini Intelligence, an Android feature powered by Gemini AI, designed to automate tasks such as reservations and shopping across applications, moving beyond brief voice commands.</p><p class="editor-p">Apple is expected to unveil a significantly upgraded Siri at its upcoming developer conference, aiming to function as an AI agent that can orchestrate tasks across apps and integrate external models, effectively making iPhone an AI-native platform. The company also acquired an Israeli voice AI startup to enhance silent speech interpretation and broaden its voice capabilities.</p><p class="editor-p">Industry projections indicate strong growth in the global speech recognition market, with expectations to reach around $104 billion by 2034, driven by ongoing investments in voice AI and related technologies.</p><div class="editor-img-box" readability="6"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/02109c80-30b2-4c32-9d19-3e99f7b8a709.jpg?w=728" alt="A model uses SK Telecom's AI agent service A. (Adot). Courtesy of SK Telecom" decoding="async" loading="lazy"></picture><div class="caption" readability="7"><p>A model uses SK Telecom's AI agent service A. (Adot). Courtesy of SK Telecom</p></div></div><p class="editor-p">Domestic firms are pursuing localized language capabilities and real-world deployment, with telecom operators leading the push. SK Telecom has expanded its AI agent A.(Adot) into in-car systems, IPTV, and navigation, enabling colloquial speech and broader ecosystem integration.</p><p class="editor-p">KT is targeting home AI via Genie TV AI for conversational access to news, weather, and information through voice commands.</p><div class="editor-img-box" readability="7.5"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/482d1240-ff10-47f2-99a3-a585fc92fff8.jpg?w=728" alt="A robot demonstrates LG Uplus' AI agent ixi-O at the company's booth during MWC26 in Barcelona, Spain, March 2. Joint Press Corps " decoding="async" loading="lazy"></picture><div class="caption" readability="10"><p>A robot demonstrates LG Uplus' AI agent ixi-O at the company's booth during MWC26 in Barcelona, Spain, March 2. Joint Press Corps</p></div></div><p class="editor-p">LG Uplus is advancing its AI call agent ixi-O, which analyzes conversational context and emotion in real time, offering call transcription, summarization, and threat detection in calls. The service has begun international expansion through a partnership with Malaysian operator Maxis, with a local launch planned later this year.</p><p class="editor-p">IT firms are also pursuing multimodal voice AI to leverage existing ecosystems, with Kakao rolling out a beta multimodal model capable of processing text, voice, and images, and prioritizing Korean-language understanding. Kakao has expanded voice features within its KakaoTalk public service platform for tasks like document issuance and facility bookings.</p><div class="editor-img-box" readability="6"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/b3d31018-d1e7-4e3e-afe8-1b6f63143325.png?w=728" alt="Screenshots of Kakao's voice AI-powered public service platform within KakaoTalk messenger / Courtesy of Kakao" decoding="async" loading="lazy"></picture><div class="caption" readability="8"><p>Screenshots of Kakao's voice AI-powered public service platform within KakaoTalk messenger / Courtesy of Kakao</p></div></div><p class="editor-p">Naver is expanding its voice and multimodal AI capabilities, including a beta release of AI Tab for premium members to support complex conversational queries, with plans to integrate with Smart Lens for multimodal searches by year-end. Naver is also enhancing its enterprise Clova Note with AI-powered speaker identification to distinguish participants and aims to improve real-time recognition and summarization later in the year.</p> <br><hr><br>전문적이고 객관적인 어조로, 뉴스 보도에 부합하는 방식으로 다음 뉴스 기사를 요약하고 HTML 태그로 형식화합니다. 각 새 문단은 <p> 태그로 시작하며, 적절한 위치에 줄 바꿈은 <br> 태그를 사용합니다. 뉴스 관련 콘텐츠 외 광고나 테스트 메시지를 포함하지 않으며, 뉴스 기업명, 발행사, 법인명을 제외하고 개인 정보(저자 이름이나 이메일 주소 등)도 생략합니다. 원문의 의미나 맥락을 바꾸지 않고 핵심 사실을 명확하게 제시합니다. 코드 블록 표기는 사용하지 않으며, 단 HTML 태그는 문단과 줄 바꿈 태그만 사용합니다. <div class="editor-img-box"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/97517c62-9eed-445f-8e93-d912066bb5ad.jpg?w=728" alt="gettyimagesbank" decoding="async" loading="eager" fetchpriority="high"></picture><div class="caption"><p>gettyimagesbank</p></div></div><p class="editor-p">전 세계 기술 대기업들이 인공지능(AI)의 차기 주요 인터페이스로 음성을 재정의하려는 경쟁 속에서 국내 기술 및 통신 기업들도 한국어 최적화 AI 서비스와 멀티모달 기술을 활용해 경쟁 우위를 확보하기 위한 노력을 가속하고 있다.</p><p class="editor-p">구글, 애플, 마이크로소프트, 메타 등 글로벌 기업들이 음성을 AI 에이전트와 연결된 기기들에 내장하는 방향으로 빠르게 움직이면서, 상황맥락을 이해하고 작업을 수행하며 사용자와 다양한 환경에서 자연스럽게 상호작용하는 시스템을 구현하려 하고 있다.</p><p class="editor-p">구글은 최근 이 달 안드로이드 쇼: I/O 에디션에서 Gemini AI 에이전트 기술을 바탕으로 한 Gemini Intelligence를 안드로이드에 신기능으로 도입했다. 이전의 음성 비서가 주로 알람 설정과 같은 간단한 명령에 국한되었던 반면, 새 시스템은 다단계 작업 자동화를 지향하며 예약, 쇼핑, 음식 주문 등 다양한 애플리케이션 간 작업을 수행한다.</p><p class="editor-p">애플은 다음 달 열리는 WWDC에서 시리를 대폭 업그레이드한 버전을 공개할 것으로 예상된다. 새로운 시리는 앱 간 작업을 조정하는 AI 에이전트로 기능하면서 OpenAI의 챗GPT, 구글의 Gemini 등 외부 모델을 활용해 아이폰을 AI 네이티브 플랫폼으로 전환할 것이라는 전망이다.</p><p class="editor-p">또한 애플은 음성 인터페이스에 적극적으로 투자해 왔으며, 1월 이스라엘 음성 AI 스타트업 Q.ai를 약 20억 달러에 인수했다. 이는 애플의 두 번째로 큰 인수에 해당하는 대형 거래로, 얼굴 근육 움직임을 분석해 침묵된 음성을 해석하는 기술에 접근하게 했다.</p><p class="editor-p">시장 전망은 투자 모멘텀을 자극하고 있다. Fortune Business Insights에 따르면 글로벌 음성 인식 시장은 올해 237억 달러에서 2034년 약 1040억 달러로 성장해 연평균 20.3%의 성장률을 보일 것으로 예측된다.</p><div class="editor-img-box" readability="6"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/02109c80-30b2-4c32-9d19-3e99f7b8a709.jpg?w=728" alt="A model uses SK Telecom's AI agent service A. (Adot). Courtesy of SK Telecom" decoding="async" loading="lazy"></picture><div class="caption" readability="7"><p>A model uses SK Telecom's AI agent service A. (Adot). Courtesy of SK Telecom</p></div></div><p class="editor-p">이번 변화는 단순한 명령에 국한된 음성 비서에서 상황 맥락을 이해하고 다단계 작업을 실행하는 차세대 기능으로의 이행을 의미하며, 자동차 등 핸즈프리 환경에서 특히 가치가 크다.</p><p class="editor-p">이와 같은 흐름 속에 국내 기업들은 한국어의 뉘앙스, 속어, 대화 맥락에 맞춘 현지화에 집중하며 기기 간 배포를 통해 음성 AI 생태계에서의 입지 확보에 나서고 있다.</p><p class="editor-p">통신 사업자들이 선두에 서 있다. SK텔레콤은 올해 초 자동차용 AI 에이전트 A.(Adot)의 in-car 버전인 A. auto를 출시했고, 르노코리아의 신모델 Filante에 이를 적용했다. 한국어 대형 언어모델인 A.X 4.0을 기반으로 내비게이션, 음악 재생 같은 표준 명령은 물론 구어체 표현도 처리해 차량을 AI 지원 맞춤 공간으로 바꾼다.</p><p class="editor-p">또한 스마트폰 외에도 IPTV 플랫폼 Btv와 내비게이션 서비스 TMap 전반으로 A.를 확장하고 있다.</p><p class="editor-p">KT는 Genie TV AI 에이전트를 통해 집 안 AI 시장 진출에 나섰으며, 음성 명령으로 뉴스, 날씨, 교육 콘텐츠, 일상 정보를 대화형으로 제공한다.</p><div class="editor-img-box" readability="7.5"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/482d1240-ff10-47f2-99a3-a585fc92fff8.jpg?w=728" alt="A robot demonstrates LG Uplus' AI agent ixi-O at the company's booth during MWC26 in Barcelona, Spain, March 2. Joint Press Corps " decoding="async" loading="lazy"></picture><div class="caption" readability="10"><p>로봇이 바르셀로나에서 열린 MWC26에서 LG Uplus의 AI 에이전트 ixi-O를 시연하고 있다. 공동 프레스 코리아</p></div></div><p class="editor-p">한편 LG유플러스는 대화 맥락, 어조, 감정 단서를 실시간으로 분석하는 AI 기반 음성 서비스인 ixi-O를 개발하고 있다. 이 서비스는 통화 녹취 및 요약 기능과 함께 음성 피싱과 같은 대화 중 잠재적 위협을 탐지하는 보안 기능도 제공한다.</p><p class="editor-p">최근 말레이시아 통신사 Maxis와의 파트너십으로 해외 진출 1차를 확보했고, 올해 하반기 현지 출시를 예정하고 있다.</p><p class="editor-p">IT 기업들도 기존 생태계를 활용해 멀티모달 음성 AI에 적극적으로 진입하고 있다.</p><div class="editor-img-box" readability="6.5"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/b3d31018-d1e7-4e3e-afe8-1b6f63143325.png?w=728" alt="Screenshots of Kakao's voice AI-powered public service platform within KakaoTalk messenger / Courtesy of Kakao" decoding="async" loading="lazy"></picture><div class="caption" readability="8"><p>카카오톡 내 음성 AI 기반 공공 서비스 플랫폼의 스크린샷 / 카카오 제공</p></div></div><p class="editor-p">카카오는 올해 초 통합 멀티모달 AI 모델 Kanana-O의 베타 서비스를 출시했다. 이 모델은 텍스트, 음성, 이미지를 동시에 처리하며 국내 AI 모델 중 한국어 이해도에서 우수한 성능을 목표로 설계됐다.</p><p class="editor-p">회사 측에 따르면 현 모델은 국내 멀티모달 모델 중 같은 규모에서 최고 벤치마크 점수를 기록하고 있다.</p><p class="editor-p">또한 카카오는 카카오톡 내 AI 기반 공공 서비스 플랫폼의 음성 기능을 확장해 공식 문서 발급이나 공공 시설 예약과 같은 작업을 음성 명령으로 수행할 수 있도록 했다. 이를 통해 여러 앱이나 인터페이스를 넘나들지 않고도 작업이 가능해졌다.</p><div class="editor-img-box" readability="6"><picture><img src="https://newsimg.koreatimes.co.kr/2026/05/19/03f1dbba-344a-4884-a62a-58f6f1d6b63e.png?w=728" alt="A screenshot of Naver's AI Tab / Courtesy of Naver" decoding="async" loading="lazy"></picture><div class="caption" readability="7"><p>네이버의 AI Tab 화면 예시 / 네이버 제공</p></div></div><p class="editor-p">네이버는 소비자 및 기업 서비스 양쪽에서 음성 및 멀티모달 AI 기능을 확대하고 있다. 프리미엄 멤버를 대상으로 한 AI 기반 검색 엔진 기능인 AI Tab을 시범 출시해 사용자가 간단한 키워드 검색이 아닌 복합적인 대화형 질의를 수행할 수 있도록 했다.</p><p class="editor-p">연말까지 스마트 렌즈 이미지 검색 도구와의 연계를 강화해 텍스트, 이미지, 음성을 동시에 이해하는 멀티모달 AI 기능으로 업그레이드할 계획이다.</p><p class="editor-p">기업 측면에서 네이버는 Clova Note 음성-텍스트 서비스에 AI 기반 자동 화자 식별 기능을 강화해 회의에서 여러 참가자를 구분하고, 실시간 음성 인식 및 요약 품질을 하반기에 더욱 개선해 기업용 서비스로 확장하는 것을 목표로 하고 있다.</p><input type="hidden" name="ktViewTypeBody" value="NORMAL"><p><strong><a href="https://blockads.fivefilters.org">Adblock test</a></strong> <a href="https://blockads.fivefilters.org/acceptable.html">(이유?)</a></p> <br><br>
Previous Post Next Post