AI 에이전트가 대중화되려면 모델 성능만 좋아져서는 부족합니다. 사람이 매일 쓰는 방식으로 다가와야 합니다. Alex Finn의 영상은 Hermes Agent 데스크톱 앱을 보여주면서 이 지점을 분명하게 드러냅니다.
영상의 표현은 다소 과감합니다. CLI, Telegram, OpenClaw보다 Hermes 데스크톱 앱이 더 낫다고 말합니다. 하지만 블로그 관점에서 중요한 질문은 승패가 아닙니다. AI 에이전트가 챗봇을 넘어 실제 업무 도구가 되려면 어떤 인터페이스가 필요한가입니다.
왜 데스크톱 앱이 중요한가
AI 에이전트는 그냥 답변을 생성하는 도구가 아닙니다. 파일을 읽고, 명령을 실행하고, 이미지를 만들고, 예약 작업을 돌리고, 여러 세션의 맥락을 이어갑니다. 이런 도구를 명령줄이나 메신저 명령만으로 다루면 초보자에게는 진입 장벽이 큽니다.
Hermes Agent 데스크톱 앱이 의미 있는 이유는 이 복잡한 구조를 눈에 보이는 작업 공간으로 바꾸기 때문입니다. 사용자는 세션, 아티팩트, 스킬, 툴셋, 크론잡, 프로필을 한곳에서 확인할 수 있습니다. 이는 AI 에이전트를 개발자 장난감에서 일상 업무 도구로 옮기는 핵심 변화입니다.
Hermes Agent 데스크톱 앱의 첫 화면. 영상은 CLI 중심 사용 경험의 한계를 지적하며 데스크톱 UI의 필요성을 강조한다.
영상 초반에서 진행자는 주제별 세션을 만드는 방식을 보입니다. 콘텐츠, 개발, 개인 프로젝트처럼 맥락이 다른 일을 각각의 세션으로 나누는 방식입니다. 이는 단순 채팅방 정리가 아니라 AI 에이전트에게 일을 맡기는 단위를 나누는 일에 가깝습니다.
AI 에이전트는 맥락이 길수록 더 유용해집니다. 하지만 맥락이 섞이면 오히려 혼란이 생깁니다. 그래서 세션을 주제별로 나누고 중요한 세션을 고정하는 기능은 작아 보여도 더 봐야 합니다. 사람에게 프로젝트 폴더가 필요하듯, 에이전트에게도 맥락 폴더가 해야 합니다.
세션을 주제별로 나누는 화면. AI 에이전트 사용에서 맥락 분리는 생산성과 정확도를 좌우한다.
아티팩트는 채팅 기록을 작업 자산으로 바꾼다
영상에서 특히 흥미로운 부분은 아티팩트입니다. 링크, 파일, 이미지, 에이전트가 만든 결과물을 한곳에서 다시 찾을 수 있습니다. 진행자는 이를 북마크나 작업 자료 보관소처럼 활용할 수 있다고 설명합니다.
이 기능은 AI 에이전트 경험의 방향을 잘 보입니다. 챗봇은 대화를 남깁니다. 에이전트는 산출물을 남겨야 합니다. 나중에 다시 찾고, 이어서 쓰고, 다른 세션에서 재사용할 수 있어야 합니다.
아티팩트 화면. 링크와 파일, 이미지, 생성 결과물이 흩어지지 않고 작업 자산으로 쌓인다.
스킬과 툴셋은 에이전트의 능력을 관리하는 패널이다
Hermes Agent의 중요한 특징 중 하나는 스킬입니다. 반복 작업이나 특정 환경에서 배운 절차를 스킬로 저장해 다음 작업에 재사용합니다. 영상에서도 진행자는 자신이 Godot 게임을 만들며 생성된 커스텀 스킬을 확인하는 장면을 보입니다.
툴셋도 더 봐야 합니다. 웹 검색, 터미널, 파일, 이미지 생성, 크론 같은 도구 묶음을 켜고 끄는 방식은 에이전트의 권한과 능력을 조절하는 일입니다. 데스크톱 UI는 이 설정을 명령어가 아니라 관리 화면으로 바꿉니다.
크론잡은 AI 에이전트를 수동 비서에서 자동 운영자로 바꾼다
영상 중반에서는 크론잡 관리 화면이 등장합니다. 매일 밤 앱을 만들게 하거나, 정해진 시간에 작업을 실행하게 하는 식의 예약 작업을 시각적으로 확인할 수 있습니다.
크론잡은 AI 에이전트가 단발성 대답 도구에서 자동 운영 도구로 넘어가는 지점입니다. 한 가지 조심할 점은 예약 작업은 실패 여부, 실행 로그, 권한 범위가 함께 보여야 신뢰할 수 있습니다. 데스크톱 앱은 이 확인 과정을 더 쉽게 만들 수 있습니다.
크론잡 관리 화면. 예약 작업은 AI 에이전트를 반복 업무 자동화 도구로 바꾸는 핵심 기능이다.
여러 프로필은 역할별 AI 직원을 만드는 방식이다
영상 후반에서 진행자는 여러 Hermes Agent를 서로 다른 장비와 역할에 나눠 운영한다고 말합니다. 어떤 에이전트는 특정 장비에서 살고, 어떤 에이전트는 다른 책임을 맡습니다. 데스크톱 앱은 이런 에이전트 프로필을 더 쉽게 관리하게 해줍니다.
이 구조는 앞으로 중요한 의미를 가집니다. 한 명의 범용 챗봇보다, 역할과 권한이 다른 여러 AI 에이전트를 운영하는 방식이 늘어날 수 있습니다. 콘텐츠 에이전트, 개발 에이전트, 리서치 에이전트, 모니터링 에이전트가 서로 다른 스킬과 도구를 갖는 식입니다.
실제 사용 예시는 산출물 중심 경험을 보여준다
마지막 예시에서 진행자는 이 영상에 대한 스크립트와 썸네일을 생성해 달라고 요청합니다. 데스크톱 앱은 사용 중인 스킬과 도구를 보여주고, 결과물은 아티팩트에서 확인됩니다.
이 장면은 AI 에이전트 UI의 핵심을 압축합니다. 사용자는 명령어를 외우지 않아도 됩니다. 에이전트가 어떤 도구를 쓰는지 볼 수 있습니다. 결과물은 파일이나 이미지로 남습니다. 이 세 가지가 합쳐져야 AI 에이전트는 실제 업무 흐름에 들어옵니다.
영상 스크립트와 썸네일을 생성하는 예시. 에이전트의 도구 사용 과정과 결과물이 함께 보인다.
Hermes Agent 데스크톱 앱이 던지는 질문
이 영상이 보여주는 먼저 볼 부분은 “Hermes가 이겼다”가 아닙니다. 더 중요한 질문은 AI 에이전트의 주 사용 인터페이스가 어디가 될 것인가입니다. CLI는 강력하지만 대중적이지 않습니다. 메신저는 편하지만 복잡한 설정과 검증에는 약합니다. 데스크톱 앱은 그 중간에서 작업 관리와 접근성을 동시에 제공합니다.
물론 주의할 점도 있습니다. AI 에이전트는 파일, 브라우저, 터미널, 외부 API에 접근할 수 있습니다. 그래서 UI가 쉬워질수록 권한 관리와 로그 확인은 더 더 봐야 합니다. 좋은 데스크톱 앱은 버튼을 많이 제공하는 앱이 아니라, 무엇을 허용했고 무엇이 실행됐는지 사용자가 이해하게 해주는 앱이어야 합니다.
Hermes Agent 데스크톱 앱은 AI 에이전트의 다음 과제를 잘 보입니다. 이제 문제는 “에이전트가 무엇을 할 수 있는가”만이 아닙니다. 사용자가 그 능력을 어떻게 이해하고, 관리하고, 반복해서 쓸 수 있는가입니다.
세션은 맥락을 나눕니다. 아티팩트는 산출물을 보관합니다. 스킬은 경험을 축적합니다. 크론잡은 반복 작업을 자동화합니다. 프로필은 역할별 에이전트를 만듭니다. 이 요소들이 데스크톱 UI 안에서 연결될 때, AI 에이전트는 개발자용 실험 도구에서 실제 업무 운영체제에 가까워집니다.
FAQ
Hermes Agent 데스크톱 앱은 무엇을 쉽게 만들어 주나?
세션, 아티팩트, 스킬, 툴셋, 크론잡, 프로필 관리를 시각적으로 확인하고 조작하게 해줍니다. CLI 명령을 몰라도 에이전트 운영 구조를 이해하기 쉬워집니다.
CLI보다 데스크톱 앱이 항상 좋은가?
항상 그렇지는 않습니다. 개발자나 자동화 고급 사용자는 CLI가 더 빠를 수 있습니다. 한 가지 조심할 점은 초보자와 비개발자에게는 데스크톱 UI가 진입 장벽을 낮춥니다.
아티팩트 기능은 왜 중요한가?
AI 에이전트가 만든 링크, 이미지, 파일, 결과물을 다시 찾고 재사용할 수 있게 해줍니다. 이는 단순 채팅 기록을 실제 작업 자산으로 바꾸는 기능입니다.
크론잡은 어떤 업무에 쓸 수 있나?
정기 리포트, 사이트 모니터링, 자료 수집, 블로그 성과 확인, 반복 개발 작업 같은 예약형 업무에 쓸 수 있습니다. 한 가지 조심할 점은 실패 로그와 권한 범위 확인이 더 봐야 합니다.
AI 에이전트 데스크톱 앱을 쓸 때 주의할 점은 무엇인가?
파일·터미널·브라우저·외부 API 접근 권한을 과하게 열지 않아야 합니다. 어떤 도구가 활성화되어 있고 어떤 작업이 실행됐는지 로그와 승인 흐름을 체크해 두세요.
마이크로소프트의 사티아 나델라를 볼 때, 흔히 떠올리는 키워드는 클라우드와 OpenAI입니다. 하지만 지금 더 눈여겨볼 변화는 PC 쪽에서 일어나고 있습니다. 마이크로소프트는 AI를 거대한 서버에서만 돌리는 서비스가 아니라, 사용자의 노트북과 앱 안에서 즉시 실행되는 기본 기능으로 만들려 합니다.
이 관점에서 Copilot+ PC, NPU, Windows AI Foundry, Foundry Local, Phi 계열 소형 모델은 서로 따로 움직이는 제품이 아닙니다. 나델라식 플랫폼 전략이 클라우드에서 PC로 내려오는 흐름입니다. 핵심 질문은 하나입니다. 마이크로소프트는 온디바이스 AI 생태계를 어떻게 바꾸려 하는가입니다.
온디바이스 AI 전략의 먼저 볼 부분은 PC에 기능을 추가하는 것이 아니라 Windows를 AI 앱의 실행 플랫폼으로 다시 세우는 데 있다.
사티아 나델라를 이해하는 먼저 볼 부분은 제품보다 플랫폼이다
나델라는 2014년 마이크로소프트 CEO가 된 뒤 회사를 Windows 패키지 중심 기업에서 Azure, Microsoft 365, GitHub, Teams, Copilot을 잇는 플랫폼 기업으로 바꿨습니다. Microsoft 2024 Annual Report의 주주 서한에서도 그는 AI를 새로운 플랫폼 전환으로 설명합니다. 이는 그냥 챗봇 하나를 더 붙이는 문제가 아닙니다.
나델라의 방식은 반복적입니다. 먼저 개발자와 기업이 모이는 기반을 만들고, 그 위에 도구와 배포 경로를 얹습니다. Azure가 클라우드 개발의 기반이었다면, 온디바이스 AI 시대의 기반은 Windows PC, NPU, 로컬 모델 런타임, 앱 생태계가 됩니다.
그래서 마이크로소프트의 온디바이스 AI 전략은 “PC에도 AI 기능을 넣는다” 정도로 보면 부족합니다. 더 정확히는 Windows를 AI 앱의 실행 환경으로 다시 정의하려는 시도입니다.
Copilot+ PC의 먼저 볼 부분은 Copilot 버튼보다 로컬 AI를 빠르고 전력 효율적으로 처리하는 NPU 기준선이다.
Copilot+ PC는 AI 기능이 아니라 새 기준선을 만든다
Copilot+ PC에서 중요한 단어는 Copilot보다 NPU입니다. Microsoft Learn의 Copilot+ PC 개발자 가이드는 Copilot+ PC를 고성능 NPU를 갖춘 새로운 Windows 11 하드웨어로 설명합니다. 이 NPU는 실시간 번역, 이미지 생성 같은 AI 작업을 위해 설계된 칩이며, 40 TOPS 이상의 성능을 기준으로 보입니다.
이 기준은 PC 시장에 중요한 메시지를 줍니다. 앞으로 좋은 노트북은 CPU와 GPU만 빠른 기계가 아니라, AI 작업을 배터리 소모와 지연을 줄이면서 처리할 수 있는 기계여야 한다는 뜻입니다.
마이크로소프트 입장에서는 더 큰 효과가 있습니다. Windows 앱 개발자가 “사용자 기기에 AI 가속기가 있다”고 가정할 수 있는 순간, 로컬 요약, 이미지 보정, 문서 검색, 개인화 추천, 실시간 보조 기능이 앱 기본 기능으로 내려옵니다.
Windows AI Foundry와 Foundry Local은 로컬 모델을 앱에 넣는 개발자 생태계를 묶는 장치다.
Windows AI Foundry는 개발자 생태계를 묶는 장치다
온디바이스 AI가 확산되려면 하드웨어만으로는 부족합니다. 개발자가 모델을 가져오고, 압축하고, 실행하고, 여러 장치에서 성능을 맞출 수 있어야 합니다. 여기서 Windows AI Foundry와 Foundry Local이 등장합니다.
Microsoft Learn은 Windows의 로컬 AI 개발 흐름에서 DirectML, ONNX Runtime, Windows ML, Foundry Local을 함께 설명합니다. 특히 DirectML과 ONNX Runtime은 GPU나 NPU를 활용해 모델 성능을 끌어올리는 경로입니다. Foundry Local은 기기 안에서 AI 애플리케이션과 에이전트를 설계하고 관리하는 문서 체계로 제시됩니다.
이 조합은 마이크로소프트가 원하는 생태계를 보입니다. 개발자는 클라우드 모델만 호출하는 앱이 아니라, 로컬 모델과 클라우드 모델을 섞어 쓰는 앱을 만들게 됩니다. 사용자는 더 빠른 응답과 개인정보 보호 이점을 얻습니다. 마이크로소프트는 Windows를 다시 개발자 플랫폼의 중심에 놓습니다.
Phi 같은 소형 모델은 로컬 처리와 클라우드 추론을 나누어 쓰는 하이브리드 AI 구조를 현실적으로 만든다.
Phi 소형 모델은 클라우드 독점 구조를 흔든다
온디바이스 AI에서 소형 언어 모델은 결정적입니다. 거대한 모델을 모두 노트북에서 돌릴 수는 없습니다. 대신 특정 작업을 잘 수행하는 작은 모델이 해야 합니다. Microsoft의 Phi-3 발표는 이 방향을 잘 보입니다.
Phi-3는 소형 언어 모델의 품질과 비용 효율을 강조합니다. Microsoft는 Phi-3가 Azure AI뿐 아니라 Ollama로 로컬 노트북에서도 실행될 수 있고, ONNX Runtime과 Windows DirectML 지원을 통해 GPU, CPU, 모바일 하드웨어까지 폭넓게 활용할 수 있다고 설명합니다.
이 전략은 클라우드 AI를 버리자는 뜻이 아닙니다. 오히려 작업을 나누자는 뜻에 가깝습니다. 민감하거나 반복적인 작업은 로컬에서 처리합니다. 복잡한 추론이나 대규모 지식 검색은 클라우드 모델을 씁니다. 이렇게 되면 AI 비용, 지연 시간, 개인정보, 배터리 사용량을 동시에 조정할 수 있습니다.
Recall 논쟁은 로컬 처리만으로 신뢰가 생기지 않으며 동의, 삭제, 정책 제어가 함께 필요하다는 점을 보여준다.
Recall 논쟁은 온디바이스 AI의 신뢰 문제를 드러냈다
마이크로소프트의 방향이 항상 순조로운 것은 아닙니다. Recall은 좋은 사례입니다. Recall은 사용자의 화면 활동을 기기에서 분석해 과거 작업을 찾게 해주는 Copilot+ PC 기능입니다. 하지만 화면 스냅샷과 민감 정보 처리 문제로 큰 개인정보 논쟁을 불러왔습니다.
Microsoft Learn의 Recall 문서는 Copilot+ PC, Windows 업데이트, 정책 설정, 사용자 동의와 제어를 전제로 설명합니다. 이 논점은 온디바이스 AI의 본질을 보입니다. 데이터를 클라우드로 보내지 않는다고 해서 자동으로 신뢰가 생기지는 않습니다. 사용자가 무엇이 저장되는지 알고, 끄고, 삭제하고, 통제할 수 있어야 합니다.
그래서 온디바이스 AI 생태계의 승부는 성능만으로 결정되지 않습니다. 로컬 처리, 암호화, 접근 권한, 투명한 UI, 기업 정책 제어가 함께 설계되어야 합니다. 나델라의 마이크로소프트가 이 문제를 풀지 못하면, AI PC는 편리한 플랫폼이 아니라 감시 논란의 플랫폼이 될 수 있습니다.
마이크로소프트가 바꾸려는 생태계의 구조
마이크로소프트의 전략은 네 개 층으로 볼 수 있습니다.
층위
마이크로소프트의 역할
생태계 변화
하드웨어
Copilot+ PC, NPU 기준 확산
AI 성능이 PC 구매 기준이 됨
런타임
Windows ML, ONNX Runtime, DirectML
앱이 로컬 모델을 더 쉽게 실행
모델
Phi 같은 소형 모델과 Azure 모델
로컬·클라우드 하이브리드 AI 확산
경험
Copilot, Recall, 앱 내 AI 기능
AI가 별도 서비스가 아니라 OS 경험이 됨
이 표에서 가장 중요한 변화는 마지막 줄입니다. AI가 브라우저에서 접속하는 서비스로만 남지 않고, 운영체제와 앱의 기본 경험으로 들어갑니다. 사용자는 별도의 챗봇 창을 열지 않아도 문서, 사진, 회의, 검색, 코딩 도구 안에서 AI를 쓰게 됩니다.
애플·구글과 다른 마이크로소프트의 강점
애플은 기기와 운영체제를 강하게 통합합니다. 구글은 Android와 검색, Gemini 생태계를 갖고 있습니다. 마이크로소프트의 강점은 기업 업무 환경과 개발자 생태계입니다. Windows, Microsoft 365, Azure, GitHub, Visual Studio, Teams가 이미 업무 흐름 속에 들어가 있습니다.
그래서 마이크로소프트가 온디바이스 AI에서 노리는 시장은 단순한 개인 비서가 아닙니다. 기업 문서, 보안 정책, 회의, 개발, 고객 응대, 현장 업무까지 이어지는 생산성 플랫폼입니다. 이 지점에서 나델라의 전략은 명확합니다. 클라우드 AI와 PC AI를 경쟁시키는 것이 아니라, 하나의 Microsoft 생태계 안에서 연결하려 합니다.
사용자는 무엇을 준비해야 할까
온디바이스 AI 생태계가 본격화되면 사용자와 기업은 PC를 고르는 기준부터 바꿔야 합니다. CPU, RAM, 저장장치만 볼 것이 아니라 NPU 성능, 로컬 모델 지원, 메모리 용량, 보안 정책, 배터리 효율을 함께 봐야 합니다.
기업은 더 신중해야 합니다. 로컬 AI는 개인정보 보호에 유리할 수 있지만, 화면 캡처, 파일 접근, 앱 권한, 로그 저장 방식이 불투명하면 오히려 위험해질 수 있습니다. AI PC 도입은 장비 교체 사업이 아니라 데이터 거버넌스와 업무 설계의 문제입니다.
개인 사용자에게는 새로운 기회도 있습니다. 로컬 LLM과 소형 모델이 좋아질수록 인터넷 연결 없이도 글쓰기, 요약, 검색, 코딩 보조, 지식 관리가 가능해집니다. 이미 로컬 LLM 실사용과 AI 에이전트 학습법은 별도 글에서도 다룬 바 있습니다.
사티아 나델라가 온디바이스 AI에서 노리는 것은 그냥 Copilot 버튼이 달린 PC를 많이 파는 일이 아닙니다. 더 큰 목표는 Windows를 AI 앱과 에이전트가 실행되는 기본 플랫폼으로 다시 세우는 것입니다.
이 변화가 성공하면 PC는 다시 중요한 AI 플랫폼이 됩니다. 클라우드 모델은 더 강력한 두뇌가 되고, 로컬 모델은 빠르고 개인적인 손발이 됩니다. 실패하면 AI PC는 마케팅 용어로 끝날 수 있습니다. 관전 포인트는 명확합니다. 마이크로소프트가 성능, 개발자 도구, 개인정보 신뢰를 동시에 설계할 수 있는가입니다.
FAQ
사티아 나델라는 왜 온디바이스 AI에 집중할까?
AI가 클라우드 서비스에만 머물면 Windows와 PC의 전략적 가치가 약해집니다. 반대로 AI가 PC와 앱 안에서 실행되면 Windows는 다시 핵심 플랫폼이 됩니다.
Copilot+ PC의 먼저 볼 부분은 무엇인가?
먼저 볼 부분은 NPU입니다. 40 TOPS 이상급 AI 가속 성능을 기준으로 로컬 AI 기능을 더 빠르고 전력 효율적으로 실행하려는 하드웨어 기준입니다.
Windows AI Foundry와 Foundry Local은 왜 중요한가?
개발자가 로컬 모델을 앱에 넣고, ONNX Runtime·DirectML·Windows ML 같은 실행 경로를 활용하게 해줍니다. 즉 온디바이스 AI 앱 생태계를 만드는 개발자 도구입니다.
온디바이스 AI는 클라우드 AI를 대체하나?
아닙니다. 민감하고 반복적인 작업은 로컬에서 처리하고, 복잡한 추론과 대규모 지식 처리는 클라우드가 맡는 하이브리드 구조가 유력합니다.
Recall 논쟁이 주는 교훈은 무엇인가?
로컬 처리만으로 신뢰가 생기지는 않는다는 점입니다. 사용자의 명확한 동의, 저장 범위 제어, 삭제 권한, 기업 정책 관리가 함께 있어야 합니다.
이 영상의 검색 의도는 “M5 Pro Max에서 로컬 LLM이 빠른가?”에만 머물지 않습니다. 더 중요한 질문은 세 가지입니다.
로컬 모델을 Claude Code 같은 개발 도구와 연결할 수 있는가
OMLX 같은 서버가 체감 속도를 얼마나 끌어올리는가
Hermes Agent처럼 도구를 호출하는 에이전트에도 로컬 LLM을 붙일 수 있는가
영상에서는 Qwen 계열 모델, NVIDIA Nemotron Nano 계열 모델, 임베딩 모델 등을 소개하며 로컬 환경을 하나의 작업 시스템처럼 구성합니다. 여기서 로컬 LLM은 단일 챗봇이 아니라 여러 도구와 연결되는 백엔드 모델에 가깝습니다.
Thinknote의 세컨드 브레인과 LLM Wiki 글에서 다룬 것처럼, 앞으로의 AI 활용은 모델 성능만이 아니라 “어떤 맥락을 어떤 도구와 연결하느냐”가 더 더 봐야 합니다.
OMLX가 중요한 이유: 모델보다 서버 체감이 먼저 보인다
영상에서 가장 눈에 띄는 장면은 OMLX 대시보드입니다. 진행자는 OMLX를 통해 초당 117토큰 수준의 생성 속도를 확인했다고 설명합니다. 수치 자체보다 먼저 볼 부분은 로컬 LLM의 병목이 모델 파일 하나가 아니라 추론 서버, 캐싱, 배치 처리, 하드웨어 메모리 구성의 합으로 결정된다는 점입니다.
OMLX 대시보드에서 토큰 생성 속도와 모델 상태를 확인하는 장면입니다. 출처: 배움의 달인 YouTube 영상 캡처.
OMLX GitHub README는 이 도구를 Apple Silicon에 최적화된 LLM inference 서버로 설명합니다. 핵심 표현은 continuous batching과 tiered KV caching입니다. 쉽게 말하면 여러 요청을 효율적으로 처리하고, 반복되는 문맥 계산 비용을 줄여 체감 속도를 높이는 구조입니다.
OMLX는 로컬 모델을 단순 실행하는 도구가 아니라, 대시보드로 모델 상태와 처리량을 확인하는 운영 환경에 가깝습니다. 출처: 배움의 달인 YouTube 영상 캡처.
이 지점은 SGLang 로컬 LLM 서빙 엔진 글과도 이어집니다. 로컬 LLM을 제대로 쓰려면 모델 선택만큼이나 서빙 엔진, 컨텍스트 관리, 캐싱 전략이 더 봐야 합니다.
Claude Code와 로컬 모델: 빠르지만 검증은 별도다
영상 중반부에서는 omlx launch claude 흐름으로 Claude Code를 로컬 모델에 연결합니다. 이후 텍스트 작성과 테트리스 게임 생성 작업을 비교합니다. 진행자는 일부 작업에서 로컬 LLM이 더 빠르게 완료되는 모습을 보여주지만, 동시에 결과 품질은 별도로 확인해야 한다는 전제를 남깁니다.
Claude Code를 로컬 모델에 연결해 실제 산출물을 생성하는 장면입니다. 속도 비교와 품질 검증은 분리해서 봐야 합니다. 출처: 배움의 달인 YouTube 영상 캡처.
이 대목에서 중요한 판단 기준은 “빠른가”보다 “어떤 작업을 맡겨도 되는가”입니다. 예를 들어 다음 작업은 로컬 모델에 먼저 맡겨볼 수 있습니다.
작업 유형
로컬 LLM 적합도
확인해야 할 점
초안 작성
높음
사실관계와 문체 검수 필요
반복 코드 생성
중간~높음
테스트 실행과 보안 검토 필요
개인 문서 요약
높음
민감정보 외부 전송을 줄일 수 있음
최신 정보 검색
중간
검색 도구 연결과 출처 확인 필요
복잡한 설계 판단
중간
클라우드 상위 모델과 교차 검토 권장
AI 코딩 흐름은 Headroom 토큰 다이어트 글과도 연결됩니다. 비용을 줄이는 방법은 모델을 로컬로 돌리는 것만이 아닙니다. 에이전트가 읽는 로그, 파일, 검색 결과를 줄이고 검증 루프를 설계하는 것도 같은 문제의 다른 해법입니다.
Hermes Agent와 로컬 LLM: 에이전트 운영의 다음 실험
후반부에서 특히 흥미로운 부분은 Hermes Agent 연결입니다. 영상은 omlx launch hermes 흐름과 X Search 스킬 실행을 드러납니다. 로컬 모델이 단순 문장 생성기를 넘어 검색, 도구 호출, 요약, 산출물 생성을 담당하는 에이전트 런타임에 붙을 수 있음을 보여주는 장면입니다.
Hermes Agent에서 X Search 스킬을 호출해 최신 AI 소식을 검색하고 요약하는 장면입니다. 출처: 배움의 달인 YouTube 영상 캡처.
Hermes Agent는 터미널, 메시징 플랫폼, IDE에서 실행되는 오픈소스 AI 에이전트 프레임워크입니다. 도구 호출, 스킬, 메모리, 크론잡, 멀티 플랫폼 게이트웨이를 통해 작업을 실행합니다. 로컬 LLM을 여기에 연결할 수 있다면 다음과 같은 장점이 생깁니다.
개인 문서나 내부 로그를 외부 API로 덜 보내도 된다
반복적인 요약·분류·초안 작업의 토큰 비용을 낮출 수 있다
클라우드 모델 장애나 비용 제한이 있을 때 보조 경로가 생긴다
에이전트 실험을 더 많이 돌려볼 수 있다
주의할 점은 로컬 모델이 도구를 호출한다고 해서 곧바로 “믿고 맡길 수 있는 직원”이 되는 것은 아닙니다. AI 에이전트 시대의 개인 비서 글에서 다룬 것처럼, 실행형 AI일수록 권한, 검증, 로그, 되돌리기 설계가 더 봐야 합니다.
도입 전 체크리스트: 로컬 LLM은 이렇게 판단하자
로컬 LLM 도입 여부는 성능 수치 하나로 결정하면 위험합니다. 영상의 M5 Pro Max 128GB 환경은 강력한 상한선 사례에 가깝습니다. 일반적인 노트북이나 메모리가 작은 Mac에서는 같은 체감이 나오지 않을 수 있습니다.
도입 전에는 아래 순서로 판단하는 편이 좋습니다.
먼저 반복 업무를 고른다. 초안, 요약, 태깅, 코드 스캐폴딩처럼 실패 비용이 낮은 작업부터 시작한다.
같은 프롬프트를 클라우드 모델과 로컬 모델에 넣고 속도·품질·비용을 비교한다.
로컬 모델 산출물은 테스트, 링크 확인, 사실 검증을 자동화한다.
민감정보가 있는 작업과 외부 검색이 필요한 작업을 분리한다.
최종 판단이나 고위험 실행은 클라우드 상위 모델 또는 사람 검토를 남긴다.
이런 접근은 AI 네이티브 전환법 글에서 말한 “디지털 두뇌와 실행 에이전트의 분리”와도 맞닿아 있습니다. 로컬 LLM은 두뇌 전체를 대체하기보다, 자주 쓰는 일부 사고·실행 루프를 가까운 곳으로 가져오는 도구입니다.
결론: 로컬 LLM의 승부처는 대체가 아니라 배치다
이번 영상의 의미는 “로컬 LLM이 Claude나 GPT를 완전히 이겼다”가 아닙니다. 더 현실적인 결론은 로컬 LLM을 어디에 배치할지 정하는 단계가 왔다는 것입니다.
고사양 Mac과 OMLX 같은 서버가 있다면 로컬 LLM은 초안, 요약, 코드 생성, 개인 지식 검색, 에이전트 실험에서 충분히 실무적 선택지가 될 수 있습니다. 반대로 최신 정보 판단, 복잡한 추론, 높은 신뢰도가 필요한 업무는 여전히 클라우드 모델과 병행하는 편이 안전합니다.
결국 앞으로의 AI 업무 환경은 하나의 모델을 고르는 문제가 아닙니다. 로컬 모델, 클라우드 모델, 에이전트, 검색 도구, 지식 베이스를 어떤 기준으로 나눠 배치하느냐가 생산성을 가를 가능성이 높습니다.
FAQ
로컬 LLM이 Claude나 ChatGPT를 대체할 수 있나요?
일부 반복 업무에서는 대체하거나 보조할 수 있습니다. 하지만 복잡한 판단, 최신 정보 검증, 고위험 코드 변경은 클라우드 상위 모델이나 사람 검토와 병행하는 것이 안전합니다.
OMLX는 무엇인가요?
OMLX는 Apple Silicon에 최적화된 LLM inference 서버입니다. GitHub README 기준으로 continuous batching과 tiered KV caching을 강조하. macOS 메뉴바와 대시보드를 통해 로컬 모델 운영을 쉽게 하는 방향의 도구입니다.
M5 Pro Max 128GB가 아니어도 비슷한 결과가 나오나요?
같은 수준의 속도를 보장하기는 어렵습니다. 영상 결과는 고사양 Mac과 큰 메모리 환경의 영향을 크게 받습니다. 자신의 장비에서는 작은 모델과 반복 작업부터 테스트하는 편이 좋습니다.
Hermes Agent에 로컬 LLM을 연결하면 무엇이 좋아지나요?
검색, 파일 처리, 요약, 자동화 작업을 로컬 모델로 실험할 수 있습니다. 비용과 프라이버시 측면에서 장점이 있지만, 도구 실행 권한과 결과 검증 체계는 반드시 따로 설계해야 합니다.
로컬 LLM을 처음 도입한다면 어디서 시작해야 하나요?
개인 문서 요약, 회의록 정리, 코드 초안, 간단한 분류 작업처럼 실패 비용이 낮은 작업부터 시작하는 것이 좋습니다. 이후 클라우드 모델 결과와 비교해 품질 기준을 정하면 됩니다.
영상 제목은 AI 에이전트를 “학습시키는 방법”을 강조합니다. 실제 내용도 설치 명령어보다 운영 구조에 가깝습니다. Hermes Agent를 Telegram에 연결하고, Codex나 Claude Code 같은 도구와 조합해 여러 에이전트를 역할별로 나누는 흐름이 중심입니다.
Hermes Agent 공식 설명에서도 Hermes는 터미널, 메시징 플랫폼, IDE에서 실행되는 오픈소스 AI 에이전트 프레임워크입니다. 또한 스킬, 메모리, 프로필, 게이트웨이, 크론, MCP, 여러 모델 제공자 연결을 지원합니다. 영상의 사례는 이 기능들을 개인 업무 시스템으로 엮은 예시로 볼 수 있습니다.
여기서 중요한 점은 “AI 직원을 많이 만든다”가 아닙니다. 각 에이전트가 맡을 역할, 참고할 지식, 반복할 학습 루프, 보고 방식이 있어야 합니다. 그렇지 않으면 대화창만 늘어나고 실제 생산성은 올라가지 않습니다.
AI 에이전트를 직원처럼 나누는 이유
영상에서는 개발, UI 디자인, 테스트, 콘텐츠, 강의 보조 같은 역할을 가진 에이전트들이 소개됩니다. 이는 사람 조직의 직무 분장과 비슷합니다. 한 에이전트에게 모든 일을 맡기면 맥락이 섞이고, 지시도 길어지며, 결과 검증이 어려워집니다.
역할별 AI 에이전트를 관리하는 command center 화면
역할을 나누면 세 가지 장점이 생깁니다.
지시가 짧아집니다. 개발 에이전트에게는 코드와 테스트를, 디자인 에이전트에게는 레이아웃과 레퍼런스를 중심으로 말하면 됩니다.
기준이 선명해집니다. 각 에이전트의 규칙 파일이나 스킬 문서에 해야 할 일과 하지 말아야 할 일을 분리해 둘 수 있습니다.
검증이 쉬워집니다. 만든 사람과 검토하는 사람, 즉 생성 에이전트와 리뷰 에이전트를 나눌 수 있습니다.
최근 The Register는 넷플릭스 시니어 엔지니어 Tejas Chopra가 만든 오픈소스 프로젝트 Headroom을 소개했습니다. 기사에 따르면 이 프로젝트는 Netflix의 공식 프로젝트는 아니지만, 여러 팀과 외부 프로젝트에서 사용되고 있습니다. 먼저 볼 부분은 간단합니다. LLM에 보내기 전에 불필요한 컨텍스트를 줄여 “토큰 다이어트”를 하자는 것입니다.
Headroom은 무엇인가
AI 에이전트가 읽는 파일·로그·검색 결과를 그대로 보내면 토큰 비용은 빠르게 커집니다.
Headroom은 AI 에이전트가 LLM에 보내는 입력을 압축하는 컨텍스트 압축 계층입니다. GitHub 저장소 설명에 따르면 tool output, 로그, 파일, RAG chunk를 LLM에 도달하기 전에 줄이는 도구입니다.
Headroom은 하나의 프롬프트 압축 팁이 아닙니다. 라이브러리, 프록시, MCP 서버, 에이전트 wrapper 형태로 쓸 수 있는 개발자 도구에 가깝습니다. Claude Code, Codex, Cursor, Aider 같은 코딩 에이전트 앞단에 붙여 토큰 낭비를 줄이는 방식입니다.
중요한 점은 “모든 글자를 무조건 압축한다”가 아닙니다. Headroom은 입력의 종류를 보고 다른 압축 방식을 적용합니다. JSON은 JSON에 맞게, 코드는 코드 구조에 맞게, 일반 텍스트는 텍스트에 맞게 줄이는 식입니다.
왜 AI 에이전트 시대에 토큰 비용이 커지는가
챗봇을 쓸 때는 사용자가 질문을 입력하고 답을 받습니다. 하지만 AI 에이전트는 다릅니다. 에이전트는 파일을 읽고, 검색하고, 로그를 확인하고, 도구를 호출하고, 그 결과를 다시 LLM에 넣습니다.
문제는 이 과정에서 중복이 많이 생긴다는 점입니다. 같은 에러 로그가 여러 번 들어가고, 필요 없는 파일 내용이 함께 들어가며, RAG 검색 결과가 너무 넓게 붙습니다. 사람에게는 잡음처럼 보이는 정보도 토큰으로는 모두 비용이 됩니다.
The Register 기사에 따르면 Chopra는 Claude Sonnet 사용 중 $287 청구서를 보고 토큰 절감 문제에 관심을 갖게 됐습니다. 이후 많은 입력이 실제 추론에 꼭 필요한 정보가 아니라 반복·보일러플레이트·중복 데이터라는 점을 확인했다고 설명했습니다.
Headroom의 핵심 구조
Headroom의 먼저 볼 부분은 모델 호출 전에 입력 컨텍스트를 분리하고 압축해 필요한 정보만 남기는 것입니다.
Headroom README는 구조를 CacheAligner, ContentRouter, CCR, SmartCrusher, CodeCompressor, Kompress-base 같은 구성으로 설명합니다. 이름은 복잡하지만 흐름은 실무적으로 이해할 수 있습니다.
첫째, ContentRouter는 입력의 종류를 구분합니다. 코드, JSON, 로그, 일반 텍스트를 같은 방식으로 줄이면 오류가 납니다. 그래서 먼저 내용의 성격을 판단합니다.
둘째, CodeCompressor와 SmartCrusher는 코드와 JSON처럼 구조가 중요한 데이터를 조심스럽게 줄입니다. 코드에서 식별자나 문법을 망가뜨리면 절감보다 손실이 커집니다.
셋째, CCR은 원본을 로컬에 보관하고 필요할 때 다시 가져오게 하는 방식입니다. 압축본만 보내되, 모델이 원문이 필요하다고 판단하면 retrieval 도구로 원본을 조회할 수 있게 합니다.
넷째, CacheAligner는 provider의 캐시가 깨지지 않도록 입력 prefix를 안정화하는 역할을 합니다. 단순 압축은 캐시 적중률을 낮춰 오히려 비용을 늘릴 수 있습니다. 이 지점이 Headroom이 단순 프롬프트 요약 도구와 다른 부분입니다.
숫자는 어떻게 봐야 할까
Headroom README는 실제 agent workload에서 60~95% fewer tokens를 내세웁니다. 예시로 code search, SRE incident debugging, GitHub issue triage, codebase exploration 같은 작업에서 큰 절감률을 보입니다.
주의할 점은 이 숫자는 그대로 모든 조직에 적용되는 보장값으로 보면 안 됩니다. 어떤 작업은 로그와 검색 결과가 많아 절감 여지가 큽니다. 반대로 짧은 질문이나 이미 잘 정리된 입력은 줄일 토큰이 많지 않습니다.
그래서 실무 판단 기준은 “얼마나 줄어든다고 홍보하는가”가 아닙니다. 우리 조직의 실제 agent workflow에서 입력 토큰, 출력 토큰, 지연 시간, 캐시 적중률, 실패율을 함께 측정해야 합니다.
토큰 다이어트가 필요한 팀의 신호
Headroom 같은 도구를 바로 도입해야 하는 팀은 몇 가지 신호가 있습니다.
코딩 에이전트가 큰 저장소를 반복해서 읽습니다.
로그와 테스트 결과가 매 요청마다 길게 붙습니다.
RAG 검색 결과가 과도하게 많이 들어갑니다.
같은 시스템 프롬프트와 정책 문서가 계속 반복됩니다.
사용량 한도나 월 비용 때문에 AI 도구 활용이 멈춥니다.
이런 상황에서는 모델을 바꾸기 전에 컨텍스트 구조부터 봐야 합니다. 비싼 모델이 문제가 아니라, 비싼 모델에 불필요한 입력을 계속 보내는 구조가 문제일 수 있습니다.
조직이 배워야 할 5가지 교훈
첫째, AI 비용 최적화는 재무팀의 일이 아니라 엔지니어링 문제입니다. 비용은 토큰 구조, 도구 호출, 캐시 설계, RAG 품질에서 결정됩니다.
둘째, 프롬프트 압축은 마지막 단계입니다. 먼저 검색 결과를 줄이고, 중복을 제거하고, 필요한 파일만 읽게 해야 합니다. 원천에서 줄이지 못한 낭비를 문장 압축만으로 해결하기는 어렵습니다.
셋째, 압축은 품질 검증과 함께 가야 합니다. 토큰이 줄어도 답이 틀리면 실패입니다. Headroom이 benchmark와 재현 명령을 함께 제시하는 이유도 여기에 있습니다.
넷째, 캐시를 깨지 않는 설계가 더 봐야 합니다. 공급자의 prompt cache는 입력이 조금만 바뀌어도 효과가 떨어질 수 있습니다. 절감 도구가 캐시를 망가뜨리면 총비용은 오히려 늘어납니다.
다섯째, 원본 보존이 해야 합니다. AI가 압축된 정보만 보고 판단하면 중요한 맥락을 놓칠 수 있습니다. 필요할 때 원문을 다시 조회할 수 있는 구조가 안전합니다.
도입 전 체크리스트
토큰 절감 도구를 도입할 때는 비용뿐 아니라 품질, 보안, 데이터 흐름까지 함께 점검해야 합니다.
AI 경쟁을 이야기할 때 가장 먼저 떠오르는 단어는 GPU, 초거대 모델, 빅테크입니다. 하지만 스탠포드대 최예진 교수는 조금 다른 질문을 던집니다. “더 크게 만드는 것”만으로 충분한가, 그리고 AI는 정말 더 많은 사람과 조직이 만들고 통제할 수 있는 기술이 되고 있는가라는 질문입니다.
PLUS TV 인터뷰에서 최예진 교수는 대형 언어 모델 중심의 승자독식 구도, 소형 언어 모델의 가능성, 한국의 피지컬 AI 전략. 그리고 AI 시대 개인에게 필요한 역량을 폭넓게 설명했습니다. 이 글은 영상을 단순 요약하기보다, 한국 기업과 개인이 실제로 가져가야 할 판단 기준으로 묶어 봤습니다.
최예진 교수는 지난 1년 사이 AI 업계의 분위기가 바뀌었다고 말합니다. 이전에는 “AI가 곧 모든 것을 바꿀 것”이라는 기대가 컸습니다. 지금은 산업 현장에서 실제 이익이 얼마나 빠르게 확산되는지, 현재 AI가 무엇을 잘 못하는지, 어떤 방식으로 부족한 부분을 보완해야 하는지에 대한 대화가 많아졌습니다.
먼저 볼 부분은 학습 방식입니다. 지금의 생성형 AI는 방대한 데이터를 수동적으로 읽고 패턴을 익히는 방식에 많이 의존합니다. 최 교수는 이를 “문제집을 많이 풀어 성적을 올리는 학생”에 비유합니다. 문제집을 많이 푼다고 창의력이 반드시 좋아지는 것은 아닙니다.
사람은 모르는 것을 다시 묻고, 이해가 안 되는 부분을 되짚고, 자기 방식으로 공부합니다. 반면 현재 AI는 주어진 문장과 문서를 그대로 받아들이는 경우가 많습니다. 앞으로의 중요한 연구 방향은 AI가 더 능동적으로 배우고 추론하도록 만드는 데 있습니다.
왜 ‘남들이 안 하는 선택’이 중요했나
최예진 교수의 커리어에서 흥미로운 지점은 안정적인 길보다 어려운 길을 선택했다는 점입니다. 그는 마이크로소프트에서 소프트웨어 개발자로 일하다가 AI 연구로 방향을 바꿨습니다. 당시 AI는 지금처럼 각광받는 분야가 아니었습니다. 오히려 “AI의 겨울” 이후 전망이 불확실한 비주류 분야에 가까웠습니다.
그럼에도 그는 어렵고 도전적인 분야에 먼저 뛰어드는 것이 장기적으로 의미 있다고 판단했습니다. 특히 자연어 처리 분야에서도 문법 분석보다 ‘상식’과 ‘맥락’을 이해하는 문제에 집중했습니다. 당시에는 상식 연구가 낮게 평가받기도 했지만, 언어를 진짜로 이해하려면 문법만으로는 부족합니다.
문장이 맞아도 맥락을 모르면 의미를 놓칩니다. 사람은 말을 생략하고, 암시하고, 당연한 배경지식을 전제로 대화합니다. AI가 인간 언어를 제대로 이해하려면 이런 상식과 맥락을 다룰 수 있어야 합니다.
대형 모델 경쟁만으로는 부족하다
스케일링 법칙과 대형 모델 중심 경쟁을 설명하는 인터뷰 장면
최 교수는 스케일링 자체를 부정하지 않습니다. 모델을 크게 만들고 데이터를 많이 넣으면 성능이 좋아지는 것은 사실입니다. 문제는 모두가 같은 방향으로만 달릴 때 생깁니다. 초대형 모델 경쟁은 막대한 자본과 GPU를 가진 기업과 국가에 유리합니다.
그렇다면 자본이 상대적으로 작은 국가는 영원히 뒤처질까요? 최 교수는 그렇지 않다고 봅니다. 알고리즘, 데이터 품질, 학습 방식의 개선으로 더 작고 효율적인 모델을 만들 수 있기 때문입니다.
그 근거로 그는 인간의 두뇌를 듭니다. 인간의 뇌는 LED 전구 하나보다 적은 전력을 쓰면서도 복합적 사고를 하고, 적은 데이터로도 많은 것을 배웁니다. 자연이 이미 효율적인 지능 시스템을 보여주고 있다면, AI 연구도 언젠가는 더 작은 자원으로 강력한 성능을 내는 방향을 찾을 수 있습니다.
한국 AI 전략의 먼저 볼 부분은 GPU만이 아니다
한국이 AI 경쟁에서 살아남기 위해 GPU를 확보하는 일은 더 봐야 합니다. 하지만 그것만으로는 충분하지 않습니다. 최예진 교수는 한국이 미국·중국과 같은 자본 규모로만 경쟁하기 어렵다면, 인재와 아이디어, 협력 문화에서 승부해야 한다고 말합니다.
특히 인재 육성은 장기 전략으로 볼 수 있습니다. 중국 AI 생태계가 빠르게 성장한 배경에는 미국에서 공부하고 돌아간 연구자들이 수년간 학생을 길러낸 구조가 있습니다. 단기간의 장비 투자도 필요하지만, 더 멀리 보면 훌륭한 연구자와 엔지니어를 계속 배출하는 시스템이 더 봐야 합니다.
또 하나의 조건은 협력 문화입니다. 조직 내부 정치와 중복 경쟁은 시간과 자원의 낭비입니다. 같은 문제를 각자 따로 풀기보다, 지식과 데이터를 공유하고 서로의 성과를 연결하는 방식이 해야 합니다. AI 경쟁은 개인 천재 한 명의 승부가 아니라 생태계의 승부에 가깝습니다.
피지컬 AI는 한국이 노릴 수 있는 전략적 영역이다
피지컬 AI와 제조 기반 전략을 설명하는 인터뷰 장면
최 교수는 한국의 제조 기반 피지컬 AI 전략을 긍정적으로 봅니다. 피지컬 AI는 로봇, 제조, 물류, 현실 세계의 행동과 관련된 AI를 뜻합니다. 텍스트나 이미지처럼 인터넷에 풍부하게 쌓인 데이터와 달리, 제조 현장과 로봇 행동 데이터는 쉽게 구하기 어렵습니다.
이 점이 오히려 기회입니다. 피지컬 AI는 자본만 투입한다고 빠르게 풀리는 문제가 아닙니다. 현장 지식, 숙련된 인력, 제조 데이터, 실제 문제를 이해하는 역량이 함께 해야 합니다. 한국은 제조업 기반과 현장 운영 경험이 강하기 때문에 이 영역에서 차별화할 수 있습니다.
피지컬 AI가 발전하면 기존 제품을 자동화하는 데 그치지 않습니다. 이전에는 불가능하다고 여겼던 가전, 로봇, 산업 장비, 서비스가 새로 나올 수 있습니다. 이는 새로운 브랜드와 일자리로 이어질 가능성도 있습니다.
많은 사람이 이미 ChatGPT 같은 AI 서비스를 쓰고 있습니다. 그래서 “AI는 이미 민주화된 것 아닌가?”라고 생각할 수 있습니다. 하지만 최예진 교수가 말하는 AI 민주화는 그냥 AI를 소비하는 상태와 다릅니다.
그는 링컨의 민주주의 정의를 AI에 빗대어 설명합니다. 생성형 AI는 인간의 지식과 가치를 반영해야 하고, 인간이 만들 수 있어야 하며, 인간 전체에게 도움이 되어야 합니다. 즉 AI 민주화는 “누구나 쓸 수 있다”를 넘어 “다양한 나라와 조직이 만들고 개선하고 통제할 수 있다”에 가깝습니다.
여기서 소형 언어 모델과 오픈소스가 더 봐야 합니다. 모든 조직이 초대형 모델을 만들 만큼의 GPU를 살 수는 없습니다. 하지만 소형 모델이 충분히 좋아지고, 학습 데이터와 훈련 방법이 공유된다면 더 많은 주체가 자기 목적에 맞는 AI를 만들 수 있습니다.
오픈소스는 단순한 무료 공개가 아닙니다. 좋은 연구를 공개하면 전 세계 개발자와 연구자가 모이고, 인재 유입이 생기며, 생태계의 신뢰도 높아집니다. 중국의 일부 AI 기업들이 오픈소스를 통해 인재와 관심을 끌어모은 사례도 이 맥락에서 이해할 수 있습니다.
소형 언어 모델은 어디서 강점을 가질까
대형 언어 모델은 큰 신경망과 막대한 데이터, 대규모 자본을 바탕으로 만들어집니다. 반면 소형 언어 모델은 크기가 작기 때문에 부족한 부분을 다른 방식으로 채워야 합니다. 최 교수는 그 핵심을 데이터 품질에서 찾습니다.
이미 인터넷 데이터는 대형 모델이 대부분 학습했습니다. 같은 데이터를 다시 많이 넣는다고 작은 모델이 큰 모델을 쉽게 따라잡기는 어렵습니다. 대신 인터넷에 없는 고품질 데이터, 특정 분야에 맞춘 데이터, 알고리즘으로 선별된 데이터가 더 봐야 합니다.
소형 모델이 모든 면에서 초대형 모델을 이길 필요는 없습니다. 특정 업무나 기관, 산업 현장에서는 충분히 잘 작동하면서 비용이 훨씬 낮은 모델이 더 현실적인 선택일 수 있습니다. 예를 들어 내부 문서 검색, 고객 응대, 공공기관의 제한된 업무, 제조 현장의 특화 작업에서는 “가장 큰 모델”보다 “충분히 좋고 통제 가능한 모델”이 더 유리할 수 있습니다.
AI가 많은 지식을 제공하는 시대에는 단순 암기형 전문성이 약해질 수 있습니다. 전문 지식을 많이 외우는 것만으로는 AI와 차별화되기 어렵습니다. 대신 먼저 볼 부분은 AI가 제시한 정보를 바탕으로 다음 질문을 만들고, 자기 관점으로 추론하며, 새로운 가치를 만드는 능력입니다.
최예진 교수는 AI 시대의 리더에게 독창적 사고와 창의력이 필요하다고 말합니다. AI는 거대한 라이브러리처럼 지식을 꺼내 줄 수 있지만, 그 지식을 어디에 연결하고 무엇을 만들지는 사람이 결정해야 합니다.
또 하나의 중요한 능력은 개별성입니다. 최 교수는 인간만이 가진 다양성과 고유한 특징을 AI가 쉽게 대체하기 어렵다고 봅니다. 모두가 같은 답을 빠르게 얻는 시대일수록, 각자가 가진 문제의식과 경험, 질문의 방향이 더 더 봐야 합니다.
AI agent 변화는 “질문에 잘 답하는 챗봇”에서 “실제 일을 처리하는 실행형 AI”로 이동하고 있습니다. 예전의 AI가 글을 요약하고 코드를 제안하는 데 강했다면, 이제 사용자는 메일을 정리하고, 일정을 확인하고, 브라우저에서 작업을 진행하고, 테스트 결과까지 보고하는 AI를 기대합니다.
OpenClaw는 이런 흐름을 이해하기 좋은 사례입니다. OpenClaw는 사용자가 직접 운영하는 오픈소스 개인 AI assistant이자 self-hosted gateway를 지향합니다. 여러 메신저 채널, 에이전트 세션, 브라우저 제어, 도구, 메모리, 백그라운드 작업을 묶어 “대화하는 AI”를 “움직이는 AI”에 가깝게 만듭니다.
이 글은 OpenClaw를 중심으로 AI agent 변화가 어디로 향하는지 짚어봅니다. 먼저 볼 부분은 단순한 기능 추가가 아닙니다. AI가 어떤 채널에서 호출되고, 어떤 도구를 안전하게 사용하며, 어디까지 책임 있게 실행할 수 있는지가 앞으로의 경쟁 기준으로 떠오르고 있습니다.
왜 지금 AI agent 변화가 중요한가
챗봇형 AI는 지식 접근 방식을 크게 바꿨습니다. 검색어를 조합하지 않아도 질문하면 요약과 설명을 얻을 수 있고, 문서 초안이나 코드도 빠르게 만들 수 있습니다. 하지만 실제 업무에서는 자주 마지막 단계가 남습니다.
예를 들어 “이번 주 회의 일정 정리해줘”라는 요청은 단순한 설명으로 끝나지 않습니다. 캘린더 확인, 참석자 파악, 충돌 일정 판단, 메시지 작성, 필요하면 발송까지 이어져야 합니다. 챗봇이 방법을 알려주는 것과 에이전트가 실제 흐름을 처리하는 것은 느낌부터 다릅니다.
답변 품질보다 실행 품질이 중요해진다
AI agent 변화가 중요한 이유는 경쟁 기준이 바뀌기 때문입니다. 과거에는 “어떤 모델이 더 정확하게 답하는가”가 중심이었다면, 이제는 “어떤 시스템이 안전하게 도구를 쓰고 작업을 완료하는가”가 중요해지고 있습니다.
Anthropic의 computer use는 모델이 화면을 보고, 커서를 움직이고, 클릭하고, 입력하는 방향을 보여줬습니다. OpenAI Agents SDK는 에이전트, 도구, 세션, guardrails, human-in-the-loop 같은 실행 구조를 문서화하고 있습니다. MCP(Model Context Protocol)는 AI 애플리케이션이 파일, 데이터베이스, 업무 도구와 연결되는 표준 인터페이스로 주목받고 있습니다.
이 흐름을 묶어 보면 방향은 분명합니다. AI는 더 이상 대화창 안에만 머물지 않습니다. 업무 시스템, 브라우저, 로컬 파일, 메신저, API와 연결되어 실행자로 확장되고 있습니다.
OpenClaw는 AI agent 변화에서 무엇을 보여주는가
OpenClaw는 공식적으로 개인 AI assistant와 gateway를 전면에 내세웁니다. 사용자는 하나의 Gateway를 실행하고 Telegram, Slack, Discord, WhatsApp 같은 여러 채널에서 AI assistant를 호출할 수 있습니다. 공식 문서 기준으로 OpenClaw는 self-hosted, multi-channel, agent-native, open source라는 특성을 강조합니다.
이 구조가 흥미로운 이유는 OpenClaw가 단순한 “AI 앱”보다 “AI 운영 레이어”에 가깝기 때문입니다. 사용자는 특정 웹앱에 들어가 AI를 쓰는 것이 아니라, 이미 쓰는 커뮤니케이션 채널에서 AI를 호출합니다. 그 뒤에서는 세션, 도구, 브라우저, 파일, 플러그인, 메모리 같은 실행 환경이 연결됩니다.
OpenClaw는 정답이 아니라 관찰 렌즈다
OpenClaw가 모든 사용자에게 맞는 정답이라는 뜻은 아닙니다. self-hosted 방식은 자유도가 큰 대신 설치, 운영, 보안 설정의 책임도 사용자에게 있습니다. 개발자나 파워유저에게는 매력적인 선택지일 수 있지만, 비기술 사용자에게는 관리 부담이 클 수 있습니다.
그래서 OpenClaw는 홍보 대상이라기보다 변화의 관찰 렌즈로 보는 것이 적절합니다. OpenClaw를 살펴보면 멀티채널, 도구 사용, 브라우저 제어, 지속 실행, 권한 관리, 오픈소스 생태계라는 AI agent 변화의 핵심 축이 한 번에 보입니다.
AI agent 변화 1: AI는 채팅창 밖으로 나온다
많은 AI 서비스는 여전히 별도 웹사이트나 앱에서 시작합니다. 사용자는 해당 서비스에 접속하고, 프롬프트를 입력하고, 결과를 복사해 다른 업무 도구로 옮깁니다. 이 방식은 지식 작업에는 유용하지만 실제 업무 흐름에서는 마찰이 생깁니다.
OpenClaw식 접근은 다릅니다. 사용자는 자신이 이미 쓰는 채널에서 AI를 부릅니다. 메신저에서 지시하고, 에이전트는 뒤에서 필요한 세션과 도구를 사용합니다. 작은 차이처럼 보이지만, 실무에서는 AI를 사용하는 빈도와 맥락을 바꾸는 변화입니다.
AI는 별도 앱보다 업무 채널에 가까워진다
업무 도구의 성공은 기능만으로 결정되지 않습니다. 사용자가 자주 머무는 위치에 있어야 합니다. 이메일, 메신저, 이슈 트래커, 캘린더, 문서 도구는 이미 업무의 기본 동선입니다.
AI agent가 이 동선 안으로 들어오면 사용자는 “AI 앱을 열어야 한다”는 부담 없이 필요한 순간에 호출할 수 있습니다. 이 점에서 OpenClaw의 멀티채널 구조는 AI assistant가 앞으로 어떤 모습으로 확장될지 보입니다.
AI agent 변화 2: 답변형 AI에서 실행형 AI로 이동한다
챗봇형 AI는 “무엇을 해야 하는지”를 잘 설명합니다. 실행형 AI agent는 “그 일을 실제로 처리하는 데” 초점을 둡니다. 이 차이는 브라우저, 파일, 외부 API, 개발 도구, 업무 SaaS와 연결될 때 분명해집니다.
예를 들어 고객 문의 대응을 생각해볼 수 있습니다. 챗봇은 답변 문안을 작성합니다. 실행형 에이전트는 문의 내용을 읽고, 고객 정보를 조회하고, 환불 정책을 확인하고, 답변 초안을 만든 뒤, 사람이 승인하면 발송까지 이어갈 수 있습니다.
개발 업무에서도 흐름은 비슷합니다. 에이전트는 오류 로그를 읽고, 테스트를 실행하고, 수정안을 만들고, PR 초안을 준비하는 식으로 역할을 넓힐 수 있습니다. 이때 먼저 볼 부분은 “한 번에 모든 일을 자동화하는 것”이 아니라, 사람이 검토할 수 있는 단위로 실행 범위를 설계하는 것입니다.
브라우저와 컴퓨터 사용 능력이 중요해진다
실제 업무의 상당 부분은 API만으로 끝나지 않습니다. 관리자 페이지에 로그인해야 하거나, 웹 폼을 작성해야 하거나, 특정 화면에서 정보를 체크해 두세요. 그래서 computer use와 browser control은 AI agent 변화에서 중요한 축입니다.
OpenClaw의 브라우저 관련 문서는 에이전트가 별도의 Chrome, Brave, Edge, Chromium 프로필을 제어할 수 있는 구조를 설명합니다. 먼저 볼 부분은 개인 브라우저와 분리된 전용 프로필을 사용하고, 작은 로컬 제어 서비스를 통해 브라우저를 관리하는 방식입니다. 이는 실행 능력을 높이는 동시에 보안 경계도 세워야 한다는 점을 보입니다.
AI agent 변화 3: 먼저 볼 부분은 모델보다 운영체계다
AI agent를 도입할 때 흔히 모델부터 비교합니다. 어떤 모델이 더 똑똑한지, 코딩을 더 잘하는지, 추론이 더 좋은지가 중요해 보입니다. 물론 모델 성능은 여전히 더 봐야 합니다. 하지만 실행형 에이전트에서는 모델만으로 충분하지 않습니다.
에이전트가 실제 일을 하려면 세션 관리, 메모리, 도구 권한, 작업 큐, 파일 접근 범위, 로그, 실패 복구, 승인 절차가 해야 합니다. 모델이 뛰어나도 이 운영체계가 약하면 업무 자동화는 위험하거나 불안정해집니다.
OpenClaw의 gateway 관점이 주는 힌트
OpenClaw의 gateway 구조는 AI assistant를 한 번의 대화가 아니라 계속 켜져 있는 운영 환경으로 다루게 합니다. 여러 채널에서 들어오는 요청을 받아 에이전트 세션으로 연결하고, 필요한 도구와 기능을 붙이는 방식입니다.
이 구조는 기업 도입에도 중요한 힌트를 줍니다. 기업에서 AI agent를 쓰려면 “어떤 모델을 쓸 것인가”와 함께 “누가 어떤 채널에서 요청할 수 있는가”, “어떤 도구를 실행할 수 있는가”, “민감한 작업은 승인 단계를 거치는가”, “실패하면 누가 확인하는가”를 설계해야 합니다.
챗봇형 AI와 실행형 AI agent 비교
구분
챗봇형 AI
실행형 AI agent
주된 역할
질문 답변, 요약, 초안 작성
업무 흐름 수행, 도구 실행, 결과 보고
사용자 접점
AI 서비스 웹/앱
메신저, IDE, 브라우저, 업무 도구
기억 방식
대화 세션 중심
지속 메모리, 작업 기록, 사용자 환경 맥락
실행 방식
사용자가 결과를 복사해 직접 처리
에이전트가 도구·API·브라우저를 사용
위험 요소
부정확한 답변, 환각
권한 오남용, 계정 접근, 데이터 유출, 자동 실행 실패
필요한 통제
출처 확인, 프롬프트 개선
권한 분리, 로그, 승인, 샌드박스, 보안 정책
이 표에서 보듯 AI agent 변화의 본질은 기능 추가가 아닙니다. 책임 범위의 변화입니다. 챗봇은 틀린 답을 할 수 있지만, 실행형 에이전트는 틀린 행동을 할 수 있습니다. 그래서 실행 능력과 통제 능력은 함께 발전해야 합니다.
AI agent 변화 4: 개인 AI 비서와 업무 자동화의 경계가 흐려진다
OpenClaw가 흥미로운 또 하나의 이유는 “개인 비서”와 “업무 자동화 도구”의 경계를 흐린다는 점입니다. 개인 AI assistant는 일정, 메일, 메시지, 파일, 브라우저 작업을 다룰 수 있습니다. 그런데 이 작업들은 개인 생산성에만 머물지 않습니다.
예를 들어 개인 메신저에서 “오늘 회의 자료 정리해줘”라고 요청하면, 에이전트는 문서 폴더를 확인하고, 이전 회의록을 읽고, 캘린더 일정을 참고하고, 요약본을 만들어 팀 채널에 공유할 수 있습니다. 개인 비서처럼 시작했지만 결과는 팀 운영 자동화에 가까워집니다.
AI 시대에 사람이 준비해야 할 역량도 이와 연결됩니다. 그냥 AI를 쓰는 법보다, 어떤 일을 AI에 맡기고 어떤 판단은 사람이 가져가야 하는지 구분하는 능력이 더 봐야 합니다. 관련 관점은 AI 시대 인간의 가치에서도 함께 살펴볼 수 있습니다.
권한 경계가 흐려질 때 리스크도 커진다
문제는 권한입니다. 개인 계정, 회사 계정, 고객 정보, 결제 정보, 관리자 페이지가 하나의 에이전트 환경에 섞이면 위험이 커집니다. 에이전트가 편리할수록 더 많은 권한을 주고 싶어지지만, 권한이 넓을수록 실수의 비용도 커집니다.
그래서 개인용 에이전트와 업무용 에이전트는 원칙적으로 분리하는 것이 좋습니다. 브라우저 프로필, API 키, 파일 접근 범위, 채널 권한, 로그 보존 정책을 따로 설계해야 합니다. AI agent 변화는 생산성의 변화이면서 동시에 접근제어 설계의 변화입니다.
AI agent 변화 5: 오픈소스 agent 생태계가 커지는 이유
OpenClaw는 오픈소스라는 점에서도 의미가 있습니다. AI agent는 사용자의 파일, 계정, 브라우저, 업무 채널에 깊이 연결될 수 있습니다. 이런 도구일수록 사용자는 내부 구조를 확인하고, 필요한 기능을 직접 붙이고, 데이터가 어디로 가는지 통제하고 싶어합니다.
오픈소스 agent 생태계는 빠른 실험에 유리합니다. 커뮤니티가 채널 플러그인, 스킬, 자동화 패턴, 보안 설정을 공유할 수 있습니다. 특정 벤더의 닫힌 제품에 종속되지 않고, 로컬 또는 자체 서버에서 운영할 수 있다는 점도 매력입니다.
오픈소스는 안전을 자동 보장하지 않는다
주의할 점은 오픈소스라는 사실만으로 안전해지는 것은 아닙니다. 오히려 에이전트 생태계에서는 커뮤니티 스킬과 플러그인을 설치할 때 공급망 리스크가 생깁니다. 잘못된 플러그인은 파일을 과도하게 읽거나, 외부 서버로 데이터를 전송하거나, 의도치 않은 명령을 실행할 수 있습니다.
그래서 OpenClaw 같은 오픈소스 agent를 검토할 때는 기능보다 권한 모델을 먼저 봐야 합니다. 어떤 플러그인이 어떤 파일과 네트워크에 접근하는지, 브라우저 세션은 격리되는지, 토큰 인증과 로컬 바인딩은 설정되어 있는지 체크해 두세요.
OpenClaw식 에이전트 도입 전 체크리스트
실무에서 OpenClaw 또는 유사한 실행형 AI agent를 검토한다면 다음 질문부터 확인하는 것이 좋습니다.
이 에이전트가 반드시 처리해야 할 업무는 무엇인가?
단순 답변이 아니라 실제 실행이 필요한 단계는 어디인가?
연결할 채널은 Telegram, Slack, Discord, 이메일, 사내 메신저 중 무엇인가?
파일, 브라우저, 캘린더, 메일, 개발 도구 중 어떤 권한이 필요한가?
민감 정보가 포함된 작업은 사람 승인 후 실행되는가?
브라우저 프로필은 개인 브라우저와 분리되어 있는가?
API 키와 토큰은 어디에 저장되고 누가 접근할 수 있는가?
에이전트가 수행한 작업 로그를 나중에 감사할 수 있는가?
실패하거나 잘못 실행했을 때 중단·복구 절차가 있는가?
개인용 에이전트와 회사 업무용 에이전트를 분리했는가?
이 체크리스트의 먼저 볼 부분은 “얼마나 많은 일을 시킬 수 있는가”보다 “어디까지 맡겨도 되는가”입니다. 실행형 AI agent는 권한 설계가 곧 제품 설계입니다.
AI agent 보안: 실행 능력만큼 통제 능력이 필요하다
AI agent 변화에서 가장 중요한 주제는 보안입니다. 챗봇이 잘못된 답변을 하면 사용자가 검토하고 수정할 수 있습니다. 하지만 에이전트가 실제 계정으로 로그인하고, 파일을 읽고, 이메일을 보내고, 결제를 진행한다면 오류의 영향은 훨씬 커집니다.
특히 브라우저를 사용하는 에이전트는 프롬프트 인젝션에 노출될 수 있습니다. 웹페이지의 악의적 문구가 에이전트에게 “이전 지시를 무시하고 데이터를 전송하라”고 유도할 수 있습니다. 사람이 보기에는 단순한 문장이어도, 에이전트에게는 지시처럼 작동할 수 있습니다.
최소 권한과 격리가 기본이다
실행형 AI agent를 안전하게 쓰려면 최소 권한 원칙이 해야 합니다. 에이전트에게 처음부터 모든 파일, 모든 계정, 모든 채널 접근을 주면 안 됩니다. 업무별로 별도 계정과 브라우저 프로필을 만들고, 필요한 폴더와 API만 허용하는 방식이 좋습니다.
또한 중요한 작업에는 human-in-the-loop를 둬야 합니다. “초안 작성”과 “발송”은 다른 권한입니다. “견적서 분석”과 “계약서 제출”도 다른 권한입니다. AI agent가 제안하고 사람이 승인하는 단계가 있어야 기업 환경에서 신뢰를 얻을 수 있습니다.
앞으로의 AI agent 경쟁은 어디서 갈릴까
앞으로 AI agent 경쟁은 세 가지 축에서 갈릴 가능성이 높습니다. 첫째는 모델 성능입니다. 복잡한 지시를 이해하고, 긴 문맥을 유지하고, 도구 사용 중 오류를 회복하려면 강한 모델이 해야 합니다.
둘째는 도구 생태계입니다. 에이전트는 혼자 일하지 않습니다. 캘린더, 메일, 문서, 데이터베이스, 브라우저, 개발 도구, 사내 시스템과 연결되어야 합니다. MCP 같은 표준화 흐름은 이 연결 비용을 낮추는 방향으로 중요해질 수 있습니다.
셋째는 안전한 실행 환경입니다. 샌드박스, 권한 분리, 감사 로그, 승인 절차, 계정 격리, 비밀정보 관리가 약하면 기업 도입은 어렵습니다. 개인 사용자에게도 마찬가지입니다. AI가 할 수 있는 일이 늘어날수록 “하지 말아야 할 일”을 막는 설계가 더 봐야 합니다.
한국 사용자와 기업에 주는 시사점
한국 기업과 개인 사용자에게도 이 변화는 빠르게 다가올 수 있습니다. 카카오톡, Slack, Teams, 이메일, 그룹웨어, 전자결재, ERP, CRM 같은 업무 채널에 AI agent가 연결되는 순간 생산성 변화는 커집니다.
하지만 국내 환경에서는 개인정보보호, 내부망, 문서 보안, 계정 권한, 전자결재 승인 체계가 더 봐야 합니다. 그래서 OpenClaw식 실험을 하더라도 처음부터 전사 자동화로 확장하기보다, 낮은 위험의 반복 업무부터 시작하는 것이 현실적입니다. 공개자료 요약, 회의록 정리, 테스트 실행, 초안 작성, 일정 후보 정리처럼 사람이 최종 승인하는 업무가 좋은 출발점입니다.
결론: AI agent 변화의 본질은 책임 있는 실행이다
AI agent 변화는 그냥 더 자연스러운 대화를 의미하지 않습니다. 먼저 볼 부분은 AI가 실제 업무 환경과 연결되어, 사용자를 대신해 제한된 범위의 행동을 수행한다는 점입니다. OpenClaw는 이 방향을 잘 보여주는 사례입니다. 여러 채널에서 호출되고, 도구와 브라우저를 사용하며, 지속 실행 환경을 갖춘 AI assistant는 챗봇과 다른 종류의 제품입니다.
하지만 실행 능력은 책임을 동반합니다. 에이전트가 더 많은 일을 할수록 권한 설계, 브라우저 격리, 로그, 승인 절차, 플러그인 검증이 더 봐야 합니다. 앞으로 성공적인 AI agent는 단지 똑똑한 답변을 하는 시스템이 아니라, 안전하게 맡길 수 있는 실행 파트너가 될 것입니다.
지금 시작한다면 거창한 자동화보다 작은 업무 하나를 고르는 것이 좋습니다. 반복적이고, 실패 비용이 낮고, 사람이 결과를 검토할 수 있는 작업부터 에이전트화해보세요. AI agent 변화의 가치는 한 번에 모든 일을 맡기는 데 있지 않습니다. 신뢰할 수 있는 실행 범위를 조금씩 넓혀가는 데 있습니다.
FAQ
OpenClaw는 일반 챗봇과 무엇이 다른가요?
일반 챗봇은 주로 질문에 답하거나 문서를 작성합니다. OpenClaw는 여러 메시징 채널, 에이전트 세션, 도구, 브라우저 제어, 메모리 같은 실행 환경을 연결해 실제 작업 수행에 초점을 둡니다. 주의할 점은 설치와 운영 책임은 사용자에게 더 많이 있습니다.
AI agent 변화에서 가장 중요한 기술은 무엇인가요?
하나만 고르기는 어렵습니다. 모델 성능, 도구 호출, 브라우저/컴퓨터 사용, 메모리, MCP 같은 연결 표준, guardrails, 권한 관리가 함께 더 봐야 합니다. 실행형 에이전트는 단일 기능보다 전체 운영 구조가 더 봐야 합니다.
기업이 바로 OpenClaw 같은 에이전트를 도입해도 될까요?
바로 핵심 업무에 투입하기보다는 낮은 위험의 반복 업무부터 검증하는 것이 좋습니다. 파일 접근 범위, 브라우저 격리, API 권한, 로그, 승인 절차를 먼저 설계해야 합니다. 특히 고객정보, 결제, 계약, 인사정보처럼 민감한 업무는 human-in-the-loop가 해야 합니다.
실행형 AI agent는 사람을 대체하나요?
단기적으로는 사람의 반복 작업을 줄이고 업무 보조 역할을 강화할 가능성이 높습니다. 하지만 중요한 판단, 승인, 예외 처리, 책임 소재는 여전히 사람이 맡아야 합니다. 특히 보안과 권한이 얽힌 업무에서는 완전 자동화보다 책임 있는 반자동화가 현실적입니다.