본문 바로가기
개발도구

인터넷 안되는 폐쇄망 PC에서 Local LLM으로 클로드 코드 무료로 쓰기 (Gemma4 + Ollama)

by eteo 2026. 5. 17.
반응형

 

 

얼마 전 구글이 Gemma 4를 공개하면서 꽤 화제가 됐다. 그리고 유튜브에서 "Gemma 4를 활용해 로컬에서 무료로 AI 돌리는 법"에 대한 영상이 쏟아져 나왔는데 대부분은 인터넷이 되는 환경에서 손쉽게 설치한 뒤 퍼포먼스를 테스트하는 내용이었다.

 

나는 업무 특성상 인터넷이 차단된 환경에서 작업할 일이 많기 때문에, 폐쇄망 PC에서도 Local LLM으로 코딩 어시스턴트를 쓸 수 있다면 상당히 유용하겠다 싶었고, 직접 시도해본 뒤 그 과정을 정리한다.

 

 

 

Gemma 4는 왜 화제가 됐나?

첫 번째는 오픈소스 라이선스다. Gemma 4는 Apache 2.0 라이선스로 공개됐는데, 소스코드 공개 의무가 없고 상업적 사용이 자유로우며 2차 가공 후 라이선스 변경이나 특허 출원도 가능하다는 점 때문에 개발자들 사이에서 반응이 컸다.

 

두번째로는 모델 크기(파라미터) 대비 압도적인 성능이다. LLM 이름 뒤에 붙는 '2.3B', '31B' 같은 숫자가 파라미터의 개수(23억 개, 310억 개)를 의미하는데, 파라미터는 쉽게 말해 모델이 학습을 통해 정립한 단어들 사이의 관계와 패턴의 가중치다. 

보통 파라미터 1개당 1~2바이트의 용량을 차지하고, 모델을 실행할 때 전체가 RAM(또는 VRAM)에 상주해야 하므로 파라미터가 많을수록 모델이 무거워지고 더 많은 메모리를 요구한다. 그런데 Gemma 4의 경우 구글 벤치마크 기준 파라미터 개수 대비 높은 성능을 뽑아내고, 특히 일반 PC나 스마트폰에서도 돌릴 수 있을 정도의 경량 모델까지 함께 출시돼 화제가 됐다.

 

 

 

 

Gemma 4 모델의 종류

https://pub.towardsai.net/

 

 

나는 클로드 코드와 연동 확인이 우선 목적이었기 때문에 가장 경량인 E2B를 선택했다. 램이 16GB 이상이고 외장 GPU가 달린 현역 노트북을 사용한다면 E4B 모델을 사용해도 충분히 돌아갈 것이다.

 

 

 

 

 


설치 환경

  • 운영체제 : Windows 10
  • 메모리 : 16GB
  • GPU : RTX3050 Ti

 

참고로 인터넷에 연결이 가능하다면 내 PC에서 Local LLM을 돌릴 수 있는지 알려주는 사이트(Can I Run AI locally?)를 이용해 볼 수 있다. CPU, RAM, GPU 등 시스템 사양을 분석해서 실행 가능 여부를 알려주며, 어떤 모델이 겨우 구동될지 또는 원할하게 돌아갈지도 진단해준다.

 

 

https://www.canirun.ai/

 

CanIRun.ai — Can your machine run AI models?

Detect your hardware and find out which AI models you can run locally. GPU, CPU, and RAM analysis in your browser.

www.canirun.ai

 

 

 

 


선행 조건

 

1. 인터넷이 안되는(이하 폐쇄망) PC에 Git이 설치되어 있지 않은 경우, 설치파일을 가져가 Git을 설치한다.

https://git-scm.com/install/windows

 

 

 

2. 인터넷이 되는(이하 인터넷망) PC에서 Ollama를 다운로드 받는다.

https://ollama.com/download/windows

 

 

 

3. 인터넷망 PC에서 Ollama를 설치한다.

 

✓ Ollama는 로컬 환경에서 대규모 언어 모델(LLM)을 직접 실행하고 관리할 수 있게 해주는 오픈 소스 프레임워크다.

 

 

 

4. 인터넷망 PC 명령 프롬프트에서 다음 명령을 실행해 gemma4:e2b 모델을 다운로드 받는다.

 

ollama run gemma4:e2b

 

 

 

 

5. 인터넷망 PC에서 Claude Code를 설치한다.

https://code.claude.com/docs/ko/overview

 

 

 

 

6. 인터넷망 PC에서 다음 파일 및 폴더를 옮겨 폐쇄망 PC에 가져간다.

 

1) Ollama 설치파일 (ollamasetup.exe)

 

2) Claude Code 실행파일 (claude.exe)

기본 설치된 경우 다음 경로에 존재한다. 어디있는지 모르는 경우엔 where claude 명령으로 찾을 수 있다.

%USERPROFILE%\.local\bin\claude.exe

 

 

%USERPROFILE%은 Windows에서 현재 로그인한 사용자의 홈 폴더(C:\Users\<username>)를 가르키는 환경변수로 이하절차에서 계속 사용한다.

 

3) %USERPROFILE%\.ollama 폴더 통째로

이 폴더 안에는 Ollama가 사용할 수 있는 모델과 메타데이터가 들어있다.

 

 

 

 

 

 


설치 및 실행 방법

 

이하 절차는 전부 폐쇄망 PC에서 진행한다.

 

 

1. 인터넷망 PC에서 가져온 ollamasetup.exe 파일을 실행해 설치한다.

 

 

2. 설치가 끝나면 인터넷망 PC에서 가져온 %USERPROFILE%\.ollama 폴더를 통째로 동일 경로에 복붙해 덮어쓴다.

 

 

3. %USERPROFILE% 경로에 .local\bin 디렉토리를 만들고 그 안 에 claude.exe를 복사한다.

 

 

4. %USERPROFILE%\.local\bin\ 경로를 시스템 환경변수 PATH에 추가한다.

그래야 어느 경로에서는 claude 명령으로 바로 실행시킬 수 있다.

 

 

5. 명령 프롬프트에서 다음 명령을 순차적으로 입력해 환경변수를 설정한다.

클로드 코드가 Anthropic 서버 대신 로컬의 Ollama를 API 엔드포인트로 사용하도록 하는 설정이다.

setx ANTHROPIC_BASE_URL "http://localhost:11434"
setx ANTHROPIC_AUTH_TOKEN "ollama"
setx ANTHROPIC_API_KEY ""

 

 

6. Ollama 트레이 아이콘을 우클릭 하고 Settings에 들어가 다음을 설정한다.

  • 'Expose Ollama to the network' 활성화
  • Context length 128k 이상으로 설정

아래 사진상에는 256k로 설정되어 있지만 Gemma 4 E2B 모델은 최대 Context Length가 128k라서 128k로 설정해도 된다.

 

 

  컨텍스트 윈도우란?

모델이 한 번에 고려하거나 기억할 수 있는 토큰 단위의 텍스트 양이다. 컨텍스트 윈도우가 클수록 모델이 더 긴 입력을 처리할 수 있고, 답변을 생성할 때 더 많은 양의 정보를 종합적으로 반영할 수 있다.

 

토큰이란?

토큰은 AI가 문장을 처리할 수 있도록 텍스트를 잘게 나눈 단위이며, 각 토큰은 미리 정의된 딕셔너리의 숫자 ID와 1:1 대응된다. 즉, 거대언어모델(LLM)은 인간의 언어를 그대로 받아들이는 것이 아니라, 토큰화된 숫자 ID 배열을 통해 데이터를 학습하고, 다음에 나올 토큰을 추론하는 방식으로 작동하는 것이다.

 

 

 

7. 명령 프롬프트에서 다음 명령으로 클로드 코드를 실행한다.

ollama launch claude --model gemma4:e2b

 

 

 

 

 


사용 예시

 

먼저 연동을 확인하기 위해 간단한 작업부터 시켜봤다. PC 파일 시스템에 접근해서 파일 생성, 읽기/쓰기, 실행, 삭제까지 모두 정상적으로 수행하는 모습이다.

 

 

 

 

다음으로 To Do List 웹앱을 만들어보라고 시켰다.

 

 

 

 

이게 Gemma 4 E2B 모델이 1분 30초만에 만들어낸 결과물이다.

 

 

 

 

후기

 

Gemma 4의 제일 경량 모델을 사용했음에도 불구하고 답변 수준은 생각보다 나쁘지 않았다. 단, 로컬 자원을 많이 요구하는 데다, 인터넷망에서 월 20달러만 쓰면 훨씬 더 뛰어난 코드 품질과 응답 속도를 누릴 수 있다는 점을 고려했을 때 이걸 계속 사용할 것 같진 않다.

 

그럼에도 폐쇄망에서 인터넷 없이 코딩 어시스턴트가 동작한다는 것 자체로는 의미있는 확인이었고, 더 큰 모델을 올릴 수 있는 환경이 된다면 실무에서도 충분히 활용할 수 있겠다는 생각이 들었다.

 

 

 

반응형