LocalAI

Q: LocalAI 4.3.4에서 'reasoning_effort=none'이 작동하지 않는 문제를 해결하는 방법

이는 LocalAI 4.0.0 이후 버전에서 발생하는 알려진 회귀(issue #10072)입니다. `reasoning_effort=none` 파라미터는 모델이 추론 토큰을 생성하지 못하도록 막고 응답 속도를 높여야 하지만, 최신 버전의 버그로 인해 이 파라미터가 무시됩니다. 임시 해결책으로, 이 기능이 llama-cpp 백엔드 모델(예: Qwen3)에서 정상 작동하는 것으로 보고된 LocalAI v4.0.0 또는 v3.12.1로 다운그레이드하세요. 다운그레이드가 불가능한 경우, `top_p=0` 및 `temperature=0`을 설정하여 모델이 추론을 건너뛰도록 강제하거나, 지연 시간이 중요한 작업에는 비추론 모델을 사용해 볼 수도 있습니다. 영구적인 해결을 위해서는 GitHub issue #10072를 모니터링하고 패치가 릴리스되면 업그레이드하세요. 모델 설정 파일에서 `reasoning_effort` 옵션이 백엔드 파라미터에 올바르게 매핑되도록 하십시오(예: llama-cpp에서는 `--reasoning-effort none`에 매핑되어야 함).

SHA-256

46.2k stars·AI 생산성·SHA-256 체크섬 확인됨

本地运行 AI 模型的开源引擎，无需 GPU，兼容 OpenAI API，支持多种硬件和模型类型。

스마트 다운로드

Download 버전 다운로드

v4.2.2 · 130.5 MB

一个能让你在本地运行 AI 模型的神器，不吃显卡、兼容各种 API，还带用户管理。

주요 기능

无需 GPU：CPU、Apple Silicon、各类显卡都能跑
即插即用：完全兼容 OpenAI、Anthropic、ElevenLabs API，代码零改动
36+ 后端：覆盖 llama.cpp、vLLM、transformers、whisper、diffusers 等主流框架
多用户管理：API Key 认证、用量配额、角色权限，适合团队使用
内置 AI 代理：支持工具调用、RAG 检索、MCP 协议，可搭建自主智能体

할 수 없는 것

•macOS 版 DMG 未经过 Apple 公证，首次运行需手动移除隔离属性；Docker 模式下 GPU 加速需要正确安装对应驱动并配置设备映射；模型文件较大（数 GB），建议下载时使用稳定的网络连接；部分后端（如 vLLM）需要较新硬件支持。

사용 사례

个人或企业本地部署 LLM 聊天机器人，替换 OpenAI 服务
在边缘设备（如树莓派、笔记本电脑）上运行语音识别或图像生成
团队内部搭建带用户权限的 AI 平台，供不同部门使用不同模型
开发者本地测试 AI 功能，无需连接互联网，节省 API 费用

상세 설명

LocalAI 是一款免费开源的人工智能引擎，让你无需 GPU 就能在本地硬件上运行各种大语言模型、图像生成、语音助手等 AI 模型。它完全兼容 OpenAI API，你可以零代码将云端 AI 服务切换到本地部署。支持 36 种以上后端（llama.cpp、vLLM、transformers、whisper、diffusers、MLX 等），兼容 NVIDIA、AMD、Intel、Apple Silicon、Vulkan 乃至纯 CPU。内置多用户认证、角色权限控制以及支持工具调用、RAG、MCP 的 AI 代理，适合企业级使用。所有数据留在你的基础设施内，确保隐私安全。

문제 해결 & FAQ (2)

문제 해결

LocalAI 4.3.4에서 'reasoning_effort=none'이 작동하지 않는 문제를 해결하는 방법

이는 LocalAI 4.0.0 이후 버전에서 발생하는 알려진 회귀(issue #10072)입니다. reasoning_effort=none 파라미터는 모델이 추론 토큰을 생성하지 못하도록 막고 응답 속도를 높여야 하지만, 최신 버전의 버그로 인해 이 파라미터가 무시됩니다. 임시 해결책으로, 이 기능이 llama-cpp 백엔드 모델(예: Qwen3)에서 정상 작동하는 것으로 보고된 LocalAI v4.0.0 또는 v3.12.1로 다운그레이드하세요. 다운그레이드가 불가능한 경우, top_p=0 및 temperature=0을 설정하여 모델이 추론을 건너뛰도록 강제하거나, 지연 시간이 중요한 작업에는 비추론 모델을 사용해 볼 수도 있습니다. 영구적인 해결을 위해서는 GitHub issue #10072를 모니터링하고 패치가 릴리스되면 업그레이드하세요. 모델 설정 파일에서 reasoning_effort 옵션이 백엔드 파라미터에 올바르게 매핑되도록 하십시오(예: llama-cpp에서는 --reasoning-effort none에 매핑되어야 함).

원본 Issue #10072

문제 해결

왜 일부 LocalAI v4.3.2 Docker 이미지가 Docker Hub에서 누락되었나요?

CI 빌드 실패로 인해 여러 v4.3.2 태그의 게시가 불가능했습니다. 영향을 받아 누락된 태그: v4.3.2, v4.3.2-gpu-nvidia-cuda-12, v4.3.2-gpu-nvidia-cuda-13, v4.3.2-gpu-vulkan, v4.3.2-gpu-intel. 성공적으로 게시된 태그: v4.3.2-gpu-hipblas, v4.3.2-nvidia-l4t-arm64, v4.3.2-nvidia-l4t-arm64-cuda-13. 해결 방법으로 localai/localai:master 이미지를 사용하세요.

원본 Issue #10041

시작하기

설치 프로그램 다운로드

위 버튼을 클릭하여 시스템에 맞는 설치 프로그램을 다운로드

Linux· 130.5 MB Windows· 138.2 MB macOS· 11.7 MB

소프트웨어 설치

배포판에 맞는 패키지를 설치 (dpkg / rpm / AppImage)

macOS：下载 DMG 安装包并拖入 Applications 文件夹，首次运行可能需执行 sudo xattr -d com.apple.quarantine /Applications/LocalAI.app

Docker（CPU）：执行 docker run -ti --name local-ai -p 8080:8080 localai/localai:latest

Docker（NVIDIA GPU）：加上 --gpus all 参数，例如 docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-12

설치 가이드

macOS：下载 DMG 安装包并拖入 Applications 文件夹，首次运行可能需执行 sudo xattr -d com.apple.quarantine /Applications/LocalAI.app
Docker（CPU）：执行 docker run -ti --name local-ai -p 8080:8080 localai/localai:latest
Docker（NVIDIA GPU）：加上 --gpus all 参数，例如 docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-12

파일 무결성

SHA-256 체크섬 확인됨

GitHub 공식 Release 페이지에서 추출된 체크섬

SHA256 체크섬

544eb221c2a5ec84467c1eb92851d98348c5e8eec9bf0346bd942e302faad73b

이 체크섬은 GitHub Release 페이지에서 추출되었습니다. 다운로드 후 파일 무결성을 확인하세요.

이 플랫폼의 모든 SHA-256 체크섬은 프로젝트의 공식 GitHub Release 페이지에서 추출되었으며, 어떠한 변경도 없습니다. GitHub Releases 페이지에서 직접 검증할 수 있습니다.

오픈소스 투명성

GitHub 소스 보기

환경 가이드

제거 정보

macOS：将 LocalAI.app 拖入废纸篓并清空。Docker：先 docker stop local-ai，然后 docker rm local-ai，最后删除镜像 docker rmi localai/localai:latest 及相关标签。

추가 의존성 없음

다운로드 후 바로 사용 가능. 추가 런타임이 필요하지 않습니다.

프로젝트 정보

라이선스MIT

마지막 업데이트2026-06-26 06:55:08

GitHub 저장소 공식 웹사이트

문제 발생? 아래 FAQ 확인

2 FAQs

유사한 프로젝트

daily_stock_analysis

AI 대모델 기반의 A주/홍콩주/미국주 지능형 분석 시스템, 자동으로 의사 결정 대시보드를 생성하고 다중 채널을 통해 푸시하며, 제로 비용으로 정기적으로 실행됩니다.

ollama

在本地一键运行和管理大语言模型的开源工具，支持多种平台和丰富模型。

llama.cpp

순수 C/C++ 기반의 고성능 대규모 모델 추론 엔진으로, 저비트 양자화 및 다양한 하드웨어(Apple Silicon, CUDA, Vulkan 등)를 지원하며, 경량화되어 임베딩이 가능합니다.