LocalAI

Q: 如何修复在 LocalAI 4.3.4 中 'reasoning_effort=none' 不起作用的问题？

这是 LocalAI 4.0.0 之后版本的一个已知回归（issue #10072）。参数 `reasoning_effort=none` 本应阻止模型生成推理令牌并加快响应速度，但较新版本中的 bug 导致该参数被忽略。作为临时解决方法，请降级到 LocalAI v4.0.0 或 v3.12.1，在这些版本中该功能在 Qwen3 等 llama-cpp 后端模型上报告正常工作。若无法降级，也可尝试通过设置 `top_p=0` 和 `temperature=0` 强制模型跳过推理，或对延迟敏感的任务使用非推理模型。要永久修复，请关注 GitHub issue #10072，并在补丁发布后升级。确保你的模型配置文件正确将 `reasoning_effort` 选项映射到后端参数（例如，在 llama-cpp 中，应映射到 `--reasoning-effort none`）。

SHA-256

46.2k stars·AI 生产力·已提供 SHA-256 校验码，下载后可自行核对文件完整性

本地运行 AI 模型的开源引擎，无需 GPU，兼容 OpenAI API，支持多种硬件和模型类型。

智能下载

下载 Download 版本

v4.2.2 · 130.5 MB

一个能让你在本地运行 AI 模型的神器，不吃显卡、兼容各种 API，还带用户管理。

核心功能

无需 GPU：CPU、Apple Silicon、各类显卡都能跑
即插即用：完全兼容 OpenAI、Anthropic、ElevenLabs API，代码零改动
36+ 后端：覆盖 llama.cpp、vLLM、transformers、whisper、diffusers 等主流框架
多用户管理：API Key 认证、用量配额、角色权限，适合团队使用
内置 AI 代理：支持工具调用、RAG 检索、MCP 协议，可搭建自主智能体

避坑指南

•macOS 版 DMG 未经过 Apple 公证，首次运行需手动移除隔离属性；Docker 模式下 GPU 加速需要正确安装对应驱动并配置设备映射；模型文件较大（数 GB），建议下载时使用稳定的网络连接；部分后端（如 vLLM）需要较新硬件支持。

适用场景

个人或企业本地部署 LLM 聊天机器人，替换 OpenAI 服务
在边缘设备（如树莓派、笔记本电脑）上运行语音识别或图像生成
团队内部搭建带用户权限的 AI 平台，供不同部门使用不同模型
开发者本地测试 AI 功能，无需连接互联网，节省 API 费用

详细介绍

LocalAI 是一款免费开源的人工智能引擎，让你无需 GPU 就能在本地硬件上运行各种大语言模型、图像生成、语音助手等 AI 模型。它完全兼容 OpenAI API，你可以零代码将云端 AI 服务切换到本地部署。支持 36 种以上后端（llama.cpp、vLLM、transformers、whisper、diffusers、MLX 等），兼容 NVIDIA、AMD、Intel、Apple Silicon、Vulkan 乃至纯 CPU。内置多用户认证、角色权限控制以及支持工具调用、RAG、MCP 的 AI 代理，适合企业级使用。所有数据留在你的基础设施内，确保隐私安全。

常见问题与排障 (2)

故障排除

如何修复在 LocalAI 4.3.4 中 'reasoning_effort=none' 不起作用的问题？

这是 LocalAI 4.0.0 之后版本的一个已知回归（issue #10072）。参数 reasoning_effort=none 本应阻止模型生成推理令牌并加快响应速度，但较新版本中的 bug 导致该参数被忽略。作为临时解决方法，请降级到 LocalAI v4.0.0 或 v3.12.1，在这些版本中该功能在 Qwen3 等 llama-cpp 后端模型上报告正常工作。若无法降级，也可尝试通过设置 top_p=0 和 temperature=0 强制模型跳过推理，或对延迟敏感的任务使用非推理模型。要永久修复，请关注 GitHub issue #10072，并在补丁发布后升级。确保你的模型配置文件正确将 reasoning_effort 选项映射到后端参数（例如，在 llama-cpp 中，应映射到 --reasoning-effort none）。

来源 Issue #10072

故障排除

为什么有些 LocalAI v4.3.2 Docker 镜像在 Docker Hub 上缺失？

CI构建失败导致无法发布几个v4.3.2标签。受影响的缺失标签：v4.3.2, v4.3.2-gpu-nvidia-cuda-12, v4.3.2-gpu-nvidia-cuda-13, v4.3.2-gpu-vulkan, v4.3.2-gpu-intel。成功发布的标签：v4.3.2-gpu-hipblas, v4.3.2-nvidia-l4t-arm64, v4.3.2-nvidia-l4t-arm64-cuda-13。作为变通方案，请使用localai/localai:master镜像。

来源 Issue #10041

快速上手

下载安装包

点击上方按钮下载对应系统的安装包

Linux· 130.5 MB Windows· 138.2 MB macOS· 11.7 MB

安装软件

根据你的发行版安装对应的包（dpkg / rpm / AppImage）

macOS：下载 DMG 安装包并拖入 Applications 文件夹，首次运行可能需执行 sudo xattr -d com.apple.quarantine /Applications/LocalAI.app

Docker（CPU）：执行 docker run -ti --name local-ai -p 8080:8080 localai/localai:latest

Docker（NVIDIA GPU）：加上 --gpus all 参数，例如 docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-12

安装指引

macOS：下载 DMG 安装包并拖入 Applications 文件夹，首次运行可能需执行 sudo xattr -d com.apple.quarantine /Applications/LocalAI.app
Docker（CPU）：执行 docker run -ti --name local-ai -p 8080:8080 localai/localai:latest
Docker（NVIDIA GPU）：加上 --gpus all 参数，例如 docker run -ti --name local-ai -p 8080:8080 --gpus all localai/localai:latest-gpu-nvidia-cuda-12

文件完整性

已提供 SHA-256 校验码，下载后可自行核对文件完整性

该校验码提取自 GitHub 官方 Release 页面

SHA256 校验码

544eb221c2a5ec84467c1eb92851d98348c5e8eec9bf0346bd942e302faad73b

该校验码提取自 GitHub Release 页面，下载后请自行核对文件完整性

本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件，未做任何修改。你可以通过 GitHub Releases 页面自行验证。

开源透明

查看 GitHub 源码

运维指引

卸载说明

macOS：将 LocalAI.app 拖入废纸篓并清空。Docker：先 docker stop local-ai，然后 docker rm local-ai，最后删除镜像 docker rmi localai/localai:latest 及相关标签。

无额外依赖

下载后即可直接使用，无需安装其他运行环境

项目信息

开源协议MIT

最后更新2026-06-26 06:55:08

GitHub 仓库官方网站

遇到问题？查看下方 FAQ

2 FAQs

相似推荐

daily_stock_analysis

基于AI大模型的A股/港股/美股智能分析系统，自动生成决策仪表盘并通过多渠道推送，零成本定时运行。

ollama

在本地一键运行和管理大语言模型的开源工具，支持多种平台和丰富模型。

llama.cpp

纯 C/C++ 的高性能大模型推理引擎，支持低比特量化与多种硬件（Apple Silicon、CUDA、Vulkan 等），轻量可嵌入。