New模型在手机本地运行 · API 对外调用

让模型活在手机本地

鸿启 AI 在 Android 设备上运行 GGUF 主线模型，并通过局域网 HTTP API 把模型能力开放给其他设备、应用和工具。需要文本生成、问答、总结、规划或自动化 Token 的地方，都可以接入这台手机里的本地模型服务。

看 API 怎么接 → ▶ 看它带来什么价值

本地运行模型留在手机里

接口开放局域网设备可接

状态可见加载、队列、诊断

OpenAI / Ollama 风格接口

LAN API

GGUF 本地模型

// Why it matters

不只是一个 AI 聊天入口而是一台可调用的本地模型服务

从市场角度看，鸿启 AI 的价值不是“手机里又多了一个聊天框”，而是把模型运行、接口调用、局域网接入和状态诊断放到一台 Android 设备里。用户看到的是一个 App，真正能复用的是背后的本地模型能力。

把模型能力变成接口

模型不只停留在聊天窗口里，而是通过标准 HTTP API 提供出去。需要文本生成、总结、问答、提取、规划的应用，都可以把手机当成一个本地模型入口。

本地优先，少绕一层云

不是所有轻量任务都值得走远程服务。短文本问答、局域网工具调用、开发调试和隐私敏感内容，可以先在本地设备上完成一部分处理。

多端共用一个本地入口

同一局域网内的设备和应用可以围绕同一个 Base URL 接入，不必每个工具都单独配置模型环境。手机负责运行模型，外部只负责发请求。

看得见的运行状态

本地模型服务最怕“黑盒运行”。鸿启 AI 把模型加载、速度、队列、内存和错误状态放进诊断链路，让用户知道能力在哪里、瓶颈在哪里。

// Feature wheel

核心功能按场景归类滑轮切换查看

滚动鼠标或点击右侧能力点，手机会保持正面展示，并切换到对应 App 页面。每一项都围绕真实使用场景说明：模型怎么加载、API 怎么接、请求如何排队、失败时在哪里诊断。

本地模型库 把模型文件放进手机，手机自己加载、自己运行，再通过聊天界面或 HTTP API 对外提供能力，适合本地问答、离线测试和开发调试。

支持 GGUF 主线，本地导入、本地加载。
适合 Qwen、Gemma、Llama 等主流文本模型。
不用每次都依赖云端账号或远程接口。

适用：本地聊天 / 轻量问答 / 模型测试 / API 服务

// API Setup

HTTP API 怎么接复制配置前先确认风险

鸿启 AI 对外提供 OpenAI / Ollama 风格的本地 HTTP API。只要客户端支持自定义 Base URL、Bearer Key 和模型 ID，就可以在同一局域网内调用手机里的本地模型。

API局域网接入配置

把手机作为本地模型服务端

推荐接入顺序：先检查 /health，再读取 /v1/models，最后通过 /v1/chat/completions 发送请求。局域网模式必须使用 Authorization: Bearer <key>。

开启 API 服务在设置页选择 LocalOnly 或局域网模式；局域网模式会绑定 0.0.0.0，默认端口 8080。
复制 Base URL 和 KeyBase URL 通常是 http://<手机局域网IP>:8080/v1；模型 ID 以 /v1/models 返回值为准。
按 OpenAI 格式调用POST /v1/chat/completions，messages 由客户端传入；max_tokens 缺省或 null 表示不主动限制输出。

CONFIG

Base URL: http://<手机局域网IP>:8080/v1
API Key : Authorization: Bearer moa_xxx
Model   : 以 /v1/models 返回值为准
Health  : GET /health
Models  : GET /v1/models
Chat    : POST /v1/chat/completions
Prompt  : POST /v1/completions
Responses: POST /v1/responses

Base URL 可复制 Bearer Key 鉴权 OpenAI 风格调用

// 功能展示