Nano / Mini / Flash Model 完整释义(LLM 行业通用)

Nano / Mini / Flash Model 完整释义(LLM 行业通用) Nano / Mini / Flash Model 完整释义LLM 行业通用一、Nano 超微型模型核心定位端侧离线专用最小档模型主打手机、手表、嵌入式、本地离线运行。参数量区间100M500M亿级以内极小参数量硬件门槛量化后可在手机、树莓派、轻薄本 CPU 本地跑无需云端、不上网能力取舍牺牲复杂推理、长上下文只做短句总结、快捷回复、简单分类、本地实时小任务代表Gemini Nano、Phi-3 Nano、Qwen-Nano适用场景手机 AI 输入法摘要、本地实时语音转写、隐私端侧助手二、Mini 小型主力轻量模型核心定位轻量化通用主力模型平衡速度与基础推理云上 / 本地均可部署。参数量区间500M3B硬件门槛单张消费显卡4060/4090轻松跑云端 API 成本极低能力具备完整对话、基础代码、简单多步骤逻辑上下文窗口中等代表GPT-4o Mini、Phi-3 Mini、Llama 3.2 1B/3B、Qwen Mini适用场景日常客服、批量文本抽取、轻量化 Agent、普通问答、内容润色Nano vs Mini 直观区分Nano纯本地离线、极小参数、能力最弱Mini云上通用轻量主力、参数更大、推理更强三、Flash Model 极速高效云模型核心定位云端高速吞吐优化款不以 “极小参数” 为核心而是架构 / 调度极致提速。 关键词Flash 闪电速度、高并发、低价 API设计目标降低首字延迟、提升每秒 token 吞吐、大规模并发场景压低成本两种常见 Flash 路线路线 1谷歌 Gemini Flash中等参数量通用模型优化云端推理管线长上下文、多模态齐全价格远低于 Pro/Ultra适合大规模商用 API路线 2开源 Flash-LLM/MoE Flash稀疏 MoE 架构总参量大但每次推理只激活少量参数兼顾强推理与极速输出。特点基本只跑云端不主打手机离线上下文窗口通常很大128k擅长高并发批量摘要、实时对话机器人、海量文本过滤。代表Gemini 1.5 Flash、Step 3.5 Flash三者横向对比表表格名称核心关键词部署场景参数规模核心优势短板Nano端侧、离线、最小手机 / 嵌入式本地100M–500M不上网、隐私、极低内存占用逻辑弱、短上下文、复杂任务易幻觉Mini轻量通用、均衡云端 API / 本地显卡500M–3B性价比高、基础推理完整、易部署复杂数学 / 深度代码不如大 Pro 模型Flash极速、高并发、长上下文云端大规模服务中大型参数 / MoE 稀疏吞吐极高、延迟低、低价、长窗口无法本地离线运行必须联网调用一句话快速记忆Nano 塞手机本地离线最小模型Mini 小参数通用轻量主力Flash 云端专门提速、高并发低价大吞吐模型补充搭配你上一轮的概念Nano/Mini 自身上下文窗口context window很小短期记忆short term memory容量有限Flash 模型通常配备超大 context window专门解决大批量长文本处理三者都属于小 / 轻量模型SLM区别于 Pro/Ultra 等旗舰大模型。