社团课程设计-LLM:从“魔法”到“得力助手”的正确使用指南
教学目标
让零基础的新生理解大模型的基本工作方式,掌握高效、正确使用大模型的技巧,并能将其应用于学习和工作中,同时对AI前沿发展保持好奇心和批判性思维。
核心理念
不把AI当成无所不能的“神”,而是理解其能力边界、掌握其“脾气”的强大工具。原理驱动技巧,实践检验真知。
第一章:初次见面,请多指教 —— 揭开大模型的神秘面纱
1.1 什么是大模型 (LLM)?
- 核心概念: 把它想象成一个读完了互联网(几乎)所有资料,并学会了“文字接龙”和“模仿”的超级大脑。其本质是概率模型,预测下一个最有可能出现的词,而非真正地“思考”。
- 破除迷思:
- 它不是搜索引擎:它会“创造”内容,可能包含事实错误,即“幻觉”。
- 它不是通用人工智能 (AGI):它没有自我意识、情感和真实世界的感知。目前没有AGI,每个模型都有其能力边界。即使是顶尖模型,也各有各的“脾气”和“盲区”,我们稍后会详细探讨。
1.2 “酷炫”应用展示
- 文本生成: 现场演示用AI写一首诗或一段代码。
- 图像生成: 展示
Stable Diffusion
或 Midjourney
“文生图”的魅力。 - 代码助手: 演示
GitHub Copilot
如何根据注释或上下文自动补全代码。
第二章:大模型的“记忆”与“语言” —— 决定沟通效率的关键
2.1 短暂但宝贵的“记忆”:上下文 (Context Window)
- 简单原理: 上下文是大模型的“短期记忆”。关闭对话框即“失忆”。
- 推广技巧:
- 单一交互,单一功能: 在一个对话中杂糅多个不相关的任务,会导致模型表现下降。
- 上下文“喂养”: 先提供背景信息(如文章、数据),再进行提问,能获得更精准的回答。
2.2 沟通的基石:分词 (Tokenization)
- 简单原理: 模型看到的是“词元”(Token),而不是我们看到的文字。
- 推广技巧:
- 正面提问的力量: “请不要画猫”可能因为模型分别关注了“不要”和“画猫”而失败。应直接下达正面指令,如“请画一只狗”。
- 语言选择: 不同公司用不同的方法训练模型,导致它们在处理特定语言或任务时表现各异,这也是我们需要学会选择模型的原因。
第三章:精准沟通的艺术 —— 提示词工程 (Prompt Engineering)
3.1 从“随便问问”到“精准指令”
- 核心框架: 介绍并演练 R-T-F-E 提问公式。
- R (Role - 角色):为AI设定一个身份。
- T (Task - 任务):清晰地描述你的目标。
- F (Format - 格式):指定输出的格式。
- E (Example - 示例):提供一个或多个例子。
3.2 让模型拥有“外脑”:RAG
- 简单原理: 将RAG比作“开卷考试”。系统先从外部知识库(如PDF、网页)中检索相关信息,然后连同你的问题一起交给大模型,让它根据你提供的材料来生成答案。这能有效缓解“幻觉”和知识陈旧问题。
第四章:AI走进工作流 —— 效率工具大赏
4.1 编码的革命:AI IDE 与代码助手
- 介绍
Cursor
、GitHub Copilot
等工具如何将整个项目作为上下文,提供高度相关的代码建议。
4.2 命令行的“翻译官”:AI CLI 工具
- 介绍
Warp
、Gemini CLI
等工具如何将自然语言翻译成命令行指令。
4.3 创意的延伸:前沿多模态应用
- 提及
Suno
(文生音乐)、Sora
(文生视频)等,展示AI在创意领域的巨大潜力。
第五章:成为聪明的“AI使用者” —— 生态、选择与未来
5.1 AI世界的两大阵营:闭源与开源
- 闭源模型 (如GPT, Claude): 像Windows/MacOS。
- 优点:性能顶尖、开箱即用。
- 缺点:付费、有隐私顾虑、规则严格。
- 开源模型 (如Llama, Qwen): 像Linux系统。
- 优点:免费、隐私可控、可定制。
- 缺点:对硬件和技术有要求。
5.2 认识当今的“AI明星”:模型大阅兵
- 引言: 记住每个模型不重要,重要的是理解它们的“性格”和“定位”。
- 关键概念:
- 模型大小 (Size): 大型(>100B)、中型(7B-100B)、小型(<7B)。可比喻为“博士生”、“本科生”和“高中生”。
- 模型架构 (Architecture):
Dense
(密集,全员参与) vs. MoE
(专家混合,高效分工)。
- 小模型的正确定位
特别注意:在当前阶段,参数量在10B以下的小模型,通常不建议作为通用的聊天伙伴。它们的价值更多体现在作为AI Agent(智能体)中的一个高效组件,或针对单一任务(如翻译、文本分类)进行微调后使用。而4B甚至更小的模型,则更多是用于探索模型能力的边界、验证新的架构,或是团队展示技术实力的作品。我们今天讨论的“对话型AI”,主要集中在中大型模型。
- 模型梯队介绍
- 闭源旗舰:
GPT-5/4o
(“创意社交达人”), Claude Opus
(“严谨工程师”), Gemini Pro
(“数据分析师”)。 - 开源巨兽:
Qwen3-235B-A22B
, DeepSeek R1
, GLM-4.5
, Kimi-K2
(性能媲美旗舰,需强大硬件)。 - 本地王者:
Qwen3-72B
, Qwen3-30B-A3B
(消费级硬件上的性能优选)。
5.3 实践指南:如何为你的任务选择最佳模型?
- 建立决策流程
- 识别任务类型
复杂编程 / 严肃写作
-> 推荐 Claude Opus 4.1
, GPT-5
, GLM-4.5
, Kimi K2
。这些模型逻辑推理和代码能力强,结果更可靠。创意写作 / 日常聊天
-> 推荐 GPT-5
, Claude Sonnet 4
, Gemini 2.5 Pro
, DeepSeek R1
, Qwen3-235B
, Grok 4
。这些模型语言流畅、交互自然,Grok 4
还具备实时搜索能力。追求性价比的日常工作
-> 推荐 Gemini 2.5 Flash
, Qwen3-30B-A3B
, DeepSeek-V3
。这些模型在性能、速度和成本之间取得了绝佳平衡。
- 评估预算和隐私需求
- 若预算充足且不担心数据隐私,可使用顶级闭源模型的API。
- 若需要完全的数据控制或零成本运行,应评估硬件后选择合适的开源模型。
- 评估自身技术能力
- 零技术背景的用户,建议使用网页版或成熟的第三方应用。
- 懂一点编程或愿意探索的用户,可以尝试使用
Ollama
, LM Studio
等工具部署开源模型。
5.4 知识扩展与未来展望
- 概念扩展: 简要提及
微调 (Fine-tuning) / LoRA
(给AI请专业家教)和 多模态 (Multi-modality)
(能听会看的AI)。 - 总结陈词: 没有最好的模型,只有最合适的工具。成为一个聪明的AI使用者,核心能力不是背诵模型参数,而是理解任务需求,并能批判性地为任务匹配最合适的模型。这种选择和判断的能力将永远有效。
附录:2025年主流模型参考表
闭源模型
大型模型
模型名称 | 推理模型? | 类型 | 参数 (总/激活) | 能力 | 使用体验 | 缺点 |
---|
GPT-5 (OpenAI) | 是(支持Thinking模式) | Dense | 未公开 (>1T/全激活) | GPQA Diamond 89.4%,HumanEval 88%,AIME 2025 100%,SWE Bench 74.9%。支持400K上下文、多模态(图像、语音)、工具调用。擅长高级推理、数学、代理编码。 | 混合反馈:写作/编码流畅,如“质量生活升级”,但逻辑错误频发,rollout“混乱”。适合日常,但专业用户切换Claude。速度快,API限制影响大规模使用。 | 幻觉和逻辑错误仍频发;渐进式改进导致用户失望;高订阅成本和API限制;在复杂多轮交互中不如Claude稳定。 |
Claude Opus 4.1 (Anthropic) | 是(内置扩展思考) | Dense | 未公开 (大型/全激活) | HumanEval 80.9%,SWE Bench 74.5%,200K上下文。擅长代理任务、编码,少幻觉。多模态弱,但研究深度强。 | “主导编程任务”,可靠于复杂代码,感觉“诚实编辑”。API灵活,web有安全限制。成本高,专业开发者首选。 | 高成本($15/$75 per 1M tokens);多模态能力弱;安全过滤过度限制创意任务;在日常人性化交互中不如GPT系列。 |
Gemini 2.5 Pro (Google) | 是(内置思考模式) | Dense | 大型 (未公开/全激活) | GPQA Diamond 86.4%,HumanEval 92%,GRIND 82.1%,1M+上下文,视频理解(VideoMME 84.8%)。多模态强大,长上下文代码分析。 | “工作马”,长上下文/多模态卓越,但UX摩擦大。API绕过安全,速度快,但提示需详细。适合大型代码库,情感智能弱。 | UX摩擦和工具调用不一致;安全限制过多;情感智能弱;在多语言复杂任务中挣扎;依赖Google生态。 |
Grok 4 (xAI) | 是(实时搜索推理) | Dense | 未公开 (大型/全激活) | GPQA Diamond 87.5%,HumanEval 94%,SWE Bench 75%。256K上下文,DeepSearch。多模态图像,编码非顶级。 | 正面于搜索/编码,但“垃圾级”开发,缺乏深度。适合互联网查询,专业偏好Claude。 | 缺乏深度分析;编码非顶级;实时搜索有时不准确;订阅依赖xAI生态;在代理任务中不如Claude。 |
OpenAI o3 | 是(o系列高级推理) | Dense | 未公开 (大型/全激活) | GPQA Diamond 83.3%,HumanEval 91.6%,SWE Bench 69.1%。高级推理、代理任务。 | “最佳推理模型”,但幻觉/延迟突出。适合复杂问题,不如GPT-5稳定。 | 幻觉和延迟问题突出;高计算需求;在生产环境中稳定性差;不如o4-mini高效。 |
中型模型
模型名称 | 推理模型? | 类型 | 参数 (总/激活) | 能力 | 使用体验 | 缺点 |
---|
Claude Sonnet 4 (Anthropic) | 是(扩展思考) | Dense | 未公开 (中型/全激活) | HumanEval 75.4%,GRIND 75%,SWE Bench 72.7%,200K上下文。日常代码/写作。 | “平衡速度/性能”,可靠日常,但代理弱。成本低。 | 代理能力弱;不如Opus在复杂任务;安全过滤限制;成本虽低但仍需订阅。 |
Gemini 2.5 Flash (Google) | 是(思考模式) | Dense | 中型 (未公开/全激活) | 编码/推理强,长上下文,但低于Pro。 | 快/经济,但安全限制多。API灵活,适合本地。 | 安全限制过多;基准低于Pro;情感和创意弱;提示依赖性高。 |
OpenAI o4-mini | 是(o系列优化) | Dense | 未公开 (中型/全激活) | GPQA Diamond 81.4%,HumanEval 93.4%,SWE Bench 68.1%。 | “高效推理”,但语法错误多。不如o3可靠。 | 语法错误频发;不如o3在复杂推理;API限制;在独立基准中表现中等。 |
小型模型
模型名称 | 推理模型? | 类型 | 参数 (总/激活) | 能力 | 使用体验 | 缺点 |
---|
GPT-5 nano (OpenAI) | 是(简化Thinking) | Dense | <7B (未公开/全激活) | 基本查询、快速响应,SWE Bench ~60%。支持图像/语音,多模态入门。 | 经济/快,适合移动。反馈正面于简单任务,但复杂时切换大型。 | 复杂任务弱;推理深度有限;依赖大型模型补充;潜在幻觉在边缘案例。 |
Gemini 2.5 Nano (Google) | 是(轻量思考) | Dense | <7B (未公开/全激活) | 快速编码/推理,长上下文入门。基准低于Flash。 | 低资源高效,但能力有限。用户称适合设备端。 | 能力有限;长上下文处理弱;多模态不全面;硬件兼容问题。 |
Claude Haiku 4 (Anthropic) | 是(基本扩展) | Dense | <7B (未公开/全激活) | 日常写作/代码,少幻觉。200K上下文简化。 | 快/可靠,成本低。适合入门,但不如Sonnet代理。 | 代理弱;不如Sonnet在深度任务;安全过滤过多;速度虽快但精度牺牲。 |
开源模型
大型模型
模型名称 | 推理模型? | 类型 | 参数 (总/激活) | 能力 | 使用体验 | 缺点 |
---|
DeepSeek R1 (DeepSeek AI) | 是(RL驱动推理) | MoE | 671B / 37B | MATH 98.2%,GPQA 79.1%,SWE-Bench 64.2%。数学/编码媲美GPT-4o,128K上下文。 | “惊人”,效率高/低成本,本地好。但冗长细节。 | 输出冗长/无关细节;高硬件需求;在多语言任务中不如Qwen;训练成本虽低但部署复杂。 |
Qwen3-235B-A22B (Alibaba) | 是/否(分离:Thinking推理,Instruct指令) | MoE | 235B / 22B | AIME24 91.0%,119语言,代理编码。1M上下文,代理/工具强。 | “整体最佳”,本地CPU 3 tokens/sec。分离模式提升专注,但早期混合“愚蠢”。 | 早期混合模式愚蠢(虽已修复);高计算需求;多语言但英语/中文偏重;批处理性能退化。 |
Kimi K2 (Moonshot AI) | 是(代理优化) | MoE | 1T / 32B | AIME24 91.0%,GPQA 79.1%,SWE-Bench 64.2%。工具/推理/自主解决。 | 正面,MIT许可易集成。适合写作/复杂任务,但需硬件。 | 高硬件需求;多模态弱;在开源社区集成问题;工具调用成功率虽高但一致性差。 |
GLM 4.5 (Zhipu AI) | 是(MoE思考) | MoE | 355B / 未公开 | AIME24 91.0%,GPQA 79.1%,SWE-Bench 64.2%。 | 低成本/开源,适合预算。MIT许可。 | 高计算需求;英语/中文焦点,多语言扩展中;编辑失败率较高;不如Claude在代理编码。 |
gpt-oss-120b (OpenAI) | 是(CoT/工具) | MoE | 117B / 5.1B | 近o4-mini,工具/函数调用/CoT/Tau-Bench强。128K上下文,HealthBench优于o1。 | 强于推理/代理,易部署/微调。伙伴反馈正面于本地/专用数据集。 | 激活参数仅5.1B导致实际应用性能差;广泛质疑刷分和高分低能;生产无用,独立基准中等;恶意微调风险虽低但性能不稳。 |
中型模型
模型名称 | 推理模型? | 类型 | 参数 (总/激活) | 能力 | 使用体验 | 缺点 |
---|
Qwen3-72B (Alibaba) | 是/否(分离:Thinking/Instruct) | Dense | 72B / 全激活 | 编码/推理强,多语言。 | 基准真实,适合本地。 | 硬件需求高;批处理退化;设置/UI jank;不如MoE变体高效。 |
Qwen3-30B-A3B (Alibaba) | 是/否(分离:Thinking/Instruct) | MoE | 30B / 3B | 突破性推理能力,在数学、编码、逻辑上改进;本地运行快,媲美GPT-4o在某些基准;支持多语言和工具调用。 | 适中硬件上运行快,对本地LLM未来兴奋;一旦设置好即高效,但需强大GPU;适合推理和编码任务。 | 批处理大时性能退化/输出不可读;设置/UI/选项jank;硬件需求高(虽适中但非入门);在vLLM中兼容问题。 |
Gemma 3 27B (Google) | 否 | Dense | 27B / 全激活 | 多语言/高效。 | 高效,预算有限。 | 推理弱;不如Qwen在编码;硬件虽低但性能牺牲;多语言但深度有限。 |
Mistral Large 3 (Mistral AI) | 否 | Dense | 未公开 (中型/全激活) | 多语言/编码。 | 平衡,许可友好。 | 推理非顶级;计算需求中高等;在复杂任务中落后MoE;许可虽友好但社区支持有限。 |
gpt-oss-20b (OpenAI) | 是(CoT/工具) | MoE | 21B / 3.6B | 似o3-mini,工具/函数/CoT/Tau-Bench。128K上下文,HealthBench优于o3-mini。 | 设备端用,低内存(16GB)。伙伴正面于本地/迭代。 | 激活参数少导致实际弱;质疑刷分和高分低能;生产稳定性差;不如120b在深度。 |
小型模型
模型名称 | 推理模型? | 类型 | 参数 (总/激活) | 能力 | 使用体验 | 缺点 |
---|
Qwen3-4B (Alibaba) | 是/否(分离:Thinking/Instruct) | Dense | 4B / 全激活 | 翻译/简单任务,媲美大模型。 | 低延迟本地,适合简单如翻译。 | 复杂任务弱;推理深度有限;批处理问题继承;不如中型在编码。 |
Qwen3-1.7B (Alibaba) | 是/否(分离) | Dense | 1.7B / 全激活 | 基本多语言/推理。 | 高效移动,低资源。 | 能力有限;多语言但精度低;设置jank;边缘案例幻觉。 |
Qwen3-0.6B (Alibaba) | 是/否(分离) | Dense | 0.6B / 全激活 | 入门任务,性能媲美72B Instruct。 | 惊人小尺寸,易部署。 | 任务范围窄;推理弱;依赖提示优化;在实际应用中高分低能嫌疑。 |
Gemma 3 2B (Google) | 否 | Dense | 2B / 全激活 | 高效多语言。 | 适合设备,性能好。 | 非推理;深度任务弱;不如Qwen小模型;兼容性问题。 |