社团课程设计-LLM：从“魔法”到“得力助手”的正确使用指南

教学目标

让零基础的新生理解大模型的基本工作方式，掌握高效、正确使用大模型的技巧，并能将其应用于学习和工作中，同时对AI前沿发展保持好奇心和批判性思维。

核心理念

不把AI当成无所不能的“神”，而是理解其能力边界、掌握其“脾气”的强大工具。原理驱动技巧，实践检验真知。

第一章：初次见面，请多指教 —— 揭开大模型的神秘面纱

1.1 什么是大模型 (LLM)？

核心概念： 把它想象成一个读完了互联网（几乎）所有资料，并学会了“文字接龙”和“模仿”的超级大脑。其本质是概率模型，预测下一个最有可能出现的词，而非真正地“思考”。
破除迷思：
- 它不是搜索引擎：它会“创造”内容，可能包含事实错误，即“幻觉”。
- 它不是通用人工智能 (AGI)：它没有自我意识、情感和真实世界的感知。目前没有AGI，每个模型都有其能力边界。即使是顶尖模型，也各有各的“脾气”和“盲区”，我们稍后会详细探讨。

1.2 “酷炫”应用展示

文本生成： 现场演示用AI写一首诗或一段代码。
图像生成： 展示 Stable Diffusion或 Midjourney“文生图”的魅力。
代码助手： 演示 GitHub Copilot如何根据注释或上下文自动补全代码。

第二章：大模型的“记忆”与“语言” —— 决定沟通效率的关键

2.1 短暂但宝贵的“记忆”：上下文 (Context Window)

简单原理： 上下文是大模型的“短期记忆”。关闭对话框即“失忆”。
推广技巧：
- 单一交互，单一功能： 在一个对话中杂糅多个不相关的任务，会导致模型表现下降。
- 上下文“喂养”： 先提供背景信息（如文章、数据），再进行提问，能获得更精准的回答。

2.2 沟通的基石：分词 (Tokenization)

简单原理： 模型看到的是“词元”(Token)，而不是我们看到的文字。
推广技巧：
- 正面提问的力量： “请不要画猫”可能因为模型分别关注了“不要”和“画猫”而失败。应直接下达正面指令，如“请画一只狗”。
- 语言选择： 不同公司用不同的方法训练模型，导致它们在处理特定语言或任务时表现各异，这也是我们需要学会选择模型的原因。

第三章：精准沟通的艺术 —— 提示词工程 (Prompt Engineering)

3.1 从“随便问问”到“精准指令”

核心框架： 介绍并演练 R-T-F-E 提问公式。
- R (Role - 角色)：为AI设定一个身份。
- T (Task - 任务)：清晰地描述你的目标。
- F (Format - 格式)：指定输出的格式。
- E (Example - 示例)：提供一个或多个例子。

3.2 让模型拥有“外脑”：RAG

简单原理： 将RAG比作“开卷考试”。系统先从外部知识库（如PDF、网页）中检索相关信息，然后连同你的问题一起交给大模型，让它根据你提供的材料来生成答案。这能有效缓解“幻觉”和知识陈旧问题。

第四章：AI走进工作流 —— 效率工具大赏

4.1 编码的革命：AI IDE 与代码助手

介绍 Cursor、GitHub Copilot 等工具如何将整个项目作为上下文，提供高度相关的代码建议。

4.2 命令行的“翻译官”：AI CLI 工具

介绍 Warp、Gemini CLI 等工具如何将自然语言翻译成命令行指令。

4.3 创意的延伸：前沿多模态应用

提及 Suno（文生音乐）、Sora（文生视频）等，展示AI在创意领域的巨大潜力。

第五章：成为聪明的“AI使用者” —— 生态、选择与未来

5.1 AI世界的两大阵营：闭源与开源

闭源模型 (如GPT, Claude)： 像Windows/MacOS。
- 优点：性能顶尖、开箱即用。
- 缺点：付费、有隐私顾虑、规则严格。
开源模型 (如Llama, Qwen)： 像Linux系统。
- 优点：免费、隐私可控、可定制。
- 缺点：对硬件和技术有要求。

5.2 认识当今的“AI明星”：模型大阅兵

引言： 记住每个模型不重要，重要的是理解它们的“性格”和“定位”。
关键概念：
- 模型大小 (Size)： 大型(>100B)、中型(7B-100B)、小型(<7B)。可比喻为“博士生”、“本科生”和“高中生”。
- 模型架构 (Architecture)： Dense (密集，全员参与) vs. MoE (专家混合，高效分工)。
小模型的正确定位
特别注意：在当前阶段，参数量在10B以下的小模型，通常不建议作为通用的聊天伙伴。它们的价值更多体现在作为AI Agent（智能体）中的一个高效组件，或针对单一任务（如翻译、文本分类）进行微调后使用。而4B甚至更小的模型，则更多是用于探索模型能力的边界、验证新的架构，或是团队展示技术实力的作品。我们今天讨论的“对话型AI”，主要集中在中大型模型。
模型梯队介绍
- 闭源旗舰： GPT-5/4o (“创意社交达人”), Claude Opus (“严谨工程师”), Gemini Pro (“数据分析师”)。
- 开源巨兽： Qwen3-235B-A22B, DeepSeek R1, GLM-4.5, Kimi-K2 (性能媲美旗舰，需强大硬件)。
- 本地王者： Qwen3-72B, Qwen3-30B-A3B (消费级硬件上的性能优选)。

5.3 实践指南：如何为你的任务选择最佳模型？

建立决策流程
1. 识别任务类型
  - 复杂编程 / 严肃写作 -> 推荐 Claude Opus 4.1, GPT-5, GLM-4.5, Kimi K2。这些模型逻辑推理和代码能力强，结果更可靠。
  - 创意写作 / 日常聊天 -> 推荐 GPT-5, Claude Sonnet 4, Gemini 2.5 Pro, DeepSeek R1, Qwen3-235B, Grok 4。这些模型语言流畅、交互自然，Grok 4还具备实时搜索能力。
  - 追求性价比的日常工作 -> 推荐 Gemini 2.5 Flash, Qwen3-30B-A3B, DeepSeek-V3。这些模型在性能、速度和成本之间取得了绝佳平衡。
2. 评估预算和隐私需求
  - 若预算充足且不担心数据隐私，可使用顶级闭源模型的API。
  - 若需要完全的数据控制或零成本运行，应评估硬件后选择合适的开源模型。
3. 评估自身技术能力
  - 零技术背景的用户，建议使用网页版或成熟的第三方应用。
  - 懂一点编程或愿意探索的用户，可以尝试使用 Ollama, LM Studio 等工具部署开源模型。

5.4 知识扩展与未来展望

概念扩展： 简要提及 微调 (Fine-tuning) / LoRA（给AI请专业家教）和 多模态 (Multi-modality)（能听会看的AI）。
总结陈词： 没有最好的模型，只有最合适的工具。成为一个聪明的AI使用者，核心能力不是背诵模型参数，而是理解任务需求，并能批判性地为任务匹配最合适的模型。这种选择和判断的能力将永远有效。

附录：2025年主流模型参考表

闭源模型

大型模型

模型名称	推理模型?	类型	参数 (总/激活)	能力	使用体验	缺点
GPT-5 (OpenAI)	是（支持Thinking模式）	Dense	未公开 (>1T/全激活)	GPQA Diamond 89.4%，HumanEval 88%，AIME 2025 100%，SWE Bench 74.9%。支持400K上下文、多模态（图像、语音）、工具调用。擅长高级推理、数学、代理编码。	混合反馈：写作/编码流畅，如“质量生活升级”，但逻辑错误频发，rollout“混乱”。适合日常，但专业用户切换Claude。速度快，API限制影响大规模使用。	幻觉和逻辑错误仍频发；渐进式改进导致用户失望；高订阅成本和API限制；在复杂多轮交互中不如Claude稳定。
Claude Opus 4.1 (Anthropic)	是（内置扩展思考）	Dense	未公开 (大型/全激活)	HumanEval 80.9%，SWE Bench 74.5%，200K上下文。擅长代理任务、编码，少幻觉。多模态弱，但研究深度强。	“主导编程任务”，可靠于复杂代码，感觉“诚实编辑”。API灵活，web有安全限制。成本高，专业开发者首选。	高成本（$15/$75 per 1M tokens）；多模态能力弱；安全过滤过度限制创意任务；在日常人性化交互中不如GPT系列。
Gemini 2.5 Pro (Google)	是（内置思考模式）	Dense	大型 (未公开/全激活)	GPQA Diamond 86.4%，HumanEval 92%，GRIND 82.1%，1M+上下文，视频理解(VideoMME 84.8%)。多模态强大，长上下文代码分析。	“工作马”，长上下文/多模态卓越，但UX摩擦大。API绕过安全，速度快，但提示需详细。适合大型代码库，情感智能弱。	UX摩擦和工具调用不一致；安全限制过多；情感智能弱；在多语言复杂任务中挣扎；依赖Google生态。
Grok 4 (xAI)	是（实时搜索推理）	Dense	未公开 (大型/全激活)	GPQA Diamond 87.5%，HumanEval 94%，SWE Bench 75%。256K上下文，DeepSearch。多模态图像，编码非顶级。	正面于搜索/编码，但“垃圾级”开发，缺乏深度。适合互联网查询，专业偏好Claude。	缺乏深度分析；编码非顶级；实时搜索有时不准确；订阅依赖xAI生态；在代理任务中不如Claude。
OpenAI o3	是（o系列高级推理）	Dense	未公开 (大型/全激活)	GPQA Diamond 83.3%，HumanEval 91.6%，SWE Bench 69.1%。高级推理、代理任务。	“最佳推理模型”，但幻觉/延迟突出。适合复杂问题，不如GPT-5稳定。	幻觉和延迟问题突出；高计算需求；在生产环境中稳定性差；不如o4-mini高效。

中型模型

模型名称	推理模型?	类型	参数 (总/激活)	能力	使用体验	缺点
Claude Sonnet 4 (Anthropic)	是（扩展思考）	Dense	未公开 (中型/全激活)	HumanEval 75.4%，GRIND 75%，SWE Bench 72.7%，200K上下文。日常代码/写作。	“平衡速度/性能”，可靠日常，但代理弱。成本低。	代理能力弱；不如Opus在复杂任务；安全过滤限制；成本虽低但仍需订阅。
Gemini 2.5 Flash (Google)	是（思考模式）	Dense	中型 (未公开/全激活)	编码/推理强，长上下文，但低于Pro。	快/经济，但安全限制多。API灵活，适合本地。	安全限制过多；基准低于Pro；情感和创意弱；提示依赖性高。
OpenAI o4-mini	是（o系列优化）	Dense	未公开 (中型/全激活)	GPQA Diamond 81.4%，HumanEval 93.4%，SWE Bench 68.1%。	“高效推理”，但语法错误多。不如o3可靠。	语法错误频发；不如o3在复杂推理；API限制；在独立基准中表现中等。

小型模型

模型名称	推理模型?	类型	参数 (总/激活)	能力	使用体验	缺点
GPT-5 nano (OpenAI)	是（简化Thinking）	Dense	<7B (未公开/全激活)	基本查询、快速响应，SWE Bench ~60%。支持图像/语音，多模态入门。	经济/快，适合移动。反馈正面于简单任务，但复杂时切换大型。	复杂任务弱；推理深度有限；依赖大型模型补充；潜在幻觉在边缘案例。
Gemini 2.5 Nano (Google)	是（轻量思考）	Dense	<7B (未公开/全激活)	快速编码/推理，长上下文入门。基准低于Flash。	低资源高效，但能力有限。用户称适合设备端。	能力有限；长上下文处理弱；多模态不全面；硬件兼容问题。
Claude Haiku 4 (Anthropic)	是（基本扩展）	Dense	<7B (未公开/全激活)	日常写作/代码，少幻觉。200K上下文简化。	快/可靠，成本低。适合入门，但不如Sonnet代理。	代理弱；不如Sonnet在深度任务；安全过滤过多；速度虽快但精度牺牲。

开源模型

大型模型

模型名称	推理模型?	类型	参数 (总/激活)	能力	使用体验	缺点
DeepSeek R1 (DeepSeek AI)	是（RL驱动推理）	MoE	671B / 37B	MATH 98.2%，GPQA 79.1%，SWE-Bench 64.2%。数学/编码媲美GPT-4o，128K上下文。	“惊人”，效率高/低成本，本地好。但冗长细节。	输出冗长/无关细节；高硬件需求；在多语言任务中不如Qwen；训练成本虽低但部署复杂。
Qwen3-235B-A22B (Alibaba)	是/否（分离：Thinking推理，Instruct指令）	MoE	235B / 22B	AIME24 91.0%，119语言，代理编码。1M上下文，代理/工具强。	“整体最佳”，本地CPU 3 tokens/sec。分离模式提升专注，但早期混合“愚蠢”。	早期混合模式愚蠢（虽已修复）；高计算需求；多语言但英语/中文偏重；批处理性能退化。
Kimi K2 (Moonshot AI)	是（代理优化）	MoE	1T / 32B	AIME24 91.0%，GPQA 79.1%，SWE-Bench 64.2%。工具/推理/自主解决。	正面，MIT许可易集成。适合写作/复杂任务，但需硬件。	高硬件需求；多模态弱；在开源社区集成问题；工具调用成功率虽高但一致性差。
GLM 4.5 (Zhipu AI)	是（MoE思考）	MoE	355B / 未公开	AIME24 91.0%，GPQA 79.1%，SWE-Bench 64.2%。	低成本/开源，适合预算。MIT许可。	高计算需求；英语/中文焦点，多语言扩展中；编辑失败率较高；不如Claude在代理编码。
gpt-oss-120b (OpenAI)	是（CoT/工具）	MoE	117B / 5.1B	近o4-mini，工具/函数调用/CoT/Tau-Bench强。128K上下文，HealthBench优于o1。	强于推理/代理，易部署/微调。伙伴反馈正面于本地/专用数据集。	激活参数仅5.1B导致实际应用性能差；广泛质疑刷分和高分低能；生产无用，独立基准中等；恶意微调风险虽低但性能不稳。

中型模型

模型名称	推理模型?	类型	参数 (总/激活)	能力	使用体验	缺点
Qwen3-72B (Alibaba)	是/否（分离：Thinking/Instruct）	Dense	72B / 全激活	编码/推理强，多语言。	基准真实，适合本地。	硬件需求高；批处理退化；设置/UI jank；不如MoE变体高效。
Qwen3-30B-A3B (Alibaba)	是/否（分离：Thinking/Instruct）	MoE	30B / 3B	突破性推理能力，在数学、编码、逻辑上改进；本地运行快，媲美GPT-4o在某些基准；支持多语言和工具调用。	适中硬件上运行快，对本地LLM未来兴奋；一旦设置好即高效，但需强大GPU；适合推理和编码任务。	批处理大时性能退化/输出不可读；设置/UI/选项jank；硬件需求高（虽适中但非入门）；在vLLM中兼容问题。
Gemma 3 27B (Google)	否	Dense	27B / 全激活	多语言/高效。	高效，预算有限。	推理弱；不如Qwen在编码；硬件虽低但性能牺牲；多语言但深度有限。
Mistral Large 3 (Mistral AI)	否	Dense	未公开 (中型/全激活)	多语言/编码。	平衡，许可友好。	推理非顶级；计算需求中高等；在复杂任务中落后MoE；许可虽友好但社区支持有限。
gpt-oss-20b (OpenAI)	是（CoT/工具）	MoE	21B / 3.6B	似o3-mini，工具/函数/CoT/Tau-Bench。128K上下文，HealthBench优于o3-mini。	设备端用，低内存(16GB)。伙伴正面于本地/迭代。	激活参数少导致实际弱；质疑刷分和高分低能；生产稳定性差；不如120b在深度。

小型模型

模型名称	推理模型?	类型	参数 (总/激活)	能力	使用体验	缺点
Qwen3-4B (Alibaba)	是/否（分离：Thinking/Instruct）	Dense	4B / 全激活	翻译/简单任务，媲美大模型。	低延迟本地，适合简单如翻译。	复杂任务弱；推理深度有限；批处理问题继承；不如中型在编码。
Qwen3-1.7B (Alibaba)	是/否（分离）	Dense	1.7B / 全激活	基本多语言/推理。	高效移动，低资源。	能力有限；多语言但精度低；设置jank；边缘案例幻觉。
Qwen3-0.6B (Alibaba)	是/否（分离）	Dense	0.6B / 全激活	入门任务，性能媲美72B Instruct。	惊人小尺寸，易部署。	任务范围窄；推理弱；依赖提示优化；在实际应用中高分低能嫌疑。
Gemma 3 2B (Google)	否	Dense	2B / 全激活	高效多语言。	适合设备，性能好。	非推理；深度任务弱；不如Qwen小模型；兼容性问题。