教学目标

让零基础的新生理解大模型的基本工作方式,掌握高效、正确使用大模型的技巧,并能将其应用于学习和工作中,同时对AI前沿发展保持好奇心和批判性思维。

核心理念

不把AI当成无所不能的“神”,而是理解其能力边界、掌握其“脾气”的强大工具。原理驱动技巧,实践检验真知。


第一章:初次见面,请多指教 —— 揭开大模型的神秘面纱

1.1 什么是大模型 (LLM)?

  • 核心概念: 把它想象成一个读完了互联网(几乎)所有资料,并学会了“文字接龙”和“模仿”的超级大脑。其本质是概率模型,预测下一个最有可能出现的词,而非真正地“思考”。
  • 破除迷思:
    • 它不是搜索引擎:它会“创造”内容,可能包含事实错误,即“幻觉”。
    • 它不是通用人工智能 (AGI):它没有自我意识、情感和真实世界的感知。目前没有AGI,每个模型都有其能力边界。即使是顶尖模型,也各有各的“脾气”和“盲区”,我们稍后会详细探讨。

1.2 “酷炫”应用展示

  • 文本生成: 现场演示用AI写一首诗或一段代码。
  • 图像生成: 展示 Stable DiffusionMidjourney“文生图”的魅力。
  • 代码助手: 演示 GitHub Copilot如何根据注释或上下文自动补全代码。

第二章:大模型的“记忆”与“语言” —— 决定沟通效率的关键

2.1 短暂但宝贵的“记忆”:上下文 (Context Window)

  • 简单原理: 上下文是大模型的“短期记忆”。关闭对话框即“失忆”。
  • 推广技巧:
    • 单一交互,单一功能: 在一个对话中杂糅多个不相关的任务,会导致模型表现下降。
    • 上下文“喂养”: 先提供背景信息(如文章、数据),再进行提问,能获得更精准的回答。

2.2 沟通的基石:分词 (Tokenization)

  • 简单原理: 模型看到的是“词元”(Token),而不是我们看到的文字。
  • 推广技巧:
    • 正面提问的力量: “请不要画猫”可能因为模型分别关注了“不要”和“画猫”而失败。应直接下达正面指令,如“请画一只狗”。
    • 语言选择: 不同公司用不同的方法训练模型,导致它们在处理特定语言或任务时表现各异,这也是我们需要学会选择模型的原因。

第三章:精准沟通的艺术 —— 提示词工程 (Prompt Engineering)

3.1 从“随便问问”到“精准指令”

  • 核心框架: 介绍并演练 R-T-F-E 提问公式。
    • R (Role - 角色):为AI设定一个身份。
    • T (Task - 任务):清晰地描述你的目标。
    • F (Format - 格式):指定输出的格式。
    • E (Example - 示例):提供一个或多个例子。

3.2 让模型拥有“外脑”:RAG

  • 简单原理: 将RAG比作“开卷考试”。系统先从外部知识库(如PDF、网页)中检索相关信息,然后连同你的问题一起交给大模型,让它根据你提供的材料来生成答案。这能有效缓解“幻觉”和知识陈旧问题。

第四章:AI走进工作流 —— 效率工具大赏

4.1 编码的革命:AI IDE 与代码助手

  • 介绍 CursorGitHub Copilot 等工具如何将整个项目作为上下文,提供高度相关的代码建议。

4.2 命令行的“翻译官”:AI CLI 工具

  • 介绍 WarpGemini CLI 等工具如何将自然语言翻译成命令行指令。

4.3 创意的延伸:前沿多模态应用

  • 提及 Suno(文生音乐)、Sora(文生视频)等,展示AI在创意领域的巨大潜力。

第五章:成为聪明的“AI使用者” —— 生态、选择与未来

5.1 AI世界的两大阵营:闭源与开源

  • 闭源模型 (如GPT, Claude): 像Windows/MacOS。
    • 优点:性能顶尖、开箱即用。
    • 缺点:付费、有隐私顾虑、规则严格。
  • 开源模型 (如Llama, Qwen): 像Linux系统。
    • 优点:免费、隐私可控、可定制。
    • 缺点:对硬件和技术有要求。

5.2 认识当今的“AI明星”:模型大阅兵

  • 引言: 记住每个模型不重要,重要的是理解它们的“性格”和“定位”。
  • 关键概念:
    • 模型大小 (Size): 大型(>100B)、中型(7B-100B)、小型(<7B)。可比喻为“博士生”、“本科生”和“高中生”。
    • 模型架构 (Architecture): Dense (密集,全员参与) vs. MoE (专家混合,高效分工)。
  • 小模型的正确定位

    特别注意:在当前阶段,参数量在10B以下的小模型,通常不建议作为通用的聊天伙伴。它们的价值更多体现在作为AI Agent(智能体)中的一个高效组件,或针对单一任务(如翻译、文本分类)进行微调后使用。而4B甚至更小的模型,则更多是用于探索模型能力的边界、验证新的架构,或是团队展示技术实力的作品。我们今天讨论的“对话型AI”,主要集中在中大型模型。

  • 模型梯队介绍
    • 闭源旗舰: GPT-5/4o (“创意社交达人”), Claude Opus (“严谨工程师”), Gemini Pro (“数据分析师”)。
    • 开源巨兽: Qwen3-235B-A22B, DeepSeek R1, GLM-4.5, Kimi-K2 (性能媲美旗舰,需强大硬件)。
    • 本地王者: Qwen3-72B, Qwen3-30B-A3B (消费级硬件上的性能优选)。

5.3 实践指南:如何为你的任务选择最佳模型?

  • 建立决策流程
    1. 识别任务类型
      • 复杂编程 / 严肃写作 -> 推荐 Claude Opus 4.1, GPT-5, GLM-4.5, Kimi K2。这些模型逻辑推理和代码能力强,结果更可靠。
      • 创意写作 / 日常聊天 -> 推荐 GPT-5, Claude Sonnet 4, Gemini 2.5 Pro, DeepSeek R1, Qwen3-235B, Grok 4。这些模型语言流畅、交互自然,Grok 4还具备实时搜索能力。
      • 追求性价比的日常工作 -> 推荐 Gemini 2.5 Flash, Qwen3-30B-A3B, DeepSeek-V3。这些模型在性能、速度和成本之间取得了绝佳平衡。
    2. 评估预算和隐私需求
      • 若预算充足且不担心数据隐私,可使用顶级闭源模型的API。
      • 若需要完全的数据控制或零成本运行,应评估硬件后选择合适的开源模型
    3. 评估自身技术能力
      • 零技术背景的用户,建议使用网页版或成熟的第三方应用。
      • 懂一点编程或愿意探索的用户,可以尝试使用 Ollama, LM Studio 等工具部署开源模型。

5.4 知识扩展与未来展望

  • 概念扩展: 简要提及 微调 (Fine-tuning) / LoRA(给AI请专业家教)和 多模态 (Multi-modality)(能听会看的AI)。
  • 总结陈词: 没有最好的模型,只有最合适的工具。成为一个聪明的AI使用者,核心能力不是背诵模型参数,而是理解任务需求,并能批判性地为任务匹配最合适的模型。这种选择和判断的能力将永远有效。

附录:2025年主流模型参考表

闭源模型

大型模型

模型名称推理模型?类型参数 (总/激活)能力使用体验缺点
GPT-5 (OpenAI)是(支持Thinking模式)Dense未公开 (>1T/全激活)GPQA Diamond 89.4%,HumanEval 88%,AIME 2025 100%,SWE Bench 74.9%。支持400K上下文、多模态(图像、语音)、工具调用。擅长高级推理、数学、代理编码。混合反馈:写作/编码流畅,如“质量生活升级”,但逻辑错误频发,rollout“混乱”。适合日常,但专业用户切换Claude。速度快,API限制影响大规模使用。幻觉和逻辑错误仍频发;渐进式改进导致用户失望;高订阅成本和API限制;在复杂多轮交互中不如Claude稳定。
Claude Opus 4.1 (Anthropic)是(内置扩展思考)Dense未公开 (大型/全激活)HumanEval 80.9%,SWE Bench 74.5%,200K上下文。擅长代理任务、编码,少幻觉。多模态弱,但研究深度强。“主导编程任务”,可靠于复杂代码,感觉“诚实编辑”。API灵活,web有安全限制。成本高,专业开发者首选。高成本($15/$75 per 1M tokens);多模态能力弱;安全过滤过度限制创意任务;在日常人性化交互中不如GPT系列。
Gemini 2.5 Pro (Google)是(内置思考模式)Dense大型 (未公开/全激活)GPQA Diamond 86.4%,HumanEval 92%,GRIND 82.1%,1M+上下文,视频理解(VideoMME 84.8%)。多模态强大,长上下文代码分析。“工作马”,长上下文/多模态卓越,但UX摩擦大。API绕过安全,速度快,但提示需详细。适合大型代码库,情感智能弱。UX摩擦和工具调用不一致;安全限制过多;情感智能弱;在多语言复杂任务中挣扎;依赖Google生态。
Grok 4 (xAI)是(实时搜索推理)Dense未公开 (大型/全激活)GPQA Diamond 87.5%,HumanEval 94%,SWE Bench 75%。256K上下文,DeepSearch。多模态图像,编码非顶级。正面于搜索/编码,但“垃圾级”开发,缺乏深度。适合互联网查询,专业偏好Claude。缺乏深度分析;编码非顶级;实时搜索有时不准确;订阅依赖xAI生态;在代理任务中不如Claude。
OpenAI o3是(o系列高级推理)Dense未公开 (大型/全激活)GPQA Diamond 83.3%,HumanEval 91.6%,SWE Bench 69.1%。高级推理、代理任务。“最佳推理模型”,但幻觉/延迟突出。适合复杂问题,不如GPT-5稳定。幻觉和延迟问题突出;高计算需求;在生产环境中稳定性差;不如o4-mini高效。

中型模型

模型名称推理模型?类型参数 (总/激活)能力使用体验缺点
Claude Sonnet 4 (Anthropic)是(扩展思考)Dense未公开 (中型/全激活)HumanEval 75.4%,GRIND 75%,SWE Bench 72.7%,200K上下文。日常代码/写作。“平衡速度/性能”,可靠日常,但代理弱。成本低。代理能力弱;不如Opus在复杂任务;安全过滤限制;成本虽低但仍需订阅。
Gemini 2.5 Flash (Google)是(思考模式)Dense中型 (未公开/全激活)编码/推理强,长上下文,但低于Pro。快/经济,但安全限制多。API灵活,适合本地。安全限制过多;基准低于Pro;情感和创意弱;提示依赖性高。
OpenAI o4-mini是(o系列优化)Dense未公开 (中型/全激活)GPQA Diamond 81.4%,HumanEval 93.4%,SWE Bench 68.1%。“高效推理”,但语法错误多。不如o3可靠。语法错误频发;不如o3在复杂推理;API限制;在独立基准中表现中等。

小型模型

模型名称推理模型?类型参数 (总/激活)能力使用体验缺点
GPT-5 nano (OpenAI)是(简化Thinking)Dense<7B (未公开/全激活)基本查询、快速响应,SWE Bench ~60%。支持图像/语音,多模态入门。经济/快,适合移动。反馈正面于简单任务,但复杂时切换大型。复杂任务弱;推理深度有限;依赖大型模型补充;潜在幻觉在边缘案例。
Gemini 2.5 Nano (Google)是(轻量思考)Dense<7B (未公开/全激活)快速编码/推理,长上下文入门。基准低于Flash。低资源高效,但能力有限。用户称适合设备端。能力有限;长上下文处理弱;多模态不全面;硬件兼容问题。
Claude Haiku 4 (Anthropic)是(基本扩展)Dense<7B (未公开/全激活)日常写作/代码,少幻觉。200K上下文简化。快/可靠,成本低。适合入门,但不如Sonnet代理。代理弱;不如Sonnet在深度任务;安全过滤过多;速度虽快但精度牺牲。

开源模型

大型模型

模型名称推理模型?类型参数 (总/激活)能力使用体验缺点
DeepSeek R1 (DeepSeek AI)是(RL驱动推理)MoE671B / 37BMATH 98.2%,GPQA 79.1%,SWE-Bench 64.2%。数学/编码媲美GPT-4o,128K上下文。“惊人”,效率高/低成本,本地好。但冗长细节。输出冗长/无关细节;高硬件需求;在多语言任务中不如Qwen;训练成本虽低但部署复杂。
Qwen3-235B-A22B (Alibaba)是/否(分离:Thinking推理,Instruct指令)MoE235B / 22BAIME24 91.0%,119语言,代理编码。1M上下文,代理/工具强。“整体最佳”,本地CPU 3 tokens/sec。分离模式提升专注,但早期混合“愚蠢”。早期混合模式愚蠢(虽已修复);高计算需求;多语言但英语/中文偏重;批处理性能退化。
Kimi K2 (Moonshot AI)是(代理优化)MoE1T / 32BAIME24 91.0%,GPQA 79.1%,SWE-Bench 64.2%。工具/推理/自主解决。正面,MIT许可易集成。适合写作/复杂任务,但需硬件。高硬件需求;多模态弱;在开源社区集成问题;工具调用成功率虽高但一致性差。
GLM 4.5 (Zhipu AI)是(MoE思考)MoE355B / 未公开AIME24 91.0%,GPQA 79.1%,SWE-Bench 64.2%。低成本/开源,适合预算。MIT许可。高计算需求;英语/中文焦点,多语言扩展中;编辑失败率较高;不如Claude在代理编码。
gpt-oss-120b (OpenAI)是(CoT/工具)MoE117B / 5.1B近o4-mini,工具/函数调用/CoT/Tau-Bench强。128K上下文,HealthBench优于o1。强于推理/代理,易部署/微调。伙伴反馈正面于本地/专用数据集。激活参数仅5.1B导致实际应用性能差;广泛质疑刷分和高分低能;生产无用,独立基准中等;恶意微调风险虽低但性能不稳。

中型模型

模型名称推理模型?类型参数 (总/激活)能力使用体验缺点
Qwen3-72B (Alibaba)是/否(分离:Thinking/Instruct)Dense72B / 全激活编码/推理强,多语言。基准真实,适合本地。硬件需求高;批处理退化;设置/UI jank;不如MoE变体高效。
Qwen3-30B-A3B (Alibaba)是/否(分离:Thinking/Instruct)MoE30B / 3B突破性推理能力,在数学、编码、逻辑上改进;本地运行快,媲美GPT-4o在某些基准;支持多语言和工具调用。适中硬件上运行快,对本地LLM未来兴奋;一旦设置好即高效,但需强大GPU;适合推理和编码任务。批处理大时性能退化/输出不可读;设置/UI/选项jank;硬件需求高(虽适中但非入门);在vLLM中兼容问题。
Gemma 3 27B (Google)Dense27B / 全激活多语言/高效。高效,预算有限。推理弱;不如Qwen在编码;硬件虽低但性能牺牲;多语言但深度有限。
Mistral Large 3 (Mistral AI)Dense未公开 (中型/全激活)多语言/编码。平衡,许可友好。推理非顶级;计算需求中高等;在复杂任务中落后MoE;许可虽友好但社区支持有限。
gpt-oss-20b (OpenAI)是(CoT/工具)MoE21B / 3.6B似o3-mini,工具/函数/CoT/Tau-Bench。128K上下文,HealthBench优于o3-mini。设备端用,低内存(16GB)。伙伴正面于本地/迭代。激活参数少导致实际弱;质疑刷分和高分低能;生产稳定性差;不如120b在深度。

小型模型

模型名称推理模型?类型参数 (总/激活)能力使用体验缺点
Qwen3-4B (Alibaba)是/否(分离:Thinking/Instruct)Dense4B / 全激活翻译/简单任务,媲美大模型。低延迟本地,适合简单如翻译。复杂任务弱;推理深度有限;批处理问题继承;不如中型在编码。
Qwen3-1.7B (Alibaba)是/否(分离)Dense1.7B / 全激活基本多语言/推理。高效移动,低资源。能力有限;多语言但精度低;设置jank;边缘案例幻觉。
Qwen3-0.6B (Alibaba)是/否(分离)Dense0.6B / 全激活入门任务,性能媲美72B Instruct。惊人小尺寸,易部署。任务范围窄;推理弱;依赖提示优化;在实际应用中高分低能嫌疑。
Gemma 3 2B (Google)Dense2B / 全激活高效多语言。适合设备,性能好。非推理;深度任务弱;不如Qwen小模型;兼容性问题。

本站由 Somnifex 使用 Stellar 1.33.1 主题创建。

本站由 又拍云提供CDN加速/云存储服务

本站所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。