blog/_posts/2026-03-01-llm3.md

35 lines
9.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

---
layout: post
title: 近期LLM的部署与应用经历(3)
tags: [AI, LLM, 模型部署, 使用体验]
---
用更多的方式探索AI<!--more-->
# 起因
在一年前,我[整了张RTX4090 48GiB魔改版](/2025/02/22/llm.html)用来跑DeepSeek-R1 70B的4bit量化模型不过都已经过了这么长时间这个模型也已经是过时的东西了……我之前在[Mac Studio M3 Ultra](/2025/05/07/mac-studio.html)上试了一下OpenAI在半年前出的gpt-oss-120b模型感觉效果还挺不错只不过因为M3 Ultra的GPU实际性能比不上正经高端的独显所以它在上下文很长的情况下还是有点慢因此我又整了张RTX4090 48GiB想整个双路试试更快的GPT-OSS模型总共96GiB的显存应该够跑这个模型了。
# 在两张RTX4090 48G上运行GPT-OSS
既然现在我手头有两张4090了那继续用i5-8400处理器的主机似乎不太合适主要是那个主板就一个PCIe插槽想插两张显卡也做不到那买个新的不知道买啥……不管怎么说既然用这么高级的显卡至少得让它跑满。在两张显卡上跑模型似乎卡间的通信速度比较重要那最起码得整个支持2个PCIe4.0 x16的板U套装才行这种级别的没有消费级产品只能考虑服务器或工作站了。不过我对服务器和工作站了解得并不多所以就问了问AI哪个支持2个PCIe4.0 x16的平台最便宜结果AI推荐了TRX40+[TR 3960X](https://www.amd.com/zh-cn/support/downloads/drivers.html/processors/ryzen-threadripper/ryzen-threadripper-3000-series/amd-ryzen-threadripper-3960x.html)于是就按照AI的说法整了一套。
这套板U差不多4000CNY价格倒是还行如果买现役的估计主板都比显卡贵了。但后来我发现这个并不是最便宜的😂搜了一下买寨版+[EPYC 7502](https://www.amd.com/zh-cn/support/downloads/drivers.html/processors/epyc/epyc-7002-series/amd-epyc-7502.html)还能再便宜1000CNY而且通道数更多插4张显卡都没问题……不过买都买了就先用吧看来AI的话不能随便信😥。
之前我跑模型为了方便,基本上都用的是[Ollama](https://github.com/ollama/ollama)不过听说Ollama多卡运行的效率很低而且多并发的效果不太好所以这次换了新电脑之后我想试试[vLLM](https://github.com/vllm-project/vllm)据说一般生产级的AI都用的是这个框架。
安装vLLM倒是比想象得简单很多直接一句`pip install vllm`就可以了其实并没有比Ollama复杂多少。我看了一下[OpenAI](https://developers.openai.com/cookbook/articles/gpt-oss/run-vllm/)和[vLLM](https://docs.vllm.ai/projects/recipes/en/latest/OpenAI/GPT-OSS.html)运行GPT-OSS的官方文档发现启动也非常简单一般来说直接执行`vllm serve openai/gpt-oss-120b`就可以。不过直接执行是对于单卡的,我用两张卡需要加个`--tensor-parallel-size 2`参数启用张量并行不然会爆显存。另外考虑到这个模型本身占掉60多GiB的显存之后剩下30GiB还是看起来有点少所以额外加了个`--kv-cache-dtype fp8`参数降低上下文对显存的占用毕竟模型本身也就是4bit量化的加了这个应该不会对它的能力有什么影响。除此之外AI还给我推荐了个`--enable-chunked-prefill`参数,说是也能避免爆显存的问题。
一切准备好之后直接执行,程序就自动开始下载模型了,过了几个小时,终于下载完成,顺便一说启动的时候还显示推荐安装`torch_c_dlpack_ext`库虽然不知道是干啥的但也顺手安装了。启动完成之后我试了一下效果非常好不并发的情况下直接用能达到接近190Tps可以说是相当快了而且这个模型的水平也算是开源中的上游水平应该算是又快又好吧……看来多来一张4090还是挺划算嘛。只不过这个东西基本上就我一个人用所以也没什么能测一下并发的场景……虽然很快但还是有点浪费性能吧。
# 最近DeepSeek 1M上下文的使用体验
前段时间DeepSeek又出了新的模型最高可以支持1M长的上下文而且听说模型规模变小了所以速度也很快。可惜的是到目前为止还没有开放权重。当然就算开放权重了用2张4090估计也没有足够的显存分配给上下文至于Mac Studio感觉在长上下文的情况下运行速度应该会很慢……
不过我对这个1M上下文还是挺感兴趣因为好久之前我写过一篇[关于LLM能力上限](/2025/04/22/ai-limit.html)的文章在那篇文章中其实我遇到的问题基本上也就是由上下文不足导致的。那既然现在DeepSeek支持了1M的上下文那我就应该试试之前因为局限性而妥协的一些东西了。
这次我没有用摘要,而是直接把包含整个博客内容的[search.json](/search.json)文件上传到DeepSeek然后向它问了问我的一些问题。试了一下效果非常不错用摘要会省略的一些细节它基本上都可以展现出来我试了试让它给我生成一份简历它甚至在所有文章中找到了我的博客地址、GitHub和邮箱地址之前用摘要显然是做不到这一点的这个长上下文还是挺有用啊。
另外我还试了试让它根据文章内容分析十六型人格,并且我自己去答了一遍那个测试,结果也是相同的,说明它真的是在几秒内就读完了我的所有文章而且也完全理解了,真的是非常厉害。
只是拿AI分析我的文章也许只有我自己了😂实际上根本没人对我感兴趣也就只有我自己拿来给自己看……当然如果我的博客能比我活得长不知道会不会有未来人会对我感兴趣呢……总之对于现在肯定是毫无意义了。
除了这些之外我又试了一下让DeepSeek重构我的[Mabbs](https://github.com/Mabbs/Mabbs.Project)这次生成效果看起来很不错了虽然代码我没细看不确定能不能运行但至少没有偷懒只写一点点一口气写了80KiB多的代码这也是长上下文带来的好处吧。总之目前这个长上下文的DeepSeek也算是突破了之前我认为的上限看来LLM真的是前景无限啊。
另外我发现这次更新的DeepSeek居然了解我的博客我问了一下它“你知道Mayx的博客是哪个博客吗它居然知道能说出域名而且还知道我的博客是关于技术的😎看来这次的训练样本中包含我的信息啊……所以我对这次的更新也挺有好感毕竟我的知识如果能成为AI的一部分也算是一种永恒吧。
# 在8GiB内存的MacBook运行的新模型
在3年前我在[探索AI](/2023/04/05/ai.html)时在我只有8GiB内存的[MacBook Pro](/2023/02/03/mbp.html)上运行了非常早期的LLM——Alpaca-7B那时候7B的LLM虽然能回答一些问题但答非所问的情况也非常多。不过最近我发现了一个有意思的LLM叫做[LFM2.5-1.2B-Thinking](https://huggingface.co/LiquidAI/LFM2.5-1.2B-Thinking)它只用了12亿的参数就有思维链而且水平据说还挺强。这么长时间过去之后我倒也想看看我的MacBook能运行多聪明的模型所以就试着跑了一下它。
运行它也很容易一般用Ollama就可以但是Ollama只有TUI不能渲染Markdown我也不太想在我的Mac上整WebUI之类的东西……那有什么好的选择吗我去制作这个模型的公司官网看了一下他们制作这个模型本就是为了在端侧运行所以也专门制作了一个软件运行他们的模型叫做[Apollo](https://www.liquid.ai/apollo)在手机和Mac上都可以用。我在我的Mac上安装试了一下效果很好首先速度非常快8bit量化正常情况下可以达到60多Tps即使是省电模式也能达到20多Tps。另外加上思维链它的思考能力也还不错虽然一些脑筋急转弯的题不算擅长但是正常对话回答问题之类的表现都很不错相比于之前7B的模型表现好太多了。当然考虑到都已经过去3年了能有这样的进步也很正常不过12亿参数就能有这样的智能还是相当可以啊。
这个模型之所以有这样的能力似乎是因为他们并不完全是Transformer架构而是使用的一种叫做LFM2的混合架构按照大家对他们公司Liquid AI以及这个架构名字的理解可能会觉得这个模型基于液态神经网络不过我让AI看了一下他们的代码似乎并不是他们用的是一种类似于Mamba的架构这种架构似乎就很擅长在小参数的模型下比Transformer模型表现的更好所以说这种变化也是算法进步带来的。
顺便一说这个Apollo除了运行他们自己的模型之外也能连接其他兼容OpenAI接口的模型正好可以用来连接我的GPT-OSS这样我就可以不需要下载一些浏览器套壳的重型应用来用我的模型了😝。
# 感想
自从ChatGPT之后AI的发展真是越来越强了而且能看出来目前甚至并不需要多新多好的硬件就能让一般人获得还不错的智能当然训练也许还是要大量的硬件这么看来AI软件的发展还是相当有潜力。目前来看既然优化软件就能做得越来越好那也许在有限的硬件环境下可以期待无限的智能吧。