我很早就在折腾本地大语言模型了,但平时主要还是用网页版或API调用,一方面是本地资源贫瘠,16GB内存供养不了大模型;另一方面,本地能跑的模型效果实在是有限。这两方面说的其实是一回事,那就是相比计算集群,我自己这点可用推理算力实在够呛,属于边缘计算了。但反观我们科研数据分析,到今天用得最多的还是线性回归跟假设检验,可见我的要求可能本来就是矫情。
跟着大语言模型成长这几年,从参数量越来越大,到数据不够了用合成数据,再到MoE构架激活少量参数,明显感觉一个旗舰模型大概在用的时候能激活20B到30B的参数已经非常优秀了,而低一个数量级也差不多够日常用了。但MoE构架的模型大都是稀疏的,我这电脑连本体都放不下,只能跑跑为端侧设计的 gemma3n 这种稠密模型。然而,就算是这种够日常用的,上下文也小的可怜。
然后我就开始想对策了。既然本地内存不够用,我可以租算力,也不贵。然而,我 …