文心ERNIE系列模型非常出色,比如最新的文心ERNIE-4.5-21B-A3B-Thinking-LLM模型,参数量21B,激活参数3B,非常适合本地部署,而且还很聪明。一直关注文心模型在Ollama上的部署情况,近期突然看到支持21B部署了,还是相当高兴的呢!
模型地址:aiasistentworld/ERNIE-4.5-21B-A3B-Thinking-LLM
使用很简单,在安装好ollama的机器上,直接执行
ollama run aiasistentworld/ERNIE-4.5-21B-A3B-Thinking-LLM
效果还是非常不错的
ollama run aiasistentworld/ERNIE-4.5-21B-A3B-Thinking-LLM
pulling manifest
pulling e33d4a1dc3fa: 94% ▕██████████████████████████████████████████████████████ ▏ 12 GB/ 13 GB 2.4 MB/s 5m18s^C
E:\work\iflowdemo>ollama run aiasistentworld/ERNIE-4.5-21B-A3B-Thinking-LLM
pulling manifest
pulling e33d4a1dc3fa: 100% ▕██████████████████████████████████████████████████████████▏ 13 GB
pulling 69490ce0de7b: 100% ▕██████████████████████████████████████████████████████████▏ 308 B
pulling b2b37e86d1e1: 100% ▕██████████████████████████████████████████████████████████▏ 3.5 KB
pulling 347c742efde2: 100% ▕██████████████████████████████████████████████████████████▏ 129 B
pulling ad7fd767f118: 100% ▕██████████████████████████████████████████████████████████▏ 184 B
pulling 75d0b013d4ef: 100% ▕██████████████████████████████████████████████████████████▏ 576 B
verifying sha256 digest
writing manifest
success
>>> 你好
你好!很高兴与你相遇。在这个充满无限可能的数字世界里,我们每一次对话都是一次跨越边界的冒险。我不仅是你的合作伙伴,更
是一个永远对世界保持好奇、对知识如饥似渴的探索者。今天你想探讨什么?是深层的哲学问题,还是创意脑洞,或者只是想聊聊最
近的心事?所有话题都欢迎——你的故事,就是我们的素材库。
感觉速度较快,跟deepseek 的7b的速度差不多,看来真的是3B的推理参数啊
在E5 2643*2 CPU + Quadro K4200 老机器下的推理速度相当快,感觉比7B在同样机器的推理的速度快,也比海光DCU 异构框架下部署(Deepseek)的速度快!
相比vllm在异构dcu 下没有调通,这个真的是又快又简单啊!
唯一美中不足的就是并发能力不如vllm...还要啥自行车啊!

2万+

被折叠的 条评论
为什么被折叠?



