上下文长度默认留空 #6

sunhy0316 · 2025-01-16T13:26:57Z

希望将上下文长度改为默认不设置或禁用，让ollama自行决定上下文长度。

当多个客户端访问ollama的同一个模型时，若上下文长度不一致，会导致模型从显存卸载重新加载的情况，大大增加了响应时间。若手动将上下文长度设置为相同，则不会卸载再加载。目前使用chatbox进行聊天，这个客户端没有设置上下文长度的选项。

为了多人在局域网内使用同一个ollama时，不会因上下文长度问题拉长时延(减少设置上下文长度这一步，毕竟人多了情况就不好控制了)，能否禁用上下文长度选项或默认为不设置(使用ollama默认长度？，此时应该是在传参时不设置num_ctx参数)。

统一的上下文长度效率较高，增大上下文长度可通过ollama create指令创建更长上下文长度的模型。

如有错误之处请指正。

zmldndx · 2025-01-16T13:37:11Z

ollama 默认是4096（目前argo默认也是4096），如果超出该长度需要用户自己去手动命令行执行Ollama创建模型的命令，这对于用户来说成本就高了，对小白用户也有门槛了。
ollama默认应该是可以加载多个模型（貌似是4个，只要显存够大），可以测下把自己的模型keep alive时间放长点，是不是有效果？

zmldndx · 2025-01-16T13:39:22Z

您也可以来我们微信群交流哈 xark-argo.com顶部“沟通交流”点开wechat二维码。

sunhy0316 · 2025-01-16T13:53:36Z

是显存只能放一个模型。如果不同的人用不同长度的上下文，可能导致模型频繁加载卸载，keep alive是10h没问题的。群已加，谢谢

sunhy0316 · 2025-01-16T13:57:48Z

使用了一个qwen2.5 32b的模型，显卡放不了多个，打算局域网内大家统一用一个模型

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

上下文长度默认留空 #6

上下文长度默认留空 #6

sunhy0316 commented Jan 16, 2025

zmldndx commented Jan 16, 2025

zmldndx commented Jan 16, 2025

sunhy0316 commented Jan 16, 2025 •

edited

Loading

sunhy0316 commented Jan 16, 2025

上下文长度默认留空 #6

上下文长度默认留空 #6

Comments

sunhy0316 commented Jan 16, 2025

zmldndx commented Jan 16, 2025

zmldndx commented Jan 16, 2025

sunhy0316 commented Jan 16, 2025 • edited Loading

sunhy0316 commented Jan 16, 2025

sunhy0316 commented Jan 16, 2025 •

edited

Loading