Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

上下文长度默认留空 #6

Open
sunhy0316 opened this issue Jan 16, 2025 · 4 comments
Open

上下文长度默认留空 #6

sunhy0316 opened this issue Jan 16, 2025 · 4 comments

Comments

@sunhy0316
Copy link

希望将上下文长度改为默认不设置或禁用,让ollama自行决定上下文长度。

当多个客户端访问ollama的同一个模型时,若上下文长度不一致,会导致模型从显存卸载重新加载的情况,大大增加了响应时间。若手动将上下文长度设置为相同,则不会卸载再加载。目前使用chatbox进行聊天,这个客户端没有设置上下文长度的选项。

为了多人在局域网内使用同一个ollama时,不会因上下文长度问题拉长时延(减少设置上下文长度这一步,毕竟人多了情况就不好控制了),能否禁用上下文长度选项或默认为不设置(使用ollama默认长度?,此时应该是在传参时不设置num_ctx参数)。

统一的上下文长度效率较高,增大上下文长度可通过ollama create指令创建更长上下文长度的模型。

如有错误之处请指正。

@zmldndx
Copy link
Contributor

zmldndx commented Jan 16, 2025

ollama 默认是4096(目前argo默认也是4096),如果超出该长度需要用户自己去手动命令行执行Ollama创建模型的命令,这对于用户来说成本就高了,对小白用户也有门槛了。
ollama默认应该是可以加载多个模型(貌似是4个,只要显存够大),可以测下把自己的模型keep alive时间放长点,是不是有效果?

@zmldndx
Copy link
Contributor

zmldndx commented Jan 16, 2025

您也可以来我们微信群交流哈 xark-argo.com顶部“沟通交流”点开wechat二维码。

Image

@sunhy0316
Copy link
Author

sunhy0316 commented Jan 16, 2025

是显存只能放一个模型。如果不同的人用不同长度的上下文,可能导致模型频繁加载卸载,keep alive是10h没问题的。群已加,谢谢

@sunhy0316
Copy link
Author

使用了一个qwen2.5 32b的模型,显卡放不了多个,打算局域网内大家统一用一个模型

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants