-
Notifications
You must be signed in to change notification settings - Fork 6
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
上下文长度默认留空 #6
Comments
ollama 默认是4096(目前argo默认也是4096),如果超出该长度需要用户自己去手动命令行执行Ollama创建模型的命令,这对于用户来说成本就高了,对小白用户也有门槛了。 |
是显存只能放一个模型。如果不同的人用不同长度的上下文,可能导致模型频繁加载卸载,keep alive是10h没问题的。群已加,谢谢 |
使用了一个qwen2.5 32b的模型,显卡放不了多个,打算局域网内大家统一用一个模型 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
希望将上下文长度改为默认不设置或禁用,让ollama自行决定上下文长度。
当多个客户端访问ollama的同一个模型时,若上下文长度不一致,会导致模型从显存卸载重新加载的情况,大大增加了响应时间。若手动将上下文长度设置为相同,则不会卸载再加载。目前使用chatbox进行聊天,这个客户端没有设置上下文长度的选项。
为了多人在局域网内使用同一个ollama时,不会因上下文长度问题拉长时延(减少设置上下文长度这一步,毕竟人多了情况就不好控制了),能否禁用上下文长度选项或默认为不设置(使用ollama默认长度?,此时应该是在传参时不设置num_ctx参数)。
统一的上下文长度效率较高,增大上下文长度可通过ollama create指令创建更长上下文长度的模型。
如有错误之处请指正。
The text was updated successfully, but these errors were encountered: