在Linux查詢NVIDIA顯示卡狀態 / Check NVIDIA Graphics Card Status in Linux
要在Linux檢查安裝的NVIDIA顯示卡有沒有正常運作,意外地比想像中的還要簡單。
nvidia-smi
以下這個指令可以顯示NVIDIA顯示卡的運作狀態:
nvidia-smi
https://developer.nvidia.com/nvidia-system-management-interface
nvidia-smi的全名是NVIDIA System Management Interface。nvidia-smi可以呈現顯示卡現在的溫度、功率、記憶體使用量、GPU使用率、以及執行的程式。在Linux和Windows都可以使用。
不過只有輸入nvidia-smi的話,只會顯示當下的狀態而已。如果要持續監控顯示卡狀態的話,可以改用以下指令:
nvidia-smi -l 2
此時終端機會持續呈現該顯示卡的狀態。其中「2」是定期更新的描述,這個設定會在2秒更新一次。
nvitop
如果要讓NVIDIA顯示卡運作狀態呈現更多細節的話,不妨使用nvitop。
https://pypi.org/project/nvitop/0.2.5.1/
nvitop是一個Python工具。它也是基於nvidia-smi顯示的內容,調整成類似Linux的top工具的樣子,還能繪製圖表。整體而言比nvidia-smi好看很多。
你有用過系統狀態監控的工具嗎?
有用過的人,下面舉個手吧!
像是 DGX Spark 這類型的 unified memory 我是用 nvtop 不知道是否跟 nvitop 一樣的工具
回覆刪除To Allen,
刪除https://blogger.googleusercontent.com/img/a/AVvXsEiyAvGVjvfUC4VvhB3dQASX_11JAXhozC42fvPOUMdBKw6KFoeI4xoqCcFidQGL0CBB-MASK8buw6RHioZbQdElB3M0PIN0BM2ylo3hNCT2Zuqqk7bjzATyyCfTKRH9cG8Ry5yXS9dk-CSa5n4bqi9JCu0b6F7RAixN3LeaSquA57Qq0x2C1KE
https://pypi.org/project/nvitop/
nvitop是由中國北京大學XuehaiPan所發佈的Python套件
https://www.cyberciti.biz/media/new/cms/2023/03/nvtop-command-on-Ubuntu-Linux.png
https://man.archlinux.org/man/extra/nvtop/nvtop.1.en?utm_source=chatgpt.com
nvtop則是由Maxime Schmitt發佈的Linux套件
兩者可檢視的內容有著極大的差異
nvtop的特色是互動式調整查詢,可以根據您的需求調整要檢視的資訊
我自己沒有用過nvtop,不過看起來是很不錯的工具
斟酌需求使用即可!
----
題外話,我最近在考慮要不要買DGX Spark
自己架LLM來跑感覺真的很不錯!