from zhipuai import ZhipuAI

# 使用您的 API 密鑰初始化
client = ZhipuAI(api_key="YOUR_API_KEY")

# 調用 GLM-4 模型
response = client.chat.completions.create(
    model="glm-4",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is the capital of France?"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

步驟 4：監控您的免費積分

免費層通常包括：

每月 1,000,000 個標記
訪問 GLM-4 和 GLM-4V 模型
無需承諾

訪問您的儀表板以跟踪使用情況和積分。

方法 2：使用 vLLM 進行本地部署（完全免費）

為了實現 零成本 和 完全控制，使用 vLLM 在本地部署 GLM 模型。

前提條件

最低要求：16GB RAM，Python 3.10+
推薦：32GB+ RAM，NVIDIA GPU 具有 8GB+ VRAM
對於 GLM-4：64GB+ RAM 或專用 GPU

步驟 1：安裝 vLLM

pip install vllm

步驟 2：下載並運行 GLM 模型

python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --served-model-name glm-4-9b-chat \
    --port 8000

這將下載模型（約 18GB）並啟動本地 API 伺服器。

步驟 3：使用本地模型

from openai import OpenAI

# 連接到您的本地伺服器
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"  # vLLM 默認使用空密鑰
)

response = client.chat.completions.create(
    model="glm-4-9b-chat",
    messages=[
        {"role": "user", "content": "Explain quantum computing in simple terms"}
    ]
)

print(response.choices[0].message.content)

步驟 4：多種模型選擇

您可以運行各種 GLM 變體：

# GLM-4-9B-Chat（優化的聊天機器人）
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --served-model-name glm-4-9b-chat \
    --port 8000

# GLM-4-9B-Code（專注於代碼生成）
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-code \
    --served-model-name glm-4-9b-code \
    --port 8000

# GLM-4-9B-Air（輕量級版本）
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-air \
    --served-model-name glm-4-9b-air \
    --port 8000

方法 3：使用 AutoGLM 進行手機自動化（免費）

如果您想使用 GLM 來 自動控制您的手機，請查看 AutoGLM，這是一個使用 GLM 模型的開源移動 AI 代理。

請參見完整指南。

AutoGLM 允許您：

使用自然語言控制您的 Android 手機
自動化重複任務
測試移動應用程序
構建 AI 驅動的移動工作流程

方法 4：使用 Ollama 進行本地 GLM（簡易設置）

Ollama 提供了一種更簡單的方法來本地運行 GLM，設置最少。

步驟 1：安裝 Ollama

macOS:

curl -fsSL https://ollama.com/install.sh | sh

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:
從 https://ollama.com 下載

步驟 2：拉取並運行 GLM 模型

# 下載 GLM-4 模型
ollama pull glm4

# 啟動模型伺服器
ollama serve

步驟 3：通過 API 使用

import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "glm4",
        "messages": [
            {"role": "user", "content": "What is machine learning?"}
        ]
    }
)

print(response.json()['message']['content'])

免費使用 GLM 的最佳實踐

1. 選擇合適的模型

開發/測試：使用較小的模型（7B-9B 參數）
生產：考慮使用 9B+ 模型以獲得更多上下文
代碼：使用專用的代碼變體
中文：選擇針對中文優化的模型

2. 優化標記使用

# 有效使用系統提示
response = client.chat.completions.create(
    model="glm-4",
    messages=[
        {
            "role": "system",
            "content": "You are a concise technical writer. Be direct and avoid fluff."
        },
        {"role": "user", "content": "Explain this complex concept..."}
    ]
)

3. 實施緩存

緩存常見的響應和提示以減少 API 調用。

4. 使用流式傳輸以改善用戶體驗

stream = client.chat.completions.create(
    model="glm-4",
    messages=[...],
    stream=True
)

for chunk in stream:
    print(chunk.choices[0].delta.content, end="")

5. 批量處理相似請求

在可能的情況下，將多個查詢合併為單個 API 調用。

實際用例

1. 個人助理

構建自己的 AI 助理，回答問題、設置提醒和管理日程。

2. 內容生成

創建博客文章、社交媒體內容、營銷文案等。

3. 代碼助手

獲得編碼、調試和重構的幫助。

4. 翻譯工具

構建多語言翻譯服務。

5. 客戶支持機器人

為您的業務創建自動化客戶支持代理。

6. 學習工具

學習語言、準備考試或學習新概念。

比較：免費 GLM 與付費 API

特徵	免費 GLM	付費 API（OpenAI、Anthropic）
成本	$0（本地）	每 1K 標記 $0.002-$0.12
隱私	完全控制	數據發送給提供者
速度	本地硬體	基於 CDN
自定義	完全控制	限制微調
速率限制	您的硬體	提供者限制
正常運行時間	您的基礎設施	提供者 SLA

硬體建議

僅 CPU 設置（16GB RAM）

使用：GLM-4-9B-Air 或較小模型
性能：1-2 標記/秒
最佳用途：測試和開發

中檔設置（32GB RAM，無 GPU）

使用：GLM-4-9B（量化）
性能：3-5 標記/秒
最佳用途：個人使用，小型項目

GPU 設置（NVIDIA 8GB+ VRAM）

使用：GLM-4-9B-Chat（全精度）
性能：20-50 標記/秒
最佳用途：生產使用

高性能設置（GPU 具有 24GB+ VRAM）

使用：GLM-4-9B 或 GLM-4-20B（如果可用）
性能：50+ 標記/秒
最佳用途：重型生產工作負載

故障排除常見問題

問題：內存不足

解決方案：使用量化模型（int8 或 int4）或較小的模型大小。

# 使用量化
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --quantization awq \
    --port 8000

問題：性能緩慢

解決方案：啟用緩存並使用 GPU 加速。

# 啟用 GPU 加速
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --gpu-memory-utilization 0.9 \
    --port 8000

問題：連接被拒絕

解決方案：確保伺服器正在運行且端口未被阻塞。

# 檢查伺服器是否正在運行
curl http://localhost:8000/v1/models

# 檢查端口使用情況
netstat -an | grep 8000

常見問題解答

GLM 完全免費嗎？

是的，如果您使用 vLLM 或 Ollama 本地部署。官方 API 也提供慷慨的免費層。

我應該使用哪個 GLM 模型？

對於初學者，從 GLM-4-9B-Air 開始。對於生產，試試 GLM-4-9B-Chat。

我可以在筆記本電腦上運行 GLM 嗎？

可以，較小的 GLM 變體可以在具有 16GB+ RAM 的筆記本電腦上運行。僅 CPU 的性能較慢，但功能正常。

GLM 支持其他語言嗎？

是的，GLM 模型是多語言的，並且在中文和英文方面表現出色。

我可以微調 GLM 嗎？

可以，您可以在自己的數據上微調 GLM 模型，但這需要大量計算資源。

我該如何部署 GLM 供他人使用？

運行本地伺服器並設置防火牆規則，然後配置您的應用程序以連接到它。

結論

您現在有 多種免費使用 GLM 的方法：

使用官方 API 獲取免費積分
使用 vLLM 本地部署以獲得完全控制
使用 AutoGLM 進行手機自動化
使用 Ollama 簡易設置

每種方法都有其優勢：

API：最簡單的設置，最適合快速測試
vLLM：最佳性能，完全自定義
AutoGLM：獨特的手機自動化能力
Ollama：最簡單的安裝過程

選擇適合您需求的方法，開始使用 GLM 構建驚人的應用程序吧！

本地運行 GLM 的推薦託管

如果您計劃 24/7 運行 GLM 模型（例如，作為應用程序的 API 服務），您需要可靠的託管。雖然您可以在本地運行 GLM，但在 VPS 上部署提供了幾個好處：

24/7 可用性，無需保持本地機器運行
隨時隨地的遠程訪問
更好的性能，擁有專用資源
可擴展性，以處理多個用戶

為什麼選擇 LightNode VPS？

LightNode 是運行 GLM 模型的絕佳選擇，因為：

1. 按小時計費

您只需為使用的資源付費，這非常適合：

測試不同的模型大小
開發和實驗
短期項目
避免長期承諾

2. 全球位置

選擇靠近用戶的數據中心，以獲得：

更低的延遲
更好的性能
符合地區數據法律的要求

3. 輕量級資源

GLM 模型可以高效運行於：

2GB-4GB RAM 實例
基於 CPU 的實例
價格實惠

4. 簡易設置

快速部署，提供：

一鍵市場映像
預配置環境
開發者友好的工具

開始使用 LightNode

註冊：訪問 LightNode
選擇實例：根據您的需求選擇配置
啟動：在 60 秒內一鍵部署
連接：通過 SSH 或網頁控制台訪問
安裝 GLM：按照 vLLM 設置指南進行
開始服務：您的 GLM API 已準備就緒！

實際性能

用戶報告在 LightNode 上的性能優異，適用於：

24/7 運行的個人 AI 助理
開發團隊的本地 LLM 服務
網絡應用程序的 API 端點
測試和實驗環境

實惠的按小時計費 和 可靠的基礎設施 的組合使 LightNode 成為學習和生產用例的理想選擇。

立即在 LightNode 開始您的免費試用，體驗免費 GLM 模型的強大功能與可靠的託管服務！

資源：