from zhipuai import ZhipuAI

# 使用您的API密钥初始化
client = ZhipuAI(api_key="YOUR_API_KEY")

# 调用GLM-4模型
response = client.chat.completions.create(
    model="glm-4",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is the capital of France?"}
    ],
    temperature=0.7
)

print(response.choices[0].message.content)

步骤4：监控您的免费积分

免费层通常包括：

每月1,000,000个令牌
访问GLM-4和GLM-4V模型
无需承诺

访问您的仪表板以跟踪使用情况和积分。

方法2：使用vLLM进行本地部署（完全免费）

为了零成本和完全控制，使用vLLM在本地部署GLM模型。

前提条件

最低：16GB RAM，Python 3.10+
推荐：32GB+ RAM，NVIDIA GPU，8GB+ VRAM
对于GLM-4：64GB+ RAM或专用GPU

步骤1：安装vLLM

pip install vllm

步骤2：下载并运行GLM模型

python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --served-model-name glm-4-9b-chat \
    --port 8000

这将下载模型（约18GB）并启动本地API服务器。

步骤3：使用本地模型

from openai import OpenAI

# 连接到您的本地服务器
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"  # vLLM默认使用空密钥
)

response = client.chat.completions.create(
    model="glm-4-9b-chat",
    messages=[
        {"role": "user", "content": "Explain quantum computing in simple terms"}
    ]
)

print(response.choices[0].message.content)

步骤4：多个模型选项

您可以运行各种GLM变体：

# GLM-4-9B-Chat（优化的聊天机器人）
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --served-model-name glm-4-9b-chat \
    --port 8000

# GLM-4-9B-Code（专注于代码生成）
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-code \
    --served-model-name glm-4-9b-code \
    --port 8000

# GLM-4-9B-Air（轻量级版本）
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-air \
    --served-model-name glm-4-9b-air \
    --port 8000

方法3：使用AutoGLM进行手机自动化（免费）

如果您想使用GLM来自动控制您的手机，请查看AutoGLM，这是一个使用GLM模型的开源移动AI代理。

请查看完整指南。

AutoGLM允许您：

使用自然语言控制您的Android手机
自动化重复任务
测试移动应用程序
构建AI驱动的移动工作流程

方法4：使用Ollama进行本地GLM（简单设置）

Ollama提供了一种更简单的方法来以最小设置在本地运行GLM。

步骤1：安装Ollama

macOS:

curl -fsSL https://ollama.com/install.sh | sh

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:
从 https://ollama.com 下载

步骤2：拉取并运行GLM模型

# 下载GLM-4模型
ollama pull glm4

# 启动模型服务器
ollama serve

步骤3：通过API使用

import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "glm4",
        "messages": [
            {"role": "user", "content": "What is machine learning?"}
        ]
    }
)

print(response.json()['message']['content'])

免费使用GLM的最佳实践

1. 选择正确的模型

用于开发/测试：使用较小的模型（7B-9B参数）
用于生产：考虑9B+模型，具有更多上下文
用于代码：使用专门的代码变体
用于中文：选择中文优化模型

2. 优化令牌使用

# 有效使用系统提示
response = client.chat.completions.create(
    model="glm-4",
    messages=[
        {
            "role": "system",
            "content": "You are a concise technical writer. Be direct and avoid fluff."
        },
        {"role": "user", "content": "Explain this complex concept..."}
    ]
)

3. 实施缓存

缓存常见的响应和提示以减少API调用。

4. 使用流式传输以改善用户体验

stream = client.chat.completions.create(
    model="glm-4",
    messages=[...],
    stream=True
)

for chunk in stream:
    print(chunk.choices[0].delta.content, end="")

5. 批量处理相似请求

在可能的情况下，将多个查询合并为一次API调用。

真实世界的用例

1. 个人助手

构建自己的AI助手，回答问题、设置提醒和管理日程。

2. 内容生成

创建博客文章、社交媒体内容、营销文案等。

3. 代码助手

获得编码、调试和重构的帮助。

4. 翻译工具

构建多语言翻译服务。

5. 客户支持机器人

为您的业务创建自动化客户支持代理。

6. 学习工具

学习语言、准备考试或学习新概念。

比较：免费GLM与付费API

特性	免费GLM	付费API（OpenAI，Anthropic）
成本	$0（本地）	每1K令牌$0.002-$0.12
隐私	完全控制	数据发送给提供者
速度	本地硬件	基于CDN
自定义	完全控制	有限的微调
速率限制	您的硬件	提供者限制
正常运行时间	您的基础设施	提供者SLA

硬件推荐

仅CPU设置（16GB RAM）

使用：GLM-4-9B-Air或更小模型
性能：1-2令牌/秒
最佳用途：测试和开发

中档设置（32GB RAM，无GPU）

使用：GLM-4-9B（量化）
性能：3-5令牌/秒
最佳用途：个人使用，小项目

GPU设置（NVIDIA 8GB+ VRAM）

使用：GLM-4-9B-Chat（全精度）
性能：20-50令牌/秒
最佳用途：生产使用

高性能设置（GPU 24GB+ VRAM）

使用：GLM-4-9B或GLM-4-20B（如果可用）
性能：50+令牌/秒
最佳用途：重负载生产工作

常见问题的故障排除

问题：内存不足

解决方案：使用量化模型（int8或int4）或更小的模型尺寸。

# 使用量化
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --quantization awq \
    --port 8000

问题：性能缓慢

解决方案：启用缓存并使用GPU加速。

# 启用GPU加速
python3 -m vllm.entrypoints.openai.api_server \
    --model THUDM/glm-4-9b-chat \
    --gpu-memory-utilization 0.9 \
    --port 8000

问题：连接被拒绝

解决方案：确保服务器正在运行且端口未被阻塞。

# 检查服务器是否正在运行
curl http://localhost:8000/v1/models

# 检查端口使用情况
netstat -an | grep 8000

常见问题解答

GLM完全免费吗？

是的，如果您使用vLLM或Ollama进行本地部署。官方API也提供慷慨的免费层。

我应该使用哪个GLM模型？

对于初学者，从GLM-4-9B-Air开始。对于生产，尝试GLM-4-9B-Chat。

我可以在笔记本电脑上运行GLM吗？

是的，较小的GLM变体可以在具有16GB+ RAM的笔记本电脑上运行。仅CPU的性能较慢，但功能正常。

GLM支持其他语言吗？

是的，GLM模型是多语言的，在中文和英文方面表现出色。

我可以微调GLM吗？

是的，您可以在自己的数据上微调GLM模型，但这需要大量的计算资源。

我该如何部署GLM供他人使用？

运行本地服务器并设置防火墙规则，然后配置您的应用程序以连接到它。

结论

您现在有多种免费使用GLM的方法：

使用官方API获取免费积分
使用vLLM进行本地部署以获得完全控制
使用AutoGLM进行手机自动化
使用Ollama进行简单设置

每种方法都有其优点：

API：设置最简单，适合快速测试
vLLM：最佳性能，完全自定义
AutoGLM：独特的移动自动化能力
Ollama：最简单的安装过程

选择适合您需求的方法，开始使用GLM构建惊人的应用程序吧！

本地运行GLM的推荐托管

如果您计划24/7运行GLM模型（例如，作为您应用程序的API服务），您需要可靠的托管。虽然您可以在本地运行GLM，但在VPS上部署它提供了几个好处：

24/7可用性，无需保持本地计算机运行
随时远程访问
更好的性能，拥有专用资源
可扩展性，以处理多个用户

为什么选择LightNode VPS？

LightNode是运行GLM模型的绝佳选择，因为：

1. 按小时计费

您只需为使用的资源付费，非常适合：

测试不同模型大小
开发和实验
短期项目
避免长期承诺

2. 全球位置

选择靠近用户的数据中心，以获得：

更低的延迟
更好的性能
符合地区数据法律的合规性

3. 轻量级资源

GLM模型可以高效运行在：

2GB-4GB RAM实例上
基于CPU的实例上
价格实惠

4. 简单设置

快速部署，具有：

一键市场镜像
预配置环境
开发者友好的工具

开始使用LightNode

注册：访问 LightNode
选择实例：根据您的需求选择配置
启动：在60秒内一键部署
连接：通过SSH或Web控制台访问
安装GLM：按照vLLM设置指南进行操作
开始服务：您的GLM API已准备就绪！

真实世界的性能

用户报告在LightNode上获得出色性能，适用于：

24/7运行的个人AI助手
开发团队的本地LLM服务
Web应用程序的API端点
测试和实验环境

实惠的按小时计费和可靠的基础设施的结合使LightNode非常适合学习和生产使用案例。

立即在 LightNode 开始您的免费试用，体验可靠托管下的免费GLM模型的强大功能！

资源：