WCAG 3.0 评分模型详解：从二元检查到阶梯评分的转变

自 1999 年问世以来，Web 内容无障碍指南（WCAG）一直以二元判断方式定义无障碍：要么满足标准，要么不满足。这种方式很清晰，但也很刻板。

现在，WCAG 3.0 来了，它改变了一切。不再是"通过/失败"的非此即彼，而是一套灵活的评分系统，更好地反映真实用户体验的复杂性。

本文将详细解读 WCAG 3.0 的新评分模型、它如何改变无障碍评估，以及这对你的团队意味着什么。

问题在哪里：WCAG 2.x 的局限性

二元合规模型的缺陷

WCAG 2.x 采用了一个直观的框架：

四个原则：可感知性（Perceivable）、可操作性（Operable）、可理解性（Understandable）、健壮性（Robust）（合称 POUR）
三个等级：A、AA、AAA
可测试的成功标准：每个都有明确的通过/失败条件

这种方式的优点很明显：

✅ 易于审计和验证
✅ 提供了法律和监管清晰度
✅ 可以自动化测试

但问题也很严重。 以电商网站的结账流程为例：

假设结账表单有 20 个字段。其中 19 个都有正确的标签，支持键盘导航，错误提示清晰。但其中 1 个字段没有标签。

在 WCAG 2.x 下，整个结账流程可能失败 AA 等级合规。

这显然是不合理的。99% 的用户体验都很好，只因为一个字段的标签问题，整个流程就被判为"不符合"。

技术符合 ≠ 实际可用性

更深层的问题是：技术上符合标准，不代表用户真的能用。

例如：

一个输入框有标签（通过了标准）✅
但标签描述不清楚，用户不知道该输入什么 ❌

或者：

一个表单支持键盘导航（通过了标准）✅
但焦点指示器不清晰，键盘用户不知道自己在哪里 ❌

WCAG 2.x 关注的是"特性是否存在"，而不是"用户能否有效使用"。这是一个根本的哲学差异。

WCAG 3.0：从"我们符合吗？"到"用户能做什么？"

范式转变

WCAG 3.0 代表了一个深刻的观念转变。它不再问：

❌ "这个成功标准通过了吗？"

而是问：

✅ "用户能成功完成任务吗？" ✅ "体验的质量如何？" ✅ "随着时间推移，我们的改进进度是多少？"

新的结构：从成功标准到"结果"和"方法"

WCAG 3.0 引入了一个新的信息架构：

1. 指南（Guidelines）

高层级的无障碍目标
与具体的用户需求相关联

2. 结果（Outcomes）

可测试的、以用户为中心的声明
例如："用户有时间媒体的替代方案"
例如："用户可以用键盘导航所有功能"

3. 方法（Methods）

实现每个"结果"的具体技术
包括代码示例和测试说明
与技术无关或特定于某项技术

4. 指导文档（How-To Guides）

提供实际建议的叙述性文档
用户背景和设计考虑

关键转变：从技术到能力

最重要的是，这些"结果"反映的是能力语言：

不是"该元素是否满足 WCAG 标准"，而是"用户能否完成他们想做的事"。

这意味着对无障碍的理解从技术实现转向用户成果。

从二元检查到阶梯评分

WCAG 3.0 最激进的改变是：从"通过/失败"到分数评分。

评分如何工作

每个"结果"通过一个或多个**原子测试（Atomic Tests）**来评估：

1. 二元测试

是/否的答案
例如："每个图像都有替代文本吗？"

2. 百分比测试

基于覆盖率的评分
例如："表单字段中有多少百分比有标签？"

3. 定性测试

基于标准的判断评分
例如："替代文本的描述性如何？"

评分尺度

这些测试产生的分数通常在 0-4 或 0-5 的尺度上，标签包括：

差（Poor）：0 分 - 严重问题，用户无法完成任务
一般（Fair）：1-2 分 - 存在显著障碍
好（Good）：3 分 - 功能可用，但有改进空间
优秀（Excellent）：4-5 分 - 无显著障碍

追踪进度，而不仅仅是合规

这种评分方式的一个关键优点是：你可以衡量进步。

在 WCAG 2.x 中，你要么符合要么不符合。没有"中间"状态。

但在 WCAG 3.0 中，产品从"一般"改进到"好"，再到"优秀"——这清楚地展示了真实的演进。

例如，一个移动应用的键盘导航支持从"一般"（焦点指示器不清晰）改进到"好"（焦点清晰但颜色对比度可再提升），这种进度对产品团队和利益相关者都是可见的。

临界错误：平衡严重性

但 WCAG 3.0 不是简单地给所有问题评分。它引入了一个重要的概念：临界错误（Critical Errors）。

什么是临界错误？

临界错误是那些严重阻挡用户完成关键任务的可访问性失败。

例如，在结账流程中：

✅ 表单标签不完美 → 可能将等级从"优秀"降低到"好"
✅ 清晰度不够 → 影响分数但不是临界
❌ 用户无法提交表单 → 临界错误
❌ 用户无法完成购买 → 临界错误
❌ 用户无法登录 → 临界错误

影响与权重

临界错误会显著降低整体评分，即使产品的其他方面都很好。

相反，非必需功能的问题权重较低。例如：

个人头像上传功能有问题 → 低权重（可选功能）
主题颜色选择无法访问 → 低权重（装饰性功能）

但是：

主搜索功能不可用 → 高权重（核心功能）
支付流程的键盘导航有问题 → 高权重（关键任务）

新的合规等级：青铜、白银、黄金

WCAG 3.0 还改变了合规等级的命名和性质。

从 A/AA/AAA 到青铜/白银/黄金

青铜（Bronze）

新的最低标准
大致相当于 WCAG 2.2 的 AA 等级
基于评分和基础性"结果"
可通过自动化和引导手动测试实现

用途：这是绝大多数组织应该达到的基础级别。

白银（Silver）

更高的标准
要求更广泛的覆盖
更高的评分要求
必须包括来自残障人士的可用性验证

用途：表示真正重视无障碍的组织。

黄金（Gold）

最高等级
代表典范性无障碍
可能需要包容性设计流程
广泛的创新和用户参与

用途：行业领导者和无障碍先锋的目标。

关键差异：激励晋级

与 WCAG 2.x 不同，AAA 等级往往被视为不可达或"过度工程"，WCAG 3.0 的三个等级旨在激励逐步改进。

组织可以先达到青铜等级，然后朝白银努力，最终追求黄金。每一步都是有意义的、可衡量的进步。

作用域化合规

WCAG 3.0 还允许作用域化合规性声明。这意味着：

你可以声称结账流程达到白银等级
同时移动应用达到青铜等级
特定功能在某一等级，其他功能在另一等级

这鼓励迭代改进，而不是追求网站"全部一致"的合规等级。

实际例子：评分模型如何改变评估

让我们用一个具体的例子来说明差异。

场景：电商结账流程

WCAG 2.x 评估：

检查清单：

所有表单字段都有标签 ❌（5 个字段缺少标签）
支持键盘导航 ✅
颜色对比度足够 ✅
错误消息清晰 ✅

结果：失败 AA 等级合规。整个结账流程被标记为"不符合"。

WCAG 3.0 评估：

多个"结果"的评分：

结果	测试项	评分	说明
表单标签	95% 的字段有标签	3/5（好）	大部分字段清晰标记，5 个字段需要改进
键盘导航	完全支持，焦点清晰	5/5（优秀）	无问题
颜色对比度	文本和背景对比度 > 7:1	5/5（优秀）	超过标准要求
错误处理	错误消息清晰、可访问	4/5（优秀）	但一个特定错误消息可更明确
总体评分	-	4.25/5	"好"等级 → 可达白银等级
临界错误	用户能否完成购买？	是	用户可以完成交易，没有临界错误

结论：结账流程获得"好"的等级，明确指出需要改进的区域（表单标签和一个错误消息），同时认可其强大的键盘导航和色彩对比度。

这反映了真实的用户体验，而不是因为几个缺陷就否定整个流程。

立即采取的行动

WCAG 3.0 仍在起草阶段，预计需要数年（有的说法是十年）才能成为正式标准。但这不意味着你现在什么都不用做。

继续但开始转变

第 1 步：继续追求 WCAG 2.2 AA 等级

这仍然是最健壮、最公认的标准
法律和监管要求仍以此为基础

第 2 步：熟悉 WCAG 3.0 的理念

阅读 WCAG 3.0 的草案文档
理解"结果"（Outcomes）而不仅仅是"成功标准"

第 3 步：开始用"结果思维"思考

从"我们是否通过了这个标准？"转变为"用户能否完成这个任务？"
从实现的角度转向用户需求的角度

第 4 步：融入工作流

不要在最后才考虑无障碍
从设计和开发的早期阶段就考虑
建立"向左移动"的文化

第 5 步：涉及残障用户

早期和经常性地进行用户测试
将真实的用户需求纳入评估过程

团队培训

向你的团队传达：

WCAG 3.0 的方向
从"检查清单"到"结果导向"的转变
为什么这很重要

准备大家的思维方式，而不是等到标准最终确定才开始改变。

潜在风险与注意事项

WCAG 3.0 虽然前景光明，但也存在需要警惕的风险。

1. 主观评分的问题

挑战：缺乏标准化

同一个结果可能被不同的评估者评为不同的分数
"替代文本足够清晰吗？"可能导致主观差异
不同团队可能对"好"的定义不一致

后果：

可重复性下降
在多供应商环境中难以比较
审计报告缺乏客观性

2. 合规性清晰度下降

挑战：

WCAG 2.x 的"符合/不符合"很清晰
WCAG 3.0 的"好/优秀"更模糊
法律和合同中难以界定"什么算符合"

后果：

法律强制执行更困难
采购和审计流程更复杂
合同条款难以明确定义

3. 法律与政策不一致

挑战：

许多法律明确引用 WCAG 2.x：

美国《第 508 条修正案》
欧盟《无障碍法案》
英国《公共部门网站和应用无障碍条例》

后果：

直到 WCAG 3.0 被正式映射到这些法律，否则存在风险
受监管行业（医疗、金融、政府）可能需要维持双重合规
增加成本和复杂性

4. 最低可行无障碍的风险

最大的风险：

在截止日期压力下，团队可能会想：

"我们达到了青铜等级。好了，无障碍工作完成了。"

问题：

一个应用可能获得"青铜"等级，同时对某些用户有严重的障碍
如果一个功能不是"核心"，它的无障碍问题可能被忽视
评分和临界错误的检查之间可能存在漏洞

如何平衡：最佳实践

1. 建立清晰的团队标准

为你的组织定义每个评分级别的含义
建立评分标准的内部指南
确保评估的一致性

2. 超越评分

评分只是一个数字
关注真实的用户反馈和行为数据
定期进行可用性测试

3. 定期审计

从多个评估者的角度进行审计
追踪一段时间内的分数变化
识别评分中的不一致

4. 关注临界错误

绝不容许真正阻止任务完成的错误
建立流程定期识别和修复临界问题
即使评分良好，也要确保没有遗漏的临界错误

总结：这是一个机遇

WCAG 3.0 代表了无障碍评估的一个成熟阶段。它承认了现实的复杂性，从"一刀切"的合规性转向真实用户成果。

虽然存在风险，但优势更大：

✅ 更好地反映真实用户体验 ✅ 鼓励持续改进而不是一成不变的合规 ✅ 允许针对性地优先处理问题 ✅ 更灵活地处理新兴技术

关键要点

无障碍不是打勾。 它是关于启用人。
从特性转向功能。 问"用户能做什么？"而不是"我们有什么？"
现在就开始改变心态。 不要等到 WCAG 3.0 最终确定
警惕陷阱。 主观评分和最低可行无障碍的风险是真实的
坚持原则。 让真实的用户指导你的工作