自 1999 年问世以来,Web 内容无障碍指南(WCAG)一直以二元判断方式定义无障碍:要么满足标准,要么不满足。这种方式很清晰,但也很刻板。
现在,WCAG 3.0 来了,它改变了一切。不再是"通过/失败"的非此即彼,而是一套灵活的评分系统,更好地反映真实用户体验的复杂性。
本文将详细解读 WCAG 3.0 的新评分模型、它如何改变无障碍评估,以及这对你的团队意味着什么。
问题在哪里:WCAG 2.x 的局限性
二元合规模型的缺陷
WCAG 2.x 采用了一个直观的框架:
- 四个原则:可感知性(Perceivable)、可操作性(Operable)、可理解性(Understandable)、健壮性(Robust)(合称 POUR)
- 三个等级:A、AA、AAA
- 可测试的成功标准:每个都有明确的通过/失败条件
这种方式的优点很明显:
- ✅ 易于审计和验证
- ✅ 提供了法律和监管清晰度
- ✅ 可以自动化测试
但问题也很严重。 以电商网站的结账流程为例:
假设结账表单有 20 个字段。其中 19 个都有正确的标签,支持键盘导航,错误提示清晰。但其中 1 个字段没有标签。
在 WCAG 2.x 下,整个结账流程可能失败 AA 等级合规。
这显然是不合理的。99% 的用户体验都很好,只因为一个字段的标签问题,整个流程就被判为"不符合"。
技术符合 ≠ 实际可用性
更深层的问题是:技术上符合标准,不代表用户真的能用。
例如:
- 一个输入框有标签(通过了标准)✅
- 但标签描述不清楚,用户不知道该输入什么 ❌
或者:
- 一个表单支持键盘导航(通过了标准)✅
- 但焦点指示器不清晰,键盘用户不知道自己在哪里 ❌
WCAG 2.x 关注的是"特性是否存在",而不是"用户能否有效使用"。这是一个根本的哲学差异。
WCAG 3.0:从"我们符合吗?"到"用户能做什么?"
范式转变
WCAG 3.0 代表了一个深刻的观念转变。它不再问:
❌ "这个成功标准通过了吗?"
而是问:
✅ "用户能成功完成任务吗?" ✅ "体验的质量如何?" ✅ "随着时间推移,我们的改进进度是多少?"
新的结构:从成功标准到"结果"和"方法"
WCAG 3.0 引入了一个新的信息架构:
1. 指南(Guidelines)
- 高层级的无障碍目标
- 与具体的用户需求相关联
2. 结果(Outcomes)
- 可测试的、以用户为中心的声明
- 例如:"用户有时间媒体的替代方案"
- 例如:"用户可以用键盘导航所有功能"
3. 方法(Methods)
- 实现每个"结果"的具体技术
- 包括代码示例和测试说明
- 与技术无关或特定于某项技术
4. 指导文档(How-To Guides)
- 提供实际建议的叙述性文档
- 用户背景和设计考虑
关键转变:从技术到能力
最重要的是,这些"结果"反映的是能力语言:
不是"该元素是否满足 WCAG 标准",而是"用户能否完成他们想做的事"。
这意味着对无障碍的理解从技术实现转向用户成果。
从二元检查到阶梯评分
WCAG 3.0 最激进的改变是:从"通过/失败"到分数评分。
评分如何工作
每个"结果"通过一个或多个**原子测试(Atomic Tests)**来评估:
1. 二元测试
- 是/否的答案
- 例如:"每个图像都有替代文本吗?"
2. 百分比测试
- 基于覆盖率的评分
- 例如:"表单字段中有多少百分比有标签?"
3. 定性测试
- 基于标准的判断评分
- 例如:"替代文本的描述性如何?"
评分尺度
这些测试产生的分数通常在 0-4 或 0-5 的尺度上,标签包括:
- 差(Poor):0 分 - 严重问题,用户无法完成任务
- 一般(Fair):1-2 分 - 存在显著障碍
- 好(Good):3 分 - 功能可用,但有改进空间
- 优秀(Excellent):4-5 分 - 无显著障碍
追踪进度,而不仅仅是合规
这种评分方式的一个关键优点是:你可以衡量进步。
在 WCAG 2.x 中,你要么符合要么不符合。没有"中间"状态。
但在 WCAG 3.0 中,产品从"一般"改进到"好",再到"优秀"——这清楚地展示了真实的演进。
例如,一个移动应用的键盘导航支持从"一般"(焦点指示器不清晰)改进到"好"(焦点清晰但颜色对比度可再提升),这种进度对产品团队和利益相关者都是可见的。
临界错误:平衡严重性
但 WCAG 3.0 不是简单地给所有问题评分。它引入了一个重要的概念:临界错误(Critical Errors)。
什么是临界错误?
临界错误是那些严重阻挡用户完成关键任务的可访问性失败。
例如,在结账流程中:
- ✅ 表单标签不完美 → 可能将等级从"优秀"降低到"好"
- ✅ 清晰度不够 → 影响分数但不是临界
- ❌ 用户无法提交表单 → 临界错误
- ❌ 用户无法完成购买 → 临界错误
- ❌ 用户无法登录 → 临界错误
影响与权重
临界错误会显著降低整体评分,即使产品的其他方面都很好。
相反,非必需功能的问题权重较低。例如:
- 个人头像上传功能有问题 → 低权重(可选功能)
- 主题颜色选择无法访问 → 低权重(装饰性功能)
但是:
- 主搜索功能不可用 → 高权重(核心功能)
- 支付流程的键盘导航有问题 → 高权重(关键任务)
新的合规等级:青铜、白银、黄金
WCAG 3.0 还改变了合规等级的命名和性质。
从 A/AA/AAA 到青铜/白银/黄金
青铜(Bronze)
- 新的最低标准
- 大致相当于 WCAG 2.2 的 AA 等级
- 基于评分和基础性"结果"
- 可通过自动化和引导手动测试实现
用途:这是绝大多数组织应该达到的基础级别。
白银(Silver)
- 更高的标准
- 要求更广泛的覆盖
- 更高的评分要求
- 必须包括来自残障人士的可用性验证
用途:表示真正重视无障碍的组织。
黄金(Gold)
- 最高等级
- 代表典范性无障碍
- 可能需要包容性设计流程
- 广泛的创新和用户参与
用途:行业领导者和无障碍先锋的目标。
关键差异:激励晋级
与 WCAG 2.x 不同,AAA 等级往往被视为不可达或"过度工程",WCAG 3.0 的三个等级旨在激励逐步改进。
组织可以先达到青铜等级,然后朝白银努力,最终追求黄金。每一步都是有意义的、可衡量的进步。
作用域化合规
WCAG 3.0 还允许作用域化合规性声明。这意味着:
- 你可以声称结账流程达到白银等级
- 同时移动应用达到青铜等级
- 特定功能在某一等级,其他功能在另一等级
这鼓励迭代改进,而不是追求网站"全部一致"的合规等级。
实际例子:评分模型如何改变评估
让我们用一个具体的例子来说明差异。
场景:电商结账流程
WCAG 2.x 评估:
检查清单:
- 所有表单字段都有标签 ❌(5 个字段缺少标签)
- 支持键盘导航 ✅
- 颜色对比度足够 ✅
- 错误消息清晰 ✅
结果:失败 AA 等级合规。整个结账流程被标记为"不符合"。
WCAG 3.0 评估:
多个"结果"的评分:
| 结果 | 测试项 | 评分 | 说明 |
|---|---|---|---|
| 表单标签 | 95% 的字段有标签 | 3/5(好) | 大部分字段清晰标记,5 个字段需要改进 |
| 键盘导航 | 完全支持,焦点清晰 | 5/5(优秀) | 无问题 |
| 颜色对比度 | 文本和背景对比度 > 7:1 | 5/5(优秀) | 超过标准要求 |
| 错误处理 | 错误消息清晰、可访问 | 4/5(优秀) | 但一个特定错误消息可更明确 |
| 总体评分 | - | 4.25/5 | "好"等级 → 可达白银等级 |
| 临界错误 | 用户能否完成购买? | 是 | 用户可以完成交易,没有临界错误 |
结论:结账流程获得"好"的等级,明确指出需要改进的区域(表单标签和一个错误消息),同时认可其强大的键盘导航和色彩对比度。
这反映了真实的用户体验,而不是因为几个缺陷就否定整个流程。
立即采取的行动
WCAG 3.0 仍在起草阶段,预计需要数年(有的说法是十年)才能成为正式标准。但这不意味着你现在什么都不用做。
继续但开始转变
第 1 步:继续追求 WCAG 2.2 AA 等级
- 这仍然是最健壮、最公认的标准
- 法律和监管要求仍以此为基础
第 2 步:熟悉 WCAG 3.0 的理念
- 阅读 WCAG 3.0 的草案文档
- 理解"结果"(Outcomes)而不仅仅是"成功标准"
第 3 步:开始用"结果思维"思考
- 从"我们是否通过了这个标准?"转变为"用户能否完成这个任务?"
- 从实现的角度转向用户需求的角度
第 4 步:融入工作流
- 不要在最后才考虑无障碍
- 从设计和开发的早期阶段就考虑
- 建立"向左移动"的文化
第 5 步:涉及残障用户
- 早期和经常性地进行用户测试
- 将真实的用户需求纳入评估过程
团队培训
向你的团队传达:
- WCAG 3.0 的方向
- 从"检查清单"到"结果导向"的转变
- 为什么这很重要
准备大家的思维方式,而不是等到标准最终确定才开始改变。
潜在风险与注意事项
WCAG 3.0 虽然前景光明,但也存在需要警惕的风险。
1. 主观评分的问题
挑战:缺乏标准化
- 同一个结果可能被不同的评估者评为不同的分数
- "替代文本足够清晰吗?"可能导致主观差异
- 不同团队可能对"好"的定义不一致
后果:
- 可重复性下降
- 在多供应商环境中难以比较
- 审计报告缺乏客观性
2. 合规性清晰度下降
挑战:
- WCAG 2.x 的"符合/不符合"很清晰
- WCAG 3.0 的"好/优秀"更模糊
- 法律和合同中难以界定"什么算符合"
后果:
- 法律强制执行更困难
- 采购和审计流程更复杂
- 合同条款难以明确定义
3. 法律与政策不一致
挑战:
许多法律明确引用 WCAG 2.x:
- 美国《第 508 条修正案》
- 欧盟《无障碍法案》
- 英国《公共部门网站和应用无障碍条例》
后果:
- 直到 WCAG 3.0 被正式映射到这些法律,否则存在风险
- 受监管行业(医疗、金融、政府)可能需要维持双重合规
- 增加成本和复杂性
4. 最低可行无障碍的风险
最大的风险:
在截止日期压力下,团队可能会想:
"我们达到了青铜等级。好了,无障碍工作完成了。"
问题:
- 一个应用可能获得"青铜"等级,同时对某些用户有严重的障碍
- 如果一个功能不是"核心",它的无障碍问题可能被忽视
- 评分和临界错误的检查之间可能存在漏洞
如何平衡:最佳实践
1. 建立清晰的团队标准
- 为你的组织定义每个评分级别的含义
- 建立评分标准的内部指南
- 确保评估的一致性
2. 超越评分
- 评分只是一个数字
- 关注真实的用户反馈和行为数据
- 定期进行可用性测试
3. 定期审计
- 从多个评估者的角度进行审计
- 追踪一段时间内的分数变化
- 识别评分中的不一致
4. 关注临界错误
- 绝不容许真正阻止任务完成的错误
- 建立流程定期识别和修复临界问题
- 即使评分良好,也要确保没有遗漏的临界错误
总结:这是一个机遇
WCAG 3.0 代表了无障碍评估的一个成熟阶段。它承认了现实的复杂性,从"一刀切"的合规性转向真实用户成果。
虽然存在风险,但优势更大:
✅ 更好地反映真实用户体验 ✅ 鼓励持续改进而不是一成不变的合规 ✅ 允许针对性地优先处理问题 ✅ 更灵活地处理新兴技术
关键要点
- 无障碍不是打勾。 它是关于启用人。
- 从特性转向功能。 问"用户能做什么?"而不是"我们有什么?"
- 现在就开始改变心态。 不要等到 WCAG 3.0 最终确定
- 警惕陷阱。 主观评分和最低可行无障碍的风险是真实的
- 坚持原则。 让真实的用户指导你的工作
相关资源
💡 最后的话:WCAG 3.0 的真正价值不在于它如何得分,而在于它如何改变我们对无障碍的思考。不再是"我们符合吗?",而是"用户的生活有多好?"——这才是真正重要的问题。