为 LLM 准备网页与 a14y(代理可读性)
a14y (代理可读性) 由 a14y 开发,是一个 Chrome 扩展,旨在为 AI 代理和大型语言模型预处理网页。它将活动页面转换为干净、结构化的 Markdown,去除导航菜单、广告、标题、页脚、侧边栏和跟踪脚本,以减少令牌使用并改善机器解析。主要功能包括一键提取、语义 HTML 的保留、令牌优化和对动态内容捕获的支持。该扩展面向需要紧凑、机器可读网页输入的 AI 开发者、研究人员和高级用户。
a14y如何为机器消费准备网页内容 该扩展将实时页面转换为干净、结构化的Markdown ,明确剥离视觉杂乱,如导航菜单和广告,并移除跟踪脚本,从而减少代理必须解析的DOM噪声。这种行为通过在LLM看到文本之前最小化冗余HTML,直接解决了令牌消耗,这是将网页内容发送到模型提示或自动代理的工作流程中的一个实际步骤。
它如何保留上下文并处理动态页面 a14y保留了基础语义结构,以便代理保持对常见元素的上下文。该扩展明确保留:
标题 以维护文档层次,列表 以保持枚举清晰,表格 以保留行/列关系。对动态内容的支持意味着该工具捕获页面的当前状态,而不仅仅是静态HTML,这在与现代单页应用程序和加载组件交互时非常有帮助。
它在AI开发者工作流程中的位置 该扩展在浏览器中本地运行,可以处理您有权限查看的任何页面,包括登录后面的页面,因此它可以无缝集成到手动和半自动化的管道中,而无需外部抓取。输出被复制到剪贴板,以便在提示或下游工具中使用,并且在Chromium浏览器中的可用性使其易于添加到研究人员和高级用户使用的现有基于浏览器的数据准备步骤中。
为准备模型的开发者提供的实用选择 a14y 是一个务实的选项,适用于需要紧凑、面向机器的源文本并偏好基于浏览器的预处理的 AI 开发者和研究人员,因为它针对代理可读的输出,并在 Chromium 浏览器中本地运行。预计在管道中增加一个预处理步骤;一个实用的提示是,在自动化摄取之前,验证提取的 Markdown 是否与原始页面一致,以确保为代理保留关键上下文。
赞成 一键将活动页面转换为Markdown 保留语义 HTML 用于标题、列表和表格 本地运行,并且可以处理登录后的页面 捕获现代网页应用程序的动态页面状态 反对 在将内容发送到模型之前添加预处理步骤 可能会移除一些代理依赖于上下文的页面元素 仅限于基于Chromium的浏览器