Tailwind CSS

3.1 把搜索引擎当“特殊客户端”

在传统的前后端开发中，我们习惯于处理两种客户端：浏览器（用户）和 API 调用者（其他服务）。然而，在 SEO 和 GEO 的世界里，我们需要引入第三个、也是更特殊的客户端——搜索引擎（无论是传统的爬虫，还是生成式 AI 的抓取器）。

这个“特殊客户端”有以下显著特征，理解它们是全栈工程师思维模型的第一步：

无 GUI 的 Headless 客户端：
- 它不渲染 JavaScript（或仅部分渲染），不关心 CSS 动画，不点击按钮。
- 它只读取原始的 HTML 结构、HTTP 响应头、以及 <head> 中的元数据。
- 工程师行动：确保服务器端渲染（SSR）或静态生成（SSG）能输出完整的、有意义的 HTML。不要依赖客户端 JavaScript 来加载关键内容。
带宽与时间极度敏感：
- 搜索引擎的爬虫预算（Crawl Budget）是有限的。它不会无限期等待你的页面加载完毕。
- 如果 TTFB（首字节时间）超过 2 秒，或者页面资源过多，它可能直接放弃爬取。
- 工程师行动：优化服务器响应速度，使用 CDN，压缩资源，并合理设置 Cache-Control 头。对于生成式引擎，它可能只抓取页面前 2000 个 token，因此关键信息必须放在页面顶部。
只读特定“接口”：
- 搜索引擎不会像用户一样浏览整个网站。它通过 robots.txt、sitemap.xml 和内部链接来发现页面。
- 它只读取你允许它读取的内容。noindex、nofollow 标签就是它的“权限控制”。
- 工程师行动：像设计 API 一样设计你的站点结构。sitemap.xml 就是你的 API 文档，robots.txt 就是你的访问控制列表（ACL）。确保所有重要页面都在 sitemap 中，并且可以被内部链接到达。
需求明确：结构化数据：
- 普通用户需要视觉美观的页面；搜索引擎需要语义清晰的 JSON-LD 或 Microdata。
- 生成式引擎尤其需要 Speakable、QAPage、FAQPage 等 Schema 来直接提取答案。
- 工程师行动：将结构化数据视为一个必需的 API 响应字段。在 SSR 阶段动态注入 JSON-LD，而不是依赖客户端脚本。
版本与行为差异：
- Googlebot 有 Googlebot Smartphone 和 Googlebot Desktop 之分。
- GPTBot 有 GPTBot 和 GPTBot-User 之分。
- 百度爬虫对 JavaScript 的渲染能力远弱于 Googlebot。
- 工程师行动：在服务器端（如 Nginx 或 CDN Edge）根据 User-Agent 进行动态适配。例如，对 GPTBot 返回更精简、更结构化的纯文本版本；对 Googlebot 返回完整的 SSR 页面。

总结：将搜索引擎视为“特殊客户端”的核心，是将你的网站从一个“展示页面”重构为一个“数据接口”。 你的 HTML 不再是给用户看的 UI，而是同时给用户和机器看的、包含语义标记的数据载体。这种思维转变，是所有后续 SEO 和 GEO 技术优化的起点。