Tailwind CSS

10.4 使用API端点直接开放结构化数据

在传统SEO中，搜索引擎通过爬虫抓取HTML页面来提取结构化数据。然而，对于生成式引擎（如Perplexity、Bing Chat、豆包、DeepSeek）而言，它们更倾向于直接获取准确、机器可读的权威数据。直接通过API端点开放结构化数据，是一种绕过页面渲染、提升数据被引用效率的高级策略。

10.4.1 为什么需要API端点？

绕过渲染瓶颈：SPA（单页应用）或需要复杂JavaScript渲染的页面，爬虫可能无法完整抓取。API直接返回JSON数据，100%可解析。
提升数据准确性：直接从数据库或业务逻辑层返回结构化数据，避免了前端展示可能引入的格式错误或信息丢失。
降低爬虫负载：对于生成式引擎的频繁抓取，API端点可以设计为轻量级、高频次响应，相比返回整个HTML页面，能显著节省服务器带宽和计算资源。
控制数据粒度：可以精确控制返回哪些字段、哪些实体，甚至可以针对不同生成引擎返回不同版本的数据（例如，为豆包返回更多中文上下文，为Perplexity返回更多引用来源）。

10.4.2 设计原则

RESTful 或 GraphQL：优先使用标准的RESTful API，使用JSON-LD格式返回数据。GraphQL也适合，但需要确保返回的结构能被生成引擎理解。
明确的端点命名：使用如 /api/schema/products、/api/schema/faq、/api/schema/howto 等清晰路径。
支持内容协商：通过 Accept 头区分请求。例如，当 Accept: application/json+ld 时，返回结构化数据；当 Accept: text/html 时，返回正常页面。
速率限制与认证：虽然需要开放给爬虫，但应设置合理的速率限制（Rate Limiting）以防止滥用。可以使用简单的API Key或基于User-Agent的访问控制。
缓存策略：在API响应头中设置 Cache-Control 和 ETag，允许生成引擎缓存数据，减少重复请求。

10.4.3 实现示例（Node.js + Express）

以下是一个为产品页面提供结构化数据API的示例：

// server.js (Node.js + Express)
const express = require('express');
const app = express();

// 模拟产品数据库
const products = {
  'product-123': {
    name: '高性能无线鼠标',
    description: '专为游戏和办公设计的低延迟无线鼠标。',
    sku: 'WM-2024',
    brand: 'TechGear',
    price: 299.00,
    currency: 'CNY',
    availability: 'https://schema.org/InStock',
    url: 'https://example.com/products/product-123'
  }
};

// 结构化数据API端点
app.get('/api/schema/products/:id', (req, res) => {
  const product = products[req.params.id];
  if (!product) {
    return res.status(404).json({ error: 'Product not found' });
  }

  // 构建JSON-LD结构化数据
  const schema = {
    '@context': 'https://schema.org',
    '@type': 'Product',
    'name': product.name,
    'description': product.description,
    'sku': product.sku,
    'brand': {
      '@type': 'Brand',
      'name': product.brand
    },
    'offers': {
      '@type': 'Offer',
      'price': product.price,
      'priceCurrency': product.currency,
      'availability': product.availability,
      'url': product.url
    }
  };

  // 设置正确的Content-Type
  res.setHeader('Content-Type', 'application/ld+json');
  res.json(schema);
});

// 在robots.txt中允许爬虫访问API端点
// 示例：Allow: /api/schema/

app.listen(3000, () => console.log('Server running on port 3000'));

10.4.4 与爬虫的交互策略

在robots.txt中声明：

User-agent: *
Allow: /api/schema/
Disallow: /api/private/

在sitemap中引用：在XML Sitemap中，除了列出HTML页面，还可以添加指向API端点的URL，并注明其格式。

<url>
    <loc>https://example.com/api/schema/products/product-123</loc>
    <xhtml:link rel="alternate" type="application/ld+json" href="https://example.com/api/schema/products/product-123"/>
</url>

使用Link Header：在HTML页面的HTTP响应头中，添加指向对应API端点的链接。

Link: <https://example.com/api/schema/products/product-123>; rel="alternate"; type="application/ld+json"

10.4.5 针对生成式引擎的增强

多语言支持：API可以根据 Accept-Language 头返回不同语言版本的结构化数据。
答案摘要：为生成式引擎提供一个 speakable 或 abstract 字段，直接提供可用于生成答案的摘要文本。
引用来源：在API响应中包含 citation 或 mentions 字段，指向权威来源（如研究论文、官方文档），增强可信度。

10.4.6 注意事项与避坑

不要替代HTML：API端点应作为补充，而非替代。传统搜索引擎仍然依赖HTML页面。
数据一致性：确保API返回的数据与HTML页面上展示的数据完全一致，避免混淆。
安全性：避免在API中暴露敏感数据（如用户个人信息、内部ID）。
监控：监控API的调用量、响应时间和错误率，确保服务稳定。