新站或重构网站的技术 SEO 基线
先讲结论
技术 SEO 不是 100 项清单,是一个最小骨架:Google 抓得到、读得懂、不重复抓、多语言之间正确分流,上线后两周能在 Search Console 看到正确的索引曲线。我们分成 P0 必做、P1 值得做、P2 暂时别动三档。新站或刚重构完的站,P0 全绿就够支撑后面 6 个月的内容工作。P1 等核心服务页有点击数据再补。P2 是审计工具会标红但其实在浪费工时的东西——给空白分页加 canonical 自指、给单个服务页塞 BreadcrumbList。
我们接到最多的一类咨询,是外贸客户刚把官网从老的 .cn 拖拽建站迁到 WordPress 多语言架构,找了 SEO 顾问跑了一份 200 项的扫描报告,红黄绿三色全标"严重",团队看完就瘫了。这篇就是我们开会时实际用的那张排序表。
谁在读你的站
技术 SEO 的服务对象是三类爬虫加一个真人。Googlebot 抓 HTML,拿走链接关系、hreflang、结构化数据建索引。Bingbot 顺带抓,主要影响 Bing 和 ChatGPT 搜索结果。GPTBot、ClaudeBot、PerplexityBot 这一波 AI 爬虫拿去做摘要和引用,行为像忙不过来的实习生:3 秒内能不能拿到主要内容?第一段是不是已经回答了问题?真人则是从 Google 结果或 AI 摘要点进来之后,3 秒内决定走还是留。
把读者画清楚的好处:写 robots、sitemap、schema 时不会做"为 SEO 而 SEO"的事,每一项都能回答"这是给谁看的"。
可抓取
这一档全是 P0。一项错就可能让整站从索引里消失,比任何关键词调整都重要。
- robots.txt:根目录,明文。
User-agent: *后面只写真正不希望被抓的路径(后台、登录、内部搜索)。最常见的事故是工程师在 staging 写了Disallow: /,部署到正式环境忘了改回来——上线两周后流量归零,进 Search Console 看到一片"由 robots.txt 屏蔽"才反应过来。 - sitemap.xml:只放 200 状态、可索引、希望被搜索的 URL。不要把分页归档、tag 页、PDF 全塞进来。多语言站每种语言一份独立 sitemap,再用 sitemap index 引用。提交到 Search Console 和 Bing Webmaster Tools。
- 状态码:上线前用 Screaming Frog 或 Sitebulb 爬一遍。可索引的全是 200,重定向是 301 不是 302,404 必须真返回 404 不是状态 200 的假 404 页。重构站特别要看老 URL 都做了到新 URL 的 301,参考网站重构时如何保住原有 SEO 流量。
- 内部链接:每个希望被索引的页面至少要有一条来自首页或其他索引页的内部链接。孤儿页不会被抓。WordPress 默认主题处理得不错,定制站很容易漏。
合格标准:爬虫工具跑完,0 个 404、0 个 5xx、0 个非自指 canonical、0 个孤儿页。这一项做不到,下面都白做。Google 的 SEO Starter Guide 也把可抓取作为一切的前提。
页面基础
这一档大部分是 P0,少数是 P1。
- title:每页单独写,50-60 字符。模板可以是"主关键词 - 区分词 | 品牌",但不要全站用同一模板批量生成。重点是"这一页对人是什么",不是塞关键词。
- meta description:120-160 字符,写给点击的人。Google 会重写 60-70% 的 description,但你写清楚的那部分仍然有用——AI 搜索引擎更倾向直接采用你的版本。
- H1:一页一个 H1,和 title 一致或接近。H2 用短标签做导航,H3 段落内分层。这套博客的短标题就是这个风格。
- canonical:每个页面 self-referencing 指向干净 URL(去掉 UTM、跟踪参数)。多语言版本之间不要互相 canonical,那是 hreflang 的活。这是最常见的多语言事故之一。
- alt 文字:所有非装饰性图片写出 alt。不写"图片",写要表达的事实——产品型号、工厂场景、客户 Logo。
P1 是 OG/Twitter Card——只在你确实在用 LinkedIn 或 X 推内容时才值得花时间调,否则默认值就够。
速度
Core Web Vitals 三个指标 LCP(最大内容绘制)、INP(交互响应)、CLS(布局偏移)直接进 Google 的排名信号,移动端权重更高。这一档也是工具和真实用户最少打架的——指标坏了就是真的坏了。
P0 三件事:
- LCP < 2.5 秒:首屏主图或主标题在 2.5 秒内画完。最常见的拖累是未压缩的 banner 图,或者主字体走 Google Fonts 卡在 DNS 上。压成 WebP/AVIF、字体自托管或加
font-display: swap,大部分站当天就能进 2.5 秒。 - INP < 200 毫秒:用户点了多久能看到反馈。INP 烂的站通常首屏堆了三四个第三方脚本(在线客服、热力图、视频弹窗),每个都在阻塞主线程。
- CLS < 0.1:图片和广告位写死宽高,不要让页面加载过程中突然下蹿。
不是 P0 的:把 PageSpeed 从 88 调到 95。那 7 分要花一周工时拆 CSS、压脚本,但对真实用户几乎没提升。工时留给内容。
WordPress 站具体怎么压缓存、选 CDN,看WordPress 出海官网架构的性能部分。
结构化数据
结构化数据是 P0 里争议最大的一档。做得对会被 AI 摘要直接引用,做错了反而会让 Google 怀疑你的整站质量。
下面是我们给客户的边界,哪些必须上、哪些不要上:
- Organization:放在网站根,全站只一个。包含公司全名、Logo、官网、社媒账号、联系方式。
- WebSite:放在网站根,包含 SearchAction(如果你有站内搜索)。
- Article:只放在博客文章上,不放在服务页。
- Service:只放在服务页上,不要把博客文章包装成 Service。
- FAQPage:只放在真有 FAQ 模块的页面,且内容必须可见——不能藏在折叠里只在 schema 里写。Google 2023 年收紧了 FAQ rich result 规则,乱用不被惩罚但失去显示资格。
不要放:BreadcrumbList 给一级深度的页面、ItemList 给单个服务页、Review 给虚构客户评价。这些是审计工具会建议但 Google 要么忽略、要么惩罚的项。
每一条 schema 上线前用 Schema.org Validator 和 Google 的 Rich Results Test 过一遍。不同服务页类型怎么选,详见服务型网站结构化数据怎么做。
多语言
多语言站的技术 SEO 基本上就是 hreflang 一件事,但这一件事 80% 的中国出海站都做错了。
P0 检查清单:
- URL 路径分清楚:
/en/、/de/、/es/子目录;不要混用?lang=en查询参数。 - 每页带完整 hreflang 集合:包括自指、所有兄弟语言、
x-default。少一个语言、漏自指、双向不对称都会让 Search Console 报错。 - hreflang 和 canonical 不打架:英文页的 canonical 指英文页自己,不要指中文页。中国团队最常见的错——觉得"中文是主版本",结果 Google 把英文页踢出索引。
- 语言切换链接:切到对应语言的同一页 URL,不是切回首页。
本地化(关键词、CTA、案例都要在中英文里分别想)展开很复杂,看多语言网站结构与 hreflang。
上线后两周
上线那一刻技术 SEO 才刚开始。我们让客户把这两周的动作写进 PRD:
- Day 1:URL Inspection 抓 5 个核心页面(首页、主要服务页、最重要的案例、最近的博客、联系我们),看 Google 能否正确渲染、有没有 hreflang、有没有 canonical 冲突。
- Day 3:提交 sitemap,看"已发现"和"已索引"的差距。新站第一周已发现 80%、已索引 30%-50% 是正常的。
- Day 7:跑移动可用性报告,看"内容比视口宽""可点击元素过近"。这两个错最常出现在从老主题迁过来的站。
- Day 14:导出覆盖范围报告,看"已抓取但未索引""已发现但未抓取"的 URL。新站有几个是正常的,两周后还在涨说明内容质量信号不够,不是技术问题。
怎么把 Search Console 和 GA4 数据连起来看趋势,参考如何用 Search Console 和 Analytics 观察 SEO。
哪些工具会骗你
我们见过不少团队因为 SEO 工具的"严重错误"标红就大半夜改代码,结果改出真正的事故。最常见的几个误判:
- "Meta description 缺失":分页页、tag 归档、内部搜索结果页本来就不该被索引,缺 description 不是问题。先看这页是不是真的要进搜索。
- "H1 多个":HTML5 允许多个 H1(每个 section 一个),Google 也接受。除非你站里同一可见区域出现两个 H1,否则可以忽略。
- "页面深度过大":深度超过 3 不一定是问题。重要的是从首页到任意核心页有清晰的内部链接路径,不是绝对深度。
- "图片缺 alt":装饰性背景图可以用
alt="",不用强写描述。工具不会区分这个。
判断方法:每条建议都问"这一项 Google 自己怎么说"。Google Search Central 的官方文档里没说的事,大部分不值得花工时。
取舍判断
如果只能选一件先做,按这个顺序:
- 301 和 sitemap:重构站没做对的话,老流量会在 4-6 周内全面下滑,而且很难补救。
- LCP 和移动端:直接进排名,且大部分中国主机+老主题的站这一项都不达标。
- 结构化数据:做对了 AI 搜索引擎会优先引用你,做错了不会被惩罚但失去机会。
剩下的(OG 卡片、breadcrumb schema、PageSpeed 调到 95+)都是 P1 或 P2,先把内容跑起来再回头补。
上线检查清单
| 类别 | 必检项 | 合格标准 |
|---|---|---|
| 抓取 | robots.txt、sitemap.xml | 无 Disallow 全站、sitemap 只含 200 可索引 URL |
| 状态码 | 全站爬虫扫描 | 0 个 404、0 个 5xx、所有 301 都正确 |
| 页面基础 | title、description、H1、canonical | 每页独立、长度合规、canonical 自指 |
| 速度 | LCP、INP、CLS | LCP <2.5s、INP <200ms、CLS <0.1 |
| 结构化数据 | Organization、Service、Article | Schema Validator 和 Rich Results Test 通过 |
| 多语言 | hreflang、canonical、语言切换器 | 双向对称、含 x-default、切换器指向同一页 |
| 索引验证 | Search Console URL Inspection | 5 个核心页面均"可索引"且渲染正确 |
| 数据 | GA4、Search Console、Bing | 上报正常,UTM 不会污染 canonical |
如果当中任何一项不确定,建议先把那一项单独拎出来做一次诊断,不要等上线后再发现。
常见问题
技术 SEO 和内容 SEO 哪个更重要?
技术 SEO 是地基,做不到 P0 的话内容再好也进不了索引。但地基达标之后,内容质量、E-E-A-T 信号、内部链接结构就决定了你能排到第几位。我们的经验是:技术先冲到 P0 全绿,然后所有工时都投到内容上,每季度复查一次技术。
我应该用哪个 SEO 工具?
抓取诊断用 Screaming Frog(免费版能跑 500 URL,对小站够用)或 Sitebulb。Schema 验证用 Schema.org Validator 和 Google 的 Rich Results Test。监控用 Google Search Console(必装、免费)+ Bing Webmaster Tools。Ahrefs、Semrush 这种综合工具是 P1,前三个月不一定要买。
Core Web Vitals 没达标会被惩罚吗?
不会被"惩罚",但 Google 在 2021 年起把 Core Web Vitals 作为"页面体验"信号纳入排名,权重不大但确实存在。更现实的影响是:LCP 5 秒以上的站,移动端跳出率比 LCP 2 秒以下的站高一倍,这本身就杀转化和停留时间,间接影响 SEO。
Schema 写错了会被惩罚吗?
错误的 schema(语法错、字段不匹配实际内容)会让 rich result 不显示,但不会被算法惩罚。真正会被惩罚的是"欺骗性 schema"——比如给一个没有评价模块的服务页加 Review schema 写假评价。这种是手动惩罚,恢复要几个月。
预约诊断
如果你正在做新站或刚完成重构,欢迎带着域名、Search Console 权限和上线时间表,跟我们做一次免费的出海官网搭建支持技术 SEO 初步审计。我们会用上面这份清单逐项过,告诉你哪些是 P0 必须当周修、哪些可以排到下个迭代。术语不熟悉的地方,对照出海建站术语表就够了。