为什么在 2026 年还需要一个 HTML → Markdown 转换器?
很多内容仍然以 HTML 的形态存在:公众号文章、博客网页、富文本编辑器复制出来的内容、爬虫抓取的页面源码、客户邮件里的正文。当你想把这些内容变成自己的 Markdown 笔记,或者迁移到一个新的 Markdown 写作平台(Hexo、Hugo、VuePress、Notion…),纯手工整理标签、清理样式、重新排表格是非常折磨的事。
HTML → Markdown 转换器把这件事降到了"粘贴 → 一键得到 .md"。MeTool 的实现基于成熟的 Turndown 库 + GFM 插件,并针对中文创作者最常见的"从微信公众号粘贴 HTML"场景做了额外的预处理(清理 figure 包装、合并 br 分隔的代码、剥离样式 section…)。
2026 年的关键差异:所有解析在浏览器里完成,源 HTML 和生成的 Markdown 都不会离开你的设备 — 这对要处理客户合同邮件、内部公告、未发布的博客文章的人非常重要。
它能干净处理哪些 HTML?
标准网页 HTML
标题(h1~h6)、段落、有序 / 无序列表、链接、强调、图片、引用块 — 所有标准 HTML 元素都能转成对应的 Markdown 语法,结果可读、可编辑、可二次使用。
表格(GFM 表格语法)
HTML 中的 <table> 会转换为标准 GFM 表格(用 | 分隔),第一行自动作为表头,对齐方式尽量保留。
代码块(带语言识别)
转换器会从 class="language-js"、class="hljs-typescript"、data-lang 等属性中识别代码块的语言,输出为带语言标记的围栏代码块(```js ... ```),方便后续在 Markdown 里继续高亮。
微信公众号 HTML(专项优化)
MeTool 的转换器内置了对微信公众号 HTML 的特殊规则:
- 识别公众号的
<figure>图片包装,提取真实的data-src链接; - 把公众号那种用
<br>分隔的代码片段合并为正确的多行代码块; - 识别用
style="border-left..."模拟的引用 section,转为 Markdown 引用块; - 剥离公众号生成的大量
data-*、style、class等冗余属性,让 Markdown 输出干净。
隐私模型:粘贴的 HTML 永远不会离开浏览器
市面上大部分"在线 HTML 转 Markdown"工具会把你粘贴的 HTML 发到自己的服务器上做处理,这意味着你的客户邮件正文、未公开的博客文章、内部知识库截取的内容都会经过别人的服务器 — 即使工具承诺"不存储",也无法验证。
MeTool 选择了完全不同的实现:Turndown 的 JavaScript 包通过浏览器加载,HTML 解析、规则匹配、Markdown 生成全部在你的浏览器内存里完成。没有任何 fetch / XHR 请求把你的 HTML 内容发出去 — 你可以在浏览器开发者工具的 Network 面板亲自验证。这让它成为处理敏感内容的安全选择。
使用建议:复杂 HTML 的最佳粘贴姿势
- 从网页粘贴:右键 → "查看页面源代码",找到你想要的内容那段 HTML,复制后粘贴到本页面输入框。如果只想要一篇文章正文,建议先在源代码里截出
<article>或<div class="content">这一段,避免把页眉、侧边栏、广告也带进来。 - 从微信公众号粘贴:在浏览器中打开公众号文章,右键 → "查看源代码",复制整个 HTML 粘贴进来。MeTool 会自动找到
#js_content容器,剥离样式后转成 Markdown。 - 从富文本编辑器粘贴:很多富文本编辑器(Notion、飞书、语雀)支持复制为 HTML。把粘贴板里的 HTML 直接粘到本工具,会得到比"复制为 Markdown"更可靠的结果(特别是表格和代码块)。
- 转换后再润色:HTML → Markdown 是一个"清洗"过程,转换后建议把 .md 下载到本地,用 Markdown 编辑器做最后一遍人工校对,再发布。
