机器文摘第 174 期

从零手写 Transformer

transformer-zh-en（⭐38），一个纯手写 Transformer 论文《Attention Is All You Need》、实现中英机器翻译的教学项目。不依赖 nn.Transformer 库，从零实现多头注意力、位置编码、掩码机制等全部组件。

在 4070 Ti 上训练 11 个 epoch，100 万句对，BLEU 达到 36.87。代码结构清晰：模型 4 层（d_model=384）、统一 BPE 分词器（SentencePiece 32K，中英共享词表）、完整的量化/推理/部署工具链。编译后的 FP16 模型仅 102MB，可直接分发。

从工程实现来看，项目最有意思的设计是双训练脚本方案——一份是优化过的现代版（AMP 混合精度 + Cosine Warmup + AdamW），另一份保留了论文原版训练逻辑作为参考对照。这种"新旧对比"的设计比单纯的教学代码更有价值：读者可以直观看到 2017 年原版训练方法和 2026 年工程优化之间的差异。

局限也明显：仅 53.5M 参数和 128 token 长度限制了翻译质量的天花板，Post-LN 架构在深层网络时不如 Pre-LN 稳定，且数据仅来自单一 WMT 来源。不过作为学习《Attention Is All You Need》的配套实操项目，它比市面上大多数论文复现更完整、更易上手。

免费本地化的剪映替代

Clypra（⭐1,941），一个仅 7 周就快速攀升的开源视频编辑器。用 Tauri + React + TypeScript 打造，核心目标是让 CapCut/剪映 Pro 的付费高级功能全部本地免费化。

技术栈上走了一条轻量路线：Tauri 2 的 Rust 壳让安装包只有 9-15MB（对比 Electron 方案的 80MB+），FFmpeg 作为 sidecar 提供编解码能力，Zustand 管理多轨时间线状态。支持帧级修整、音频波形可视化（Peak + RMS + mirrored 显示）、胶片条预览和文字叠加（20+ 字体）。

站在对比的角度看，它和 LosslessCut（无损切割工具）、Olive（专业 NLE）、Shotcut 等开源视频编辑器定位不同——Clypra 明确瞄准的是"剪映 Pro 代餐"这个生态位，而不是和 DaVinci Resolve 竞争。MIT 许可证也比 GPL 更友好。

当前阶段基础剪辑功能已可用，但特效/转场/滤镜尚在路线图中，音频处理也相对基础（无混音、音量包络线）。461 个 commits 中的 451 个来自同一位开发者 AIEraDev，bus factor 较高。

复制即收藏，AI 帮你整理

OpenWiki（⭐367），基于 Tauri 2 + React + Rust 的开源桌面知识管理工具。核心创新在于"先捕获后整理"的交互模式。

平时你复制内容（文本/图片/URL）时，桌面会自动弹出一个保存窗口，10 秒后自动消失。你只需要决定留不留，剩下的分类、整理、关联全交给 AI 后台处理。AI 会分两阶段编译知识库：先评估内容是否值得入库（只保留概念、方法论、技术原理等有长期价值的内容），再分析新内容与现有知识库的关联——是创建新 Wiki 页面还是更新已有页面。

技术实现上有几个值得注意的设计：Rust 后端的 AI 引擎（ai/wiki_engine.rs）用两阶段 Prompt 控制知识编译质量；SQLite 本地存储保证隐私优先；知识图谱通过 TF-IDF 余弦相似度自动构建页面间关联；支持 Claude、OpenAI、Gemini 和本地模型（Ollama、LM Studio）多种 AI 后端。

值得注意的是它提供了"注意力分析"功能——每周一键生成 7 维度洞察报告（信息饮食、遗忘墓地、盲区、行动建议等），用户点赞或忽略后 AI 逐渐学习偏好。如果你也是那种"收藏了一堆东西但从没整理过"的人，OpenWiki 的交互设计可能正好戳中了痛点。

ComfyUI 开始走下极客神坛

ComfyUI 最近一口气发了三个更新，单独看每个都是功能增强，连在一起看就是一个清晰的战略转身。

首先是 App Mode。以前你用 ComfyUI，打开就是满屏节点和连线，跟看电路图似的。现在一键切换到 App Mode，节点图被隐藏，只暴露核心输入/输出界面——你选好模型、填好参数、点生成，就像用一个普通 App 一样。技术实现基于 Vue 3 + Pinia 状态机，输入输出选择通过 Builder 模式配置后持久化到工作流 JSON。

其次是 ComfyHub，一个建立在 registry.comfy.org 之上的节点/模型/工作流市场，把过去"git clone + 拖拽文件夹"的安装方式降级为一键操作。内置三种数据库模式（本地缓存 / 远程实时 / 频道缓存）适配不同网络环境。

最后是 DeepSeek R1 推理模型集成，通过 Partner Nodes（API 节点）系统让 ComfyUI 可以调用云端推理模型的能力。

从用户角度来看，这三个更新构成了一个完整的分层：零基础用户用 App Mode，中级用户用 ComfyHub 安装插件，高级用户操作底层节点图并用 R1 辅助推理。ComfyUI 不想只做极客玩具了。

让《史记》变成可交互的知识网络

史记知识库（⭐2,100），一个把 57 万字《史记》变成可交互知识网络的深度知识工程。14,065 个实体、3,198 个事件、7,637 条关系全部结构化。

技术上最有意思的是其"四层语义递进模型"：结构语义（校勘、段号、句间关系）→ 图谱语义（实体标注、事件提取）→ 知识语义（本体构建、逻辑推理）→ 应用语义（矛盾检测、模式发现）。整条管线不是传统 NLP 程序，而是一套 SKILL 文档驱动的 AI Agent 管线——每步对应一份结构化自然语言文档（SKILL），AI Agent 读 SKILL → 执行 SKILL → 产出结果。这种"用文档代替代码"的方法论让管线可读性极高，学者可以直接阅读并验证每个处理步骤的合理性，而无需理解编程语言。

目前已发现的高价值矛盾包括：项羽东城斩首数在不同篇章相差 1000 倍、太子丹之死年代差 4 年、长平之战 40 万降卒的数字反常等。

产品端的亮点是"史记地铁图"——130 条历史线路 × 3,197 个事件站点，1,876 个跨章换乘站（同一事件出现在不同篇章），全部用纯前端 SVG 实现。22 类实体语法高亮（人名红色、地名绿色、官职蓝色……）让原文阅读体验大幅提升。

局限在于前端加载 130 章全文数据较慢，约 1.3% 的事件因记载模糊无法推断精确公元年，且标注规范仍在动态演进中。

一句话生成架构图

next-ai-draw-io（⭐31,894），一个把 LLM 和 draw.io 深度集成的项目。你只需要用自然语言描述需求，AI 就能生成完整的 draw.io 可编辑图表（架构图、流程图、思维导图），生成后还能在 draw.io 编辑器中继续手动/拖拽调整。

技术实现的核心机制在 /api/chat 端点中。System Prompt 约 1900 tokens，包含完整的 draw.io XML 结构规范、7 条边路由防重叠规则、4 种工具定义（display_diagram / edit_diagram / append_diagram / get_shape_library）。AI 通过工具调用生成 mxCell XML，实时流式渲染到画布上。还有一个 VLM（视觉语言模型）验证环节，对渲染后的图表截图做质量检测。

有意思的设计是增量编辑：AI 可以通过 edit_diagram 工具做小范围修改（搜索-替换模式），只改目标元素而不重新生成整幅图。同时每次编辑前自动保存快照，可以随时回滚。

项目支持 14+ 模型提供商（OpenAI、Claude、Gemini、DeepSeek、Ollama 等），并提供 MCP 服务器，可以集成到 Claude Desktop、Cursor、VS Code 等 AI 编码工具中。

不过 Web 版的 PDF 导出受限（iframe 中无法正常工作），非视觉模型无法处理图片上传，且 AI 生成的 XML 受输出长度限制（约 8K tokens），复杂图标需要多次 append_diagram。

每一帧都完美

Nikita Prokopov（tonsky.me）写了一篇关于 UI 动画品质的短文 Every Frame Perfect，在 HN 上获得 481 分。核心观点借用了 Wayland 显示协议的核心理念：无论何时截图你的应用，画面都必须合理、完美。

文章列举了几个典型案例：Safari 表单项的占位文本从中间动画但光标从左位置开始——两个组件不同步，破坏了信任感；Apple Photos 的裁剪模式切换中图片瞬间到位但裁剪边框动画过渡，造成"好像有什么变了"的错觉；YouTube 矩形移动动画的表现则让作者感叹"技术超越了程序员的掌控"。

虽然篇幅不长，但 Nikita 点出了一个容易被忽视的问题：很多人只关注起始状态和结束状态好不好看，却不在乎中间过渡过程是否合理。而用户真正感受到的，恰恰是这些中间帧。

21 个 FFmpeg 零日漏洞

depthfirst 安全团队用 AI Agent 在 FFmpeg 中发现了 21 个零日漏洞。他们构建了一个安全专用 Agent，和通用编码 Agent 不同——先做威胁建模（理解架构、识别暴露的解析器入口），再并行分支测试多种假设，跟踪执行路径验证输入是否到达易受攻击的 sink 点。

9 个已分配 CVE，12 个内部跟踪。漏洞类型以 Heap Buffer Overflow 居多（12 个），其次是 Stack Overflow、Integer Overflow 等。最老的漏洞可追溯到 2003 年和 2005 年的代码，分别潜伏了 23 年和 20 年。最危险的是 RTP AV1 Depacketizer 漏洞（DFVULN-127），仅需 183 字节的攻击包即可实现远程代码执行，无需认证。

从安全实践角度看，这次研究的价值不在于发现了多少漏洞，而在于方法论上的突破：AI 安全 Agent 能以 $1k 的成本发现 Google Big Sleep（$？）和 Anthropic Mythos（$10k）遗漏的漏洞。对于 FFmpeg 这种有 150 万行 C 代码、经历了 20 多年不间断 fuzzing 的项目来说，这说明传统的基于覆盖率的 fuzzing 已经无法覆盖所有攻击面。

在调音台上跑 DOS

Chris（chrisdevblog.com）在 Behringer DDX3216 数字调音台里发现了一颗 AMD Elan SC300（386 SoC）处理器，于是产生了一个"不合理但合法"的想法——从零写一个 BIOS，让它运行 DOS。

挑战接踵而至：找不到现成的 BIOS 源码（联系了 PC Engines 和 Phoenix，资料都丢了），只能从 Reset Vector 开始手写；外置 UART 需要逆向硬件电路找出片选逻辑；LCD 不含字库 ROM，用 AI（Gemini）生成了 8×8 点阵 ASCII 字体；CF 卡默认 PCMCIA 模式，需要通过 Card Information Structure 切换到 TrueIDE Mode。

最终结果：MS-DOS 6.22 卡在 INT 0x15 中断调用上（原因未查明），但 FreeDOS v1.4 成功启动进入 Shell。总耗时约 3 周。

作者出生于 90 年代，第一台电脑是 486。32 年后，他在一台调音台的 386 上跑起 DOS——这不是有什么实际用途的项目，但极客的浪漫从来就不需要"用途"来证明。

40 年前的 FPU 加法器

Ken Shirriff（righto.com）又做了一次精彩的芯片逆向——这次是 Intel 8087 浮点协处理器中的 69 位加法器。8087 于 1980 年发布，是 x86 浮点运算的始祖，其设计直接影响了 IEEE 754 浮点标准的制定。

Ken 逆向发现的核心设计是 69 位曼彻斯特进位链加法器（4-bit 分块 + 进位跳跃）。“曼彻斯特进位链"这个技术的命名源自 1959 年曼彻斯特大学 Atlas 计算机，本质是利用 Generate/Propagate/Delete 三信号的并行计算，让进位以电信号速度（而非逻辑门速度）传播。

有意思的工程细节是 NMOS 工艺约束下的设计取舍：预充电技术（进位线预充到 5V 代表无进位，NMOS 管拉低到地代表有进位）、进位跳跃（4 位一组，组内全 Propagate 时跳过整组）、以及 69 位而非 64 位的设计（3 个舍入位 + 1 个加倍位 + 1 个符号位）。

和 Pentium 时代才普及的 Kogge-Stone 加法器相比，8087 的曼彻斯特进位链在复杂度与性能之间取得了精妙的平衡——以最少的晶体管获得了足够快的速度。

花$2000不破产在家跑AI编码

两篇同日登上 HN 首页的文章探讨了同一个问题：在家跑 AI 编码，怎么不破产？

Stephen Bochinski 的文章是概念性的，提出三条路径（自托管硬件 / API 按需付费 / 订阅高端模型），推荐混合方案——用前沿模型做"硬思考"和写 spec，用 API 调用开源模型填代码。他估算 $1,000/月可以产出 20 人团队一个月的成果。

iMil 的实战帖则给出了具体配置：RTX 5080 (16GB) + RTX 3090 (24GB) = 40GB 合显存，搭配 Asus X570-Pro 主板（支持 PCIe 拆分为 2x8），Qwen 3.6 27B Q8_0 GGUF 模型实测 80-91 tok/s。关键优化是 MTP（Multi-Token Prediction）推测解码和 llama.cpp 的 tensor 级别多 GPU 分摊。

几个工程细节值得注意：NCCL 关闭后性能反而更好（两张不同代 GPU 无法启用 P2P 直连）；-ts 2,3 参数按 3090:5080 = 2:3 分配负载；KV 缓存 Q8 量化后统一管理。即使 40GB 合显存也远不够跑 Opus/Sonnet 级别的大型模型。

机器文摘 第 174 期