机器文摘 第 116 期
展开说说关于编程的未来
这几天思考了关于未来编程方式变革。
当前这种使用“专属高级程序语言”编程的方式将像之前“纸带打孔编程”那样逐渐消失,取而代之的是使用自然语言进行“编程”。
码农这个职业可能不复存在,但是编程的工作仍然需求旺盛,只是形式变了、工具变了、工作场景也变了,对“程序员”的要求也变了。
技术的核心目标无非是提升生产力和生产效率,改善人类的生活水平,信息科技也无非是通过数字化、信息化手段来实现这个目标。
之前是那种高级语言编程实现,现在跳过了“编码”过程,直接以一种前所未有的交互方式来创造“软件”。
既然创造方式改变了,那么必定会带来其他的改变,我能想到以下几点:
- 软件的量必然膨胀,构建软件的成本变得十分低廉,生产软件的速度也呈指数级增长,一切能用软件的地方都得用上软件。
- 软件的架构可能改变,之前编程还需要照顾人类的阅读,现在无所谓了,变量命名、代码复用、模块化、扩展性,实现方式变了,比起精心设计的可复用模块,可能每次都实时生成代码更经济。
- 编程的职业可能泛化,软件创造被拉下高科技的神坛,人人都能编程,人人都能创造软件。
那会诞生哪些公司机会呢?
- 提供新型的工具,帮助人人创造软件(各种 ai 创业公司都在做,以提供新型编程工具、环境为主要产品)。
- 利用新型的工具,满足之前没有被服务到位的需求(之前可能因为软件建设太昂贵),就像拼多多那样(目前字节的扣子平台有点儿这个意思)。
- 培训,教人学习和使用这些工具,当然了,是面向未来的“新型程序员”。
2025.1版AI Agent工具全景图: 从入门到进阶的12个关键工具
来自微博@爱可可-爱生活
- 入门首选: PydanticAI
- 特点:类型安全 + FastAPI风格
- 优势:模型通用性强,上手门槛低
- 团队协作利器: CrewAI
- 主打多智能体协同
- 适合复杂项目开发
- 可视化开发神器: n8n
- 提供数百种集成选项
- 所见即所得的工作流构建
4-6. 企业级开发三剑客:
- AutoGen(微软): 开源框架,专注多智能体
- Smolagents(HF): 简码开发,环境兼容性强
- Phidata: 智能体记忆管理,文档完善
7-9. 进阶开发工具链:
- AgentOps: DevOps全流程支持
- Vercel AI SDK: 与AI-SDK完美集成
- Rig(Rust): 新手友好的智能体开发工具
10-12. 特色应用工具:
- Eliza: 跨渠道智能交互
- LangGraph: 基于LangChain的高级应用
- Memó: 个性化交互增强工具
核心价值:这套工具链涵盖了从入门到专业的全周期开发需求,既有低代码平台助力快速起步,也有专业框架支撑进阶开发。新手可以逐步尝试,专业开发者也能找到趁手工具。
建议:
- 建议先从可视化工具入手
- 逐步过渡到代码开发
- 根据项目需求选择合适工具
- 关注工具间的协同效应
无论你是初学者还是专家,这12个工具都值得收藏。
流体模拟吊坠
流体模拟吊坠,这篇文章详细介绍了作者制作的一款流体模拟吊坠(Fluid Simulation Pendant)的全过程。
吊坠是一件手工制作的珠宝,运行实时的FLIP流体模拟。外壳镀金,显示屏由手表玻璃保护。
流体模拟基于Matthias Müller的工作,特别是他的“Ten Minute Physics”网站上的“如何编写FLIP水模拟器”教程。
作者在项目中并没有直接移植,而是根据教程重新实现的。
组成吊坠的硬件包括STM32L432KC(ARM Cortex-M4带FPU,超频至100MHz)、ADXL362超低功耗加速度计、MCP73832锂电充电控制器、TPS7A02稳压器(极低功耗)和TPS3839监控器。所有这些组件都集成在一个四层0.8mm的PCB上。
只有56个字节的贪吃蛇游戏
snake,不是 56Kb,而是只有 56 字节。
高性能语音转文本工具
RealtimeSTT,一个强大高效、低延迟的语音转文本工具。
简单易用,支持开始和停止说话的状态监测,支持指定唤醒词触发工作,实时进行将语音转换为文本。
可以在 Windows、macOS 以及 Linux 系统上安装使用,同时支持 CUDA 进行 GPU 加速。
白嫖微软 Edge 在线文本转语音服务
openai-edge-tts,利用微软 Edge 的在线语音服务,提供免费的文本转语音功能,且可以像使用 OpenAI 的语音一样使用该 API。
同时,支持多种音频格式,如 mp3、aac、flac、wav 等,可自由调节播放速度,以及有多种语音和语言选择。
可通过 Docker 一键部署方式,快速体验。
轻量级文本转语音模型
Kokoro TTS,一个只有 82M 参数的文本合成语音模型。
有着极高的生成速度和非常自然的发音效果。
支持中文,但特长是美式发音和英式发音的英语,适合生成英文配音。
Kokoro TTS 基于 Apache 2.0 许可开源。
轻量级大模型
来自微博@karminski-牙医
搜索引擎&爬虫工程师的工具链感觉现在全面面临洗牌了。以前靠SVM来分类,靠 TF-IDF 来抽关键词,trie-tree 来过滤敏感词,基于文本密度算法来抽正文,靠余弦相似度等相似度算法来消重。 现在,大模型能全面取代这些传统NLP做法了。
我现在抽正文就在用 reader-lm-1.5b,这个模型能把 html 转 markdown,然后再消息队列塞给下游模型用定义好的Agent来分类,提取关键词和摘要。最后入库之前RAG检索做消重。尤其是文本内容的对抗进化没那么快,现在打不过LLM(比如写点抽象的东西来规避过滤,LLM能轻松认出来,但是基于敏感词的 trie-tree 效果就很差)。所以LLM除了耗资源几乎无缺点了。
reader-lm-1.5b 地址:huggingface.co/jinaai/reader-lm-1.5b 这个模型小到不用量化,纯CPU都能跑得飞起。
一个在纯pdf文件里运行的俄罗斯方块
生成pdf的代码: github.com/ThomasRinsma/pdftris
演示地址:th0mas.nl/downloads/pdftris.pdf
实际上运行需要依赖现代桌面浏览器中的 PDF 引擎(PDFium 和 PDF.js),也就是在浏览器中打开这个pdf文件,如果用普通的pdf程序如sumatrapdf打开这个pdf文件是没法运行的。
当然这也意味着pdf的安全风险。
屏蔽搜索结果的垃圾内容
现在互联网搜索引擎搜索出的内容,由 AI 制造的垃圾内容越来越多,BadWebsiteBlocklist,这里提供了一份黑名单,借助 uBlackList浏览器插件,可以有效屏蔽搜索结果中这些垃圾内容。
ffmpeg 命令在线参考
https://ffmpegbyexample.com/ 这个网站可以查看 ffmpeg 的全部命令参数以及使用方式,网站列举了几十种常见转换任务的命令行示例。
检测视频中人眼视线的模型
Moondream 是一个 非常强大而且小巧的视觉模型。
0.5B INT4 版本甚至只有 400M
支持结构化 OCR 输出、图片描述、物体检测和位置标注
最近更是更新了 视线检测,给一段视频就可以看到视频中每个人的视线
这个很适合用来恶搞和意图检测
Comfyui 插件也已经上线,显存占用为 6G
STT/TTS框架
sherpa-onnx,这个框架可以语音转文字,文字转语音,说话人识别,说话人验证,语言识别,音频标签,关键词检测,添加标点符号等等功能。 支持架构也非常广泛,从 x86 到 arm 到 risc-v。主流编程语言也全部支持。
订阅
这里会不定期分享我看到的有趣的内容(不一定是最新的,但是有意思),因为大部分都与机器有关,所以先叫它“机器文摘”吧。
Github仓库地址:https://github.com/sbabybird/MachineDigest
喜欢的朋友可以订阅关注:
- 通过微信公众号“从容地狂奔”订阅。
- 通过竹白进行邮件、微信小程序订阅。