Featured image of post 机器文摘 第 119 期

机器文摘 第 119 期

机器文摘 第 119 期

机器文摘 第 119 期

用纯 JAX 实现 LLaMA3 模型

JAX 是一个由 Google 开发的 Python 库,它结合了 NumPy 的易用性 和 自动微分、即时编译 (JIT) 以及 在加速器(GPU/TPU)上运行的能力。

阅读这篇《用纯 JAX 实现 LLaMA3 模型》,可以深入了解 JAX 在构建高效深度学习模型中的优势,以及如何从零开始实现一个现代语言模型。文章强调了 JAX 的纯函数特性、JIT 编译等优势,并提供了完整的代码实现,适合有一定 Python 和 Transformer 基础的读者学习。

一个稳定有良好泛化能力的R1风格视觉语言模型

VLM-R1,把DeepSeek的R1方法用到了视觉上模型上,增强了模型稳定性和泛化能力。

基于Qwen2.5-VL 构建,能同时处理图像和文本输入,特别强化了对图像中特定目标的定位能力。

擅长指代表达类理解,比如"这个红色的杯子在哪里"这样的问题,并在图像中定位目标。

可以在端侧运行的视觉模型

Smolvlm2,这个视觉模型非常小,提供了 256M, 500M, 2.2B 三个版本。

500M 版本就能装在 iPhone 上流畅运行。

模型能识别物体,并且可以给出一定的问题回答(打开冰箱识别牛奶在哪里),还能对视频做总结。

深入挖掘llama3的从零实现(中英文版)

一篇关于从零实现LLaMA3模型的详细教程,也是基于 naklecha/llama3-from-scratch 的增强版本。在原项目的基础上进行了全面的改进和优化,旨在帮助大家更轻松地理解和掌握llama3模型的实现原理以及详细的推理流程。

教程里涉及的代码均有中文注释。

开源 AI Agent 引擎

ReflyAI,可视化构建你自己的 AI 工作流,比 dify 轻量一些。

电子书《计算机视觉:算法与应用》

Computer Vision: Algorithms and Applications,这本书是计算机视觉领域的经典教材,涵盖了从基础到高级的多种算法和技术。全书内容丰富,涉及图像形成、处理、特征检测、模型拟合、深度学习、识别等多个方面。

除了书籍下载,页面上还提供了一些拿本书当教材的大学课程主页,可以下载课件。

可本地部署的 PDF 文件处理工具合集

Stirling-PDF,一款强大的本地网页版 PDF 文件处理工具,可 Docker 部署。

提供了丰富的 PDF 文件操作功能,包括拆分、合并、格式转换、内容排列、添加图片、旋转、压缩等。

其安全私密性非常高,所有文件和 PDF 操作都是在客户端进行,或者仅在服务器内存中临时处理,任务完成后即刻删除。

一旦用户下载了文件,该文件就会从服务器上删除。

给 AI Agent 用的浏览器自动化工具

Steel,这个工具可以让大模型直接操作浏览器,从而实现完全的浏览器AI自动化。

快速搭建你自己的 AI 集群

exo,一个可帮你在家快速搭建 AI 集群的开源项目,支持将现有设备统一到一个功能强大的GPU中,支持 iPhone,iPad,Android,Mac,Nvidia,树莓派等等几乎所有设备。

在项目部署成功后,一旦有新设备联网,即可接入使用,充当 AI 算力集群的一部分。

开源倒计时工具

Catime,一款简洁的 Windows 倒计时工具,支持番茄时钟功能,具有透明界面和丰富的自定义选项。

功能特性:

  • 倒计时、正计时、时钟显示
  • 超时动作:通知、锁屏、关机等
  • 界面:透明、点击穿透、自由调整、自定义颜色 ​​​

订阅

这里会不定期分享我看到的有趣的内容(不一定是最新的,但是有意思),因为大部分都与机器有关,所以先叫它“机器文摘”吧。

Github仓库地址:https://github.com/sbabybird/MachineDigest

喜欢的朋友可以订阅关注:

  • 通过微信公众号“从容地狂奔”订阅。

使用 Hugo 构建
主题 StackJimmy 设计