机器文摘第 119 期

JAX 是一个由 Google 开发的 Python 库，它结合了 NumPy 的易用性和自动微分、即时编译 (JIT) 以及在加速器（GPU/TPU）上运行的能力。

阅读这篇《用纯 JAX 实现 LLaMA3 模型》，可以深入了解 JAX 在构建高效深度学习模型中的优势，以及如何从零开始实现一个现代语言模型。文章强调了 JAX 的纯函数特性、JIT 编译等优势，并提供了完整的代码实现，适合有一定 Python 和 Transformer 基础的读者学习。

VLM-R1，把DeepSeek的R1方法用到了视觉上模型上，增强了模型稳定性和泛化能力。

基于Qwen2.5-VL 构建，能同时处理图像和文本输入，特别强化了对图像中特定目标的定位能力。

擅长指代表达类理解，比如"这个红色的杯子在哪里"这样的问题，并在图像中定位目标。

Smolvlm2，这个视觉模型非常小，提供了 256M, 500M, 2.2B 三个版本。

500M 版本就能装在 iPhone 上流畅运行。

模型能识别物体，并且可以给出一定的问题回答（打开冰箱识别牛奶在哪里），还能对视频做总结。

一篇关于从零实现LLaMA3模型的详细教程，也是基于 naklecha/llama3-from-scratch 的增强版本。在原项目的基础上进行了全面的改进和优化，旨在帮助大家更轻松地理解和掌握llama3模型的实现原理以及详细的推理流程。

教程里涉及的代码均有中文注释。

ReflyAI，可视化构建你自己的 AI 工作流，比 dify 轻量一些。

Computer Vision: Algorithms and Applications，这本书是计算机视觉领域的经典教材，涵盖了从基础到高级的多种算法和技术。全书内容丰富，涉及图像形成、处理、特征检测、模型拟合、深度学习、识别等多个方面。

除了书籍下载，页面上还提供了一些拿本书当教材的大学课程主页，可以下载课件。

Stirling-PDF，一款强大的本地网页版 PDF 文件处理工具，可 Docker 部署。

提供了丰富的 PDF 文件操作功能，包括拆分、合并、格式转换、内容排列、添加图片、旋转、压缩等。

其安全私密性非常高，所有文件和 PDF 操作都是在客户端进行，或者仅在服务器内存中临时处理，任务完成后即刻删除。

一旦用户下载了文件，该文件就会从服务器上删除。

Steel，这个工具可以让大模型直接操作浏览器，从而实现完全的浏览器AI自动化。

exo，一个可帮你在家快速搭建 AI 集群的开源项目，支持将现有设备统一到一个功能强大的GPU中，支持 iPhone，iPad，Android，Mac，Nvidia，树莓派等等几乎所有设备。

在项目部署成功后，一旦有新设备联网，即可接入使用，充当 AI 算力集群的一部分。

Catime，一款简洁的 Windows 倒计时工具，支持番茄时钟功能，具有透明界面和丰富的自定义选项。

功能特性：

机器文摘 第 119 期