机器文摘第 045 期

长文

本文作者介绍了一个实现网络爬虫的新思路，据称已在生产上使用了一段时间，且效果不错。

比较典型的网络爬虫在爬取数据时，大都采用解析网页 DOM 的方式，或直接通过 HTTP 请求流直接解析，或使用无头浏览器进行解析。

但现在这项技术已经被很多网站、平台人为设置很多障碍，比如增加很多随机的嵌套等等。

作者某天福至心灵，想到一个点子。

利用浏览器提供的 JavaScript 内存堆快照功能，将内存里的全部信息扒下来，然后根据对应的 JavaScript 对象属性，按图索骥去找到真正需要的数据。

这种方法比较狠的地方在于，直接从后台的数据结构下手，跳过了对页面 DOM 的分析和拆解，而且据作者说，网站即便想通过混淆此类数据在内存中的属性名称来进行防御，其工作量还是相当大的。

所以，可能短期内无能为力。

作者说，也许全面转为 Web Assembly 才能彻底禁止他这种爬虫。

intel cpu 有一个崩溃攻击漏洞，标识为 CVE-2022-40982，利用此漏洞可以在虚拟机里窃取共享同一个物理 CPU 的其他虚拟机的数据。

这个漏洞可以让恶意程序在本机运行后窃取如密码、加密密钥、以及个人电子邮件等私人数据。

恶意的云计算客户可以利用 Downfall 漏洞从与其共享同一台云计算机的其他客户那里窃取数据和凭据。

据文章作者（也即漏洞发现者）所说，该漏洞存在于 Intel Core 6 代到 11 代 CPU，并且研究人员发现存在通过 Web 网页浏览进行攻击的可能性。

原来树莓派的 GPIO 还能干这个，这位老哥使用树莓派的 GPIO 接口直接进行无线电波发射（没错，就是随便扯出一根线就可以当作天线了）。实现了基于树莓派的微型电台。

这得益于 rpitx这个开源项目，项目本来是为了研究和学习一些无线电原理，不过后来逐渐成为一些 SDR 爱好者必不可少的工具了。

water，一个在网页里模拟流体动画的 Demo，使用 Haxe 语言编写。源码在这里
Haxe 是一种跨平台的开源编程语言，在其官方网站上称其为"universal language"。
它可以用于开发多种平台（如Web、移动、桌面等）的应用程序。
Haxe 提供了强大的静态类型系统，并支持多种编译目标，包括但不限于 JavaScript、C++、Java、C#、Python 等。
感兴趣的话，这里也有一份 Haxe 的在线教程
Fooocus，ControlNet 作者开源的一款新的 AI 画图工具，搭建起来比 Stable Diffusion webui 稍微方便了一点，相当于整合包。
原来 HTML5 有一个 <progress></progress> 标签，直接写这个标签，不加任何属性的话，就是一个加载动画，非常适合在页面里临时需要一个进度、状态展示的时候。
阮一峰老师的 Typescript 教程，发布了。