L2 · 工具认知

AI的本领之三：读文与识图

AI 的「读」横跨文字和图像，正在成为多模态理解

所谓“读文与识图”，并不是简单地把图片里的文字识别出来，也不是把一份文档压缩成几段摘要。

Why This Card Matters

为什么这张卡值得读

AI 的「读」早就超过了 OCR — 它能读一张设计图并理解其中的空间逻辑、读一份财报并比对图表与文字、读一段视频并从画面 + 字幕 + 语音中提取关键事件。这张卡帮你看清：当 AI 能跨模态理解，过去靠人脑做的「信息综合」环节，正在被压缩。

Formal Manuscript

真正的多模态理解，不是把图片转成文字，而是把不同形态的信息放进同一个问题框架里。

Reflect

Tool · 怎么用

你的工作中有哪些任务涉及文字 + 图像同时处理？列出来，看哪些可以让 AI 完整接管。