L2-004 AI的本领之三:读文与识图 正面

L2 · 工具认知

AI的本领之三:读文与识图

AI 的「读」横跨文字和图像,正在成为多模态理解

所谓“读文与识图”,并不是简单地把图片里的文字识别出来,也不是把一份文档压缩成几段摘要。

Why This Card Matters

为什么这张卡值得读

AI 的「读」早就超过了 OCR — 它能读一张设计图并理解其中的空间逻辑、读一份财报并比对图表与文字、读一段视频并从画面 + 字幕 + 语音中提取关键事件。这张卡帮你看清:当 AI 能跨模态理解,过去靠人脑做的「信息综合」环节,正在被压缩。

Formal Manuscript

多模态读取:AI 把文字和图像放进同一个理解框架

真正的多模态理解,不是把图片转成文字,而是把不同形态的信息放进同一个问题框架里。

读文 + 识图:多模态理解的起点

读文的能力:从扫描到理解

识图的能力:从识别到解释

应用场景与边界

Reflect

读完先问自己

Tool · 怎么用

多模态应用盘点

你的工作中有哪些任务涉及文字 + 图像同时处理?列出来,看哪些可以让 AI 完整接管。