最近,阿里巴巴的 AI 研究团队在文档理解领域取得了令人瞩目的进展,他们推出了 mPLUG-DocOwl1.5,这是一款在无OCR(光学字符识别)文档理解任务上表现卓越的尖端模型。 过去,处理文档理解任务时,我们通常依赖 OCR 技术来从图像中提取文本,但这往往会受到复杂布局和视觉噪声的困扰。而 mPLUG-DocOwl1.5则通过一种全新的统一结构学习框架,直接从图像中学习理解文档,巧妙地避开了这一瓶颈。 该模型通过分析文档在不同领域的布局和组织能力,涵盖了普通文档、表格、图表、网页和自然图像等五个领域。它不仅能…