首頁手記奧拉瑪OCR：用奧拉瑪實現高精度文字識別

奧拉瑪OCR：用奧拉瑪實現高精度文字識別

標簽：

Python 機器學習計算機視覺

Llama 3.2-Vision 是一个多模态大型语言模型，能够处理文本和图像输入并生成文本输出，提供110亿和900亿两种参数规模。该模型在视觉识别、图像推理、图像描述以及回答图像相关问题等方面表现出色，超越了现有开源和闭源多模态模型，在多个行业基准测试中表现出色。

找到最适合你的 Next.js 开始项目

查看很棒的 Shadcn

羊驼3.2：示例

手写体

光学字符识别技术（OCR技术）

本文将描述如何调用并使用由 Ollama 运行的 Llama 3.2-Vision 11B 模型的服务，并使用 Ollama-OCR 实现文字识别（OCR）功能的具体步骤。

Ollama-OCR 的特点

🚀 利用Llama 3.2-Vision模型进行高精度文本识别
📝 保持原文本的格式和结构不变
🖼️ 支持多种图片格式：JPG、JPEG、PNG
⚡️ 可自定义识别提示及模型
🔍 提供Markdown格式输出选项
💪 强大的错误处理能力

MacOS Vision OCR: 适用于 macOS 的快速且准确的 OCR 工具

安装 Ollama - 开始你的旅程

在开始使用 Llama 3.2-Vision 之前，您需要安装 Ollama，这是一个支持本地运行多模态模型的平台。请参照以下步骤进行安装：

下载 Ollama：访问 Ollama 官网，下载适用于您操作系统的安装包。
1、安装 Ollama：按照下载的安装包中的提示完成安装。

如何安装Llama 3.2和11B视觉版本

安装了 Ollama 之后，可以使用以下命令安装该 Llama 3.2-Vision 11B 模型。

运行一下llama3.2-vision这个模型吧

全屏退出全屏

如何使用：Ollama-OCR

    npm install ollama-ocr
    # 或者你可以试试 pnpm add ollama-ocr

进入全屏模式，退出全屏

光学字符识别 (OCR)

// 导入 OCR 相关的函数和常量
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

// 异步运行 OCR 识别
async function runOCR() {
  // 读取手写图片并使用默认系统提示进行 OCR 识别
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  // 输出识别的文本到控制台
  console.log(text);
}

点击全屏点击退出全屏

输入图片

看一下这个。

输出：
Llama 3.2-Vision 这个多模态大语言模型（LLMs）集合是经过指令调优的图像推理生成模型，提供 118 和 908 亿参数两种尺寸（输入文本和图像，输出文本结果）。这些经过指令调优的 Llama 3.2-Vision 模型针对视觉识别、图像推理、图像描述和回答关于图像的通用问题进行了优化。在常用的行业基准测试中，这些模型的表现优于许多可用的开源和专有多模态模型。

Markdown 输出结果

    import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

    async function 运行OCR() {
      const text = await ollamaOCR({
        filePath: "./trader-joes-receipt.jpg",
        systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
      });
      console.log(text);
    }

进入全屏退出全屏

输入图片：

如下:

该链接将打开一个图片。

MiniCPM-V 2.6 视觉处理模型版本

// 异步函数用于运行OCR识别
async function 运行OCR识别() {
  const 识别结果 = await ollamaOCR({
    model: "minicpm-v",
    filePath: "./handwriting.jpg.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(识别结果);
}

全屏，退出全屏

ollama-ocr 使用的是本地视觉模型，如果你想使用在线 Llama 3.2-Vision 模型，可以试试这个 llama-ocr 库。

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

縹緲止盈

手記
篇

粉絲

36

獲贊與收藏

158

關注作者，訂閱最新文章

閱讀免費教程

Python 辦公自動化教程

17個小節 27011 912

Python 算法入門教程

15個小節 29454 1133

Python 進階應用教程

38個小節 71075 1109

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

奧拉瑪OCR：用奧拉瑪實現高精度文字識別

手写体

光学字符识别技术（OCR技术）

光学字符识别 (OCR)

Markdown 输出结果

MiniCPM-V 2.6 视觉处理模型版本

閱讀免費教程