亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

奧拉瑪OCR:用奧拉瑪實現高精度文字識別

Llama 3.2-Vision 是一个多模态大型语言模型,能够处理文本和图像输入并生成文本输出,提供110亿和900亿两种参数规模。该模型在视觉识别、图像推理、图像描述以及回答图像相关问题等方面表现出色,超越了现有开源和闭源多模态模型,在多个行业基准测试中表现出色。

找到最适合你的 Next.js 开始项目

查看很棒的 Shadcn

羊驼3.2:示例

手写体

llama3.2-vision-handwriting

光学字符识别技术(OCR技术)

llama3.2-vision-ocr

本文将描述如何调用并使用由 Ollama 运行的 Llama 3.2-Vision 11B 模型的服务,并使用 Ollama-OCR 实现文字识别(OCR)功能的具体步骤。

Ollama-OCR 的特点

🚀 利用Llama 3.2-Vision模型进行高精度文本识别
📝 保持原文本的格式和结构不变
🖼️ 支持多种图片格式:JPG、JPEG、PNG
⚡️ 可自定义识别提示及模型
🔍 提供Markdown格式输出选项
💪 强大的错误处理能力

MacOS Vision OCR: 适用于 macOS 的快速且准确的 OCR 工具

安装 Ollama - 开始你的旅程

在开始使用 Llama 3.2-Vision 之前,您需要安装 Ollama,这是一个支持本地运行多模态模型的平台。请参照以下步骤进行安装:

下载 Ollama:访问 Ollama 官网,下载适用于您操作系统的安装包。下载 Ollama
1、安装 Ollama:按照下载的安装包中的提示完成安装。

如何安装Llama 3.2和11B视觉版本

安装了 Ollama 之后,可以使用以下命令安装该 Llama 3.2-Vision 11B 模型。

运行一下llama3.2-vision这个模型吧

全屏 退出全屏

如何使用:Ollama-OCR
    npm install ollama-ocr
    # 或者你可以试试 pnpm add ollama-ocr

进入全屏模式,退出全屏

光学字符识别 (OCR)

// 导入 OCR 相关的函数和常量
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

// 异步运行 OCR 识别
async function runOCR() {
  // 读取手写图片并使用默认系统提示进行 OCR 识别
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  // 输出识别的文本到控制台
  console.log(text);
}

点击全屏 点击退出全屏

输入图片

手写识别,用于奥拉玛的OCR 看一下这个。

输出:
Llama 3.2-Vision 这个多模态大语言模型(LLMs)集合是经过指令调优的图像推理生成模型,提供 118 和 908 亿参数两种尺寸(输入文本和图像,输出文本结果)。这些经过指令调优的 Llama 3.2-Vision 模型针对视觉识别、图像推理、图像描述和回答关于图像的通用问题进行了优化。在常用的行业基准测试中,这些模型的表现优于许多可用的开源和专有多模态模型。

Markdown 输出结果

    import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

    async function 运行OCR() {
      const text = await ollamaOCR({
        filePath: "./trader-joes-receipt.jpg",
        systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
      });
      console.log(text);
    }

进入全屏 退出全屏

输入图片:

特德-乔的收据

如下:

Markdown 输出的 Ollama OCR 结果 该链接将打开一个图片。

MiniCPM-V 2.6 视觉处理模型版本

// 异步函数用于运行OCR识别
async function 运行OCR识别() {
  const 识别结果 = await ollamaOCR({
    model: "minicpm-v",
    filePath: "./handwriting.jpg.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(识别结果);
}

全屏,退出全屏

ollama-ocr 使用的是本地视觉模型,如果你想使用在线 Llama 3.2-Vision 模型,可以试试这个 llama-ocr 库。

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消