
手寫名單與紙本表單怎麼數位化?2026 OCR 採購方完整評估指南
TL;DR — 印刷中文 OCR 錯誤率(CER)成熟商業服務在 3–5%、手寫中文 SOTA 落在 4–10% 區間;任何聲稱「99% 準確」的供應商在你提供真實樣本前都不該被信任。本文整理 5 件你應該確認 OCR 廠商有做的事、4 種行業(醫療同意書 / 補教報名單 / 經銷紙本訂單 / 名片)的紅旗清單、12 個 RFP 必問問題、紙本→結構化的合理 SLO(單張 P95 < 30 秒、批次 1,000 張 P95 < 4 小時)——把「OCR 採購」從 demo deck 看 marketing,補成可填進合約的工程規格。
紙本數位化:SMB 數位轉型最常被低估的工程
廠商簡報講 OCR 像 5 分鐘的小工,實務上卻是 SMB 數位轉型最容易花錢買到不能用結果的一條線。台灣仍大量靠紙本的場景:診所同意書(手術 / 麻醌 / 醫美 / 健檢)、補教招生單、經銷業務拜訪訂單、業務名片本、物流簽收單。
紙本的隱藏成本不在「OCR 軟體一年多少錢」,在每天搜資料的時數。根據 IDC Worldwide Document Management 報告 與 Gartner Document AI 開放摘要,企業員工平均每天耗 30–60 分鐘搜紙本資料、每年人均隱性成本 NT$80,000–120,000。30–100 人的 SMB 若紙本占比 > 20%,年隱性成本落在 NT$500,000–2,000,000——這才是 OCR 採購案的真正預算錨。
OCR 不是「買套軟體跑一下就好」的工具採購,是 AI 上線前的真前置。AI 答得再準,料若還在紙本上、影像沒結構化欄位,下游所有功能都打折。整體 AI 電話導入路徑見支柱長文 AI 電話行銷完整指南,本文聚焦路徑最前端:紙本怎麼變成 AI 能讀的料。
💡 採購預算的真錨點:算 OCR 預算前先估紙本隱性成本。30 人團隊、紙本占 25% → 年隱性成本約 NT$700,000。任何 OCR 方案年費超過此數字 30%(NT$210,000)需要重新談;低於這個數字且能在 6 個月內完成歷史紙本批次的方案幾乎都值得簽。
5 件你應該確認 OCR 供應商有做的事
廠商型錄都寫「支持中文 OCR、支持手寫」。下面 5 件才是工程上會踩線的地方。把這張表貌進 RFP,逐項提問。
| # | 能力 | 工程細節 | 業界基準 | 紅旗信號 |
|---|---|---|---|---|
| 1 | 印刷 vs 手寫雙軌路由 | 文檔分類 → 印刷走 OCR、手寫走 vision-LLM、低信心度合併 | CER 3–5% 印刷、4–10% 手寫 | 「一個通用模型通吃」 |
| 2 | 結構化輸出 + schema | JSON 含欄位 + per-field confidence、名片支持 vCard 4.0 | RFC 6350 / Google / AWS / Azure 標準 | 自定 JSON 無 schema、無 vCard |
| 3 | 客戶端 review UI | 信心度兩段門檻 + 欄位級修改 + 稽核軌跡 | ≥ 0.95 自動通過、0.85–0.95 覆核 | 「不用 review,我們夠準」 |
| 4 | 重複資料偵測 + 合併 | 電話正規化、姓名同音字、地址別名 fuzzy match | 整合 entity resolution / record linkage | 「去重是 CRM 的事」 |
| 5 | PII 分級遮罩 + Data Residency | 特種個資指定境內處理、欄位遮罩、區隔批次 | 個資法第 6 條合規 | 「都送到我們的雲處理」 |
3.1 印刷 vs 手寫:兩個數量級的問題
印刷與手寫不是同一個問題。Tesseract 5.x 開源 OCR 在乾淨印刷文件上 CER 3–5%;手寫中文 CER 通常 > 35%——遠超業務可接受門檻。當代 SOTA 商業視覺模型在公開手寫資料集(CASIA-HWDB、ICDAR Robust Reading)的 CER 落在 4–10%。
合格廠商的做法是雙軌路由:先做文檔分類(印刷 / 手寫 / 混合),印刷走傳統 OCR、手寫走 vision-LLM、低信心度區段合併兩邊結果。一個 API 通吃的廠商,多半是把所有東西丟給通用模型——在你的真實樣本上會掉精度。
3.2 結構化輸出:不能只給整張影像的純文字
OCR 的工程目標不是把影像變成一堡文字,是把影像變成 CRM 能直接讀的欄位。合格能力:可指定欄位輸出(姓名 / 電話 / 身分證末四碼 / 簽名日期);每欄位附 confidence score(0.0–1.0)— Google / AWS / Azure 都是公開規格;名片必須輸出 vCard 4.0(RFC 6350) 八個欄位(FN、N、ORG、TITLE、TEL、EMAIL、ADR、URL);影像可輸出 PDF/A(ISO 19005) 長期保存格式。
紅旗:自定 JSON 不附 schema、名片只給純文字、影像只能下載 JPEG。
3.3 客戶端 review UI:人機審核閉環
OCR 不是跑完直接寫資料庫的全自動流程。表單可能有欄位空白、簽名缺失、影像模糊、字跡無法判讀。沒有人機審核閉環,你會買到「99% 跑完,但 5% 是錯的、其中 0.5% 嚴重錯」——而你不知道是哪 0.5%。
業界慣例兩段信心度門檻:≥ 0.95 自動通過、0.85–0.95 進覆核佇列每日批次審、< 0.85 強制人工覆核。合格 review UI 的能力:可同時比對原圖與 OCR 結果、欄位級修改(不是整張重打)、覆核紀錄稽核軌跡(誰、何時、改了什麼)。
3.4 重複資料偵測:歷史批次最容易爆炸的點
5,000 張紙本 OCR 完通常變成 6,500–7,200 筆「客戶」,因為同一人在不同表單上出現過。合格 entity resolution 能力:電話正規化(0912345678 ↔ +886912345678 ↔ 0912-345-678 視為同一筆)、姓名同音字 / 異體字(「黃」「黄」、「鈸」「玉」合併)、地址別名(「台北市」「臺北市」、門牌異寫合併)。
紅旗:「去重是 CRM 的事」。技術上沒錯,實務上你導入後第一週就被重覆名單壓垮。
3.5 PII 分級遮罩 + 醫療影像紅線
個資法第 6 條 把病歷、醫療、基因、性生活、健康檢查列為「特種個人資料」,原則禁止蒐集處理利用。手寫醫療同意書影像本身就落入此範疇。
合格能力:欄位遮罩(身分證後 4 碼、信用卡、病歷號可在輸出前遮罩)、Data Residency(可指定特種個資不出境——國發會 2024 修法說明把跨境傳輸特種個資列為監管重點,見 個資保護委員會)、批次區隔(特種個資批次走專用區、與一般客戶資料雔離)。
回答「都送到我們海外的雲處理」「我們不簽 DPA」的廠商,在醫療場域是合規大坑。即使你的痛點不是醫療,這項能力也代表廠商的合規成熟度。
⚠️ 醫療紅線:診所 / 醫院採購 OCR 前,請法務確認三件事:是否簽 DPA、特種個資是否境內處理、模型再訓練政策是否承諾不用你的資料訓練通用模型。三件少一件,醫療業務不該採購。
4 種垂直行業的紅旗清單
| # | 行業 | 法律基礎 | 紅旗信號 | 必備能力 |
|---|---|---|---|---|
| 1 | 醫療診所同意書 | 個資法第 6 條 / 醫師法第 12 條 / 醫療法第 70 條 | 境外處理特種個資、未簽 DPA、不支持 Data Residency | 數位簽章 + 時間戳 + 稽核軌跡 + 備援四件套 |
| 2 | 補教報名單 | 補習班準則第 22 條 / 個資法第 8 條 | 不告知客戶就 OCR 上 CRM、不保留紙本對照 | 蒐集告知檢查、刪除權利機制、紙本掃描留存 |
| 3 | 經銷紙本訂單 | 商業會計法第 38 條 | 「OCR 完丟紙本」、無 PDF/A 輸出 | 紙本原件保存 5–10 年、PDF/A-2 格式 |
| 4 | 名片數位化 | 個資法第 5 條(必要範圍) | 不出 vCard、雙語名片不支持 | RFC 6350 vCard 4.0、雙語欄位映射 |
4.1 醫療診所同意書
最重的合規場景。三條法律疊加:個資法第 6 條(特種個資原則禁止)、醫師法第 12 條(病歷至少保存 7 年)、醫療法第 70 條(病歷管理義務)。
關鍵認知:OCR 後的純文字不等於法定電子病歷。要取代紙本作為法定病歷,還需上層系統補上 衛福部「電子病歷製作及管理辦法」 規定的四件套:數位簽章、時間戳記、稽核軌跡、備援機制。OCR 廠商提供的是 ingestion 能力,不是合規電子病歷系統。
實務建議:先把 OCR 當「快速搜尋層」(找病歷影像、抽資料填表)使用,紙本 7 年保存照舊;等電子病歷系統就位後再評估升級。醫療場景應用案例見 醫美 AI 電話導入實戰,整體合規地圖見 AI 電話合法嗎?台灣 PDPA + 通保法 完整合規地圖。
4.2 補教報名單
合規重點是個資法第 8 條的「蒐集告知」。如果你手上的紙本是 5 年前蒐集,當時的告知範圍是否涵蓋「數位化儲存與後續資料庫使用」?多數補教舊版同意書沒寫——OCR 數位化前需要重新告知或請學員重新簽署。
紅旗:廠商建議「直接 OCR 上 CRM 就好」。法律風險是你的,不是廠商的。合格做法:先盤點哪些批次的告知涵蓋數位化;不涵蓋的批次補簽電子同意書,或僅作內部搜尋、不用於行銷。補習班準則第 22 條的學員資料保存可作合法依據,但僅限保存目的、不延伸至行銷。
4.3 經銷紙本訂單
商業會計法第 38 條 規定會計憑證保存 5 年、帳簿與財務報表保存 10 年。經銷商手寫訂單若屬會計憑證,OCR 後仍需保留紙本原件至法定年限——OCR 不是廢紙減量方案。合格廠商必須能輸出 PDF/A(ISO 19005)長期保存格式,並把 PDF/A 與結構化 JSON 一起存下來。回答「OCR 完就可以丟紙本」的供應商,請業務直接退場。
4.4 名片數位化
RFC 6350 vCard 4.0 是名片電子化的 IETF 標準格式。任何 OCR 名片功能都應能輸出 vCard——這是 30 年的開放規格、所有 CRM 都讀得懂。輸出純 JSON 自定 schema 是 vendor lock-in 紅旗。雙語名片(zh-TW 正面 + EN 背面)的 N、ORG、TITLE 三欄需要中英對照映射,合格廠商應能在 vCard 中以 language 參數區分,或輸出兩份 vCard。
紙本→結構化的工程骨架
採購方應該要求廠商畫出這張圖。即使實作不同,骨架的層次與能力分工是業界共識。
[紙本原件] → 掃描器 / 手機拍照(≥ 300 dpi)
▼
[影像批次] → 文檔分類(印刷 / 手寫 / 混合)
▼
[雙軌 pipeline]
印刷 → OCR pipeline ────┐
手寫 → vision-LLM ──────┤
▼
[結構化欄位 + per-field confidence]
▼
[PII 分級 + 遮罩 + Data Residency]
▼
[Review UI 兩段門檻]
≥ 0.95 → 自動通過
0.85–0.95 → 覆核佇列
< 0.85 → 強制人工
▼
[Entity resolution 去重]
▼
[輸出:vCard 4.0 / JSON / PDF/A]
▼
[客戶 CRM / KB]
紙本原件另依法定年限留存(5 / 7 / 10 年)
設計重點:影像批次解析度 ≥ 300 dpi,手機拍照需做透視校正與光線正規化;印刷與手寫分流是合格門檻,丟一個模型的 vendor 是紅旗;信心度兩段門檻是業界慣例,不該是「給或不給」二元設計;vCard 4.0、結構化 JSON、PDF/A 三件套要齊備。
12 個 RFP 必問問題
把下面 12 題貌進 RFP,要求廠商書面逐題回覆。每題附「合格答覆關鍵字」與「紅旗答覆」對照。
| # | 提問 | 合格答覆關鍵字 | 紅旗答覆 |
|---|---|---|---|
| 1 | 印刷與手寫各 CER 多少?提供 100 張盲測樣本測試報告 | 「印刷 3–5%、手寫 4–10%、附測試方法」 | 「99% 準確」「沒測過」 |
| 2 | 是否提供 per-field confidence?閾值如何設? | 「0.0–1.0 每欄位 + 兩段門檻 0.85 / 0.95」 | 「整張一個分數」「不公開」 |
| 3 | 是否輸出 JSON / vCard 4.0 / PDF/A?三種齊備? | 「三種都有,附 schema 文件」 | 「自定 JSON」「沒 vCard」 |
| 4 | review UI 支持欄位級修改?覆核稽核軌跡? | 「欄位級 + 誰何時改了什麼」 | 「整張重打」「沒覆核紀錄」 |
| 5 | 支持 Data Residency?特種個資境內處理? | 「可指定區域、特種個資專用區」 | 「我們的全球雲」 |
| 6 | 是否簽 DPA(Data Processing Agreement)? | 「有標準 DPA、可調整」 | 「不簽」「合約裡有提就好」 |
| 7 | 單張 P95?批次 1,000 張 P95? | 「印刷 < 10 秒、手寫 < 30 秒、批次 < 4 小時」 | 「視情況」「沒測量」 |
| 8 | 重複資料偵測?電話 / 姓名 / 地址 fuzzy match? | 「entity resolution、可調權重」 | 「去重是你 CRM 的事」 |
| 9 | 整合方式?webhook / REST API / SFTP 批次? | 「三種都支持、附 API 文件」 | 「請聯絡業務」 |
| 10 | 影像模糊、欄位空白、簽名缺失的 fallback? | 「自動標記、進覆核佇列、不靜默吃掉」 | 「我們會盡力」 |
| 11 | 模型再訓練政策?會用我的資料訓練通用模型? | 「不會、合約明訂」 | 「為了改善服務」 |
| 12 | 退場:資料匯出格式?合約終止後銷毀證明? | 「JSON + PDF/A 全量匯出 + 銷毀證明」 | 「合約沒寫」 |
✅ 判斷標準:把 12 題印成 1 頁 RFP 附件,標註「逐題回答、不接受 marketing 描述」。回覆少於 8 題達合格關鍵字的廠商,排除候選名單。
你應該要求供應商儲存的欄位
不是要求廠商給你 schema,是確認他們自己存了什麼——這決定你能不能事後重審、合規應對稽核、換廠商不卡資料。
| 欄位類型 | 為什麼要存 | 建議保存期 |
|---|---|---|
| 原始影像(PDF/A-2,含 EXIF) | 法定保存對應、可重審 | 對應業務法定年限(5 / 7 / 10 年) |
| OCR 文字 + per-field confidence | 可重審、可調閾值再跑 | 與原始影像同 |
| 覆核紀錄 + 操作者 + 時間 | 稽核軌跡、員工教育訓練 | ≥ 3 年 |
| PII 分級標記 | 遮罩規則、跨境傳輸合規 | 與原始影像同 |
| 結構化欄位(normalized) | CRM 寫入來源 | 對應 CRM 保存策略 |
| 模型版本 + pipeline 版本 | 重現性、出錯回溯 | ≥ 5 年 |
廠商若只存結構化欄位、不存原始影像或信心度資料,6 個月後出爭議你沒有可重審的素材。OCR 後的下游交付(把抽出來的內容餡進 AI 知識庫做問答)見 AI 電話知識庫怎麼餡?RAG + 反幻覺 4 道防線:那篇是 delivery 層,本文是 ingestion 層,合格 vendor 應該能交接乾淨。
SLO + SLA:紙本批次 → 結構化的合理交付時間
| 階段 | P50 | P95 | 失敗 SLA |
|---|---|---|---|
| 單張 印刷 | < 3 秒 | < 10 秒 | 超時自動進佇列重試 |
| 單張 手寫 | < 8 秒 | < 30 秒 | 同上 |
| 批次 1,000 張 | < 1 小時 | < 4 小時 | 含人機覆核緩衝 |
| 批次 10,000 張 | < 8 小時 | < 24 小時 | 同上 |
| API uptime | ≥ 99.5% / 月 | — | 月度服務 credit |
| 錯誤率 | — | ≤ 合約閾值 | 超出免費重做 |
合格 SLA 條款應至少包含:uptime 未達 99.5% → 服務 credit(典型 10–25%);抽樣盲測 CER 超合約值 → 免費重做或退費;批次未達 P95 → 服務 credit;違反 DPA → 合約定義的賠償上限與通知時程。不簽任何 SLA 補償條款的廠商,不是企業級採購對象。
4 個常見的 vendor 話術陷阱
陷阱 1:「我們 99% 準確」
要求他們在你提供的 100 張真實樣本上跑盲測。公開 benchmark 手寫中文 SOTA CER 是 4–10%(ICDAR / CASIA-HWDB)。99% 準確(CER 1%)若是真的,是 NeurIPS 等級的 paper,不會在台灣 SMB 做業務。
陷阱 2:「支持所有手寫」
請對方說明 train set 涵蓋的字體:印刷體 / 楷書 / 行書 / 草書 / 板書。你的真實樣本若多是醫師潦草簽名或老師板書,廠商 train set 多半沒涵蓋。讓對方先在你的 100 張盲測樣本上跑分再決定。
陷阱 3:「自動上 CRM」
問清楚 pipeline 的人機覆核點在哪。零人工上 CRM 是紅旗——你會買到「跑完了 + 5,000 筆黃資料 + 沒 audit trail」。整體 AI 電話客服選型標準見 AI 電話客服 2026 選型指南。
陷阱 4:「免費試用 1 個月」
問三件事:試用期是否有 API call 或張數上限?試用合約是否含 NDA 綡住你、後續議價空間變小?試用結果是否能匯出?
合格試用條件:≥ 500 張盲測樣本、無 NDA 綡定、結果可全量匯出 JSON + PDF/A。三件少一件,這個試用是行銷工具不是 POC。
「廠商說 99% 準確時,請他們把 100 張你提供的真實樣本跑出 CER 證明來;說『支持所有手寫』時,請他們列出 train set 字體類別。RFP 不是寫給廠商爽的,是寫給合格廠商的。」
常見問題
OCR 完就可以丟紙本嗎?
不可以。會計憑證依商業會計法第 38 條保存 5 年、帳簿 10 年;病歷依醫師法第 12 條保存至少 7 年;補教學員資料依補習班準則保存至規定期限。OCR 是搜尋與資料庫層,紙本原件依法定年限照舊。建議用 PDF/A-2(ISO 19005)格式同步保存掃描影像作為數位副本。
醫療同意書能不能送境外 OCR?
技術上可以,合規上要小心。個資法第 6 條把醫療影像列為特種個資,原則禁止蒐集處理利用。送境外涉及跨境傳輸特種個資,國發會 2024 修法說明把這項列為監管重點。實務建議:能境內處理的優先;境外處理需明訂於 DPA 並補當事人同意書。
手寫 CER 5% 是好是壞?
是好。公開 benchmark(ICDAR / CASIA-HWDB)的手寫中文 SOTA CER 落在 4–10%,5% 屬業界前段班。但「好」要看場景容忍度:醫療簽名場景 5% = 100 張裡有 5 張需人工覆核,可接受;OCR 結果直寫處方箋資料庫,5% 就是高風險。CER 數字要對應「下游怎麼用」判斷。
Tesseract 免費,為什麼還要花錢買商業 OCR?
Tesseract 5.x 在乾淨印刷上 CER 3–5%,是堪用的 baseline。但手寫中文 CER > 35%、結構化輸出能力藄弱、沒有 review UI、沒有 PDF/A 輸出、沒有合規承諾。商業 OCR 的價值不在文字辨識本身,在於人機審核閉環、合規承諾、結構化輸出、SLA 補償。建議流程:先用 Tesseract 跑你的真實樣本當 baseline;廠商報價需證明在手寫場景顯著優於 Tesseract、且補上 5 件能力;否則直接用 Tesseract 加自製 review UI。
OCR 出錯誰負責?
合約定義為準。合格 SLA 應包含:抽樣盲測 CER 超合約值 → 免費重做或退費;資料外洩 → DPA 賠償;uptime 未達 99.5% → 服務 credit;批次延遲超 P95 → 服務 credit。不簽 SLA 補償的廠商不是企業級對象。買方責任:保留紙本原件、覆核紀錄、audit trail——出爭議時這些是你的證據。
信心度閾值 0.85 / 0.95 怎麼設?
業界慣例是起點不是終點。先用這兩值跑 1,000 張真實樣本,分析:≥ 0.95 自動通過區的實際錯誤率(應 < 1%)、0.85–0.95 區的覆核負擔(單筆 ≤ 30 秒可接受)、< 0.85 強制覆核區占比(> 15% 代表場景不合,要換廠商或調 pipeline)。三個指標不對勁就調——0.90 / 0.97 是常見方向。
5 年前的紙本沒同意 OCR 怎麼辦?
個資法第 8 條的蒐集告知範圍是關鍵。先盤點當年同意書的「利用方式」是否涵蓋「電子化儲存 / 數位化資料庫」。沒涵蓋的批次有三條路:補簽電子同意書;限制使用目的——OCR 結果僅作內部搜尋、不用於行銷或外部分享,依個資法第 5 條的必要範圍原則;銷毀紙本——資料價值不高、補簽成本太大時,依法銷毀(醫療 / 會計法定保存期未到不能用此路)。選一條前先諮詢法務。
想看完整 AI 電話導入路徑、選型方法與產業案例?閱讀本系列的支柱長文 AI 電話行銷完整指南。也可看 Brightalk.ai AI 電話功能介紹 與 AI 電話方案。
meta_title: 手寫表單 OCR 採購指南 2026|RFP 12 問 + 4 行業紅旗
meta_description: 紙本數位化怎麼選 OCR 廠商?5 件能力檢核、4 種行業(醫療同意書 / 補教 / 經銷訂單 / 名片)紅旗清單、12 個 RFP 必問題、單張 P95 < 30 秒批次 P95 < 4 小時——把 OCR 採購補成可填合約的工程規格。