首页 > 营销学院 > IT资讯

【Paddle打比赛】手写字体OCR识别竞赛baseline

本文介绍基于Paddle的世界人工智能创新大赛AIWIN手写字体OCR识别竞赛任务一baseline方案。涵盖竞赛背景与任务，说明数据处理步骤：创建文件夹、上传解压数据，将标注转为PaddleOCR所需格式，生成字典；还涉及模型构建，包括识别算法选择、安装PaddleOCR、下载预训练模型及训练，最后提及模型预测及结果保存，鼓励进一步优化。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【paddle打比赛】手写字体ocr识别竞赛baseline -

世界人工智能创新大赛AIWIN手写字体OCR识别竞赛任务一baseline方案（基于paddle的实现）

本项目使用飞桨实现世界人工智能创新大赛AIWIN【手写字体OCR识别竞赛】任务的baseline方案，欢迎小伙伴来fork训练及调优，AI Studio提供高级算力资源(Tesla V100)。

一、竞赛介绍

2025世界人工智能创新大赛（AIWIN），由世界人工智能大会组委会主办，AI SPACE承办，是全球范围内初具影响力的人工智能赛事，是2025世界人工智能大会的重要组成部分。

秋季赛将继续围绕“人工智能助力城市数字化转型”的主题，以“开展算法创新、选拔数字人才”为目标，继续秉持“高端化、专业化、国际化、市场化“的原则开展赛事。

今年提供手写字体OCR识别竞赛和心电智能诊断算法竞赛两个赛题。

我们选取【手写字体OCR识别竞赛】任务一进行实验，接下来对赛题背景及任务进行简单介绍。

1.1 赛题背景

银行日常业务中涉及到各类凭证的识别录入，例如身份证录入、支票录入、对账单录入等。以往的录入方式主要是以人工录入为主，效率较低，人力成本较高。近几年来，OCR相关技术以其自动执行、人为干预较少等特点正逐步替代传统的人工录入方式。但OCR技术在实际应用中也存在一些问题，在各类凭证字段的识别中，手写体由于其字体差异性大、字数不固定、语义关联性较低、凭证背景干扰等原因，导致OCR识别率准确率不高，需要大量人工校正，对日常的银行录入业务造成了一定的影响。

1.2 赛题任务

本次赛题将提供手写体图像切片数据集，数据集从真实业务场景中，经过切片脱敏得到，参赛队伍通过识别技术，获得对应的识别结果。即：

输入：手写体图像切片数据集
输出：对应的识别结果

赛题在赛程中分设为两个独立任务，各自设定不同条件的训练集、测试集和建模环境，概述如下：

任务一(本项目选取)：提供开放可下载的训练集及测试集，允许线下建模或线上提供 Notebook 环境及 Terminal 容器环境（脱网）建模，输出识别结果完成赛题。
任务二：提供不可下载的训练集，要求线上通过 Terminal 容器环境（脱网）建模后提交模型，由系统输入测试集（即对选手不可见），输出识别结果完成赛题

二、数据处理

2.1 数据下载

大赛使用数据要求如下"参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分"，因此需要大家自行去官网下载数据集。

注：数据量8000，且均是文字区域，下载速度很快。

In [ ]

# 新建文件夹【dataset】!mkdir dataset

将下载的数据集上传到【dataset】文件夹内,操作流程如下图所示：

然后解压数据集：

In [ ]

!unzip -q dataset/2025A_T1_Task1_Sample_V1106.zip -d ./dataset/
!unzip -q dataset/2025A_T1_Task1_数据集.zip -d ./dataset/

2.2 数据格式

下载的数据标注为json格式且图片在两个文件夹内，我们需要处理为PaddleOCR训练所需要的格式：建议将训练图片放入同一个文件夹，并用一个txt文件（rec_gt_train.txt）记录图片路径和标签，txt文件里的内容如下:

注意： txt文件中默认请将图片路径和图片标签用 \t 分割，如用其他方式分割将造成训练报错。

简小派

简小派是一款AI原生求职工具，通过简历优化、岗位匹配、项目生成、模拟面试与智能投递，全链路提升求职成功率，帮助普通人更快拿到更好的 offer。

123 查看详情简小派

" 图像文件名                 图像标注信息 "train_data/rec/train/word_001.jpg   简单可依赖
train_data/rec/train/word_002.jpg   用科技让复杂的世界更简单
...

最终训练集应有如下文件结构：

|-train_data
  |- rec_gt_train.txt
  |- train
    |- 8bb1941c760a2c1d017626c361da6c4d.jpg
    |- 8bb1941c760a2c1d01762b943a624421.jpg
    |- 8bb1941c760a2c1d0176415a9ec807fe.jpg
    | ...

接下来，我们一起看怎么用代码具体实现吧~

In [ ]

import osimport os.path as ospimport jsonimport shutilimport yaml

定义write_file函数，处理训练集中date和amount中的数据：

In [ ]

def write_file(file, json_file, s*e_pic):
    # 读取json文件
    data = yaml.load(open(json_file))    # all_str为了后面统计训练集的字典
    all_str = ''
    
    for pic_name, label_info in data.items():        # 修改成OCR需要的格式
        line = os.path.join(s*e_pic, pic_name)+'\t'+label_info+'\n'
        file.write(line)

        all_str+=label_info        # 将图片移动到s*e_pic目录下
        ori_path = osp.join(osp.dirname(json_file), 'images', pic_name)
        s*e_path = osp.join(s*e_pic, pic_name)
        shutil.copy(ori_path, s*e_path)    return set(all_str)

In [ ]

# 处理数据之后的保存路径!mkdir 'train_data'# 记录图片和标签的txts*e_txt = 'train_data/rec_gt_train.txt'# 所有图片放在一个文件夹内s*e_pic = 'train_data/train/'if not os.path.exists(s*e_pic):
    os.mkdir(s*e_pic)# 读取date和amount的json文件date_json = 'dataset/训练集/date/gt.json'amount_json = 'dataset/训练集/amount/gt.json'file = open(s*e_txt, 'w')

date_set = write_file(file, date_json, s*e_pic)
amount_set = write_file(file, amount_json, s*e_pic)

file.close()

处理测试集，将所有图片放在一个文件夹内：

In [ ]

!mkdir /home/aistudio/test_data/
!cp -r /home/aistudio/dataset/测试集/amount/images/* /home/aistudio/test_data/
!cp -r /home/aistudio/dataset/测试集/date/images/* /home/aistudio/test_data/

2.3 字典

最后需要提供一个字典（{rec_gt_label}.txt），使模型在训练时，可以将所有出现的字符映射为字典的索引。

因此字典需要包含所有希望被正确识别的字符，{rec_gt_label}.txt需要写成如下格式，并以 utf-8 编码格式保存：

l
dad
r
n

In [ ]

character_dict_path = 'train_data/rec_gt_label.txt'with open(character_dict_path, 'w', encoding='utf-8') as out_file:
    merge_set = date_set|amount_set
    num_class = len(merge_set)    print('num_class:',num_class)    for label in merge_set:
        line = label+'\n'
        out_file.write(line)

num_class: 21

三、模型构建

3.1 识别算法

PaddleOCR中提供了如下文本识别算法列表，以及每个算法在英文公开数据集上的模型和指标，主要用于算法简介和算法性能对比。

文本识别算法：

模型	骨干网络	Avg Accuracy	模型存储命名	下载链接
Rosetta	Resnet34_vd	80.24%	rec_r34_vd_none_none_ctc	下载链接
Rosetta	MobileNetV3	78.16%	rec_mv3_none_none_ctc	下载链接
CRNN	Resnet34_vd	82.20%	rec_r34_vd_none_bilstm_ctc	下载链接
CRNN	MobileNetV3	79.37%	rec_mv3_none_bilstm_ctc	下载链接
STAR-Net	Resnet34_vd	83.93%	rec_r34_vd_tps_bilstm_ctc	下载链接
STAR-Net	MobileNetV3	81.56%	rec_mv3_tps_bilstm_ctc	下载链接
RARE	Resnet34_vd	84.90%	rec_r34_vd_tps_bilstm_attn	下载链接
RARE	MobileNetV3	83.32%	rec_mv3_tps_bilstm_attn	下载链接
SRN	Resnet50_vd_fpn	88.33%	rec_r50fpn_vd_none_srn	下载链接

3.2 安装PaddleOCR

本项目中已经帮大家安装好了最新版的PaddleOCR，且修改好配置文件、后处理代码，无需安装~

如仍需安装or安装更新，可以执行以下步骤(目前支持Clone GitHub【推荐】和Gitee两种方式)：

注：码云托管代码可能无法实时同步本github项目更新，存在3~5天延时，请优先使用推荐方式。

In [ ]

!git clone https://github.com/PaddlePaddle/PaddleOCR# 如果因为网络问题无法pull成功，也可选择使用码云上的托管：# !git clone https://gitee.com/paddlepaddle/PaddleOCR

In [ ]

# 安装依赖，每次启动项目都需要执行%cd PaddleOCR
!pip install --upgrade pip
!pip install -r requirements.txt

3.3 下载预训练模型

首先下载模型backbone的pretrain model，您可以根据需求使用PaddleClas中的模型更换backbone，对应的backbone预训练模型可以从PaddleClas repo 主页中找到下载链接。

In [ ]

# 下载MobileNetV3的预训练模型!wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/rec_mv3_none_bilstm_ctc_v2.0_train.tar# 解压模型参数%cd pretrain_models
!tar -xf rec_mv3_none_bilstm_ctc_v2.0_train.tar && rm -rf rec_mv3_none_bilstm_ctc_v2.0_train.tar
%cd ..

3.4 模型训练

这里选择CRNN模型进行训练、MobileNetv3作为backbone，可以在configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml文件里修改训练配置：比如是否使用GPU、模型保存路径、数据集路径、学习率、优化等。

执行命令，启动训练：

In [ ]

!python tools/train.py -c configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml

四、模型预测

训练好模型之后，即可启动测试，Global.pretrained_model表示预测使用的模型，Global.infer_img表示测试的图片路径或着测试图片文件夹路径：

In [ ]

# 预测中文结果!python3 tools/infer_rec.py -c configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml -o Global.pretrained_model=output/rec_chinese_lite_v2.0/latest Global.load_static_weights=false Global.infer_img=/home/aistudio/dataset/测试集/amount/images/8bb1941c760a2c1d017626c361da6c4d.jpg

同时修改infer_rec.py将结果保存为比赛要求的格式，保存结果的路径由configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml中s*e_res_path参数控制，结果answer.json效果如下图：

接下来，大家可以尝试不同的优化策略：修改参数(学习率、epoch、优化器、warmup等)、增加数据增强、更换模型等，开动起来啦。快来fork，一键三连！

以上就是【Paddle打比赛】手写字体OCR识别竞赛baseline的详细内容，更多请关注其它相关文章！

# 数据处理 # 上海seo公司外贸 # 济南建设网站与优化 # 好的seo加盟平台 # 网站建设优化推广售价 # 优化网站的方法认可e火17星 # 运城网站推广优势 # CPI数据网站建设工作 # 京东查关键词排名软件 # 河南律师网站推广公司 # 苏州网站如何推广产品呢 # 如下图 # 中分 # 较低 # python # 线上 # 放在 # 官网 # 一言 # 中文网 # 下载链接 # fig # udio # igs # 网络问题 # ai # git

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2025-07-18

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。