• 阿里云一直提醒我SSL安全证书要到期了,今天才得空搞定这事。

  • 人不能一直沉醉在过去,追逐着幻想,面对现实,撸下袖子,干就行了。

  • 我也是服了,从认证HTTPS不成功,到成功,中间经过了几个技术文章,让我一下接受不了这种高效率。

  • 2019/12/02 23:00制作完成网站图标→见网站抬头最左边 :grin:

  • 截止到2019/12/02 23:20完成了SSL中两张图片不安全链接问题

  • 把菜单加入了图标,这样看起来更形象。考虑到动态的可能,又加入了旋转样式。

  • 把网站右侧边挂件的事情处理好了

  • 耗时约一个小时终于搞定七牛云的连接,真够可以的 :cry:  ,不过终于不用为图床发愁了 :lol:

  • 截止到目前为止,网站的优化工作(包括主题设置和参数配置)进行的都还比较顺利。感谢云落Git主题做了很多优化才能让我比较快速的处理 :wink:

  • 从下午2点半到5点多,花了差不多三小时终于成功实现SSL安全证书的访问。访问网站时网址最左边终于出现一把小锁了 :mrgreen:

模拟德勤财务机器人发票识别T0020

工具 icicpa 来源:注册会计狮 2年前 (2019-12-07) 813次浏览 0个评论 扫描二维码

  2017年度德勤财务机器人H5刷爆了微信朋友圈。其中有介绍二个应用场景,一个是开具增值税发票处理能产生75%的效率提升!另一个是门店存货盘点1天能做完40多人的工作!这货简直是从事财务会计基础数据工作的大杀器啊!

当时看到视频,心中震撼虽大,但对于背后实现的原理和方法更想深入了解和学习。特别是基础技术的图像识别。找过很多技术资料后,对于其中的技术实现路线有了一些心得体会。刚好前段时间再次看到百度AI识别增值税发票的资料,心里痒痒难耐,有了再次上手一试的冲动。实际使用下来,能较完美实现增值税发票内容识别,从而为IT系统对接实现基础,甚至不需对接直接转化为Excel表格数据,利用程序实现自动化做账。即简单的一张增值税发票图片,经过代码的输入,就能完整输出发票内容。这些数据在程序的整合之下又能进入ERP系统,从而为自动生成记账凭证提供了数据平台。感叹基础的数据录入岗位真的要赶快转型,这不是狼来啦!而是狼就在身边!

阅读本文,您将学习到:

•如何通过百度AI来进行增值税发票的识别,并转换为数据。
•以此类推,能识别出定额发票、卷式发票、名片、车牌、定制格式等等的信息并转换为电子数据。
•顺道了解最流行的编程语言Python。
•对财务会计前沿信息技术领域有基础性的认识。
•对未来财务会计的工作转型给自己施加了压力,增进了动力。

目录

一、安装python及环境
二、申请API
三、识别

一、安装python及环境

1.1、先确定待安装的电脑是32位还是64位的操作系统。一般在“我的电脑”点右键,查看“属性”→“系统类型”,如果提示是64位的则就是64位。后面安装python时需要安装对应的64位版本(默认选择Windows环境)。。

1.2、安装对应版本的Python。
为方便演示,建议安装与我同样的版本(python-3.7.0-amd64)。访问官网进行下载:https://www.python.org/downloads/windows/ . 选择对应的程序版本。

注意:Windows XP版本及以前版本可能不被支持。

1.3、安装Anaconda3(可选)。
Anaconda是免费开源的Python的发行版本,用于计算科学(数据科学、机器学习、大数据处理和预测分析),Anaconda致力于简化包管理和部署。Anaconda包使用软件包管理系统Conda进行管理。建议下载安装与我同样的版本(Anaconda3-2019.10-Windows-x86_64), 在官网的下载地址为:https://docs.anaconda.com/anaconda/install/hashes/win-3-64/

1.4、安装百度模块
在命令CMD界面安装百度AI模块,进行OCR发票识别的关键模块,务必安装成功。点击 开始 菜单→运行→输入cmd→输入命令:

pip install baidu-aip

或:

pip3 install baidu-aip

没有出现错误消息提示就是好消息。如出现错误消息需要仔细检查错误提示的内容。通常是输入命令时输入错误,改正重输入即可。

1.5、在CMD界面安装urllib3,这是为了后续进行模组的导入作准备。

pip3 install urllib3

二、申请API

2.1、在百度大脑中创建应用 打开https://ai.baidu.com/ 使用百度账号登录进入控制台。选择最左边的“图像识别”菜单。选择:创建应用

 

应用名称:自已取一个好记的名字。
应用类型:建议选择学习办公

点开“文字识别”图谱,按需求进行选择。比如选择:通用票据识别、iOCR通用版、增值税发票识别、火车票识别、iOCR财会版。最后在“应用描述”中进一步对项目计划和构想进行描述。

2.2、在应用列表查看刚刚创建的应用,查看详情。复制保存创建应用所分配到的API Key及Secret Key,为后续进行Access Token(用户身份验证和授权的凭证)作准备。

三、识别

编写代码一般会用到专用编辑器。相对来说,支持Python的编辑器很多。最简单的可以使用Windows系统自带的记事本。推荐刚开始使用Python自带的编辑器,等待熟悉之后可以安装功能更丰富的编辑器,比如VS Code。

以Python自带编辑器为例演示部分代码(详细代码见文章末尾),打开开始菜单中的Python 3.7文件夹,使用安装的Python程序的IDLE打开“File”菜单,再新建文件“New File”。

3.1、引用导入必要的模块:

import urllib import base64 import json

3.2、获取从上述创建百度应用所取得的API Key及Secret Key,引用到下列程序行’ ’中(注意是在英文状态下)。把API Key填写到client_id(替换xxxxxxxxxxxxxxx),把Secret Key填写到client_secret(替换xxxxxxxxxxxxxxx)

client_id = 'xxxxxxxxxxxxxxx'client_secret = ' xxxxxxxxxxxxxxx'

3.3、获取access_token

按官网公布的接口方式,需要向https://aip.baidubce.com/rest/2.0/ocr/发送请求。比如:

def get_token():
    host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + \
        client_id + '&client_secret=' + client_secret
    request = urllib.request.Request(host)
    request.add_header('Content-Type', 'application/json; charset=UTF-8')
    response = urllib.request.urlopen(request)
    token_content = response.read()
    if token_content:
        token_info = json.loads(token_content.decode("utf-8"))
        token_key = token_info['access_token']
    return token_key

3.4、读入图片,并参考官网https://ai.baidu.com/ai-doc/OCR/nk3h7xy2t关于增值税发票识别的接口描述。

测试的增值税专用发票图片(来源于网络),假设图片文件名为testin

执行程序代码(在程序编辑器中点击Run→Run Module或者直接按F5),对测试的增值税专用发票图片进行自动读取,并返回增值税发票数据。程序执行的效果如下:

比较增值税专用发票图片中的购买方名称、纳税人识别号,销售方的名称、纳税人识别号,以及采购的货物名称、数量、单价、金额均准确的识别(发票中如果想再提取其他信息只需对照百度提供的接口即可)。

在实际测试过程中,还是会存在图像模糊,清晰度不高、生僻字造成文字识别不准确的情况。但就日常工作使用却已经超过预期。

值得说明的是,得到的数据格式是json格式,方便进行数据交换。当然得到的数据还可以通过程序代码输出为Excel格式。后继如果有空,再与大家交流如何导入Excel进行数据交换。

 

想使用完整的程序代码实现自己的增值税发票识别,请关注我的微信公众号:注册会计狮,并且在公众号对话框中发送:增值税发票识别

 

参考文档:

1、https://ai.baidu.com/ai-doc/OCR/nk3h7xy2t

2、https://ai.baidu.com/ai-doc/OCR/3k3h7yeqa

3、https://ai.baidu.com/ai-doc/OCR/yk3h7y9u3

4、https://ai.baidu.com/forum/topic/show/943375

5、https://ai.baidu.com/tech/ocr/iocr_finance


暗光所有 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:模拟德勤财务机器人发票识别T0020
喜欢 (0)

您必须 登录 才能发表评论!