博客
关于我
一个薪资double的捷径:自动化简历内推工具
阅读量:557 次
发布时间:2019-03-09

本文共 4955 字,大约阅读时间需要 16 分钟。

最近,小编在处理简历时,发现大量简历需要一个个打开文件,复制姓名、邮箱、电话号码、学历等关键信息,效率特别低且部分文件无法直接复制。于是,小编便写了文件阅读工具的脚本,支持文件格式有:doc,docx,pdf

通过脚本自动匹配各种简历的文件格式,并解析出用户名、邮箱、电话号码、学历等关键信息。然后调用企业微信,使用正则过滤简历,使用request一键内推到企微。

ps. 上月战绩,内推400+人,内推成功8人,入职5人,收米8000*2+5000*3=31000。

{'感谢您的投递': 331, '简历处理中': 19, '简历初筛': 5, '本轮通过': 6, 'Offer已发放': 1, '进行中': 2, '拒绝Offer': 3, '接受Offer': 5} 

 

脚本功能:提取简历文本

输入:要解析的文件路径

输出:解析的内容,包括不限于姓名、邮箱、电话号码、学历等信息。

环境:python 3.6 、mac(doc转docx是mac写法,windows更简单,导入win32的包即可)

 

第一步:需要导入的包

# encoding: utf-8import os, sysimport docxfrom pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregator

第二步:读文件

def get_files(path):    res = []    for i in os.listdir(path):        # 去掉临时文件        if os.path.isfile(path+i) and '~$' not in i and '.DS' not in i:            # 去重 1.doc 和 1.docx            if (path+i).split(".")[0] not in str(res):                res.append(path+i)    return res

第三步:读PDF,得到res文本后,可以通过正则,匹配出邮箱,手机号,学历等

def pdf_reader(file):    fp = open(file, "rb")    # 创建一个与文档相关联的解释器    parser = PDFParser(fp)    # PDF文档对象    doc = PDFDocument(parser)    # 链接解释器和文档对象    parser.set_document(doc)    # doc.set_paeser(parser)    # 初始化文档    # doc.initialize("")    # 创建PDF资源管理器    resource = PDFResourceManager()    # 参数分析器    laparam = LAParams()    # 创建一个聚合器    device = PDFPageAggregator(resource, laparams=laparam)    # 创建PDF页面解释器    interpreter = PDFPageInterpreter(resource, device)    # 使用文档对象得到页面集合    res = ''    for page in PDFPage.create_pages(doc):        # 使用页面解释器来读取        interpreter.process_page(page)        # 使用聚合器来获取内容        layout = device.get_result()        for out in layout:            if hasattr(out, "get_text"):                res = res + '' + out.get_text()    return res

第四步:读word格式文件。待优化:word中如果包含execl,暂时读不出来。

def word_reader(file):    try:        # docx 直接读        if 'docx' in file:            res = ''            f = docx.Document(file)            for para in f.paragraphs:                res = res + '\n' +para.text        else:            # 先转格式doc>docx            os.system("textutil -convert docx '%s'"%file)            word_reader(file+'x')            res = ''            f = docx.Document(file+'x')            for para in f.paragraphs:                res = res + '\n' +para.text        return res    except:        # print(file, 'read failed')        return ''

完整代码

# encoding: utf-8import os, sysimport docxfrom pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregatordef get_files(path):    res = []    for i in os.listdir(path):        # 去掉临时文件        if os.path.isfile(path+i) and '~$' not in i and '.DS' not in i:            # 去重 1.doc 和 1.docx            if (path+i).split(".")[0] not in str(res):                res.append(path+i)    return resdef pdf_reader(file):    fp = open(file, "rb")    # 创建一个与文档相关联的解释器    parser = PDFParser(fp)    # PDF文档对象    doc = PDFDocument(parser)    # 链接解释器和文档对象    parser.set_document(doc)    # doc.set_paeser(parser)    # 初始化文档    # doc.initialize("")    # 创建PDF资源管理器    resource = PDFResourceManager()    # 参数分析器    laparam = LAParams()    # 创建一个聚合器    device = PDFPageAggregator(resource, laparams=laparam)    # 创建PDF页面解释器    interpreter = PDFPageInterpreter(resource, device)    # 使用文档对象得到页面集合    res = ''    for page in PDFPage.create_pages(doc):        # 使用页面解释器来读取        interpreter.process_page(page)        # 使用聚合器来获取内容        layout = device.get_result()        for out in layout:            if hasattr(out, "get_text"):                res = res + '' + out.get_text()    return resdef word_reader(file):    try:        # docx 直接读        if 'docx' in file:            res = ''            f = docx.Document(file)            for para in f.paragraphs:                res = res + '\n' +para.text        else:            # 先转格式doc>docx            os.system("textutil -convert docx '%s'"%file)            word_reader(file+'x')            res = ''            f = docx.Document(file+'x')            for para in f.paragraphs:                res = res + '\n' +para.text        return res    except:        # print(file, 'read failed')        return ''def file_reader(file):    if 'doc' in file:        res = word_reader(file)    elif 'pdf' in file:        res = pdf_reader(file)    else:        res = '不是doc,也不是pdf,文件格式不支持!'    return resif __name__ == '__main__':    path = "/Users/XXXXX/Mine/XXXXX/"    abs_files = get_files(path)    print(abs_files)    for file in abs_files:        file_text = file_reader(file)        print(file_text)

本期实现:任何格式的简历,解析成文本,便于后续筛选优质简历。

下期揭晓:简历过滤,包括学历,稳定性,年龄,工龄与职级匹配度等,全自动化内推代码。

 

转载地址:http://eodpz.baihongyu.com/

你可能感兴趣的文章
Navicat 设置时间默认值(当前最新时间)
查看>>
navicat 连接远程mysql
查看>>
navicat:2013-Lost connection to MySQL server at ‘reading initial communication packet解决方法
查看>>
Navicate for mysql 数据库设计-数据库分析
查看>>
Navicat下载和破解以及使用
查看>>
Navicat中怎样将SQLServer的表复制到MySql中
查看>>
navicat创建连接 2002-can‘t connect to server on localhost(10061)且mysql服务已启动问题
查看>>
Navicat可视化界面导入SQL文件生成数据库表
查看>>
Navicat向sqlserver中插入数据时提示:当 IDENTITY_INSERT 设置为 OFF 时,不能向表中的标识列插入显式值
查看>>
Navicat因导入的sql文件中时间数据类型有参数而报错的原因(例:datetime(3))
查看>>
Navicat如何连接MySQL
查看>>
navicat导入.sql文件出错2006- MySQLserver has gone away
查看>>
Navicat导入海量Excel数据到数据库(简易介绍)
查看>>
Navicat工具Oracle数据库复制 or 备用、恢复功能(评论都在谈论需要教)
查看>>
Navicat工具中建立数据库索引
查看>>
navicat工具查看MySQL数据库_表占用容量_占用空间是多少MB---Linux工作笔记048
查看>>
navicat怎么导出和导入数据表
查看>>
Navicat怎样同步两个数据库中的表
查看>>
Navicat怎样筛选数据
查看>>
Navicat报错connection is being used
查看>>