Newyee's Blog

我干了什么 究竟拿了时间换了什么

Python 自动化:python-pptx 批量生成幻灯片

同步 CSDN 博文

需求分析 最近遇到了制作 PPT 报告的任务,前期收集整理后的表格数据长这样: 随后要基于上述数据制作 PPT 报告,几十页的幻灯片都是下图的格式: Well, my coding fingers got quite itchy. 这种繁琐的手动制作幻灯片还是交给 Python 来自动完成吧!Python 中已有第三方库很好地支持 PowerPoint ! python-ppt...

Python 自动化:python-docx 比对 Word 文档与 Excel 表格

同步 CSDN 博文

应用场景 小明的老师要打印学生成绩单,于是制作了一份 Word 文档,每个学生的成绩单为一个表格,如下图所示: 但是核对 Excel 中的成绩时发现存在一些错误,比如小明的班级、小霞的数学成绩: 每个学生(逐行)每个字段(逐列)比对了一番苦不堪言,那我们可不可以用 Python来帮帮老师呢? 作为无所不能的 Python 大法,这自然不在话下! 下面便介绍如何用 python...

Python 数据可视化:【拉勾网】职位信息数据分析与可视化绘图

同步 CSDN 博文

笔者爬取了【拉勾网】17 个城市的 1600+ 个【数据分析】岗位进行分析并绘图展示,尝试探索该岗位当前市场状况。 ps.目标城市主要挑选的是排名靠前的互联网城市,剔除了个别职位数只有一两个的城市。 数据摘要 1 2 3 4 import pandas as pd df_all = pd.read_csv(file, encoding='utf-8') print(df_all...

Python 爬虫:Scrapy 框架入门初探【 Xpath 改写】

同步 CSDN 博文

Scrapy 是一种用于抓取网站和提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘、信息处理或历史存档等。 安装 Scrapy 从 PyPI 安装: 1 pip install Scrapy 使用 Anaconda 或 Miniconda 安装: 1 conda install -c conda-forge scrapy 安装后可在命令行查看是否成功: 1 2 ...

Python 爬虫提速:【多进程、多线程、协程+异步】对比测试

同步 CSDN 博文

概念介绍 首先简单介绍几个概念: 进程和线程 进程就是一个程序在一个数据集上的一次动态执行过程(数据集是程序在执行过程中所需要使用的资源)。 线程也叫轻量级进程,它是一个基本的 CPU 执行单元,是比进程更小的能独立运行的基本单位。 进程和线程的关系: 一个线程只能属于一个进程,而一个进程可以有多个线程...

Python 小工具:调用「百度翻译 API」实现英汉互译及多语言翻译

同步 CSDN 博文

官方 Demo 是 Python 2 版本的,笔者基于 Python 3 实现,并简化请求翻译结果的过程、扩展功能 前段时间写的小脚本,得空整理一下和大家交流学习 API 简介 什么是百度翻译开放平台? 百度翻译开放平台是百度翻译面向广大开发者提供开放服务的平台。服务涵盖:通用翻译API、定制化翻译API、语音翻译SDK、拍照翻译SDK等,并持续更新中。 通用翻译 AP...

Python 爬虫:爬取「网易」科技文章存入 MySQL 数据库

同步 CSDN 博文

第一篇博客里答应的,第二篇会用 pymysql 直接将数据存入 MySQL 数据库。 代码部分只注释了数据库操作的部分,爬虫部分有时间会补上。 网易科技频道 以独特视角呈现科技圈内大事小事,内容包括互联网、IT业界、通信、趋势、科技访谈等。 下面以 网易科技-智能 首页为例,爬取文章的【链接–标题–发布时间–作者来源–具体内容】等信息并存入MySQL: 网页分析 按【F12】键...

Python 爬虫:用 Selenium 反反爬 免登录获取「拉勾网」全部职位详情

同步 CSDN 博文

需求描述 抓取「拉勾网」『北京 数据分析师』30页职位详情数据存入 MySQL 数据库 需求分析 拉勾网搜索页面一般都只展示30页、每页15个职位信息,约450条; 拉勾网反爬加强,直接请求 positionAjax.json 无法获得包含职位信息的 json 数据(提示:”msg”:”您操作太频繁,请稍后再访问”),浏览器都无法访问,延长间隔时间也无济于事,转而考虑 sele...