牜燚的博客 | Ny's Blog

Python 自动化：python-pptx 批量生成幻灯片

同步 CSDN 博文

需求分析最近遇到了制作 PPT 报告的任务，前期收集整理后的表格数据长这样：随后要基于上述数据制作 PPT 报告，几十页的幻灯片都是下图的格式： Well, my coding fingers got quite itchy. 这种繁琐的手动制作幻灯片还是交给 Python 来自动完成吧！Python 中已有第三方库很好地支持 PowerPoint ！ python-ppt...

Posted by Newyee on April 5, 2020

Python 自动化：python-docx 比对 Word 文档与 Excel 表格

同步 CSDN 博文

应用场景小明的老师要打印学生成绩单，于是制作了一份 Word 文档，每个学生的成绩单为一个表格，如下图所示：但是核对 Excel 中的成绩时发现存在一些错误，比如小明的班级、小霞的数学成绩：每个学生（逐行）每个字段（逐列）比对了一番苦不堪言，那我们可不可以用 Python来帮帮老师呢？作为无所不能的 Python 大法，这自然不在话下！下面便介绍如何用 python...

Posted by Newyee on March 8, 2020

Python 数据可视化：【拉勾网】职位信息数据分析与可视化绘图

同步 CSDN 博文

笔者爬取了【拉勾网】17 个城市的 1600+ 个【数据分析】岗位进行分析并绘图展示，尝试探索该岗位当前市场状况。 ps.目标城市主要挑选的是排名靠前的互联网城市，剔除了个别职位数只有一两个的城市。数据摘要 1 2 3 4 import pandas as pd df_all = pd.read_csv(file, encoding='utf-8') print(df_all...

Posted by Newyee on June 23, 2019

Python 爬虫：Scrapy 框架入门初探【 Xpath 改写】

同步 CSDN 博文

Scrapy 是一种用于抓取网站和提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘、信息处理或历史存档等。安装 Scrapy 从 PyPI 安装： 1 pip install Scrapy 使用 Anaconda 或 Miniconda 安装： 1 conda install -c conda-forge scrapy 安装后可在命令行查看是否成功： 1 2 ...

Posted by Newyee on May 5, 2019

Python 爬虫提速：【多进程、多线程、协程+异步】对比测试

同步 CSDN 博文

概念介绍首先简单介绍几个概念：进程和线程进程就是一个程序在一个数据集上的一次动态执行过程（数据集是程序在执行过程中所需要使用的资源）。线程也叫轻量级进程，它是一个基本的 CPU 执行单元，是比进程更小的能独立运行的基本单位。进程和线程的关系：一个线程只能属于一个进程，而一个进程可以有多个线程...

Posted by Newyee on April 28, 2019

Python 小工具：调用「百度翻译 API」实现英汉互译及多语言翻译

同步 CSDN 博文

官方 Demo 是 Python 2 版本的，笔者基于 Python 3 实现，并简化请求翻译结果的过程、扩展功能前段时间写的小脚本，得空整理一下和大家交流学习 API 简介什么是百度翻译开放平台？百度翻译开放平台是百度翻译面向广大开发者提供开放服务的平台。服务涵盖：通用翻译API、定制化翻译API、语音翻译SDK、拍照翻译SDK等，并持续更新中。通用翻译 AP...

Posted by Newyee on April 18, 2019

Python 爬虫：爬取「网易」科技文章存入 MySQL 数据库

同步 CSDN 博文

第一篇博客里答应的，第二篇会用 pymysql 直接将数据存入 MySQL 数据库。代码部分只注释了数据库操作的部分，爬虫部分有时间会补上。网易科技频道以独特视角呈现科技圈内大事小事，内容包括互联网、IT业界、通信、趋势、科技访谈等。下面以网易科技-智能首页为例，爬取文章的【链接–标题–发布时间–作者来源–具体内容】等信息并存入MySQL：网页分析按【F12】键...

Posted by Newyee on April 12, 2019

Python 爬虫：用 Selenium 反反爬免登录获取「拉勾网」全部职位详情

同步 CSDN 博文

需求描述抓取「拉勾网」『北京数据分析师』30页职位详情数据存入 MySQL 数据库需求分析拉勾网搜索页面一般都只展示30页、每页15个职位信息，约450条；拉勾网反爬加强，直接请求 positionAjax.json 无法获得包含职位信息的 json 数据（提示：”msg”:”您操作太频繁,请稍后再访问”），浏览器都无法访问，延长间隔时间也无济于事，转而考虑 sele...

Posted by Newyee on April 11, 2019

ABOUT ME

Newyee's Blog

Python 自动化：python-pptx 批量生成幻灯片

同步 CSDN 博文

Python 自动化：python-docx 比对 Word 文档与 Excel 表格

同步 CSDN 博文

Python 数据可视化：【拉勾网】职位信息数据分析与可视化绘图

同步 CSDN 博文

Python 爬虫：Scrapy 框架入门初探【 Xpath 改写】

同步 CSDN 博文

Python 爬虫提速：【多进程、多线程、协程+异步】对比测试

同步 CSDN 博文

Python 小工具：调用「百度翻译 API」实现英汉互译及多语言翻译

同步 CSDN 博文

Python 爬虫：爬取「网易」科技文章存入 MySQL 数据库

同步 CSDN 博文

Python 爬虫：用 Selenium 反反爬免登录获取「拉勾网」全部职位详情

同步 CSDN 博文

FEATURED TAGS

FRIENDS

Python 自动化：python-pptx 批量生成幻灯片

同步 CSDN 博文

Python 自动化：python-docx 比对 Word 文档与 Excel 表格

同步 CSDN 博文

Python 数据可视化：【拉勾网】职位信息数据分析与可视化绘图

同步 CSDN 博文

Python 爬虫：Scrapy 框架入门初探【 Xpath 改写】

同步 CSDN 博文

Python 爬虫提速：【多进程、多线程、协程+异步】对比测试

同步 CSDN 博文

Python 小工具：调用「百度翻译 API」实现英汉互译及多语言翻译

同步 CSDN 博文

Python 爬虫：爬取「网易」科技文章存入 MySQL 数据库

同步 CSDN 博文

Python 爬虫：用 Selenium 反反爬 免登录获取「拉勾网」全部职位详情

同步 CSDN 博文

FEATURED TAGS

ABOUT ME

FRIENDS

Python 爬虫：用 Selenium 反反爬免登录获取「拉勾网」全部职位详情