Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
文章
63
分类
4
标签
37
历史归档
文章分类
文章标签
Github
About Me
友链
开往
技术分享
🐞
网络爬虫库学习笔记
发布于: 2024-8-26
最后更新: 2024-12-16
次查看
爬虫
Tools
目录
0%
1) 爬虫第一步网络请求
一.urllbi库
1.urlopen
2.urlretrieve
3.urlencode
4.parse_qs
5.urlparse & urlsplit
6.request.Request类
7.ProxyHandler处理器(代理设置)
8.Cookie
9.http.CookieJar模块
二. requests库
1. 发送get请求:
2. 发送post请求:
3. 加入代理机制:
4. 关于session
5. 处理不信任的SSL证书
2)爬虫第二步数据解析
XPath语法:
1. 选取节点:
2. 谓点
3.通配符
4.选取多个路径
summary:
lxml库
1. 基本使用:
2. 解析html文件
3.xpath实战之豆瓣
4.xpath实战之电影天堂
BeautifulSoup4
1. 四个常用的对象:
2. find & find_all
3.string,strings,stripped_strings,get_test
CssSelect方法
正则表达式 python re 库
匹配单个字符
匹配多个字符
小案例
零碎知识
正则实战爬取古诗网
3)爬虫第三步数据储存
json文件处理
CSV文件处理
SimonSun
Internet Malou, LLM Rookie, Bug Maker🤧
文章
63
分类
4
标签
37
最新发布
读A.I. Should Elevate Your Thinking, Not Replace It 有感
2026-5-9
vibecoding skill 集合使用历程记录
2026-5-9
创业灵感挖掘与验证指南
2026-5-9
VLM
2026-5-9
vibe coding for 前端心路历程
2026-5-7
vibe coding 一年小结
2026-4-15
公告
🙌README🙌
🤯There is nothing left
in my right brain,
🤯and there is nothing right
in my left brain...
⭐I wish you every success⭐
目录
0%
1) 爬虫第一步网络请求
一.urllbi库
1.urlopen
2.urlretrieve
3.urlencode
4.parse_qs
5.urlparse & urlsplit
6.request.Request类
7.ProxyHandler处理器(代理设置)
8.Cookie
9.http.CookieJar模块
二. requests库
1. 发送get请求:
2. 发送post请求:
3. 加入代理机制:
4. 关于session
5. 处理不信任的SSL证书
2)爬虫第二步数据解析
XPath语法:
1. 选取节点:
2. 谓点
3.通配符
4.选取多个路径
summary:
lxml库
1. 基本使用:
2. 解析html文件
3.xpath实战之豆瓣
4.xpath实战之电影天堂
BeautifulSoup4
1. 四个常用的对象:
2. find & find_all
3.string,strings,stripped_strings,get_test
CssSelect方法
正则表达式 python re 库
匹配单个字符
匹配多个字符
小案例
零碎知识
正则实战爬取古诗网
3)爬虫第三步数据储存
json文件处理
CSV文件处理