Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库
本篇文章使用 Python3+版本,Beautiful Soup4.4版本
CSS选择器
Beautiful Soup支持大部分的CSS选择器。
使用方法:
soup.select( CSS选择器 )
示例:
这里我们使用: https://bbs.266.la/ 首页进行测试
获取公告的标题信息
- 实现方法:使用requests库获取网页源码,然后使用Beautiful Soup进行解析,得到用户名。
分析网页,可以使用带有谷歌调试内核的浏览器,获取到选择器。如图:
复制下来选择器。
然后开始编写Python代码:
#coding:utf-8
import requests
from bs4 import BeautifulSoup
req = requests.session().get("https://bbs.266.la/")
Content = req.content.decode("utf-8") #网站UTF-8解码
Soup = BeautifulSoup(Content,"html.parser") # 使用Python自带【html.parser】解析器
resultSet = Soup.select("#ancl > li > span > a > font")
print (resultSet[0].string)
欢迎朋友们来到Python社区~
|