python爬虫问题,处理html网页的数据

 关闭 [复制链接]
作者: 白玉 | 时间: 2021-1-15 16:25:48 | 已解决|
2 296
结帖率:100% (1/1)
发表于 2021-1-15 16:25:48| 显示全部楼层 |阅读模式
5金币
对python爬虫不是很懂,现有html网页文件
[HTML] 纯文本查看 复制代码
<li><a href="/kegg-bin/show_pathway?14245484684/hsa01100.args" target="_blank">hsa01100</a> 
Met**lic pathways - Homo sapiens  (<a href="javascript:display('hsa0118')">58</a>)
<li>

请问如何提取"/kegg-bin/show_pathway?14245484684/hsa01100.args","hsa0118","Met**lic pathways - Homo sapiens ","58"这四个呢?谢谢

最佳答案

查看完整内容

[mw_shl_code=python,true]import re val = """ hsa01100 Met**lic pathways - Homo sapiens (58) """ ret = re.findall("href=\"(.*?)\" target.*?([\s\S]*?)\(
发表于 2021-1-15 16:25:49| 显示全部楼层


[Python] 纯文本查看 复制代码
import re

val = """
<li><a href="/kegg-bin/show_pathway?14245484684/hsa01100.args" target="_blank">hsa01100</a> 
Met**lic pathways - Homo sapiens  (<a href="javascript:display('hsa0118')">58</a>)
<li>
"""

ret = re.findall("href=\"(.*?)\" target.*?</a>([\s\S]*?)\(<a.*?display\('(.*?)'\)\">(\d+)<", val)
print(ret)

# [('/kegg-bin/show_pathway?14245484684/hsa01100.args', ' \nMet**lic pathways - Homo sapiens  ', 'hsa0118', '58')]
回复

使用道具 举报

发表于 2021-1-21 15:50:39| 显示全部楼层
lxml模块的xpath语法专门解析html网页
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

!jz_fbzt! 快速回复 !jz_sctz! !jz_fhlb! 按钮
快速回复 返回列表 返回顶部