Python HTMLParser模块解析html获取url实例

云南公布第二批免费向社会提供信息技术服务企业名单中国互联网企业赴美上市规模预计今年或减半【滇企复工进行时】蓝队云：未雨绸缪，危机之下必有机遇搜狐、腾讯、迅雷等一批互联网公司涉黄被罚5万他们失败的辛酸血泪史：亿唐网、博客中国、酷6网、饭否

帮助中心 > 技术知识库 > 数据库 > 相关技术支持 > Python HTMLParser模块解析html获取url实例

Python HTMLParser模块解析html获取url实例

2017-08-21 21:08:15 6837

HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等，是一种处理html的简便途径。HTMLParser采用的是一种事件驱动的模式，当HTMLParser找到一个特定的标记时，它会去调用一个用户定义的函数，以此来通知程序处理。它主要的用户回调函数的命名都是以handler_开头的，都是HTMLParser的成员函数。当我们使用时，就从HTMLParser派生出新的类，然后重新定义这几个以handler_开头的函数即可。这几个函数包括：

handle_startendtag 处理开始标签和结束标签
handle_starttag     处理开始标签，比如<xx>
handle_endtag       处理结束标签，比如</xx>
handle_charref      处理特殊字符串，就是以&#开头的，一般是内码表示的字符
handle_entityref    处理一些特殊字符，以&开头的，比如
handle_data         处理数据，就是<xx>data</xx>中间的那些数据
handle_comment      处理注释
handle_decl         处理<!开头的，比如<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
handle_pi           处理形如<?instruction>的东西

这里我以从网页中获取到url为例，介绍一下。要想获取到url，肯定是要分析<a>标签，然后取到它的href属性的值。下面是代码：

#-*- encoding: gb2312 -*-
import HTMLParser
 
class MyParser(HTMLParser.HTMLParser):
  def __init__(self):
    HTMLParser.HTMLParser.__init__(self)   
     
  def handle_starttag(self, tag, attrs):
    # 这里重新定义了处理开始标签的函数
    if tag == 'a':
      # 判断标签<a>的属性
      for name,value in attrs:
        if name == 'href':
          print value
     
 
if __name__ == '__main__':
  a = '<html><head><title>test</title><body><a href="http://www.landui.com">链接到163</a></body></html>'
   
  my = MyParser()
  # 传入要分析的数据，是html的。
  my.feed(a)

上一篇：CentOS下使用yum安装python-pip失败的完美解决方法
下一篇：href和src、link和@import的区别详解

售前咨询

售前咨询服务时间：09:00-23:30

售前值班
4006-75-4006

咨询热线：

4006-75-4006（09:00-23:30）
0871-6388 6388 （总机）（工作日 09:00-18:00）

您可能遇到了下面的问题：
云服务器问题对象存储计费域名注册指南
售后咨询

售后咨询服务时间：00:00-24:00

24H值班技术
4006-75-4006

投诉与建议 最快响应10分钟

您可能遇到了下面的问题：
云服务器教程远程登陆问题 FTP上传问题其他问题查询
备案咨询

备案咨询服务时间：09:00-18:00（工作日）

备案专业客服
0871-6388 6388

您可能遇到了下面的问题：
备案所需材料提交备案流程关于幕布申请备案服务指引
电话

0871-6388 6388 （总机）
工单
二维码
TOP

相关文章

Python HTMLParser模块解析html获取url实例

非常抱歉未能帮助到您。为了给您提供更好的服务，我们很需要您进一步的反馈信息：

在文档使用中是否遇到以下问题：

Copyright © 2012 - 2025 LanDui.com. All RightsReserved.　蓝队云版权所有

关于蓝队云

蓝队云产品

服务与支持

快速通道

售前咨询服务时间：09:00-23:30

咨询热线：

您可能遇到了下面的问题：

售后咨询服务时间：00:00-24:00

您可能遇到了下面的问题：

备案咨询服务时间：09:00-18:00（工作日）

您可能遇到了下面的问题：

相关文章

Python HTMLParser模块解析html获取url实例

非常抱歉未能帮助到您。为了给您提供更好的服务，我们很需要您进一步的反馈信息：

在文档使用中是否遇到以下问题：

请选择找回账号返回>

Copyright © 2012 - 2025 LanDui.com. All RightsReserved. 蓝队云 版权所有

关于蓝队云

蓝队云产品

服务与支持

快速通道

售前咨询服务时间：09:00-23:30

咨询热线：

您可能遇到了下面的问题：

售后咨询服务时间：00:00-24:00

您可能遇到了下面的问题：

备案咨询服务时间：09:00-18:00（工作日）

您可能遇到了下面的问题：

Copyright © 2012 - 2025 LanDui.com. All RightsReserved.　蓝队云版权所有