13.2 htmllib -- Analizador de documentos HTML

Este módulo define una clase que puede servir de base para analizar ficheros de texto en Lenguaje de marcas de hipertexto (HyperText Mark-up Language, HTML). La clase no se ocupa directamente de la E/S, sino que se ha de proporcionar su entrada en forma de cadena, por medio de un método, y realiza llamadas a un método de un objeto ``formateador'' para producir salida. la clase HTMLParser está diseñada para utilizarse como clase base de otras clases con vistas a obtener funcionalidad añadida, por lo que permite que la mayoría de sus métodos sean extendidos o redefinidos. A su vez, esta clase se deriva de, y extiende, la clase SGMLParser definida en el módulo sgmllib. La implementación de HTMLParser reconoce el lenguaje HTML 2.0 según se describe en RFC 1866. Se proporcionan dos interfaces de los objetos formateadores en el módulo formatter. Consúltese la documentación de dicho módulo para obtener información sobre la interfaz de formateador.

A continuación se muestra un resumen de la interfaz definida por sgmllib.SGMLParser:

El módulo define una sola clase:

HTMLParser (formatter)
Ésta es la clase analizadora de HTML básica. Da soporte a todos los nombres de entidad exigidos por la especificación HTML 2.0 (RFC 1866). También define gestores de todos los elementos de HTML 2.0 y algunos de HTML 3.0 y 3.2.

Más informació en:

Module htmlentitydefs:
Definición de texto de reemplazo de entidades HTML 2.0.
Module sgmllib:
Clase base para HTMLParser.


Subsections

Ver Sobre este documento... para obtener información sobre sugerencias.