Este módulo define una clase que puede servir de base para analizar ficheros de texto en Lenguaje de marcas de hipertexto (HyperText Mark-up Language, HTML). La clase no se ocupa directamente de la E/S, sino que se ha de proporcionar su entrada en forma de cadena, por medio de un método, y realiza llamadas a un método de un objeto ``formateador'' para producir salida. la clase HTMLParser está diseñada para utilizarse como clase base de otras clases con vistas a obtener funcionalidad añadida, por lo que permite que la mayoría de sus métodos sean extendidos o redefinidos. A su vez, esta clase se deriva de, y extiende, la clase SGMLParser definida en el módulo sgmllib. La implementación de HTMLParser reconoce el lenguaje HTML 2.0 según se describe en RFC 1866. Se proporcionan dos interfaces de los objetos formateadores en el módulo formatter. Consúltese la documentación de dicho módulo para obtener información sobre la interfaz de formateador.
A continuación se muestra un resumen de la interfaz definida por sgmllib.SGMLParser:
Por ejemplo, para analizar el contenido completo de un fichero, se puede usar:º
parser.feed(open('mifichero.html').read()) parser.close()
<tag ...>
; se llama a end_tag() al encontrar
una etiqueta de cierre <tag>
. Si una etiqueta de apertura
espera una etiqueta de cierre, como <H1>
... </H1>
,
la clase debe definir el método start_tag().
Si una etiqueta no exige una etiqueta de cierre, como <P>
,
la clase debe definir el método do_tag().
El módulo define una sola clase:
Más informació en: