使用Python从HTML文件中提取文本

问题:

我想使用Python从HTML文件中提取文本。如果我从浏览器中复制文本并将其粘贴到记事本中,我本来希望得到相同的输出。
我想要比使用正则表达式更健壮的东西,这些表达式可能会在HTML格式不正确的情况下失败我见过很多人推荐美女汤,但是我用了几个问题。一个,它拾取不需要的文本,如JavaScript源代码。另外,它没有解释HTML实体。例如,我希望在HTML源代码中将文本转换为撇号,就像我将浏览器内容粘贴到记事本中一样。
 更新 html2text看起来很有前途。它正确处理HTML实体并忽略JavaScript。但是,它并不完全是纯文本;它会产生降价,然后必须将其变成纯文本。它没有示例或文档,但代码看起来很干净。
相关问题:

回答:

 html2text是一个很好的Python程序。

 
 
Code问答: http://codewenda.com/topics/python/
Stackoverflow: Extracting text from HTML file using Python

*转载请注明本文链接以及stackoverflow的英文链接

发表评论

电子邮件地址不会被公开。 必填项已用*标注

− 1 = 1