腹黑哥哥控妹记百度云:提取html标记

来源:百度文库 编辑:神马品牌网 时间:2024/04/28 20:20:09
如何从一段html代码中提取出html标记和网页的内容?
用C++实现。

把所有html标签放到一个数组里,逐行分析html代码,
寻找其中的< 和 >,把其中的内容在保存html标签的数组
中检索,有那就是html标签,否则就是网页内容。

符合XML语法的xhtml可以用DOM接口提取出标记和网页内容