HTML 清洗

区分 HTML 和 XML

网页不规范,有多个 标签,浏览器可以解析,但是 lxml 不可以解析。case:http://ggzyjy.quanzhou.gov.cn/govProcurement/govProcurementDetail.do?bltId=178813&centerId=-1

处理 html entity

及时获取更新,请关注公众号“爬虫技术学习(spider-learn)”

公众号“爬虫技术学习(spider-learn)”

About 逸飞

后端工程师

发表评论

电子邮件地址不会被公开。 必填项已用*标注