Web 的应用触及到了我们身边的每一处地方,衣食住行哪个都离不开他,本章的内容会让大家更好的了解一个什么是web,都在哪里。 HTML 是一种文本标识语言,后来出现了 XML ,则将 HTML 认为是 XML 的一个子集。 这样,在程序处理中,一种模型则将其视为节点,而不是标签/属性。
Web 信息解析与处理是指从互联网上获取网页内容,并从中提取、分析和处理有价值信息的一系列技术。 这项技术是大数据时代信息采集和知识挖掘的基础环节,广泛应用于搜索引擎、舆情监测、商业智能、学术研究等领域。
基本流程:
- 网页获取:通过HTTP/HTTPS协议下载网页内容, 使用请求库(如requests)模拟浏览器访问,处理反爬机制(验证码、IP限制等), 遵守robots.txt协议和网站使用条款。
- 内容解析:从HTML/XML/JSON等格式中提取结构化数据, 使用解析库(如BeautifulSoup、lxml)处理HTML, XPath和CSS选择器定位元素, 正则表达式匹配特定模式文本。
- 数据清洗:对提取的原始数据进行规范化处理, 去除HTML标签、空白字符等噪声, 处理编码问题(如UTF-8、GBK转换), 数据格式标准化(日期、货币等)。
- 信息存储:将处理后的数据持久化保存, 关系型数据库(MySQL、PostgreSQL), NoSQL数据库(MongoDB、Redis), 文件存储(CSV、JSON、Excel)。
- 分析与应用:基于提取数据进行进一步处理, 文本挖掘(关键词提取、情感分析), 数据可视化,构建知识图谱。