Web信息解析与处理
1
Web 的概念

Web(World Wide Web)即全球广域网,也称为万维网, 它是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。 是建立在Internet上的一种网络服务, 为浏览者在Internet上查找和浏览...

2025-04-15

2
从Web抓取信息

没有 Wi-Fi 才是最可怕的事情,也许这时才意识到,在计算机上所做的事, 有多少实际上是在因特网上做的事。 因为计算机上如此多的工作都与因特网有关,所以如果程序 能上网就太好了。“Web抓取”是一个术语,即利用程序下载并 处理来自 ...

2025-04-15

3
网页抓取

网页抓取是通过程序下载网页并从中提取信息的过程。 这种技术很有用,在网页中有需要在程序中使用的信息时,就可使用它。 当然,如果网页是动态的,即随时间而变化,这就更有用了。 如果网页不是动态的,可手工下载一次并提取其中的信息。 (当然,...

2025-04-21

4
HTML介绍

HTML称为超文本标记语言,是一种标识性的语言。它包括一系列标签. 通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。 HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形...

2025-04-15

5
Python 之使用 CGI 创建动态网页

本节讨论基本的Web编程技术:通用网关接口(CGI)。 CGI是一种标准机制,Web服务器可通过它将(通常是通过Web表达提供的)查询交给专用程序(如编写的Python程序), 并以网页的方式显示查询结果。这是一种创建Web应用的简单...

2025-04-15

6
如何使用 requests 模块从 Web 下载文件

requests 模块很容易从Web下载文件, 不必担心一些复杂的问题,诸如网络错误、 连接问题和数据压缩。 requests 模块不是 Python自带的,所以必须先安装。通过命令行, 运行 pip install requests...

2025-04-29

7
Python Web 框架的应用

对于重要的Web应用,大多数人都不会直接为其编写CGI脚本, 而是选择使用Web框架,因为它会代替完成很多繁重的工作。 这样的框架有很多,后面将提及其中的几个, 但现在要将注意力放在既简单又有用的Flask(http://flask....

2025-04-29

8
如何将下载的文件保存到硬盘

标准的 open() 函数和 write() 方法,可以将Web页面保存到硬盘中的一个文件。 但是,这里稍稍有一点不同。 首先,必须用“写二进制”模式打开该文件,即向函数传入字符串 'wb' ,作为 open() 的第二参数。 即使该...

2025-04-29

9
HTML 基础知识

在拆解网页之前,需要学习一些 HTML 的基本知识。 同时也会看到如何利用Web浏览器的强大开发者工具, 它们使得从Web抓取信息更容易。 超文本标记语言(HTML)是编写Web页面的格式。 本章假定大家对HTML有一些基本经验,但如...

2025-04-15

10
Web 服务 - 更高级的抓取

Web服务有点像对计算机友好的网页。 它们基于让程序能够通过网络交换信息的标准和协议,通常其中一个程序请求信息或服务(客户端或服务请求者), 而另一个程序提供信息或 服务(服务器或服务提供者)。 确实,Web服务器很容易理解,而且看起...

2025-04-15

11
网页信息获取与解析

大数据的时代信息已近覆盖了社会体系中的各行各业, 大数据是指在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合, 需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 要对网页信息...

2025-04-15

12
Web页面解析

HTML 文档本身是结构化的文本,有一定的规则,通过它的结构可以简化信息提取。 于是,就有了lxml、pyquery、BeautifulSoup等网页信息提取库。 一般会用这些库来提取网页信息。 其中,lxml 有很高的解析效率,支持...

2025-04-15

13
用 BeautifulSoup 模块解析 HTML

BeautifUl Soup 是一个模块,用于从 HTML 页面中提取信息(用于这个目的时,它比正则表达式好很多)。 BeautifUlSoup 模块的名称是 bs4 (表示 Beautiful Soup ,第4版)。 要安装它,需要...

2025-04-15

14
简单的 Python 爬虫

爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为, 把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地, 进...

2025-04-15

阅读使用手册


平台的登录与使用,请参考 《用户使用手册》


注册用户账号


若尚未开通科学计算平台使用权限,请 注册用户账号


登陆


第三方账号登录




介绍

为了方便学习Python语言,基于Jupyter技术栈搭建了在线计算环境。 用户使用时以网页形式打开,对照书中内容进行学习,在线编写代码和运行代码,代码的运行结果也会直接显示。如在编程过程中需要编写说明文档,可在同一个页面直接编写,便于作及时的说明和解释。

在数据科学、机器学习及深度学习的领域里,Jupyter是一个强大的工具,它集成了代码编写、可视化展示、文档记录等多种功能于一体,让科学计算变得既直观又高效。 随着数据科学和人工智能领域的不断发展,Jupyter 也在不断更新和完善其功能和性 能。 未来可以期待看到更多创新的特性和工具被加入到 Jupyter 中,从而进一步推动科学计算和数据分析的发展。





平台内核

目前平台提供配置好的计算时内核供运行使用。后期会根据需求增加公用内核及内核中的默认类库。 相关语言运行环境与类库一般由 Conda 库提供最新版本。

  • Python 3.11 [系统]
  • Python 3.12 [Conda]
  • R 4.4 [Conda]


注意事项

  • 平台使用Jupyter技术搭建,登陆认证使用本系统的注册账号。
  • 使用提供一定数量的硬盘空间存储供用户使用。目前限制为 500M 。
Copyright © 立方智算 Since 2025. 工信部ICP备案:吉ICP备2025024314号