理解爬虫原理-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

理解爬虫原理

阅读量：5879 次

发布时间：2019-06-19

本文共 643 字，大约阅读时间需要 2 分钟。

作业来源：

1. 简单说明爬虫原理

互联网就像一张大的蜘蛛网，数据便是存放在蜘蛛网的各个节点，爬虫就像一只蜘蛛，沿着网络抓去自己需要的数据。爬虫：向网站发起请求，获取资源后进行分析并提取有用的数据的程序

2. 理解爬虫开发过程

1).简要说明浏览器工作原理；

用户输入网址，浏览器发送到服务器，浏览器接收到返回的数据后，会解析其内容来显示给用户。

2).使用 requests 库抓取网站数据；

requests.get(url) 获取校园新闻首页html代码

3).了解网页

写一个简单的html文件，包含多个标签，类，id

4).使用 Beautiful Soup 解析网页；

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

select（选择器）定位数据

找出含有特定标签的html元素

找出含有特定类名的html元素

找出含有特定id名的html元素

3.提取一篇校园新闻的标题、发布时间、发布单位、作者、点击次数、内容等信息

如url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

要求发布时间为datetime类型，点击次数为数值型，其它是字符串类型。

标题：

发布时间：

发布单位：

作者：

点击次数：

内容：

转载于:https://www.cnblogs.com/LJNAN/p/10622906.html

你可能感兴趣的文章

CentOS 6.9配置网卡IP/网关/DNS命令详细介绍及一些常用网络配置命令（转）

python基础教程_学习笔记19：标准库：一些最爱——集合、堆和双端队列

C# 解决窗体闪烁

CSS魔法堂：Transition就这么好玩

【OpenStack】network相关知识学习

centos 7下独立的python 2.7环境安装

[日常] 算法-单链表的创建

前端工程化系列[01]-Bower包管理工具的使用

使用 maven 自动将源码打包并发布

Spark：求出分组内的TopN

Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

关于跨DB增量（增、改）同步两张表的数据小技巧

学员会诊之03：你那惨不忍睹的三层架构

Golang协程与通道整理

解决win7远程桌面连接时发生身份验证错误的方法

C/C++ 多线程机制

js - object.assign 以及浅、深拷贝

python mysql Connect Pool mysql连接池 (201

Boost在vs2010下的配置

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-26 04:49:33 当前IP: 3.137.177.204 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我