本篇内容主要讲解“Python怎么爬虫博文”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么爬虫博文”吧!
创新互联建站专注为客户提供全方位的互联网综合服务,包含不限于网站建设、成都网站建设、千阳网络推广、小程序定制开发、千阳网络营销、千阳企业策划、千阳品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联建站为所有大学生创业者提供千阳建站搭建服务,24小时服务热线:18982081108,官方网址:www.cdcxhl.com
一. 大数据及数据挖掘基础
***部分主要简单介绍三个问题:
1、什么是大数据?
2、什么是数据挖掘?
3、大数据和数据挖掘的区别?
1、大数据(Big Data)
大数据(big data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
下图是大数据经典的4V特征。

IBM大数据库框架及可视化技术,大数据常用:Hadoop、Spark,现在更多的是实时数据分析,包括淘宝、京东、附近美食等。

下图是大数据的一些应用


说到大数据,就不得不提Hadoop,而说到Hadoop,又不得不提Map-Reduce。

MapReduce是一个软件框架由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想是“分而治之”。Mapper负责“分,Reducer负责对map阶段的结果进行汇总。
2、数据挖掘(Data Mining)
数据挖掘(Data Mining):数据库、机器学习、人工智能、统计学的交叉学科。
数据挖掘需要发现有价值的知识,同时最顶端都是具有智慧的去发现知识及有价值的信息。


因为它主要是针对网页数据进行的大数据分析,需要Web Mining分类如下:

Web挖掘主要分为三类:Web日志挖掘、Web内容挖掘、Web结构挖掘。

3、机器学习
讲到机器学习和数据挖掘相关的知识,通常都会补充两幅图片。很形象的表示了计算机智能化与人类传统知识的类比。


二. 安装Python及基础知识
1、安装Python
在开始使用Python编程之前,需要介绍Python的安装过程。python解释器在Linux中可以内置使用安装
步骤如下:
***步:打开Web浏览器并访问官网;

第二步:
在官网首页点击Download链接,进入下载界面,选择Python软件的版本,作者选择下载python 2.7.8,点击“Download”链接。
Python下载地址:
第三步:选择文件下载地址,并下载文件。
第四步:双击下载的“python-2.7.8.msi”软件,并对软件进行安装。

第五步:在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:Python27”,点击“Next”按钮,如图所示。
注意1:建议将Python安装在C盘下,通常路径为C:Python27,不要存在中文路径。

在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:Python27”,点击“Next”按钮。

安装成功后,如下图所示:

第六步:假设安装一切正常,点击“开始”,选中“程序”,找到安装成功的Python软件,如图所示:

选中上图中第三个图标,即点击“Python (command line)命令行模式”,运行程序输入如下代码:
print 'hello world'
则python命令行模式的解释器会打印输出“hello world”字符串,如下图所示。

选中图中的***个图片,点击“IDLE (Python GUI)”,即运行Python的集成开发环境(Python Integrated Development Environment,IDLE),运行结果如下图。
注意2:建议大家使用IDLE写脚本,完整的代码而不是通过命令行模式。

2、Python基础知识
这里简单入门介绍,主要介绍下条件语句、循环语句、函数等基础知识。
a、函数及运行
这里举个简单的例子。打开IDLE工具->点击栏"File"->New File新建文件->命名为test.py文件,在test文件里添加代码如下:

保存文件。并在test.py文件里点击Run->Run Module,输出结果如下图所示。

b、条件语句
包括单分支、双分支和多分支语句,if-elif-else。
(1).单分支语句
它的基本格式是:
if condition: statement statement
需要注意的是Ptthon中if条件语句条件无需圆括号(),条件后面需要添加冒号,它没有花括号{}而是使用TAB实现区分。其中condition条件判断通常有布尔表达式(True|False 0-假|1-真 非0即真)、关系表达式(>= <= == !=)和逻辑运算表达式(and or not)。
(2).双分支语句
它的基本格式是:
if condition: statement statement else: statement statement
(3).多分支语句
if多分支由if-elif-else组成,其中elif相当于else if,同时它可以使用多个if的嵌套。具体代码如下所示:

c、while循环语句
while循环语句的基本格式如下:
while condition: statement statement else: statement statement
其中判断条件语句condition可以为布尔表达式、关系表达式和逻辑表达式,else可以省略(此处列出为与C语言等区别)。举个例子:

d、for循环
该循环语句的基础格式为:
for target in sequences: statements
target表示变量名,sequences表示序列,常见类型有list(列表)、tuple(元组)、strings(字符串)和files(文件)。
Python的for没有体现出循环的次数,不像C语言的for(i=0;i<10;i++)中i循环计数,Python的for指每次从序列sequences里面的数据项取值放到target里,取完即结束,取多少次循环多少次。其中in为成员资格运算符,检查一个值是否在序列中。同样可以使用break和continue跳出循环。
下面是文件循环遍历的过程:

e、课堂讲解代码
仅供大家参考:

输出结果如下图所示:

三. 安装PIP及第三方包
接下来需要详解介绍爬虫相关的知识了,这里主要涉及到下面几个知识:

爬虫主要使用Python(字符串|urllib)+Selenium+PhantomJS+BeautifulSoup。

在介绍爬虫及Urllib下载网页或图片之前,先教大家如何使用pip安装第三方的库。
PIP
在介绍介绍它们之前,需要安装PIP软件。“作为Python爱好者,如果不知道easy_install或者pip中的任何一个的话,那么......”。
easy_insall的作用和perl中的cpan,ruby中的gem类似,都提供了在线一键安装模块的傻瓜方便方式,而pip是easy_install的改进版,提供更好的提示信息,删除package等功能。老版本的python中只有easy_install,没有pip。常见的具体用法如下:

***步:下载PIP软件
可以在官网http://pypi.python.org/pypi/pip#downloads下载,同时cd切换到PIP目录,在通过python setup.py install安装。而我采用的是下载pip-Win_1.7.exe进行安装
第二步:安装PIP软件


当提示"pip and virtualenv installed"表示安装成功,那怎么测试PIP安装成功呢?
第三步:配置环境变量
此时在cmd中输入pip指令会提示错误“不是内部或外部命令”。

注意:两种解决方法,一种是通过cd ..去到Srcipts环境进行安装,pip install...

方法二:另一种配置Path路径。
需要添加path环境变量。PIP安装完成后,会在Python安装目录下添加pythonScripts目录,即在python安装目录的Scripts目录下,将此目录加入环境变量中即可!过程如下:


第四步:使用PIP命令
下面在CMD中使用PIP命令,“pip list outdate”列举Python安装库的版本信息。

注意:安装成功后,会在Python环境中增加Scripts文件夹,包括easy_install和pip。

PIP安装过程中可能出现各种问题,一种解决方法是去到python路径,通过python set_up.py install安装;另一种是配置Path环境比例。
课堂重点知识:
***节课主要想让大家体会下Python网络爬虫的过程及示例。需要安装的第三方库主要包括三个:
pip install httplib2 pip install urllib pip install selenium

在安装过程中,如果pip install urllib报错,是因为httplib2包含了,可直接用。

注意:如果pip安装报错ascii编码问题,需要把计算机名称从中文修改为英文名。
四. Urllib下载网页及图片
在使用pip install urllib或pip install urllib2后,下面这段代码是下载网页。

首先我们调用的是urllib2库里面的urlopen方法,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP、FILE、HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:

***个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT。
***个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。

response对象有一个read方法,可以返回获取到的网页内容。
获取的网页本地保存为"baidu.html",通过浏览器打开如下图所示:

然后是需要下载图片,这里需要学会找到图片的URL,如下图百度的LOGO,可以通过浏览器右键"审查元素"或"检查"来进行定位。

定位URL后,再通过函数urlretrieve()进行下载。

重点知识:
urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。
urlretrieve方法直接将远程数据下载到本地。
如果需要显示进度条,则使用下面这段代码:

五. HTML网页基础知识及审查元素
HTML DOM是HTML Document Object Model(文档对象模型)的缩写,HTML DOM则是专门适用于HTML/XHTML的文档对象模型。熟悉软件开发的人员可以将HTML DOM理解为网页的API。它将网页中的各个元素都看作一个个对象,从而使网页中的元素也可以被计算机语言获取或者编辑。

DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而 DOM 被认为是基于树或基于对象的。

HTML DOM 定义了访问和操作HTML文档的标准方法。 HTML DOM 把 HTML 文档呈现为带有元素、属性和文本的树结构(节点树)。它们都是一个节点(Node),就像公司的组织结构图一样。 我们现在从另一个角度来审视源代码,first.html的源码如下:

这个例子的***个元素就是元素,在这个元素的起始标签和终止标签之间,又有几个标签分别起始和闭合,包括、
和<body>。<head>和<body>标签是直接被<html>元素包含的,而<title>标签则包含在<head>标签内。要描述一个HTML网页的这种多层结构,用树来进行类比是***的方式。树形结构如下图所示:</p><p><img src="/upload/otherpic51/434669.jpg" alt="Python怎么爬虫博文"></p><p>重点:</p><p>在网络爬虫中,通常需要结合浏览器来定位元素,浏览器右键通常包括两个重要的功能:查看源代码和审查或检查元素。</p><p><img src="/upload/otherpic51/434672.jpg" alt="Python怎么爬虫博文"></p><p>通过审查元素,可以定位到需要爬取图片或网页的HTML源文件,通常是table或div的布局,这些HTML标签通常是成对出现的,如<html></html>、<div></div>等;同时会包括一些属性id、name、class来指定该标签。如:</p><pre><div id="content" name="n1" class="cc">....</div></pre><p><img src="/upload/otherpic51/434673.jpg" alt="Python怎么爬虫博文"></p><p><strong>六. 安装Selenium及网页简单爬取</strong></p><p>Selenium用于Web应用程序测试的工具,模拟浏览器用户操作,通过Locating Elements 定位元素。安装过程如下图所示,通过pip install selenium安装。</p><p>注意:需要cd去到Scripts目录进行安装。</p><p><img src="/upload/otherpic51/434675.jpg" alt="Python怎么爬虫博文"></p><p><img src="/upload/otherpic51/434676.jpg" alt="Python怎么爬虫博文"></p><p>selenium结合浏览器定位的基本函数包括:</p><p><img src="/upload/otherpic51/434677.jpg" alt="Python怎么爬虫博文"></p><p>***个基于Selenium爬虫的代码,通过调用Firefox浏览器:</p><p><img src="/upload/otherpic51/434678.jpg" alt="Python怎么爬虫博文"></p><p>输出如下图所示:</p><p><img src="/upload/otherpic51/434679.jpg" alt="Python怎么爬虫博文"></p><p>到此,相信大家对“Python怎么爬虫博文”有了更深的了解,不妨来实际操作一番吧!这里是创新互联网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!</p>
<br>
本文题目:Python怎么爬虫博文 <br>
网页路径:<a href="http://www.whjierui.cn/article/gciehc.html">http://www.whjierui.cn/article/gciehc.html</a>
</div>
</div>
<div class="other">
<h3>其他资讯</h3>
<ul>
<li>
<a href="/article/pjpccp.html">java怎么自定义函数式接口</a>
</li><li>
<a href="/article/pjpdei.html">Python如何实现抽奖刮刮卡</a>
</li><li>
<a href="/article/pjpcsg.html">MySQL8新特性:自增主键的持久化详解</a>
</li><li>
<a href="/article/pjpccs.html">Android中怎么使用CountDownTimer实现倒计时</a>
</li><li>
<a href="/article/pjpcdj.html">Go语言是面向对象语言吗</a>
</li> </ul>
</div>
</div>
<footer>
<div class="foot-top">
<ul>
<li>
<div class="title">关于美图云海</div>
<div class="tbox">
<div class="txt">
美图云海专注于网站建设、小程序开发,
<br /> 用心做好每一个网站,懂您所需、做您所想!
<br /> 我们比其他网络公司做的更好、做的更多,
<br /> 为客户创造更大的价值,让客户更省心!
</div>
<a rel="nofollow" href="javascript:;" class="more">MORE</a>
</div>
</li>
<li>
<div class="title">相关专题</div>
<div class="tbox">
<a href="javascript:;" class="link">企业官网定制</a>
<a href="javascript:;" class="link">小程序开发</a>
<a href="javascript:;" class="link">品牌网站设计</a>
<a href="javascript:;" class="link">网站建设标签</a>
<a href="javascript:;" class="link">乐山网站建设</a>
<a href="javascript:;" class="link">高端网站设计</a>
<a href="javascript:;" class="link">公司做网站</a>
</div>
</li>
<li>
<div class="title">凭什么选择我们</div>
<div class="tbox">
<a class="link">专业设计团队</a>
<a class="link">快速响应服务</a>
<a class="link">7个软件著作权</a>
<a class="link">已服务3000+客户</a>
<a class="link">项目检测具体全面</a>
<a class="link">技术研发能力强劲</a>
<a class="link">深度符合SEO优化</a>
<a class="link">15项设计奖项</a>
<a class="link">完善的制作流程</a>
<a class="link">售后服务让您省心</a>
</div>
</li>
<li>
<div class="title">网站设计案例</div>
<div class="tbox">
<ul>
<li>
<a href="javascript:;" target="_blank">
<div class="img"><img src="/Public/Home/images/gebaili.jpg" alt="哥百利" />
</div>
<div class="tboxs">
<div class="t1">哥百利</div>
<div class="t2">家具研发、设计、生产、服务为一体的专业实木家具订做企业</div>
</div>
</a>
</li>
<li>
<a href="javascript:;" target="_blank">
<div class="img"><img src="/Public/Home/images/cdshujin.jpg" alt="蜀锦在线" /></div>
<div class="tboxs">
<div class="t1">蜀锦在线</div>
<div class="t2">汽车行业网站建设</div>
</div>
</a>
</li>
</ul>
</div>
</li>
</ul>
</div>
<div class="foot-center">
<ul>
<li>
<div class="f-ewm"><img alt="美图云海微信公众号" src="/Public/Home/images/ewm.jpg" /></div>
<div class="tbox ewm">
<div class="t1">扫一扫关注</div>
<div class="t2">专业团队为您解答</div>
</div>
</li>
<li>
<div class="tbox tel">
<div class="t1">电话/邮箱</div>
<div class="t2">400-028-6601 / 028-86922220<br>631063699@qq.com</div>
</div>
</li>
<li>
<div class="tbox sz">
<div class="t1">成都(总部)</div>
<div class="t2">成华区 双林路22号仁禾商务楼5F<br> 大客户专线:13518219792
</div>
</div>
</li>
<li>
<div class="tbox gz">
<div class="t1">网站建设(乐山站)</div>
<div class="t2">
乐山市市中区瑞祥路一段1507号
<br /> 028-86922220
</div>
</div>
</li>
</ul>
</div>
<div class="foot-button">
<div class="link-box" style="width:100%;float:none;">
<div class="a-box"></div>
<div style="border-top:1px solid #ebebeb;font-size:12px;color:#666666;line-height:2;padding-top:20px;margin-top:20px;">
业务范围包括企业网站建设、商城系统开发、品牌网站设计、旅游网站制作、英文外贸网站、教育培训门户网站开发、微信手机移动端开发、响应式网站建设、微信小程序开发、APP定制和其他类型网站定制等。
<br>服务区域包括成都市锦江区、青羊区、武侯区、金牛区、成华区、龙泉驿、温江、新都、高新区、成都市以及全国各地接受异地服务商的公司企业或者机构。
<br>
<div class="a-box"><span><b>友情链接</b></span>
<a href="http://www.njanhua.com/" title="成都平面广告设计" target="_blank">成都平面广告设计</a><a href="http://www.4006tel.net/mobile/" title="app开发" target="_blank">app开发</a><a href="http://www.myzwz.com/" title="绵阳网站建设公司" target="_blank">绵阳网站建设公司</a><a href="http://chengdu.cdcxhl.cn/" title="成都网站营销推广" target="_blank">成都网站营销推广</a><a href="http://www.qhjierui.cn/" title="德阳定制网站建设" target="_blank">德阳定制网站建设</a><a href="http://www.typanxi.com/" title="店铺招牌设计" target="_blank">店铺招牌设计</a><a href="http://chengdu.cdcxhl.com/weixin/" title="微信开发" target="_blank">微信开发</a><a href="http://www.cdhxlkj.com/" title="翻译公司" target="_blank">翻译公司</a><a href="http://www.fjdkgd.com/" title="fjdkgd.com" target="_blank">fjdkgd.com</a><a href="http://www.njanhua.com/" title="平面广告设计" target="_blank">平面广告设计</a> </div>
</div>
<div class="copyright">©2025 青羊区美图云海设计工作室(个体工商户)乐山站 蜀ICP备19037934号</div>
</div>
</div>
</footer>
<div class="fixed-contact-wrap show">
<ul class="item-list clearfix">
<li class="phone">
<a rel="nofollow" target="_blank" href="tel:028-86922220"><i
class="icon"></i><strong>028-86922220</strong></a>
</li>
<li class="qq">
<a rel="nofollow" target="_blank" href="http://wpa.qq.com/msgrd?v=3&uin=244261566&site=qq&menu=yes"><i
class="icon"></i><strong> 244261566</strong></a>
</li>
<li class="back-top">
<a href="#" rel="nofollow" class="back-to-top"><i class="icon"></i><strong> 回到顶部</strong></a>
</li>
</ul>
</div>
<script type="text/javascript">
//右侧联系我们悬浮窗
$(".fixed-contact-wrap").hover(function () {
$(this).addClass("active");
}, function () {
$(this).removeClass("active");
})
function show_phone_menu() {
$(".right-side ul").toggle();
}
</script>
</body>
</html>
<script>
$(".con img").each(function(){
var src = $(this).attr("src"); //获取图片地址
var str=new RegExp("http");
var result=str.test(src);
if(result==false){
var url = "https://www.cdcxhl.com"+src; //绝对路径
$(this).attr("src",url);
}
});
window.onload=function(){
document.oncontextmenu=function(){
return false;
}
}
</script>