Python网络爬虫实习报告总结归纳.docx

上传人:暗伤 文档编号:46165681 上传时间:2022-09-25 格式:DOCX 页数:11 大小:26.84KB
返回 下载 相关 举报
Python网络爬虫实习报告总结归纳.docx_第1页
第1页 / 共11页
Python网络爬虫实习报告总结归纳.docx_第2页
第2页 / 共11页
点击查看更多>>
资源描述

《Python网络爬虫实习报告总结归纳.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫实习报告总结归纳.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Python网络爬虫实习报告一、选题背景二、爬虫原理三、爬虫历史和分类 四、常用爬虫框架比较Scrapy 框架:Scrapy 框架是一套比较成熟的Python 爬虫框架,是使用Python 开发的快速、高层次的信息爬取框架,可以高效的爬取web 页面并提取出结构化数据。Scrapy 应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley 框架:Crawley 也是Python 开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia 框架:Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper 框架:newspap

2、er 框架是一个用来提取新闻、文章以及内容分析的Python 爬虫框架。Python-goose 框架:Python-goose 框架可提取的信息包括:文章主体内容;文章主要图片;文章中嵌入的任heYoutube/Vimeo 视频;元描述;元标签五、数据爬取实战(豆瓣网爬取电影数据)1 分析网页# 获取html 源代码def getHtml(): data = pageNum = 1pageSize = 0 try:while (pageSize = 125):# Referer:None 注# 意如果依然不能抓取的话,这里可以设置抓取网站的host# #= headerspageNum)pa

3、geSize += 25pageNum += 1 print(pageSize, pageNum)except Exception as e: raise ereturn data2 爬取数据def getData(html):title = # 电影标题#rating_num = #评分range_num = # 排名#rating_people_num = #评价人数movie_author = # 导演data = # bs4 解析htmlsoup = BeautifulSoup(html, ) for li in (ol, attrs=class:grid_view).find_all

4、(li):(span, class_=title).text)#(div, class_=star).find(span, class_=rating_num).text)(div, class_=pic).find(em).text)#spans = (div, class_=star).find_all(span) #for x in range(len(spans):#if x = 2:#pass# else:#(spansx.string-len(spansx.string):-3)str = (div, class_=bd).find(p, class_=).() index = (

5、主)if (index = -1): index = (.)print(div, class_=pic).find(em).text)if (div, class_=pic).find(em).text = 210): index = 60# print(aaa)# print(str4:index)(str4:index)datatitle = title #datarating_num = rating_num datarange_num = range_num#datarating_people_num = rating_people_numdatamovie_author = movi

6、e_author return data3 数据整理、转换def getMovies(data):()(Insert title here)()(爬取豆瓣电影) ( 作者:刘文斌)( 时间: + nowtime + ) ()() ()()( 电影)#(分)( 排名)#(评价人数)(导演)()()()for data in datas:for i in range(0, 25): ()(%s % datatitlei)#(%s % datarating_numi)(%s % datarange_numi)#(%s % datarating_people_numi)(%s % datamovie_

7、authori)()()()()()() ()if name = main :datas = htmls = getHtml()for i in range(len(htmls): data = getData(htmlsi) (data) getMovies(datas)4 数据保存、展示结果如后图所示:5 技术难点关键点数据爬取实战(搜房网爬取房屋数据)from bs4 import BeautifulSoupimport requestsrep = ()= gb2312# 设置编码方式html =soup = BeautifulSoup(html, )f = open(, w,encod

8、ing=utf-8) ()(Insert title here)()( 新 房 成 交 TOP3) ()( 房 址 ) (成交量) (均价)for li in (ul,class_=ul02).find_all(li):name=(div,class_=pbtext).find(p).text chengjiaoliang=(span,class_=red-f3).text try:junjia=(div,class_=ohter).find(p,class_=gray-9)#.(?O, 平方米)except Exception as e:junjia=(div,class_=gray-9)#.(?O, 平方米)(%s % name) (%s % chengjiaoliang) (%s % junjia)print(name)()()六、总结厂一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一,i 教师评语:iL-成-绩-:-指-导-教-师-:J

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁