《互联网材料.ppt》由会员分享,可在线阅读,更多相关《互联网材料.ppt(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、*ZZNODE BD2 直真数据网管产品功能架构产品功能架构互联网内容资源管理系统培训材料 2015-3*0.目录1.到处是爬虫资源结构、广度优化3.资源引入建议去重、可缓存5.移动互联网分析APP、手机浏览器2.资源分布资源分布、可缓存判断4.缓存黑白名单、命中率*1.到处是爬虫页面结构网内(省内+省外)/总服务流量爬虫原理1.分析页面超链接2.广度优先,深度一般为5层多网站并行爬取也不能爬太快很多爬虫Google,Baidu一个月建立一个索引Sina门户有上亿的资源1.javascript2.css3.图片4.超链接页面结构*2.资源分布资源分布判断省内资源的归属情况,省内、外省、电信、联
2、通、铁通、其它可缓存判断对资源进行是否可缓存的判断结合用户的缓存经验库判断算法资源:http header中的三个字段域名:只有一个资源可缓存网站库*3.资源引入建议去重IDC、CDN、CACHE协同去重自建、租用CACHE去重分析出重复的资源引入(部分省份不开展,主要原因去重工作的影响面)引入建议资源引入建议资源引入优化建议*4.再说说缓存缓存分类P2P、HTTP(小文件、大文件、动态)缓存厂家(辽宁)华为(全线产品)网宿(P2P,HTTP小文件、手机加速、动态协议)不断成长的可缓存判断算法自动算法+经验库(用户根据本省实际情况适配)目前只使用静态配置的黑名单、白名单*5.移动互联网分析基于手机抓包单APP、定制场景分析基于Gn口DPI数据量大、用户行为分析THANKS A TON