(11.1)--第十一章计算社会科学新进展.pdf

上传人:刘静 文档编号:63524747 上传时间:2022-11-25 格式:PDF 页数:42 大小:4.03MB
返回 下载 相关 举报
(11.1)--第十一章计算社会科学新进展.pdf_第1页
第1页 / 共42页
(11.1)--第十一章计算社会科学新进展.pdf_第2页
第2页 / 共42页
点击查看更多>>
资源描述

《(11.1)--第十一章计算社会科学新进展.pdf》由会员分享,可在线阅读,更多相关《(11.1)--第十一章计算社会科学新进展.pdf(42页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、计算社会科学新进展方法与应用内容提要大数据+社会科学计算社会科学:方法论计算社会科学:方法与议题计算社会科学:前沿应用大数据时代科学2008年提出“大数据”来讨论新信息时代(PB时代)的科学研究;2012年,纽约时报刊文宣告“大数据时代已经到来”;大数据时代大数据是指需要新处理模式才能确保更强的决策力、洞察力和流程优化力的海量、高速增长和多样化的信息财富(Gartner)大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。(国务院)数据已

2、成为国家基础性战略资源(十三五)大数据的特征 Volume(体量大):Howmuchdataisreallyrelevanttotheproblemsolution?Costofprocessing?So,canyoureallyaffordtostoreandprocessallthatdata?Velocity(增速快):Muchdatacominginathighspeed Needforstreamingversusblockapproachtodataanalysis So,howtoanalyzedatainflightandcombinewithdataatrest Variet

3、y(类型多):Asmallfractionisstructuredformats,Relational,XML,etc.Afairamountissemistructured,asweblogs,etc.Therestofthedataisunstructuredtext,photographs,etc.So,nosingledatamodelcancurrentlyhandlethediversity Veracity(真实性):Accuracy,Precision,Reliability,Integrity So,whatisitthatyoudontknowyoudontknowabou

4、tthedata?Value(价值高):Howmuchvalueiscreatedforeachunitofdata(whateveritis)?So,whatisthecontributionofsubsetsofthedatatotheproblemsolution?大数据WhatisBigDataDataAnalyticsBigdataisnotaboutData!IndustrySolutionWhyisBigDealGovernmentPrivateSectorScienceSocialScienceRevolution大数据+社会科学大数据时代的八大机遇海量非结构化数据(信息)“全

5、量数据”而不是“样本数据”丰富、高效的方法工具箱机器学习与预测性分析强时效性数据社会科学知识平民化普及良好的组织环境+充分的社会需求大数据+社会科学大数据+社会科学数据驱动应用(问题解决)导向中观/微观问题预测性目标从海量数据中利用机器学习抽离出有价值的信息积累海量数据利用统计和数学知识+模式识别技术发现有意义的新关系、新模式或新趋势计算社会科学的清华探索 清华大学计算社会科学平台 平台定位和发展目标 国内首家计算社会科学领域的创新研究机构 营造“创新、共享、开放、合作”的科研环境 立足清华社科、计算科学和数据科学领域的特色优势和交叉研究基础 将社科议题、海量数据、大数据方法相结合,促进跨学科

6、融合,开展创新性研究 集前沿研究、人才培养、科研服务和智库资政于一体 为中国特色计算社会科学的学科建设、清华高水平社科创新成果、促进重大经济社会问题解决提供理论和应用知识https:/计算社会科学的清华探索2017年11月至今,社科学院与法学院、公管学院、经管学院、人文学院、马克思学院、数据院、计算机系等院系的老师进行过密切的沟通和调研访谈,形成会议记录,明确本平台的建设目的和功能符合师生在社科大数据科研工作的需求。研究并确定基于清华邮箱的账号管理模式属于有效的清华身份认证和账号管理模式,符合要求也方便师生使用。全局数据纵览 对系统内文书总数有充分了解,从可视化图形中纵览各类型文书数据占比、案

7、件类型占比、归属地数据占比及统计年间各个年份数据的占比统计数据,以便用户对系统数据有清楚的全局观。大数据的范畴所有数据所有数据大数据大数据开放数据开放数据开放的政府数据开放的政府数据自己的数据自己的数据文本资料多媒体数据(音频、视频、图片)门户网站与新媒体空间数据新闻联播中的“国际”与“国内”地域关注国际地域关注国际地域关注国内地域关注国内地域关注网络关系数据行政数据计算社会科学:方法论计算社会科学:大数据+社会科学图灵奖得主J.Gray(2010):大数据时代将形成数据密集型科学研究“第四范式”。大数据时代的科学研究将不再需要模型和假设,而是利用超级计算能力直接分析海量数据发现相关关系即可获

8、得新知识;2009年,哈佛大学DavidLazer等15位美国学者在Science上联合发表了一篇具有里程碑意义的文章“ComputationalSocialScience”;2014年,哈佛大学GaryKing认为大数据方法将终结传统的定量、定性方法分野。计算社会科学:研究方法网络爬虫对搜索引擎搜索记录的分析自动文本分析视频/图片分析社会网络分析空间/时间分析可视化 机器学习 自然语言过程 统计分析社科研究中的大数据:方法功能作为研究方法的大数据分析数据采集与管理测量工具分类与聚类关联分析因果推论(回归分析)信息呈现(可视化)搜索指数:GoogleTrends、百度指数搜索指数:测量公共关注

9、度18949248892432384827152195152828329126930847634748530243126201002003004005006000500010000150002000025000300002Dec134Dec136Dec138Dec1310Dec1312Dec1314Dec1316Dec1318Dec1320Dec1322Dec1324Dec1326Dec1328Dec1330Dec1325Nov1527Nov1529Nov151Dec153Dec155Dec157Dec159Dec1511Dec1513Dec1515Dec1517Dec1519Dec1521D

10、ec1523Dec1525Dec1527Dec1529Dec1531Dec152Dec164Dec166Dec168Dec1610Dec1612Dec1614Dec1616Dec1618Dec1620Dec1622Dec1624Dec1626Dec1628Dec1630Dec16雾霾日指数AQI指数TheInterfaceWhoParticipateOnline?SupervisedLearningwithreadme(HopkinsandKing,2010)ParticipateforWhat?时间序列分析:全球事件、语调与语言数据库(GDELT)空间分析:空间与政治文本分析:基于关键词的文

11、化组学 文化组学(culturomics)http:/www.culturomics.org/哈佛大学研究团队利用GoogleBooks收集并扫描识别了18002000年之间的500万种出版物,通过关键词使用频率随时间变化的趋势,分析人类文化演进特点 GoogleBookNgrams(https:/ Bond et al.Nature 489,295-298(2012)doi:10.1038/nature11421The effect of mobilization treatment that a friend received on a users behaviour.King,G.,Sc

12、hneer,B.,&White,A.(2017).Howthenewsmediaactivatepublicexpressionandinfluencenationalagendas.Science,358(6364),776780.King等(2017)利用48个社交媒体开展(五年期)田野实验在真实媒体环境中设计并随机化分配媒体资讯(报道)识别媒体报道对个体公共意见(政治知识)的效应(IndividualEffect)识别媒体报道对国家政策议程的效应(CollectiveEffect)King,G.,Schneer,B.,&White,A.(2017).Howthenewsmediaacti

13、vatepublicexpressionandinfluencenationalagendas.Science,358(6364),776780.King,G.,Schneer,B.,&White,A.(2017).Howthenewsmediaactivatepublicexpressionandinfluencenationalagendas.Science,358(6364),776780.大数据方法:支持VS批评大数据方法的优势数据:“全量数据”、“消极数据”、“大样本小概率事件”、高维数据方法:机器学习、预测经济性/可行性:低成本、实效性、高效率影响:知识平民化传播大数据方法的批评大数据方法的局限性数据:“有偏数据”、“分析单位”、“假数据”方法:效度与信度、技术门槛可行性:数据不开放、技术门槛伦理:数据(隐私)权利、社会实验的伦理困境Q&A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁