《CY∕T 101.9-2014 新闻出版内容资源加工规范 第9部分:报纸加工(新闻出版).pdf》由会员分享,可在线阅读,更多相关《CY∕T 101.9-2014 新闻出版内容资源加工规范 第9部分:报纸加工(新闻出版).pdf(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、新闻出版内容资源加工规范 第 9 部分:报纸加工2014-01-29 发布2014-01-29 实施中华人民共和国新闻出版行业标准 Specification of content resource processing in press and publication Part 9:Newspaper processingCY/T 101.92014ICS 35.240.30L70发 布中华人民共和国国家新闻出版广电总局I前言 I1范围 12规范性引用文件 13术语和定义 14成品数据 34.1元数据集 34.2图像数据 74.3内容结构化数据 74.4对象数据 84.5版式文件数据 94.
2、6流式文件数据 104.7命名及存储 104.8数据清单 115数据验收 136数据维护 13参考文献 14目 次CY/T 101.92014ICY/T 101新闻出版内容资源加工规范分为以下 10 个部分:第 1 部分:加工专业术语;第 4 部分:数据加工质量;第 5 部分:资料管理;第 6 部分:数据管理;第 7 部分:数据交付;第 8 部分:图书加工;第 9 部分:报纸加工;第 10 部分:期刊加工。本部分为 CY/T 101 的第 9 部分。本部分由中华人民共和国国家新闻出版广电总局科技司提出。本部分由全国新闻出版信息标准化技术委员会归口。本部分起草单位:方正国际软件有限公司、北京拓标
3、卓越信息技术研究院、新闻出版总署信息中心。本部分主要起草人:赵海涛、周长岭、安秀敏、刘成勇、蔡京生、周卫国、吴治强、张沫。前 言第 2 部分:数据加工与应用模式;第 3 部分:数据加工规格;11范围CY/T 101 的本部分规定了新闻出版内容资源报纸加工的成品数据、数据验收和数据维护等方面的要求。本部分适用于报纸内容资源的数字化加工和电子资源的加工制作。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 4754 国民经济行业分类与代码GB/T 18793 信息技术
4、 可扩展置标语言(XML)1.0GB/T 20093 中文新闻信息分类与代码GB/T 25100 信息与文献 都柏林核心元数据元素集CY/T 101.4 新闻出版内容资源加工规范 第 4 部分:数据加工质量3术语和定义CY/T 101.1-2014 中所界定的以及下列术语和定义适用于本文件。3.1新闻出版内容资源 press and publication content resource新闻出版领域内任意形式、任何粒度的内容及其他有价值的资源。CY/T 101.1-2014,4.1.13.2数字化加工 digital processing针对纸质出版物、表单、公文、档案文献等,通过专业化的解
5、决方案,加工成 PDF、Html、Txt、Doc、Xls 等多种可编辑的电子文件格式的活动。CY/T 101.1-2014,5.1.13.3电子报 e-newspaper数字报 可通过相关设备直接呈现文字、图像、音频、视频等内容,以刊载新闻、信息或时事评论为主的连续性数字出版产品。CY/T 101.1-2014,7.1.93.4都柏林核心元数据 Dublin core metadata;DC一种根据各类信息资源的共同特点确定的,适用于不同领域间信息资源、特别是网络信息资源的元数据。CY/T 101.1-2014,6.1.3新闻出版内容资源加工规范 第 9 部分:报纸加工CY/T 101.020
6、1423.5新闻 news媒体用于记录社会、传播信息、反映时代的一种文体。3.6成品数据 finished data已经完成全部数据处理过程且符合预先设定的规格和质量要求,可实现交付的最终数据形态。CY/T 101.1-2014,7.1.13.7版式文件 fixed-layout document版式文档排版后生成的,包含版面固化呈现需要的全部数据的一种文件。CY/T 101.1-2014,6.3.103.8流式文件 reflowing document流式文档按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。CY/T 101.1-2014,6.3.113.9单层图像版式文件
7、imaged fixed-layout document图像版式文件通过扫描方式,生成与原加工对象版式完全一致的图像文件集合,并打包成独立完整的可浏览的数字版式文件(含书签信息及书签信息和版式文件页面之间的链接关系)。CY/T 101.1-2014,6.3.123.10双层矢量化版式文件 vectorized dual-layer fixed-layout document双层版式文件在单层图像版式文件基础上,同时生成与图像层对应的透明字体模式的文字层,可支持选取、拷贝和查找的版式文件。CY/T 101.1-2014,6.3.133.11单层矢量化版式文件 vectorized fixed-l
8、ayout document矢量版式文件按照原加工对象的文字位置,文字采用矢量字,修饰性图片、艺术字、底纹、线条、图表和公式等以图像形式显示的版式文件。CY/T 101.1-2014,6.3.143.12单层矢量 PATH 版式文件 curved-text fixed-layout document转曲版式文件在原加工对象的文字位置上采用曲线绘制文字的版式文件。CY/T 101.1-2014,6.3.1534成品数据4.1元数据集4.1.1概述报纸资源部分的元数据包含报纸基本元数据,报纸单期元数据,报纸单版元数据,新闻元数据,图片元数据,广告元数据和管理元数据等。元数据集通常包含在内容结构化数
9、据中,以 XML1.0 及以上版本格式存储。4.1.2报纸基本元数据报纸基本元数据包括了报纸的各种基本信息,见表 1。序号中文名称英文标签必备性可重复性备注(对应 DC)1报纸种类唯一标识符Identifier必备不可重复标识符(Identify)2报纸 CNCN必备不可重复3正报名Title必备不可重复4副报名SubTitle有则必备可重复5外文报名ForeignTitle可选可重复6其他OtherTitle可选可重复7主管单位InCharge有则必备不可重复8主办单位Hoster有则必备可重复9出版单位Publisher有则必备可重复出版者(Publisher)10印刷单位Printer有
10、则必备可重复11发行单位Delivery有则必备可重复12其他Others可选可重复13主编ChiefEditor可选可重复14社长President可选可重复15创刊日期StartPublication可选不可重复16出版周期PublishCycle必备不可重复17发行范围PublishRange可选不可重复公开/内部18邮发代码PublishiCode可选不可重复19国外代码ForeignCode可选不可重复20自办发行SelfIssue可选不可重复21幅面尺寸Format可选不可重复22单价UnitPrice可选不可重复23年价WholeYearPrice可选不可重复24语种Langua
11、ge必备不可重复语种(Language)25网址WebSite可选可重复26地址Address可选可重复27邮编ZipCode可选可重复28办公电话OfficeNumber可选可重复29办公传真FaxNumber可选可重复表 1报纸基本元数据CY/T 101.020144序号中文名称英文标签必备性可重复性备注(对应 DC)30热线电话ServiceLine可选可重复31监督电话ControlLine可选可重复32名称变更UsedName可选可重复33社址变更UsedAddress可选可重复34责任变更UsedDuty可选可重复35类别分类Classify可选可重复36学科分类SubjectCa
12、talog可选可重复(续表)4.1.3报纸单期元数据报纸单期元数据包括了单期报纸的基本信息,见表 2。序号中文名称英文标签必备性可重复性备注(对应 DC)1报纸唯一标识符Identifier必备不可重复2单期唯一标识符VolumeIdentifier必备不可重复3期号VolumeNumber有则必备不可重复4出版日期VolumeDate有则必备不可重复日期(Date)5总版数TotalPageNumber必备不可重复6总新闻数TotalNewsNumber可选不可重复7总广告数TotalAdvNumber可选不可重复8总字数TotalWords可选不可重复表 2报纸单期元数据4.1.4报纸单版
13、元数据报纸单版元数据包括了单版报纸的信息,见表 3。序号中文名称英文标签必备性可重复性备注1期次唯一标识符VolumeIdentifier必备不可重复2单版唯一标识符PageIdentifier必备不可重复3版次号PageNumber必备可重复4版名PageTitle有则必备可重复5外文版名ForeignTitle可选可重复6专版版次SpecialPageNumber有则必备不可重复7专版名称SpecialPageTitle有则必备可重复表 3报纸单版元数据5(续表)序号中文名称英文标签必备性可重复性备注8副刊版次SupplementNumber有则必备不可重复9副刊名称SupplementT
14、itle有则必备可重复10号外ExtraTitle有则必备可重复11栏目名称ColumnTitle有则必备可重复12本版主办PageInCharge可选可重复13本版责编PageEditor可选可重复14本版美编PageArtEditor可选可重复15本版图编PagePicEditor可选可重复16本版责校PageProofreader可选可重复17本版版式PageLayout可选可重复4.1.5新闻元数据新闻元数据包括了报纸新闻的基本信息,见表 4。序号中文名称英文标签必备性可重复性备注(对应 DC)1期次唯一标识符VolumeIdentifier必备不可重复2版次唯一标识符PageIden
15、tifier必备不可重复3新闻唯一标识符NewsIdentifier必备不可重复标识符(Identify)4新闻标题NewsTitle必备不可重复题名(Title)5新闻引题NewsPreTitle有则必备可重复6新闻副题NewsSubTitle有则必备可重复7作者NewsCreator必备可重复创建者(Creator)8来源NewsSource有则必备可重复来源(Source)9体裁NewsGenre可选可重复依据 GB/T 2009310头条NewsHeadLine可选不可重复11报眼PageEar可选不可重复12连载信息ContinueFlag可选可重复13正文NewsContent可选
16、不可重复14新闻字数NewsWords可选不可重复15坐标值NewsCoordinate可选不可重复包围文字区域的多边形的坐标16面积NewsArea可选不可重复包围文字区域的多边形的面积17重要度NewsImportLevel可选可重复根据面积和坐标计算得出的重要程度18新闻学科NewsSubject可选可重复依据 GB/T 20093表 4新闻元数据CY/T 101.0201464.1.6图片元数据图片元数据包含新闻图片的基本信息,见表 5。序号中文名称英文标签必备性可重复性备注1新闻唯一标识符NewsIdentifier必备不可重复2图片唯一标识符PictureIdentifier必备可
17、重复3图片标题PictureTitle有则必备不可重复图片的名称4图片作者PictureCreator有则必备可重复图片制作者等5摄影者Photographer有则必备可重复图片摄影者6绘制者Drawer有则必备可重复图、表制作者7图片说明PictureNote有则必备可重复对图片的解释和说明文字8图片文稿PictureContent可选可重复图片的正文9图片来源PictureSource可选可重复图片来源于转载、摄影等方式的描述10图片模式PictureStyle必备可重复灰色或黑白图片11图片精度PictureResolution必备可重复DPI 值12图片坐标值PictureCoordi
18、nate可选不可重复包围文字区域的多边形的坐标13图片面积PictureArea可选不可重复包围文字区域的多边形的面积14图片重要度PictureImprotLevel可选可重复根据面积和坐标计算得出的重要程度15学科分类PictureSubject可选可重复依据 GB/T 20093表 5图片元数据4.1.7广告元数据广告元数据包括了报纸广告的基本信息,见表 6。序号中文名称英文标签必备性可重复性备注1期次唯一标识符VolumeIdentifier必备不可重复2版次唯一标识符PageIdentifier必备不可重复3广告标识唯一标识符AdvIdentifier必备不可重复4广告名称AdvNa
19、me有则必备可重复广告品牌的名称5广告主AdvOwner有则必备可重复6广告色彩AdvStyle可选不可重复7广告精度AdvResolution可选不可重复8广告正文AdvContent可选不可重复具有大段文字介绍或说明及实体9广告面积AdvArea可选不可重复跨版广告、整版广告、半版广告、1/4 版广告、通栏广告10广告位置AdvCoordionate可选不可重复正版广告、中缝广告、报眼广告、分类广告、报花广告11学科分类AdvSubject可选可重复依据 GB/T 4754表 6广告元数据74.1.8管理元数据管理元数据记录加工生产相关信息,见表 7。序号中文名称英文标签必备性可重复性备注
20、1期次唯一标识符VolumeIdentifier必备不可重复资源的唯一标识2级别Level可选不可重复资源重要级别3加工者Processor必备可重复资源加工信息4加工日期ProcessDate必备不可重复资源加工时间5组成Files可选可重复构成资源的文件情况6存储FileLoaction可选可重复资源保存的位置描述表 7管理元数据4.2图像数据4.2.1图像数据规格图像数据的加工范围包含从头版至末版所有版面,每版为 1 个图像文件。见表 8。应用方向压缩方式 分辨率(DPI)色彩模式TIFF面向长期保存应用LZW600 或 300彩色图像采用 24 位真彩色模式、灰度图像采用8 位灰度模式
21、、黑白图像采用二值模式JPEG面向其他应用JPEG100 以上参数类型格式表 8图像数据规格4.2.2图像数据质量要求遵循 CY/101.4-2014 中 5.5.2 的相关规定,图像数据质量的差错率要求为千分之一。4.3内容结构化数据4.3.1内容结构化数据层次结构内容结构化数据包含元数据集和内容数据以及关联的对象数据,层次结构如图 1 所示图 1内容结构化数据层次结构内容结构化数据内容关联信息单期元数据单版元数据新闻元数据正文内容图片元数据广告元数据管理元数据报纸元数据CY/T 101.0201484.3.2单版结构化数据单版结构化数据的加工范围至少应包含新闻元数据和正文内容,其他为可选,
22、见表 9。组成内容选择性内容说明单版元数据必备包括单版信息,由期号、版号、版名、责任编辑等组成新闻元数据必备包括新闻的标题、作者、来源及内容等信息图片元数据可选包括图片对象、图片标题、图片说明等内容信息广告元数据可选包括广告标题、广告产品、广告主等内容信息正文内容必备包括正文文字内容表 9单版结构数据的组成4.3.3内容关联信息内容关联信息包含:a)导读与新闻内容的链接关系;b)“上接”和“下转”的链接关系;c)插图引用点与插图的引用关系;d)表格引用点与表格的引用关系;e)图像引用点与图像文件的链接关系。4.3.4内容结构化数据规格和质量要求内容结构化数据采用 XML1.0 及以上版本格式,
23、质量要求包括:a)文字质量要求应符合 CY/101.4-2014 中 5.5.1 和相关出版质量管理规定;b)按 CY/101.4-2014 中 5.5.3 的规定,内容结构质量的差错率要求为万分之三;c)按 CY/101.4-2014 中 5.5.4 的规定,关联关系质量的差错率要求为千分之三。4.4对象数据4.4.1对象数据层次结构对象数据包括图像类对象数据和结构化或矢量化对象数据,层次结构如图 2 所示。图 2对象数据层次结构4.4.2图像类对象数据规格和质量要求4.4.2.1图像类对象数据规格以图像方式加工的对象数据包含插图图片、表格图片、广告图片、生僻字及特殊符号图片。生僻字图片采用
24、 GIF 格式存储,技术规格见表 10。其他图像类对象数据采用 JPG 格式存储,技术规格见表11。各类对象数据以图像文件形式加工插图图片表格图片广告图片生僻字图片结构化表格矢量化字库以结构化或矢量化文件形式加工9技术指标技术参数选择性内容说明色彩模式二值图像必备用于存储黑白的图像压缩方式LZW 无损压缩必备底色透明必备用于网站发布时,与矢量文字底色一致表 10生僻字图片技术规格技术指标技术参数选择性内容说明分辨率300DPI可选用于存储并发布的高精度图像,一般用于网站发布的大图150DPI介于 300DPI 至 96DPI 之间,一般用于网站发布的大图96DPI用于发布缩略图,一般用于网站缩
25、略图展示色彩模式彩色图像必备用于存储彩色的图像灰度图像必备用于存储灰度或黑白的图像二值图像可选用于存储黑白的图像压缩方式JPEG必备表 11其他图像类对象数据技术规格4.4.2.2图像类对象数据质量要求遵循 CY/101.4-2014 中 5.5.2 的相关规定,图像类对象数据质量的差错率要求是千分之一。4.4.3结构化或矢量化对象数据的规格和质量要求4.4.3.1结构化对象数据当表格、生僻字采用矢量方式加工时,均需按照相应的规格及文件格式进行加工。结构化表格对象采用 HTML5.0 及以上版本格式存储。4.4.3.2结构化对象数据质量要求按 CY/101.4-2014 中 5.5.1 的规定
26、,结构化对象数据质量的差错率要求是万分之一。4.4.3.3矢量化对象数据特殊字符集采用 TTF(TrueTypeFont)格式存储。4.4.3.4矢量化对象数据质量要求按 CY/101.4-2014 中 5.5.1 的规定,矢量化对象数据质量的差错率要求是万分之一。4.5版式文件数据4.5.1版式文件数据规格版式数据的加工范围包含从头版到末版的全部内容,采用 PDF 1.6 及以上版本格式,技术规格见CY/101.4-2014 的表 2。4.5.2版式文件数据质量要求质量要求如下:a)文字质量要求应符合 CY/101.4-2014 中 5.5.1 和相关出版质量管理的规定;b)遵循 CY/10
27、1.4-2014 中 5.5.5 的相关规定,版式文件质量的差错率要求为万分之三;c)遵循 CY/101.4-2014 中 5.5.2 的相关规定,图像质量的差错率要求为千分之一;d)遵循 CY/101.4-2014 中 5.5.3 的相关规定,关联关系质量的差错率要求为千分之三。CY/T 101.02014104.6流式文件数据4.6.1流式文件数据规格流式文件的加工范围包含从头版到末版的全部内容,采用 EPub 3.0 及以上版本格式,见表 12。组成内容选择性内容说明期次信息必备用于存储期次相关信息新闻标题信息必备用于存储新闻标题及所属栏目等信息文件组成信息必备用于管理流式文件的结构排版
28、信息可选排版信息包含流式文件显示内容时的特殊效果,如段首缩进、段落间距、浮动窗口、列表形式等文字样式可选用于展示文字时体现的样式,主要包含:文字字体、字号、颜色、粗体、斜体、下划线、删除线、着重符号、等信息。生僻字采用贴图或造字的形式展示图片样式可选图片样式用于展示图片的位置及与文字的关系,如:位置可以为居左、居中、或居右与文字的关系可以为环绕,悬浮等表格样式可选表格包含表格标题、表格内容和表格注释可采用 HTML 方式展示或采用图片方式展示4.6.2流式文件数据质量要求质量要求如下:a)文字质量要求应符合 CY/101.4-2014 中 5.5.1 和相关出版质量管理规定;b)遵循 CY/1
29、01.4-2014 中 5.5.6 的相关规定,流式文件质量的差错率要求为万分之三;c)遵循 CY/101.4-2014 中 5.5.5 的相关规定,图像质量的差错率要求为千分之一;d)遵循 CY/101.4-2014 中 5.5.5 的相关规定,关联关系质量的差错率要求为千分之三。4.7命名及存储4.7.1命名报纸加工成品的命名遵循种、期、版独立编号的原则,不允许在命名中增加各种分类信息或其他辅助标记信息,优先使用 DOI 命名体系,见表 13:类别编号规则报纸种类四位数字组成,从 0001 记起,每种报纸记 1期号五位数字组成,每期报纸从 00001 记起,每期记 1新闻编号四位数字组成,
30、每卷期从 0001 记起,每篇新闻记 1版号三位数字组成,每卷期从 001 记起,每页记 1表 13基本编号规则表 12流式文件数据规格命名规则如下:a)文件夹命名方法:报纸种类编号+期号;示例:X:0001-00001b)图像文件命名方法:报纸种类编号+期号+版号;示例:0001-00001-001.TIFc)矢量版式文件命名方法:报纸种类编号+期号+S;示例:0001-00001-S.PDF11d)双层版式文件命名方法:报纸种类编号+期号+D;示例:0001-00001-D.PDFe)图像版式文件命名方法:报纸种类编号+期号+T;示例:0001-00001-T.PDFf)转曲版式文件命名方
31、法:报纸种类编号+期号+P;示例:0001-00001-P.PDFg)结构化数据命名方法:报纸种类编号+期号;示例:0001-00001.XMLh)流式数据 EPub 命名方法:报纸种类编号+期号。示例:0001-00001.Epub4.7.2存储以单期报纸为独立存储结构,所有文档存储于其中,存储体系见图 3:图 3存储体系4.8数据清单成品数据交付清单包含数据说明(见表 14)、数据清单(见表 15)、统计清单(见表 16)。加工方在提交成品数据后,应按约定归还物理件。数据总体说明序号名称说明1项目名称项目名称2加工单位项目加工单位全名表 14数据说明报纸种类编号+期号(文件夹)图像数据(文
32、件夹)图像文件(*.TIF)矢量版式文件双层版式文件图像版式文件转曲版式文件单期报纸 XML单期报纸 Epub对象数据文件版式文件(文件夹)结构化文件(文件夹)Epub 文件(文件夹)附件文件(文件夹)原始排版文件(文件夹)CY/T 101.0201412序号名称说明3项目时间项目完成年份4数据加工编号以起始终止表示,如 01090001_01 01090213_205完成报纸总期数项目实际完成报纸期数6完成报纸总版数项目实际完成报纸版数7序号以 1 开始,顺次编号8存储内容存储的数据内容,如 XML 文件、版式文件和说明文件等9数据格式以大写英文字母表示,如 PDF、EXCEL、XML、EP
33、UB、MOBI、TXT10存储介质数据存储的介质说明12介质数量存储介质的数量13存储量以 GB 为单位表示14备注需要说明的特殊情况(续表)成品数据硬盘/光盘存储清单序号名称说明1数据内容存储的数据内容,如报纸版式文件、入库文件2数据格式以大写英文字母表示,如 XML、PDF、TXT、EPUB、TIFF3序号以 1 开始,顺次编号4硬盘/光盘编号本硬盘/光盘的编号5报纸加工编号本块硬盘/光盘存储的报纸加工编号起止号6报纸期数本块硬盘/光盘存储的报纸总期数7报纸版数本块硬盘/光盘存储的报纸总版数8存储量以 GB 为单位表示9备注需要说明的特殊情况10合计表 15数据清单报纸单期数据量统计表单序
34、号名称说明1序号以 1 开始,顺次编号2加工编号报纸加工总期号3报纸叠数本期报纸叠数4报纸版数本期报纸版数5电子数据版数本期报纸电子数据版数表 16统计清单135数据验收委托方在确认收到成品数据后应在 30 个工作日内完成验收工作。验收工作应首先对成品数据的完整性、规范性和有效性进行检验,在这3个方面都符合质量要求后,再根据质量要求检验成品数据的准确性。在检验过程中要逐一记录发现的错误情况。验收工作完成后委托方出具验收报告。6数据维护加工方在数据验收合格后应按双方约定提供数据维护服务,维护服务的周期由双方协商而定,通常为 1 年。数据维护服务的主要内容包括及时修改后续发现的数据错误,提供数据规格、存放规则、存储清单等文档,为委托方提供数据应用支持和咨询服务等。CY/T 101.02014141 GB/T 4754 国民经济行业分类与代码2 GB/T 18793 信息技术 可扩展置标语言(XML)1.03 GB/T 20093 中文新闻信息分类与代码4 GB/T 25100 信息与文献 都柏林核心元数据元素集5 CY/T 101.1 新闻出版内容资源加工规范 第 1 部分:加工专业术语参考文献