语料库Corpus;Background Information;In linguistics, a corpus or text corpus is a large and structured set of texts (now usually electro
nically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may co
ntain texts in a single language (mo
nolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora.;语料库的分类
依据是研究目的和用途,可以分成四种类型:
异质的Heterogeneous:没有特定的语料收集原则,广泛收集并原样存储各种语料;
同质的Homogeneous:只收集同一类内容的语料;
系统的Systematic:根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;
专用的Specialized:收集用于某一特定用途的语料。
按照语料的语种,语料库也可以分成
单语的Mo
nolingual
双语的Bilingual
多语的Multilingual;Terms ;语料库Corpus
语料库即存放语言材料的仓库。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。关于语料库的三点基本认识:语料库中存放的是在实际使用中真实出现过的语言材料;语料库是以计算机为载体承载语言知识的基础资源;真实语料需要经过分析、处理和加工,才能成为有用的资源。;双语语料库Bilingual Corpus
双语语料库已成为翻译研究不可或缺的重要资源,指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近,通常只能用于两种或多种语言的对比。 ;双语Bilingual
双语(Bilingual)是指一个能运用两种语言的人,在日常生活中能将一门外语和母语基本等同地运用于听说读写。
例 There are chiefly the following reasons for bilingual teaching in schools.
在学校实施双语教学主要有以下几个原因。;对齐双语Bilingual Alignment
例 Its a method of word alignment which is ba
sed on sentence level aligned bilingual corpus.
这是一种基于句子级对齐的双语语料库的英??词对齐方法。
双语语料的各种应用Applied Linguistics
机器翻译
mechanical translation technology; machine translation machine translation technology
例 This paper is ba
sed on the idea of example-ba
sed machine translation.
本文的研究工作是基于实例的机器翻译的启发。;SGML:Standard Generalized Markup Language
SGML(标准通用标记语言),是一种定义电子文档结构和描述其内容的国际标准语言,是所有电子文档标记语言的起源,早在Web发明之前SGML就已存在。SGML规定了在文档中嵌入描述标记的标准格式,指定了描述文档结构的标准方法,目前在WEB上使用的HTML格式便是使用固定标签集的一种 SGML文档。由于SGML可以支持无数的文档结构类型,并且可以创建与特定的软硬件无关的文档,因此很容易与使用不同计算机系统的用户交换文档。;TEI文本编码Text Encoding Initiative