语料库术语汇编

来源:互联网 发布:百度地图js api 定位 编辑:程序博客网 时间:2024/05/17 04:55

转自:http://www.corpus4u.org/forum/showthread.php?p=35335#post35335

 

语料库术语汇编:欢迎增补、批评指正
【Updated on March 28, 2010】左边为英文,右边的汉语凡以分号(;)隔开的表示该术语有不同含义,以顿号(、)隔开的表示该术语有两种以上可接受的汉语译法。


我们从一开始就没打算制定什么标准,制定标准去规范别人是一件很可笑的事情。

我们只是提供了文献中的常见汉译,做了一点文献整理工作而已。没有(合适)译法的,我们尝试提供了汉译。如帖子的标题所言我们“欢迎增补、批评指正”。

术语的使用,一要合理,即切合原意;二要尊重约定俗成。

我们提供的中文译法,从左到右,第一个是相对来说用得较多的,或者是我们认为较合理的。


Aboutness 所言之事
Absolute frequency绝对频数
Alignment (of parallel texts)(平行或对应)语料的对齐
Alphanumeric字母数字类的
Annotate标注(动词)
Annotation标注(名词)
Annotation scheme标注方案
ANSI/American National Standards Institute美国国家标准学会
ASCII/American Standard Code for Information Exchange美国信息交换标准码
Associate (of keywords)(主题词的)联想词
AWL/Academic word list学术词表
Balanced corpus平衡语料库
Base list底表、基础词表
Bigram二元组、二元序列、二元结构
Bi-hapax两次词
Bilingual corpus双语语料库
CA/Contrastive Analysis对比分析
Case-sensitive大小写敏感、区分大小写
Chi-square (χ2) test 卡方检验
Chunk词块
CIA/Contrastive Interlanguage Analysis中介语对比分析
CLAWS/Constituent Likelihood Automatic Word-tagging SystemCLAWS词性赋码系统
Clean text policy干净文本原则
Cluster词簇、词丛
Colligation类联接、类连接、类联结
Collocate n./v.搭配词;搭配
Collocability搭配强度、搭配力
Collocation搭配、词语搭配
Collocational strength搭配强度
Collocational framework/frame搭配框架
Comparable corpora类比语料库、可比语料库
ConcGram同现词列、框合结构
Concordance (line)索引(行)
Concordance plot(索引)词图
Concordancer索引工具
Concordancing索引生成、索引分析
Context语境、上下文
Context word语境词
Contingency table连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring共现
Corpora语料库(复数)
Corpus Linguistics语料库语言学
Corpus语料库
Corpus-based基于语料库的
Corpus-driven语料库驱动的
Corpus-informed语料库指导的、参考了语料库的
Co-select/Co-selection/Co-selectiveness共选(机制)
Co-text共文
DDL/Data Driven Learning数据驱动学习
Diachronic corpus历时语料库
Discourse话语、语篇
Discourse prosody话语韵律
Documentation备检文件、文检报告
EAGLES/Expert Advisory Groups on Language Engineering StandardsEAGLES文本规格
Empirical Linguistics实证语言学
Empiricism经验主义
Encoding字符编码
Error-tagging错误标注、错误赋码
Extended unit of meaning扩展意义单位
File-based search/concordancing批量检索
Formulaic sequence程式化序列
Frequency频数、频率
General (purpose) corpus通用语料库
Granularity颗粒度
Hapax legomenon/hapax一次词
Header/Text head文本头、头标、头文件
HMM/Hidden Markov Model隐马尔科夫模型
Idiom Principle习语原则
Index/Indexing(建)索引
In-line annotation文内标注、行内标注
Key keyword关键主题词
Keyness主题性、关键性
Keyword主题词
KWIC/Key Word in Context语境中的关键词、语境共现(方式)
Learner corpus学习者语料库
Lemma词目、原形词、词元
Lemma list词形还原对应表
Lemmata词目、原形词、词元(复数)
Lemmatization词形还原、词元化
Lemmatizer词形还原(词元化)工具
Lexical bundle词束
Lexical density词汇密度
Lexical item词项、词语项目
Lexical priming词汇触发理论
Lexical richness词汇丰富度
Lexico-grammar/Lexical grammar词汇语法
Lexis词语、词项
LL/Log likelihood (ratio)对数似然比、对数似然率
Longitudinal/Developmental corpus跟踪语料库、发展语料库、历时语料库
Machine-readable机读的
Markup标记、置标
MDA/Multi-dimensional approach多维度分析法
Metadata元信息
Meta-metadata元元信息
MF/MD (Multi-feature/Multi-dimensional) approach多特征/多维度分析法
Mini-text微型文本
Misuse误用
Monitor corpus(动态)监察语料库
Monolingual corpus单语语料库
Multilingual corpus多语语料库
Multimodal corpus多模态语料库
MWU/Multiword unit多词单位
MWE/Multiword expression多词单位
MI/Mutual information互信息、互现信息
N-gramN元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing自然语言处理
Node节点(词)
Normalization标准化
Normalized frequency标准化频率、标称频率、归一频率
Observed corpus观察语料库
Ontology知识本体、本体
Open Choice Principle开放选择原则
Overuse超用、过多使用、使用过度、过度使用
Paradigmatic纵聚合(关系)的
Parallel corpus平行语料库、对应语料库
Parole linguistics言语语言学
Parsed corpus句法标注的语料库
Parser句法分析器
Parsing句法分析
Pattern/patterning型式
Pattern grammar型式语法
Pedagogic corpus教学语料库
Phraseology短语、短语学
POSgram赋码序列、码串
POS tagging/Part-of-Speech tagging词性赋码、词性标注、词性附码
POS tagger词性赋码器、词性赋码工具
Prefab预制语块
Probabilistic(基于)概率的、概率性的、盖然的
Probability概率
Rationalism理性主义
Raw text/Raw corpus生文本(语料)
Reference corpus参照语料库
Regex/RE/RegExp/Regular Expressions正则表达式
Register variation语域变异
Relative frequency相对频率
Representative/Representativeness代表性(的)
Rule-based基于规则的
Sample n./v.样本;取样、采样、抽样
Sampling取样、采样、抽样
Search term检索项
Search word检索词
Segmentation切分、分词
Semantic preference语义倾向
Semantic prosody语义韵
SGML/Standard Generalized Markup Language标准通用标记语言
Skipgram跨词序列、跨词结构
Span跨距
Special purpose corpus专用语料库、专门用途语料库、专题语料库
Specialized corpus专用语料库
Standardized TTR/Standardized type-token ratio标准化类符/形符比、标准化类/形比、标准化型次比
Stand-off annotation分离式标注
Stop list停用词表、过滤词表
Stop word停用词、过滤词
Synchronic corpus共时语料库
Syntagmatic横组合(关系)的
Tag标记、码、标注码
Tagger赋码器、赋码工具、标注工具
Tagging赋码、标注、附码
Tag sequence赋码序列、码串
Tagset赋码集、码集
Text文本
TEI/Text Encoding Initiative文本编码计划
The Lexical Approach词汇中心教学法
The Lexical Syllabus词汇大纲
Token形符、词次
Token definition形符界定、单词界定
Tokenization分词
Tokenizer分词工具
Transcription转写
Translational corpus翻译语料库
Treebank树库
Trigram三元组、三元序列、三元结构
T-scoreT值
Type类符、词型
TTR/Type-token ratio类符/形符比、类/形比、型次比
Underuse少用、使用不足
Unicode通用码
Unit of meaning意义单位
WaC/Web as Corpus网络语料库
Wildcard通配符
Word definition单词界定
Word form词形
Word family词族
Word list词表
XML/EXtensible Markup Language可扩展标记语言
Zipf's Law齐夫定律
Z-scoreZ值

原创粉丝点击