断字符和词干分析器
来源:互联网 发布:cad网络插座图标 编辑:程序博客网 时间:2024/05/20 22:28
断字符和词干分析器用于对所有全文索引数据执行语言分析。语言分析将涉及到查找词边界(断字)和组合动词(词干分析)。断字符和词干分析器是特定于语言的,并且各语言的语言分析规则也各不相同。对于给定语言,“断字符”通过根据语言的词法规则确定词的边界位置来标识各个词。每个词(也称为“标记”)使用压缩表示形式插入全文索引以减少其大小。“词干分析器”根据该语言的规则生成特定词的变形形式(例如,“running”、“ran”和“runner”是单词“run”的不同形式)。
使用特定于语言的断字符,能够使得为该语言生成的词更加准确。如果断字符用于整个语系而不是特定的子语言,将使用该语系中的主要语言。例如,使用法语断字符来处理加拿大法语文本。如果某一特定语言没有可用的断字符,将使用非特定语言断字符。使用非特定语言断字符时,词将在非特定语言字符(如空格和标点符号)处断开。
要想使用某种语言的断字符,就必须为其进行注册。对于已注册的断字符,关联的语言资源(词干分析器、干扰词(非索引字)和同义词库文件)也将可用于全文索引和查询操作。若要查看当前在 SQL Server 中注册了断字符的语言列表,请使用以下 Transact-SQL 语句:
SELECT * FROM sys.fulltext_languages
如果您添加、删除或更改了断字符,则需要刷新为全文索引和查询而支持的 Microsoft Windows 区域设置标识符 (LCID) 列表。有关详细信息,请参阅如何更改已注册的断字符和筛选器的列表 (Transact-SQL)。
SQL Server 2008 附带有若干个经过许可的第三方断字符。您可以手动加载若干种语言(丹麦语、波兰语和土耳其语)的附加的第三方断字符(以及词干分析器)。有关详细信息,请参阅如何加载经过许可的第三方断字符。
对于 SQL Server 的本地化版本,SQL Server 安装程序将把 default full-text language 选项设置为服务器的语言(如果存在合适的匹配项)。对于 SQL Server 的非本地化版本,default full-text language 选项为“英语”。
创建或修改全文索引时,可以为每个全文索引列指定不同的语言。如果未指定列的语言,默认值是配置选项 default full-text language 的值。
有关详细信息,请参阅 default full-text language 选项。
创建全文索引时,建议为每个索引列都指定一种语言。如果未为列指定语言,则将使用系统默认语言。某列的语言确定使用什么断字符和词干分析器对该列创建索引。另外,该语言的同义词库文件将由针对相应列的全文查询使用。
如果要选择用于创建全文索引的列语言,有几个事项需要注意。这些注意事项均与全文引擎如何对文本进行词汇切分再编制其索引有关。有关详细信息,请参阅创建全文索引时选择语言的最佳实践。
查看列的断字符语言
- 如何查看或更改全文索引的属性 (SQL Server Management Studio)
- sys.fulltext_index_columns (Transact-SQL)复制
SELECT 'language_id' AS "LCID" FROM sys.fulltext_index_columns;
SQL Server 2008 包括 50 多种不同语言的断字符,其中的 23 种也存在于 SQL Server 2005 中。只有英语、朝鲜语、泰语和中文(所有形式)的断字符保持不变。对于其他语言,SQL Server 2008 引入了新一代断字符,这些断字符与早期断字符相比具有更好的语言规则并且更加准确。新断字符的行为可能与导入的 SQL Server 2005 全文索引中的断字符行为稍有不同。如果全文目录是在 SQL Server 2005 数据库升级到 SQL Server 2008 时导入的,这一点将非常重要。该全文目录中全文索引使用的一种或多种语言现在可能与新断字符关联。有关详细信息,请参阅全文搜索升级。
只有英语、朝鲜语、泰语和中文(所有形式)的断字符保持不变。下表列出了存在于 SQL Server 2005 中的断字符,并指示在 SQL Server 2008 中是否已更新这些断字符。有关所有 SQL Server 2008 断字符的完整列表,请参阅 sys.fulltext_languages (Transact-SQL)。
巴西语
1046
新
中文(中华人民共和国香港特别行政区)
3076
不变
中文(中华人民共和国澳门特别行政区)
5124
不变
中文(新加坡)
4100
不变
丹麦语(默认情况下禁用)
1030
不变
荷兰语
1043
新
英语
1033
不变
英语(英国)
2057
不变
法语
1036
新
德语
1031
新
意大利语
1040
新
日语
1041
新
朝鲜语
1042
不变
非特定语言
0
新
波兰语(默认情况下禁用)
1045
不变
葡萄牙语
2070
新
俄语
1049
新
简体中文
2052
不变
西班牙语
3082
新
瑞典语
1053
新
泰语
1054
不变
繁体中文
1028
不变
土耳其语(默认情况下禁用)
1055
不变
有关支持的语言的完整列表,请参阅 sys.fulltext_languages (Transact-SQL)。
在许多情况下可能会出现断字超时错误。有关这些情况及如何针对每种情况做出反应的信息,请参阅 MSSQLSERVER_30053。
查看断字符、同义词库和非索引字表组合的词汇切分结果
- sys.dm_fts_parser (Transact-SQL).
返回有关已注册断字符的信息
- sp_help_fulltext_system_components (Transact-SQL)
- 断字符和词干分析器
- 词干提取和词形还原
- 词干提取和词形还原
- lucene-词干分析与保留空位和停用词
- 词干提取(stemming)和词形还原(lemmatization)
- lucene 进行去除停用词和词干提取
- 词干提取(stemming)和词形还原(lemmatization)
- 词干提取(stemming)和词形还原(lemmatization)
- 词干提取(stemming)和词形还原(lemmatization)
- 词干提取(stemming)和词形还原(lemmatization)
- 词干提取(stemming)和词形还原(lemmatization)比较
- Elasticsearch(分析和分析器)
- LL语法分析器和LR语法分析器的比较
- MP4 和 mp4v2lib的使用 和 分析器
- 波特词干算法
- 英文分词+提取词干
- 波特词干算法
- 波特词干算法
- 教你如何复制别人的QQ空间为自己用
- 发票校验部分增强
- hdu 1087 Super Jumping! Jumping! Jumping!(动态规划)
- Android 多个APK共享数据(Shared User ID)
- datatable的row的背景色设置
- 断字符和词干分析器
- 判断是否以strSub如//开头的行
- 如何使用 Visual C# 创建一个启用了邮箱的收件人
- System.out.print(" "+i);放置的区别
- 动态绑定数据
- 打印出整型的二进制
- 粒子系统
- AT91SAM9263 WinCE开机Logo eboot增大到512K
- 大学生为什么找不到工作?(郎咸平说)