2018年5月28日星期一

Jcseg 2.3.0 发布,Java 轻量级开源自然语言处理包


Linuxeden 开源社区 --Jcseg
Jcseg

Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于 Jetty 的 web 服务器,方便各大语言直接 http 调用,同时提供了最新版本的 lucene,solr 和 elasticsearch 的分词接口!

jcseg 2.3.0 更新如下:

1,NLP 切分部分时间实体没有使用空格隔开的 bug,例如:“2017 年大年初三”,应该结果:“2017 年 大年初三”。
2,检索模式重复输出的 bug。report at https://ift.tt/2LxUG3U
3,自动摘要自定义输出的长度失效 bug。
4,修复英文同义词追加 token.offset 尚未继承的 bug
5,修复 NLP 模式对类“五月天”等 datetime 词条的拆分优先级,以词库中的词条优先级最高
6,修复增加对 lucene 单字段多值索引的 offset 支持,例如 elasticsearch 的 Array 字段
7,jcseg-server 会打包为一个完整项目,增加 jvm.options 对 jvm 配置调整支持:

01, config: 配置目录,jcseg-server.properties 管理服务器和词库的配置,jvm.options 管理 jvm 的参数,例如内存分配等,默认 1.5G
02, lib: 全部依赖的 jar 包目录
03, lexicon: jcseg 词库目录,在此更改管理词库即可
04, jcseg-server: 启动管理脚本, 仅限 linux 增加-d 参数可以后台启动

jcseg-server 使用:

# 将 jcseg-server/target/jcseg-server 整个目录拷贝到安装目录,设为$JS_DIR

cd $JS_DIR

# 初次运行给 jcseg-server 增加+x 权限
# 同步运行
./jcseg-server

# 后台运行
./jcseg-server -d

备注:本次更新大部分修改都是针对“ 原语智能 ”AI 平台的版本,已经经过长期测试!

2.3.0 版本下载地址:

码云:https://gitee.com/lionsoul/jcseg/tree/v2.3.0-release

github:https://github.com/lionsoul2014/jcseg/releases/tag/v2.3.0-release

maven 仓库:已经同步

转自 https://ift.tt/2IO6am0

The post Jcseg 2.3.0 发布,Java 轻量级开源自然语言处理包 appeared first on Linuxeden开源社区.

https://ift.tt/2skMISN

没有评论:

发表评论