1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包 下载

本帖由 漂亮的石头2017-04-05 发布。版面名称:软件资讯

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    487,979
    赞:
    47
    Jcseg 2.1.1 发布了。Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

    Jcseg 2.1.1 更新内容:


    1. 优化JcsegTokenizer的实现:clearAttributes改为到reset中调用,去除end()的调用,方便TokenStream外引用做相关统计查询工作。


    2. 修复Word#toString中json字符串的特殊字符转义bug,增加"和\的预处理。 reported by https://github.com/luohuan02


    3. 修复《》之间五内容切出空字符串的bug。 reported by http://git.oschina.net/fige


    4. NLP切分模式增加标准的datetime实体识别。例如:2017/03/07,2017-03-07。


    5. NLP切分模式增加中文通用datetime实体识别。例如:2017年3月7日,明天下午4点半,下周二上午8点45分等,明天凌晨2点一刻。


    6. NLP切分模式增加混合dateime实体识别。例如:明天下午15:45,下周二10:30,2017-03-15下午三点半,2017/12/24下午15:45。


    7. 优化了IWord词条对象的可能的并发访问问题,目前主要是出现在开启词库更新自动加载的情况下IWord.clone()调用时,更新线程和切分线程的竞争。

    datetime实体识别测试demo(不同datetime部分使用空格分开,方便二次处理):

    jcseg~tokenzier:NLP>> 2017年3月2日
    分词结果:
    2017年 3月 2日/t/datetime.ymd
    Done, total:9, tokens:1, in 0.00105sec
    jcseg~tokenzier:NLP>> 2017年03月07日
    分词结果:
    2017年 03月 07日/t/datetime.ymd
    Done, total:11, tokens:1, in 0.00000sec
    jcseg~tokenzier:NLP>> 明天下午4点半
    分词结果:
    明天 下午 4点半/t/datetime.dahi
    Done, total:7, tokens:1, in 0.00000sec
    jcseg~tokenzier:NLP>> 下周二上午8点45分
    分词结果:
    下周二 上午 8点 45分/t/datetime.dahi
    Done, total:10, tokens:1, in 0.00000sec
    jcseg~tokenzier:NLP>> 2017年03月08日下午15点半去见一个投资人
    分词结果:
    2017年 03月 08日 下午 15点半/t/datetime.ymdahi 去/q/null 见/n/null 一个/q/null 投资人/n/null
    Done, total:24, tokens:5, in 0.00000sec
    jcseg~tokenzier:NLP>> 明天凌晨2点一刻产品升级开始
    分词结果:
    明天 凌晨 2点一刻/t/datetime.dahi 产品/n/null 升级/vn/null 开始/n/null
    Done, total:14, tokens:4, in 0.00000sec
    jcseg~tokenzier:NLP>> 明天下午15:45
    分词结果:
    明天 下午 15点 45分/t/datetime.dahi
    Done, total:9, tokens:1, in 0.00000sec
    jcseg~tokenzier:NLP>> 2017/03/15下午16:45:36开始生日party
    分词结果:
    2017/03/15 下午 16点 45分 36秒/t/datetime.ymdahis 开始/n/null 生日/n/null party/en/null
    Done, total:29, tokens:4, in 0.00210sec

    下载地址:


    1. 大码云:http://git.oschina.net/lionsoul/jcseg/tree/v2.1.1-release/


    2. github:https://github.com/lionsoul2014/jcseg/tree/v2.1.1-release


    3. maven
    Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包下载地址
     
正在加载...