1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 jparser 0.0.11 发布, python 网页正文抽取 下载

Discussion in '软件资讯' started by 漂亮的石头, 2017-05-18.

  1. 漂亮的石头

    漂亮的石头 版主 Staff Member

    Joined:
    2012-02-10
    Messages:
    487,984
    Likes Received:
    47
    jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下:

    Bug fix:


    1. title提取错误


    2. 正文区域判断失误bad case


    3. li标签内容遗漏

    在线测试Demo:http://jparser.duapp.com/

    用法示例:

    import urllib2
    from jparser import PageModel
    html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
    pm = PageModel(html)
    result = pm.extract()

    print "==title=="
    print result['title']
    print "==content=="
    for x in result['content']:
    if x['type'] == 'text':
    print x['data']
    if x['type'] == 'image':
    print "[IMAGE]", x['data']['src']
    jparser 0.0.11 发布, python 网页正文抽取下载地址
     
Loading...