下拉刷新
项目详情
navbar_avatar分享
repo_avatar
HelloGitHub 评分
0 人评分
这是一个对网页正文进行抽取的工具
开源MIT
认领
收藏
分享
484
星数
中文
HTML
主语言
活跃
3
贡献者
2
Issues
组织
最新版本
110
Forks
MIT
协议
更多
这是一个对网页正文进行抽取的工具。 [cx-extractor](https://github.com/chrislinan/cx-extractor/blob/master/%E5%9F%BA%E4%BA%8E%E8%A1%8C%E5%9D%97%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E7%9A%84%E9%80%9A%E7%94%A8%E7%BD%91%E9%A1%B5%E6%AD%A3%E6%96%87%E6%8A%BD%E5%8F%96%E7%AE%97%E6%B3%95.pdf) 算法的 python 版本,改进了原有算法,使其支持中英文,对新闻类网页正文抽取效果较好。示例代码: ```python from crawler.cx_extractor_Python import cx_extractor_Python cx = cx_extractor_Python() test_html = cx.getHtml('http://news.163.com/16/0101/10/BC84MRHS00014AED.html') content = cx.filter_tags(test_html) s = cx.getText(content) print(s) ```
收录于:
第 30 期

评论

评分:
暂无精选评论