强大的中文处理功能
epy提供全方位的中文处理工具,满足各种中文文本处理需求,接口简洁易用
智能分词
基于深度学习的中文分词算法,支持多种分词模式,准确识别新词和专业术语。
拼音转换
精准的中文转拼音功能,支持声调标注、首字母提取,以及多音字智能识别。
繁简转换
高效的中文繁简转换,支持大陆简体、台湾正体、香港繁体等多种标准。
关键词提取
从中文文本中自动提取关键信息和主题词,支持自定义权重和过滤条件。
文本纠错
智能识别并纠正中文文本中的错别字、拼音错误和语法问题。
高效性能
优化的底层实现,支持批量处理和并行计算,处理大规模文本速度快。
快速入门
只需几个简单步骤,即可开始使用epy处理中文文本
安装epy库
使用pip命令即可快速安装epy:
pip install epy
对于国内用户,推荐使用豆瓣源加速安装:
pip install epy -i https://pypi.douban.com/simple/
使用示例
探索epy的各种功能,轻松解决中文处理难题
中文分词
将中文文本分割为有意义的词语单元:
import epy text = "epy让自然语言处理变得简单高效" # 基础分词 print(epy.cut(text)) # 输出: ['epy', '让', '自然语言', '处理', '变得', '简单', '高效'] # 精确模式 print(epy.cut(text, mode='accurate')) # 输出: ['epy', '让', '自然', '语言', '处理', '变得', '简单', '高效']
拼音转换
将中文转换为拼音,支持多种格式:
import epy text = "我爱Python编程" # 带声调 print(epy.pinyin(text)) # 输出: wǒ ài Python biān chéng # 不带声调 print(epy.pinyin(text, tone=False)) # 输出: wo ai Python bian cheng # 首字母 print(epy.pinyin(text, style='first_letter')) # 输出: w a P b c
繁简转换
在简体中文和繁体中文之间进行转换:
import epy simplified = "这是一个简体中文的例子" # 转换为繁体(台湾) traditional_tw = epy.convert(simplified, target='traditional_tw') print(traditional_tw) # 输出: 這是一個簡體中文的例子 # 转换为繁体(香港) traditional_hk = epy.convert(simplified, target='traditional_hk') print(traditional_hk) # 输出: 這是一個簡體中文的例子
关键词提取
从文本中自动提取关键信息:
import epy text = "epy是一个强大的Python中文处理库,支持分词、拼音转换、繁简转换等功能," \ "能够帮助开发者更高效地处理中文文本数据。" # 提取关键词 keywords = epy.extract_keywords(text, top_k=5) print(keywords) # 输出: [('epy', 0.92), ('Python', 0.85), ('中文处理', 0.78), ('分词', 0.72), ('文本数据', 0.65)]