python pinyin

2025-12-11 0 384

汉字拼音转换工具(Python 版)

GitHubAction

将汉字转为拼音。可以用于汉字注音、排序、检索(Russian translation) 。

最初版本的代码参考了 hotoo/pinyin 的实现。

  • Documentation: https://pypinyin.readthed*o**cs.io/
  • GitHub: https://*git*hub.c*om/mozillazg/python-pinyin
  • License: MIT license
  • PyPI: https://*pypi.**org/project/pypinyin
  • Python version: 2.7, pypy, pypy3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 3.10, 3.11, 3.12, 3.13

Contents

  • 特性
  • 安装
  • 使用示例
  • 文档
  • FAQ
    • 拼音有误?
    • 为什么没有 y, w, yu 几个声母?
    • 存在既没有声母也没有韵母的拼音?
    • 如何将某一风格的拼音转换为其他风格的拼音?
    • 如何减少内存占用?
  • 拼音数据
  • Related Projects

特性

  • 根据词组智能匹配最正确的拼音。
  • 支持多音字。
  • 简单的繁体支持,注音支持,威妥玛拼音支持。
  • 支持多种不同拼音/注音风格。

安装

pip install pypinyin

使用示例

>>> from pypinyin import pinyin, lazy_pinyin, Style
>>> pinyin(\'中心\')  # or pinyin([\'中心\']),参数值为列表时表示输入的是已分词后的数据
[[\'zhōng\'], [\'xīn\']]
>>> pinyin(\'中心\', heteronym=True)  # 启用多音字模式
[[\'zhōng\', \'zhòng\'], [\'xīn\']]
>>> pinyin(\'中心\', style=Style.FIRST_LETTER)  # 设置拼音风格
[[\'z\'], [\'x\']]
>>> pinyin(\'中心\', style=Style.TONE2, heteronym=True)
[[\'zho1ng\', \'zho4ng\'], [\'xi1n\']]
>>> pinyin(\'中心\', style=Style.TONE3, heteronym=True)
[[\'zhong1\', \'zhong4\'], [\'xin1\']]
>>> pinyin(\'中心\', style=Style.BOPOMOFO)  # 注音风格
[[\'ㄓㄨㄥ\'], [\'ㄒㄧㄣ\']]
>>> lazy_pinyin(\'威妥玛拼音\', style=Style.WADEGILES)
[\'wei\', \"t\'o\", \'ma\', \"p\'in\", \'yin\']
>>> lazy_pinyin(\'中心\')  # 不考虑多音字的情况
[\'zhong\', \'xin\']
>>> lazy_pinyin(\'战略\', v_to_u=True)  # 不使用 v 表示 ü
[\'zhan\', \'lüe\']
# 使用 5 标识轻声
>>> lazy_pinyin(\'衣裳\', style=Style.TONE3, neutral_tone_with_five=True)
[\'yi1\', \'shang5\']
# 变调  nǐ hǎo -> ní hǎo
>>> lazy_pinyin(\'你好\', style=Style.TONE2, tone_sandhi=True)
[\'ni2\', \'ha3o\']

注意事项

  • 默认情况下拼音结果不会标明哪个韵母是轻声,轻声的韵母没有声调或数字标识(可以通过参数 neutral_tone_with_five=True 开启使用 5 标识轻声 )。
  • 默认情况下无声调相关拼音风格下的结果会使用 v 表示 ü (可以通过参数 v_to_u=True 开启使用 ü 代替 v )。
  • 默认情况下会原样输出没有拼音的字符(自定义处理没有拼音的字符的方法见 文档 )。
  • 嗯 的拼音并不是大部分人以为的 en 以及存在既没有声母也没有韵母的拼音,详见下方 FAQ 中的说明。

命令行工具:

$ pypinyin 音乐
yīn yuè

$ python -m pypinyin.tools.toneconvert to-tone \'zhong4 xin1\'
zhòng xīn

文档

详细文档请访问:https://pypinyin.readthed*o**cs.io/。

项目代码开发方面的问题可以看看 开发文档 。

FAQ

拼音有误?

可以通过下面的方法提高拼音准确性:

  • 可以通过自定义词组拼音库或者单字拼音库的方式修正拼音结果,
    详见 文档 。
>> from pypinyin import load_phrases_dict, load_single_dict

>> load_phrases_dict({\'桔子\': [[\'jú\'], [\'zǐ\']]})  # 增加 \"桔子\" 词组

>> load_single_dict({ord(\'还\'): \'hái,huán\'})  # 调整 \"还\" 字的拼音顺序或覆盖默认拼音
  • 也可以使用 pypinyin-dict 项目提供的自定义拼音库来纠正结果。
# 使用 phrase-pinyin-data 项目中 cc_cedict.txt 文件中的拼音数据优化结果
>>> from pypinyin_dict.phrase_pinyin_data import cc_cedict
>>> cc_cedict.load()

# 使用 pinyin-data 项目中 kXHC1983.txt 文件中的拼音数据优化结果
>>> from pypinyin_dict.pinyin_data import kxhc1983
>>> kxhc1983.load()
  • 如果是分词导致的拼音有误的话,可以先使用其他的分词模块对数据进行分词处理,
    然后将分词后的词组结果列表作为函数的参数即可:
>>> # 使用其他分词模块分词,比如 jieba 之类,
>>> #或者基于 phrases_dict.py 里的词语数据使用其他分词算法分词
>>> words = list(jieba.cut(\'每股24.67美元的确定性协议\'))
>>> pinyin(words)
  • 如果你希望能通过训练模型的方式提高拼音准确性的话,可以看一下 pypinyin-g2pW 这个项目。

为什么没有 y, w, yu 几个声母?

>>> from pypinyin import Style, pinyin
>>> pinyin(\'下雨天\', style=Style.INITIALS)
[[\'x\'], [\'\'], [\'t\']]

因为根据 《汉语拼音方案》 ,
y,w,ü (yu) 都不是声母。

声母风格(INITIALS)下,“雨”、“我”、“圆”等汉字返回空字符串,因为根据
《汉语拼音方案》 ,
y,w,ü (yu) 都不是声母,在某些特定韵母无声母时,才加上 y 或 w,而 ü 也有其特定规则。 —— @hotoo

如果你觉得这个给你带来了麻烦,那么也请小心一些无声母的汉字(如“啊”、“饿”、“按”、“昂”等)。
这时候你也许需要的是首字母风格(FIRST_LETTER)
。 —— @hotoo

参考: hotoo/pinyin#57,
#22,
#27,
#44

如果觉得这个行为不是你想要的,就是想把 y 当成声母的话,可以指定 strict=False ,
这个可能会符合你的预期:

>>> from pypinyin import Style, pinyin
>>> pinyin(\'下雨天\', style=Style.INITIALS)
[[\'x\'], [\'\'], [\'t\']]
>>> pinyin(\'下雨天\', style=Style.INITIALS, strict=False)
[[\'x\'], [\'y\'], [\'t\']]

详见 strict 参数的影响 。

存在既没有声母也没有韵母的拼音?

是的,strict=True 模式下存在极少数既没有声母也没有韵母的拼音。
比如下面这些拼音(来自汉字 嗯、呒、呣、唔):

ń ńg ňg ǹg ň ǹ m̄ ḿ m̀

尤其需要注意的是 嗯 的所有拼音都既没有声母也没有韵母,呣 的默认拼音既没有声母也没有韵母。
详见 #109 #259 #284 。

如何将某一风格的拼音转换为其他风格的拼音?

可以通过 pypinyin.contrib.tone_convert 模块提供的辅助函数对标准拼音进行转换,得到不同风格的拼音。
比如将 zhōng 转换为 zhong,或者获取拼音中的声母或韵母数据:

>>> from pypinyin.contrib.tone_convert import to_normal, to_tone, to_initials, to_finals
>>> to_normal(\'zhōng\')
\'zhong\'
>>> to_tone(\'zhong1\')
\'zhōng\'
>>> to_initials(\'zhōng\')
\'zh\'
>>> to_finals(\'zhōng\')
\'ong\'

更多拼音转换的辅助函数,详见 pypinyin.contrib.tone_convert 模块的
文档 。

如何减少内存占用?

如果对拼音的准确性不是特别在意的话,可以通过设置环境变量 PYPINYIN_NO_PHRASES
和 PYPINYIN_NO_DICT_COPY 来节省内存。
详见 文档

更多 FAQ 详见文档中的
FAQ 部分。

拼音数据

  • 单个汉字的拼音使用 pinyin-data 的数据
  • 词组的拼音使用 phrase-pinyin-data 的数据
  • 声母和韵母使用 《汉语拼音方案》 的数据

Related Projects

  • hotoo/pinyin: 汉字拼音转换工具 Node.js/JavaScript 版。
  • mozillazg/go-pinyin: 汉字拼音转换工具 Go 版。
  • mozillazg/rust-pinyin: 汉字拼音转换工具 Rust 版。
  • wolfgitpr/cpp-pinyin: 汉字拼音转换工具 c++ 版。
  • wolfgitpr/csharp-pinyin: 汉字拼音转换工具 c# 版。

下载源码

通过命令行克隆项目:

git clone https://github.com/mozillazg/python-pinyin.git

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 python pinyin https://www.zuozi.net/34412.html

ECommerceCrawlers
上一篇: ECommerceCrawlers
kilocode
下一篇: kilocode
常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务