Files
VRCT/src-python/models/transliteration/transliteration_kana_to_hepburn.py

217 lines
9.4 KiB
Python
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# katakana_to_hepburn.py
# カタカナ -> ヘボン式ローマ字(パッケージ不要)
from typing import List
def katakana_to_hepburn(kata: str, use_macron: bool = True) -> str:
"""
カタカナ文字列をヘボン式ローマ字に変換する。
use_macron=True のとき ā ī ū ē ō で長音を表現(マクロン)。
use_macron=False のときは単純に連続母音を残す(例: ou, oo
"""
# 基本音の対応(主要なカタカナ)
base: dict = {
'':'a','':'i','':'u','':'e','':'o',
'':'ka','':'ki','':'ku','':'ke','':'ko',
'':'sa','':'shi','':'su','':'se','':'so',
'':'ta','':'chi','':'tsu','':'te','':'to',
'':'na','':'ni','':'nu','':'ne','':'no',
'':'ha','':'hi','':'fu','':'he','':'ho',
'':'ma','':'mi','':'mu','':'me','':'mo',
'':'ya','':'yu','':'yo',
'':'ra','':'ri','':'ru','':'re','':'ro',
'':'wa','':'wo','':'n',
'':'ga','':'gi','':'gu','':'ge','':'go',
'':'za','':'ji','':'zu','':'ze','':'zo',
'':'da','':'ji','':'zu','':'de','':'do',
'':'ba','':'bi','':'bu','':'be','':'bo',
'':'pa','':'pi','':'pu','':'pe','':'po',
# 小書き(単独で使われることは少ないがマップしておく)
'':'a','':'i','':'u','':'e','':'o',
'':'ya','':'yu','':'yo','':'xtsu','':'-',
'':'vu','シェ':'she' # 特殊は下で組合せで処理
}
# 拡張:子音 + 小ャユョ の組合せ(主要なもの)
digraphs: dict = {
('',''):'kya', ('',''):'kyu', ('',''):'kyo',
('',''):'gya', ('',''):'gyu', ('',''):'gyo',
('',''):'sha', ('',''):'shu', ('',''):'sho',
('',''):'ja', ('',''):'ju', ('',''):'jo',
('',''):'cha', ('',''):'chu', ('',''):'cho',
('',''):'nya', ('',''):'nyu', ('',''):'nyo',
('',''):'hya', ('',''):'hyu', ('',''):'hyo',
('',''):'bya', ('',''):'byu', ('',''):'byo',
('',''):'pya', ('',''):'pyu', ('',''):'pyo',
('',''):'mya', ('',''):'myu', ('',''):'myo',
('',''):'rya', ('',''):'ryu', ('',''):'ryo',
# 外来音対応(ファ/フィ/チェ 等)
('',''):'fya', ('',''):'fyu', ('',''):'fyo',
('',''):'tu', ('',''):'du',
# F-sounds (ファ フィ フェ フォ)
('',''):'fa', ('',''):'fi', ('',''):'fe', ('',''):'fo',
# シェ チェ ティ etc.
('',''):'she', ('',''):'che',
('',''):'ti',
('',''):'wa', ('',''):'wi', ('',''):'we', ('',''):'wo',
# その他外来語によくある組合せ
('',''):'si', ('',''):'zi', ('',''):'tsa', ('',''):'tsi', ('',''):'tse', ('',''):'tso',
('',''):'kye', ('',''):'gye',
('',''):'va', ('',''):'vi', ('',''):'ve', ('',''):'vo', ('',''):'vyu'
}
# 小文字一覧(ゃゅょぁぃぅぇぉ など)
small_kana = set(['','','','','','','','','','','','','','',''])
# マクロン変換マップ(連続母音 -> マクロン)
macron_map = {
'aa':'ā','ii':'ī','uu':'ū','ee':'ē','oo':'ō',
# ou -> ō という扱いを多くのヘボン式はする(特に日本語由来の長音)
'ou':'ō'
}
# Helper: 次のローマ字の先頭子音を取り出す(促音処理用)
def initial_consonant(rom: str) -> str:
# romはローマ字例 'shi','chi','ta'
# 子音は最初の母音直前までと考える(母音: a,i,u,e,o
for i,ch in enumerate(rom):
if ch in 'aeiou':
return rom[:i]
return rom # 母音がないなら全部
# 変換メイン
res: List[str] = []
i = 0
kata = kata.strip()
length = len(kata)
while i < length:
ch = kata[i]
# 促音(ッ):次の音の初めの子音を重ねる
if ch == '':
# lookahead
if i+1 < length:
# 先の1文字 or 合字を取り得る(小書きが続く可能性)
# まず合字優先で調べる
next_pair = None
if i+2 < length and (kata[i+1], kata[i+2]) in digraphs:
next_pair = digraphs[(kata[i+1], kata[i+2])]
elif kata[i+1] in base:
next_pair = base.get(kata[i+1])
if next_pair:
cons = initial_consonant(next_pair)
if cons == '':
# もし母音始まりなら促音は無視(稀)
pass
else:
# Hepburnでは "ch" の場合 "cch"matcha等の扱いになるように
# cons の先頭1文字を倍にするより、cons全体の先頭文字を重ねるのが一般的例: 'shi' -> 'ssh' ? いい例は少ない)
# 実務上は先頭子音の最初の文字を重複する:
res.append(cons[0])
# advance only the 促音 itself here; next loop handles next kana
i += 1
continue
# 長音符(ー):前の母音を伸ばす(マクロン処理は後でまとめて)
if ch == '':
# append marker '-' to indicate prolong; we'll post-process
res.append('-')
i += 1
continue
# 合字(子 + 小ャュョ等)
if i+1 < length and (ch, kata[i+1]) in digraphs:
res.append(digraphs[(ch, kata[i+1])])
i += 2
continue
# 小書きが前に独立して出てきた場合(通常は合字で処理されるが念のため)
if ch in small_kana and ch != '':
# 小書きを単独で英字に変換(例: 'ァ' -> 'a'
res.append(base.get(ch, ''))
i += 1
continue
# 普通のカタカナ
if ch in base:
res.append(base[ch])
i += 1
continue
# 英数字や記号・ひらがななどはそのまま(変換対象外)
res.append(ch)
i += 1
# ここまでで res はローマ字パーツのリスト(長音は '-' でマーク)
raw = ''.join(res)
# 撥音(ン)処理: n の前が b/p/m の場合 m にする
# ただし既に 'n' のまま次が母音や y の時は通常 n' を入れるべきだが簡易処理として n のまま保持。
# 我々は 'n' の後に b/p/m が来たら 'm' に置換
import re
raw = re.sub(r'n(?=[bmp])', 'm', raw)
# 長音処理('-' マークを見て前の母音を伸ばす)
# raw 中の '-' を削って該当の母音を伸ばす
while '-' in raw:
idx = raw.find('-')
if idx == 0:
# 先頭に長音符が来るのはおかしいので削除
raw = raw[:idx] + raw[idx+1:]
continue
# 前の文字が母音ならそれを重ねる
prev = raw[idx-1]
if prev in 'aiueo':
# 直前に既に vowel がある場合、後でマクロン処理に任せて母音を2つにする
raw = raw[:idx] + prev + raw[idx+1:]
else:
# 直前が子音なら何もして取り除く
raw = raw[:idx] + raw[idx+1:]
# 小さな例外対応: 'ti' 等の表記は 'chi' と扱いたいが上述マップでカバー済み
# macron の適用(長音の正規化)
if use_macron:
# まず 'ou' を ō に(ただし語による例外はあるが、一般的ヘボンに合わせる)
# その前に 'oo' を 'ō' に(稀)
for pair, mac in macron_map.items():
raw = raw.replace(pair, mac)
# else: leave as is (ou/oo/aa...)
# 仕上げ:小文字統一(ヘボンは小文字)
raw = raw.lower()
# 最後に、n の後に母音または y が来る場合は「んあ->n'a」的扱いが必要だが
# シンプル実装では n の後に母音や y が来るときは n' を入れる(明瞭化)
# ただし多くの実例では省略されることも多いのでコメントアウトしておく
# raw = re.sub(r"n(?=[aiueoy])", "n'", raw)
return raw
# --- テスト例 ---
if __name__ == "__main__":
tests = [
"カタカナ",
"コンピューター",
"キャッチ",
"マッチャ",
"シェア",
"ジェット",
"ヴァイオリン",
"ホテル",
"スーパー",
"ギュウニュウ",
"パーティー",
"トウキョウ", # 東京(トウキョウ -> tōkyō
"オーケー",
"ファイル",
"ニューヨーク",
"ラーメン",
"パン",
"チョコレート",
]
for s in tests:
print(s, "->", katakana_to_hepburn(s, use_macron=True))