文字列正規化(UnicodeNormalizer)


About

文字列を正規化します。オプションから全半角変換なども選択できます。

FORM

Input:

正規化形式:
Output:

詳細設定 (正規化形式から「詳細設定」を選択した場合のみ有効)

分類 記号 Unicode 名称 変換前 変換後
横線 - U+002D ハイフンマイナス
­ U+00AD ソフトハイフン
˗ U+02D7 MODIFIER LETTER MINUS SIGN
̵ U+0335 COMBINING SHORT STROKE OVERLAY
̶ U+0336 COMBINING LONG STROKE OVERLAY
֊ U+058A ARMENIAN HYPHEN
U+1806 MONGOLIAN TODO SOFT HYPHEN
U+180A MONGOLIAN NIRUGU
U+2010 ハイフン
U+2011 ノンブレーキングハイフン
U+2012 フィギュアダッシュ
U+2013 エヌダッシュ
U+2014 エムダッシュ
U+2015 ホリゾンタルバー
U+2043 Hyphen bullet
U+207B 上付きマイナス
U+208B 下付きマイナス
U+2212 負符号
U+2500 横細罫線
U+2501 横太罫線
U+2796 HEAVY MINUS SIGN
U+2E3A TWO-EM DASH
U+2E3B THREE-EM DASH
U+30FC 全角長音記号
U+4E00 漢数字1
U+FE63 SMALL HYPHEN-MINUS
U+FF0D 全角ハイフンマイナス
U+FF70 半角長音記号
󠀭 U+E002D TAG HYPHEN-MINUS
上線 ¯ U+00AF 長音符号
U+203E 半角オーバーライン
U+FFE3 全角オーバーライン
下線 _ U+005F 半角アンダーバー
ˍ U+02CD MODIFIER LETTER LOW MACRON
̠ U+0320 COMBINING MINUS SIGN BELOW
̱ U+0331 COMBINING MACRON BELOW
̲ U+0332 COMBINING LOW LINE
̳ U+0333 COMBINING DOUBLE LOW LINE
͇ U+0347 COMBINING EQUALS SIGN BELOW
U+2017 DOUBLE LOW LINE
_ U+FF3F 全角アンダーバー
中点 · U+00B7 中点(ラテン)
· U+0387 ギリシャ語セミコロン
U+1427 CANADIAN SYLLABICS FINAL MIDDLE DOT
U+1802 MONGOLIAN COMMA
U+18DF CANADIAN SYLLABICS FINAL RAISED DOT
U+2022 ビュレット
U+2219 ビュレット演算子
U+22C5 ドット演算子
U+2802 BRAILLE PATTERN DOTS-2
U+2804 BRAILLE PATTERN DOTS-3
U+2810 BRAILLE PATTERN DOTS-5
U+2820 BRAILLE PATTERN DOTS-6
U+2E31 WORD SEPARATOR MIDDLE DOT
U+2E33 RAISED DOT
U+302E HANGUL SINGLE DOT TONE MARK
U+30FB 全角中点
U+FF65 半角中点
上付点 ˙ U+02D9 DOT ABOVE
̇ U+0307 COMBINING DOT ABOVE
͘ U+0358 COMBINING DOT ABOVE RIGHT
U+0971 DEVANAGARI SIGN HIGH SPACING DOT
U+2801 BRAILLE PATTERN DOTS-1
U+2808 BRAILLE PATTERN DOTS-4
U+FBB2 ARABIC SYMBOL DOT ABOVE
下付点 . U+002E 半角ピリオド
̣ U+0323 COMBINING DOT BELOW
U+2024 ONE DOT LEADER
U+2840 BRAILLE PATTERN DOTS-7
U+2880 BRAILLE PATTERN DOTS-8
U+FBB3 ARABIC SYMBOL DOT BELOW
U+FF0E 全角ピリオド
3点 U+2026 3点リーダ
U+22EF MIDLINE HORIZONTAL ELLIPSIS
波線 ~ U+007E 半角チルダ
U+223C チルダ演算子(NOT演算子)
U+223E INVERTED LAZY S
U+301C 波ダッシュ
U+3030 WAVY DASH
U+FF5E 全角チルダ
空白 U+0009 水平タブ (HT)
U+0020 半角スペース
  U+00A0 ノーブレークスペース
U+11A3 HANGUL JUNGSEONG A-EU
U+11A4 HANGUL JUNGSEONG YA-U
U+11A5 HANGUL JUNGSEONG YEO-YA
U+11A6 HANGUL JUNGSEONG O-YA
U+11A7 HANGUL JUNGSEONG O-YAE
U+1680 OGHAM SPACE MARK
U+180E MONGOLIAN VOWEL SEPARATOR
  U+2000 n幅四角形
U+2001 m幅四角形
U+2002 n幅空白
U+2003 m幅空白
U+2004 (1/3)m幅空白
U+2005 (1/4)m幅空白
U+2006 (1/6)m幅空白
U+2007 数字用空白
U+2008 句読点用空白
U+2009 小幅空白
U+200A 超小幅空白
U+200B ゼロ幅空白
U+202F 小幅ノーブレークスペース
U+205F 中幅数学用空白
U+2060 ワード接合子
  U+3000 全角スペース
U+3164 HANGUL FILLER
 U+FEFF ゼロ幅ノーブレークスペース

備考

正規化に関する参考URL


管理人Twitter: @su_te_ak/◆mmft4k9vgtL6
要望等は本スレ又はTwitterへ

Home -> 雑用 -> ツール -> [文字列正規化(UnicodeNormalizer)]