2. スペースは" "だけじゃない的な話


Home -> 雑用 -> 雑用メモ -> [2. スペースは" "だけじゃない的な話]

2014/10/15 作成
2014/10/20 更新
2014/11/01 更新
一切推敲していない糞文章故、大変読み難い代物となっております。

経緯みたいなアレ

[1. ハイフンは"-"だけじゃない、中点は"·"だけじゃない]の整理中にふとテキストエディタを見た時に、半角スペースなのに
記号表示がされていないものがあることに気付いた。というのも、エディタの設定で半角スペースの位置に薄く空白記号が描画される
ようにしているのだけれども、一部のスペース(一見普通の半角っぽい)ではそれが描画されていなかったので違和感全開だったのである。
で、調べてみたら記号表示されていない方は (= )であることが分かった。
 の存在自体はずっと前から知っていたのだけれども、これはHTML独自の仕様だとばかりずっと思っていたので、
いわゆる半角スペース( )とは別に にコードポイントが割り当てられていることを知って少し面食らった。

スペースについて

「スペース」っぽいやつ一覧

いろいろあるけどHTML上では見えたり見えなかったり。両脇に文字がないと空白ができない、なんてこともある。

記号 Unicode 参照 名称 備考
U+0009 	
	
水平タブ (HT)
CHARACTER TABULATION
[ ]←ここに入ってる空白がそれ。
タブ。↑のHTML上からコピーしてもU+0020になる。
U+000A 



改行 (LF)
LINE FEED
一応
U+000B 

垂直タブ (VT)
VERTICAL TABULATION
一応
U+000C 

フォームフィード (FF)
FORM FEED
一応
U+000D 

復帰キャリッジ・リターン (CR)
CARRIAGE RETURN
一応
 U+001C 

FILE SEPARATOR 一応
 U+001D 

GROUP SEPARATOR 一応
 U+001E 

RECORD SEPARATOR 一応
 U+001F 

UNIT SEPARATOR 一応
U+0020  
 
スペース
SPACE
[ ]←ここに入ってる空白がそれ。
「半角スペース」。普通にキー入力するとこれになる。
  U+00A0  
 
 
ノーブレークスペース
NO-BREAK SPACE
スペース箇所での改行を避けたい時に使う。
見た目にはU+0020とほぼ同じだけど別物。
U+11A3 ᆣ
ᆣ
HANGUL JUNGSEONG A-EU
U+11A4 ᆤ
ᆤ
HANGUL JUNGSEONG YA-U
U+11A5 ᆥ
ᆥ
HANGUL JUNGSEONG YEO-YA
U+11A6 ᆦ
ᆦ
HANGUL JUNGSEONG O-YA
U+11A7 ᆧ
ᆧ
HANGUL JUNGSEONG O-YAE
U+1680  
 
OGHAM SPACE MARK []←ここに入ってる空白がそれ。
↑のHTML上からコピーしてもU+0020になる。オガム文字?ナニソレ
U+180E ᠎
&#180E;
MONGOLIAN VOWEL SEPARATOR []←ここに入ってる空白がそれ。
↑のHTML上からコピーしてもU+0020になる。モンゴル語?ナニソレ
  U+2000  
 
EN QUAD n幅の四角形。
U+2001  
 
EM QUAD m幅の四角形。
U+2002  
 
 
EN SPACE n字幅の空白(半角空白)。
半角とは言ってもU+0020とは別物。
U+2003  
 
 
EM SPACE m字幅の空白(全角空白)。
全角とは言ってもU+3000とは別物。
U+2004  
 
THREE-PER-EM SPACE (1/3)m幅の空白。
U+2005  
 
FOUR-PER-EM SPACE (1/4)m幅の空白。
U+2006  
 
SIX-PER-EM SPACE (1/6)m幅の空白。
U+2007  
 
FIGURE SPACE 数字用空白。
U+2008  
 
PUNCTUATION SPACE 句読点用空白。
U+2009  
 
 
THIN SPACE 狭い空白。
U+200A  
 
HAIR SPACE 非常に狭い空白。
U+200B ​
​
ゼロ幅空白
ZERO WIDTH SPACE
U+202F  
 
NARROW NO-BREAK SPACE 幅の狭いノーブレークスペース。
U+205F  
 
MEDIUM MATHEMATICAL SPACE []←ここに入ってる空白がそれ。
中くらいの大きさの数学用空白。
U+2060 ⁠
⁠
ワード接合子
WORD JOINER
U+FEFFの代替。
  U+3000  
 
和字間隔
IDEOGRAPHIC SPACE
「全角スペース」。
かな入力時にスペースを入力するとこれになる。
U+3164 ㅤ
ㅤ
HANGUL FILLER
 U+FEFF 

ゼロ幅のノーブレークスペース
ZERO WIDTH NO-BREAK SPACE
UTF-8のBOMと同じせいで何となくアレルギー反応がある。

「ゼロ幅文字」について

さっき「ゼロ幅空白」なるものが出てきたけれども、こんな感じで幅を持たない文字ってのもいくつかあるので整理。 上の表と2つほど重複するけどまあ気にせず。

記号 Unicode 参照 名称 備考
͏ U+034F ͏
͏
結合書記素接合子
COMBINING GRAPHEME JOINER
【͏】
U+200B ​
​
ゼロ幅空白
ZERO WIDTH SPACE
【​】
U+200C ‌
‌
‌
ゼロ幅非接合子
ZERO WIDTH NON-JOINER
【‌】
筆記体を表示するときに文字をくっつけないための制御記号。
ニコニコ動画でNG避けコメントするのに使われてる。
U+200D ‍
‍
‍
ゼロ幅接合子
ZERO WIDTH JOINER
【‍】
筆記体を表示するときに文字をくっつけるための制御記号。
U+200E ‎
‎
‎
記述方向制御(左から右へ)
LEFT-TO-RIGHT MARK
【‎】
LRM。
U+200F ‏
‏
‏
記述方向制御(右から左へ)
RIGHT-TO-LEFT MARK
【‏】
RLM。
U+2028 



行区切り文字
LINE SEPARATOR
【
】
U+2029 



段落区切り文字
PARAGRAPH SEPARATOR
【
】
U+202A ‪
‪
LRE
LEFT-TO-RIGHT EMBEDDING
【‪】
U+202B ‫
‫
RLE
RIGHT-TO-LEFT EMBEDDING
【‫】
‬↑の2つ目の括弧はHTMLソース上では普通の閉じ括弧です。
‫より後ろの文は右読みになります。
U+202C ‬
‬
PDF
POP DIRECTIONAL FORMATTING
【‬】
RLEやRLO等による文字方向に関する指示を元に戻す
U+202D ‭
‭
LRO
LEFT-TO-RIGHT OVERRIDE
【‭】
U+202E ‮
‮
RLO
RIGHT-TO-LEFT OVERRIDE
【‮】
‬↑の2つ目の括弧はHTMLソース上では普通の閉じ括弧です。
‮より後ろの文は右読みになります。
U+2061 ⁡
⁡
関数適用
FUNCTION APPLICATION
【⁡】
U+2062 ⁢
⁢
不可視の乗算記号
INVISIBLE TIMES
【⁢】
U+2063 ⁣
⁣
不可視の区切り文字
INVISIBLE SEPARATOR
【⁣】
 U+FEFF 

ゼロ幅のノーブレークスペース
ZERO WIDTH NO-BREAK SPACE
【】
UTF-8のBOMと同じせいで何となくアレルギー反応がある。

適宜参照するといいかもしれないページ


管理人Twitter: @su_te_ak/◆mmft4k9vgtL6
要望等はTwitterへ

Home -> 雑用 -> 雑用メモ -> [2. スペースは" "だけじゃない的な話]

ここ以降は鯖が勝手に付加するやつです