FC2ブログ
  1. 無料アクセス解析

Google日本語入力から一太郎2018Atokへ辞書反映する際の品詞の考慮の話

先日、
Android環境(ハルナアウトライン+jota)と
Windows環境(Mery)のことを書きましたが、
もう一つ重要な問題がありました。

辞書です。

私のような
ルビを多用するクソ文字書きにとって、
辞書の差分は大きな問題です。

AndroidではGoogle日本言語を使用し、
Windows環境では一太郎2018に付属するAtokを使用すること
に移行したわけですが

幸い、辞書データというのはバイナリみたいな面倒なデータではなく
実質的にただのテキストデータで構成されていて、
データ自体の変換はたいした問題ではありません。

ただ、問題となるのが、
「品詞の種類」です。

微妙に差があるので、
辞書データをテキストエディタで開いて
置換することで対応しようと思います。

対象は、20180630時点のAndroid版Google日本語入力と
一太郎2018用Atokの間の差分です。
左辺がGoogle日本言語、
置換先の右辺がAtokです。
置換先が「×」になっているのは
使ってないか、
Atokに同等の概念がないためパスしたものです。

左辺:Google日本語入力の置換元品詞
右辺:Atokの置換先品詞

短縮よみ→短縮読み
固有名詞→固有一般
人名→固有人名
姓→固有人姓
名→固有人名
組織→固有組織
地名→固有地名
数字→数詞
アルファベット→×
記号→単漢字
接頭辞→接頭語
接尾一般→接尾語
接尾人名→接尾語
接尾地名→接尾語
動詞ワ行五段→ワ行五段
動詞カ行五段→カ行五段
動詞サ行五段→サ行五段
動詞タ行五段→タ行五段
動詞ナ行五段→ナ行五段
動詞マ行五段→マ行五段
動詞ラ行五段→ラ行五段
動詞ガ行五段→ガ行五段
動詞バ行五段→バ行五段
動詞ハ行五段→ハ行四段
句読点→単漢字
抑制単語→×

あとは、Atokは単語データの末尾に印として「*」が付くようなので
それも置換します。

ちなみにファイル形式ですが、
置換後のテキストファイルを
サクラエディタ上「BOM付き UNICODE」で指定しないと
AtokはAtokの辞書データだと認識しないようです。
いつもの慣例でBOMなしUTF-8にして
「読まねえ、なんでだあああああ」
って5分くらい悩みました。

察しのいい人は気づくと思いますが。
単純に置換すると
名詞
固有名詞
固有人名

あたりで
人名→固有人名→固有人名詞
などと大暴れします。
Google日本語入力上「名」を「固有人名」やら「名詞」に置換するため
余計な場所に引っかかったり諸々でうまくいかないです。

正規表現で否定前後読みを使うとか、タブ文字を置換に含めるなり
うまくやりますと、
想定通りに置換されて晴れてAto辞書データとして読み込めるようになるので、
辞書に追加読みします。

中身がテキストデータということもあって
置換でなんとかなるのが救いですね。

これでAndroid環境の辞書データはWindowsに取り込めます。

問題はAtok側で追加した単語のGoogle日本語入力側への反映です。
単純に逆置換をすれば読み込みは出来るのですが、
Atokの方が圧倒的に品詞の種類が多く、
AtokからGoogle日本語入力の品詞へ収束すると、
情報がおちてしまいます。
上二段、下二段や、濁点付き変格活用など
Atokにはありますが、Google日本語入力には存在しません。

(個人的に、動詞の活用を考慮した単語登録をすると
半端ないくらい汎用性の高い変換をしてくれるようになるので
Google日本言語、Atokに限らずこれは正しく設定すべきだと
個人的な感想を持っています)

例えば、
Atokには、濁点付き活用例えば「ガ行五段」が「カ行五段」と別にありますが
Google日本語入力には「動詞カ行五段」しかなく
これを無理にまとめてしまうと、
再度Android環境(Google日本語入力)からWindows環境(Atok18)へ読み込む際に
情報が欠落します。

Atok     Google        Atok
「ガ行五段」→「動詞カ行五段」→「カ行五段」

で、元の姿に戻らない。


これは仕方がないので、
ATOK→Google日本語入力の辞書反映は行わないという
運用制限で逃げることにしました。

Windowsタブレットが手元にあって
Android携帯電話を持っていないというシチュエーションは
想定していないので、
単語登録はAndroid環境で行うことにします。

なかなか悩ましいですね。

関係ないですが、こうしたテキストデータの処理については
私はMeryではなくサクラエディタに任せています。

Meryは現状、
私の環境ではSSを書く用の調整を施されていて、
テキストデータの処理やコーディングの調整は施していませんし
施すつもりもありません。
カスタマイズのフォーカスを絞っているという意味で
それはサクラエディタと用途を分けるつもりでいるからです。

なので、正規表現置換については一行一行、末尾の*付与もサクラエディタで行い
それをサクラエディタ用のマクロとして保存しています。
勿論Meryのマクロでやってもいいはずなのですが、それはやっていません。
単純に、上記の通りのフォーカスの問題だけです。

Meryの「ファイルから置換」というのが、
正規表現的に左辺にあるものを右辺に辞書的に一括置換する
というものと期待しましたが
そういうものではなかったようでした。

それ起因で同機能のことを調べたのですが
それにしてもGrep置換がテキストエディタに備わっているというのは強力だな
と感心した次第です。

この記事へのコメント

コメントをお寄せ下さい

(コメント編集・削除に必要)
(管理者にだけ表示を許可する)

トラックバック

この記事のトラックバックURL
http://monostation.blog112.fc2.com/tb.php/2623-a7b4383d