WORD、EXELの英文をイラレにコピぺすると文字化けする問題について

Question

海外の方にWORD、EXELで全文英文の原稿をいただき、
テキストをイラレにコピぺすると決まって、””や, ハイフン、' 等が、
文字化けしてしまいます。

永年、この問題は、解決できないと思って毎回、検索しては、置き換えていたのですが、そもそも英語のはずのこれらの記号が、なぜ、日本語のソフトを介すと、日本語の文字に変換されてしまい、そのままイラレ等の欧文書体のテンプレートに流し込むと文字化けを起こすのか理解できていません。

どなたか、解決策がわかる方、教えていただければと思います。

kabaokaba · Accepted Answer

＞テキストをイラレにコピぺすると決まって、””や, ハイフン、' 等が、
＞文字化けしてしまいます。

端的にいってしまえば「そういうものだ」とあきらめるしかありません．
理由はものすごく複雑．
私の場合は，いったんテキストファイルに落として
US-ASCIIの
・可読文字以外の文字が存在しないか
grepで検索してから使います．
化ける文字はこの時点でかなり検出できます．

「英語」といっても，コードは複雑で
たんに「ASCII」だからいいじゃないの？というのは間違えなんです．
ASCIIってのは，
何箇所かに「国別に好きな記号をいれてもいい」場所があって
それが文字化けの原因の一番簡単なものです
＃バックスラッシュと円記号（0x5C），
＃縦棒の中央が切れるか切れないか（0x7C）
＃上付きのチルダか上につく罫線か（0x7E）の三種類がある
＃前者がUS-ASCIIで，後者が対応するJIS．
＃これが相手がアメリカではなく
＃イギリスだと円記号じゃなくってポンド記号だったりする

次に起こりうるのはすでにご指摘があASCIIとISOの問題．
ASCIIの拡張として，ISO8859ってのがあって
その128番以降にはいろいろな種類がある．
#2さんのご指摘のLatin-1ってのは
ISO8859-1ってやつで主に西ヨーロッパで使われる文字が
追加されてるもので，これがほとんど場合の主流．
これが文字化けの原因となることもある．
これは#2さんのお話をじっくり考えればわかると思う
もし，Latin-1以外が前提とされたデータだったら・・・
かなり厄介です．

さらにややこしいことに，UNICODEの問題もあります．
UNICODEの符号化のデファクトスタンダードはたぶん
UTF-8だと思うけども，UTF-8で入稿されると
アクセント記号つき文字とか各種の記号類，約物が
みょうな化け方をして泣けてきます．
MSのオフィス系だとこれに加えて，MSのコードページの問題と
コードページとUNICODENの対応の問題もあって
はまるときはかなり悲惨です．

さらに泣けてくるのは，今度はAdobeの問題．
Adobeは独自の文字集合・エンコーディングを持っています．
まあ，日本だと有名なのはCIDに使われるAdobeJapan1-5とかですけども
欧文だとAdobe StandardとかCEとか，Symbolといったところです．
これがまた微妙なところで，独自になっていて
AdobeやPS・PDFだけで使うなら便利なんですが，
そうじゃない場合はややこしいのです．
ですので，こぴぺしたものをそのままイラストレータとかに
もっていっても，そこで化けることもあります．
逆に，たとえばPDFから「欧文だけ」をコピーしても
句読点とか引用符，アクセント記号は化けますよ．
これは#1さんご指摘のことですけど，
どうもアプリケーションかOSかその両方かで
何か変換処理がかかってるっぽい動作なんです．

Adobe・Apple・MSで微妙に使ってる文字集合や
UNNICODEへの変換表とか，OSやアプリそのものの実装が
違ってて，もうわけがわからないので
私はあきらめて，そういう場合は全文チェックしています．
やってるうちに，化けそうなデータや文字は
ヤマカンでみえるようになってます(苦笑)．

SortaNerd_ · Answer

解決策は分かりませんが原因は分かります。

"、-、'には複数の文字があります。
欧米で広く使われている文字コードにLatin-1というものがありますが、これはASCII(いわゆる半角英数字)の文字に加えアクセント付きアルファベットなどを使えます。

その中に引用符として、「""」に対応する「“”」と「''」に対応する「‘’」が含まれています。
またアクセント記号としての「´」も存在します。
そしてハイフンの類はASCII文字の「-」に加えて3つあります。
・ASCIIにある物はハイフンとマイナスを兼ねているが、ハイフンでなくマイナスのみを表す文字
・ダッシュ
・行末のみで表示される特殊なハイフン(ソフトハイフン)

これらの文字は“”‘’´までは日本語の文字コードにも存在しますが、コード体系は違うので化けるときには化けます。
また、マイナス・ダッシュ・ソフトハイフンに関しては日本語フォントには存在しません。

P-Tech · Answer

たとえば、次のようなやり方をしてみるとどうなりますか？

（１）ワードのデータをいったんテキストエディットにペーストする
（２）テキストエディット上で、フォントを欧文フォントにする
（３）改めてコピーして、イラレペーストする

これでもダメですか？　私の場合、ワードをインデザインなどに直接コピペすると、よけいなデータまで持ってきてしまうことがあり、そのとき私は上記の方法を使います。勝手に「テキストデータのお洗濯」と呼んでいます。

質問内容と関係するかもしれない私の経験を話します。
以下、Adobe CS3です。
英語のテキストを作っていて、英文を入力する際（当然欧文フォントで）、“　　”や‘　　’を半角モードのまま入力すると、「"」「'」になってしまいます。
つまり、開きカッコ・閉じカッコのそれぞれの「向き」が表現されず、一律に「まっすぐ立った状態」になってしまうのです。
そこで、全角で打つと、きれいに開きカッコ・閉じカッコが表現されました。さらに、そのデータを試しにテキストエディットにペーストしてみると、クオーテーションマークは全角で入力されていました…。
本来、欧文フォントで日本語（２バイト文字）を打つと、文字化けするはずなのですが…。少なくとも、OS9時代のクオークやページメーカーはそうでした。

もしかしたら、海外のワードで作成したデータでも、日本のワードで読むときに、何らかの文字の置換が内部的に起きていることはあり得ないでしょうか？

ちなみに、今イラレCS3とワード2008を使ってやってみましたが、文字化けは起きませんでした。
ひとつには、イラレのバージョンの問題もあるかもしれません。
以前は、ワードで作った原稿で作った原稿をクオークやページメーカーに読み込むと、丸付き数字が化けましたよね？
ところが、今は、ワードのデータをそのままコピーペースト（正しくは「フォーマットなしでペースト」）しても、文字化けしなくなりました。むしろ、ワードをテキスト保存したものを読んでくると、従来どおり文字化けします。
AdobeCS以降、というか、インデザインが登場したあたりから、文字コードの読み取り方が変わっているようです。この話は、以前、仲間から聞いたことがありますが、詳しいことはわかりません。要するに、文字化けしそうなものを勝手に変換してくれているのかもしれません。
とにかく、化けなくなったおかげで大変楽になりましたが。

ともあれ、質問者のイラレ・ワードのバージョンやOS（9かXか）などによっても、対処法が異なるのかもしれません。

WORD、EXELの英文をイラレにコピぺすると文字化けする問題について

＞テキストをイラレにコピぺすると決まって、””や, ハイフン、' 等が、

解決策は分かりませんが原因は分かります。

たとえば、次のようなやり方をしてみるとどうなりますか？

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング