
SJIS、EUC、UTF8、のどれがくるかわかりませんが、
かつ、その中で、どの言語がくるかわかりませんが、
その中で、日本語だけを、可能な限り容易に判別する方法は
ありますでしょうか?
また、既存のモジュールを可能な限り使用しない方法でもあります。
#pureperlで書かれていれば、移植はできますが
ひらがな、カタカナを抽出すればいいのもありますが、
仮対処にしかならず、漢字だけの場合の抽出が
できなくなってしまいます。
以下、参考までに・・
内部コードがSJIS?
#内部コードも、SJIS、EUC、UTF8のどれになるかわかりません。
UTF8の日本語がきたら、SJISになる
UTF8の中国語がきたら、化ける(捨てる対象
EUCの日本語が来たら、SJISになる
EUCの韓国語がきたら、化ける(捨てる対象)
SJISの日本語が来たら、そのまま
・・のような感じになってしまいますので。。
よろしくお願いします。
No.3ベストアンサー
- 回答日時:
画像はヘッダーと呼ばれる部分に画像の種類が書かれていますが、文字はそうなっていません。
ですが、テキストエディタは、自動的に文字コードを判断しています。
文字数が少ないと間違いも多いですが。
仕組みは、コードの特徴で判断しているらしいのですが、詳しくは知りません。
なので、全体の言語の特徴で判断するのはどうですかね?
文中に複数の言語がある場合は、さらに難しいですが、ある程度は可能かと。
国が決まっているのなら、文章解析で、例外が少ない言語がその言語かと。
日本語解析なんかは、mecabなんかが有名です。
一番簡単なのが、ブラウザなら、送信情報に国の情報をいれるとか。
ありがとうございます。
確かに、テキストエディタって、普通に結構な率で
それぞれのコードを識別してくれますが、やはり
たまに化けてしまうことはありますね。
ですが、今回のは、他国語でなければ、最終変換先の
コードは、どれかに決まりますし、他国語を無視して
いいという条件もありますので、
(本当は、その他国語でも処理したいが、これは無視します)
これに合致するといえば、ご提案頂いたmecabが一番良いようですね
一度、かなに変換して、かなに変換成功して、かつ、それが
かなのコードの範囲であれば、日本語と判断できるのもありますので。
No.2
- 回答日時:
まず考えてみてください. 「一」という文字が何語か, 判断できますか?
日本語に限定したとしても, SJIS/EUC/Unicode のどの文字コードであるかを正確に判定することは不可能です.
で日本語以外にありえない SJIS を除くと, EUC では言語を区別することができません. 一方 Unicode では判別する方法がないでもないです... が, 普通言語タグなんて使ってくれないよね (そもそも規格ですら推奨していないはず).
No.1
- 回答日時:
ないです。
仮に文字コードをUTF8に限定したとしても先にあげられている、ひらがなやカタカナのような言語固有の文字ならともかくCJK統合漢字などは別に国コードでもない限り区別しようがないです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- PHP PostgreSQLからCSV形式でエクスポートする際にカラム内の改行をとる方法 1 2023/02/22 10:05
- その他(社会・学校・職場) 平均的日本人の頭は悪くはないはずですし、学校で習う内容が幼稚というわけでもないのに、世間には幼稚な大 7 2023/04/05 20:51
- 日本語 漢字ひらがなカタカナと使える日本人って凄いですよね、というか日本語って凄いですよね? 中国とか韓国語 2 2022/11/11 09:22
- 哲学 《人間を国家的(公的)に》から《国家を人間的に》へ 2 2022/03/23 06:07
- 哲学 《人間を国家的(公的)に》から《国家を人間的に》へ 1 2022/04/01 05:32
- 哲学 《人間を国家的(公的)に》から《国家を人間的に》へ 2 2023/05/06 08:39
- 日本語 中国語と日本語とでは、どちらが先に漢字を廃止するでしょうか? 2 2023/01/29 13:45
- 中国語 新しい中国語入力ソフトを発明しました 22 2023/02/06 07:13
- 哲学 《人間を国家(公)的に》から《国家を人間的に》へ 26 2022/12/17 04:46
- 日本語 「あそこに子どもがある」とは言えないのに、 「彼女には子供がある」と言えるのはなぜですか?その2 10 2023/07/09 20:56
関連するカテゴリからQ&Aを探す
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・「それ、メッセージ花火でわざわざ伝えること?」
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・【お題】甲子園での思い出の残し方
- ・【お題】動物のキャッチフレーズ
- ・人生で一番思い出に残ってる靴
- ・これ何て呼びますか Part2
- ・スタッフと宿泊客が全員斜め上を行くホテルのレビュー
- ・あなたが好きな本屋さんを教えてください
- ・かっこよく答えてください!!
- ・一回も披露したことのない豆知識
- ・ショボ短歌会
- ・いちばん失敗した人決定戦
- ・性格悪い人が優勝
- ・最速怪談選手権
- ・限定しりとり
- ・性格いい人が優勝
- ・これ何て呼びますか
- ・チョコミントアイス
- ・単二電池
- ・初めて自分の家と他人の家が違う、と意識した時
- ・「これはヤバかったな」という遅刻エピソード
- ・ゴリラ向け動画サイト「ウホウホ動画」にありがちなこと
- ・泣きながら食べたご飯の思い出
- ・一番好きなみそ汁の具材は?
- ・人生で一番お金がなかったとき
- ・カラオケの鉄板ソング
- ・自分用のお土産
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
C言語、C+、C++、C#の違い
-
Excel VBAで文字化けする (英語...
-
Excelの開発言語ってなんですか?
-
C++における継続行
-
シグナルと例外の違い
-
C言語とhtmlの違いを どな...
-
C# Exception.StackTraceの言語...
-
最近のWebサイトが何の言語で書...
-
UWSCはどのプログラミング言語?
-
昔、MZ-2000やX1でBASICを書い...
-
VABについて教えてください。
-
「VB」と「VB.NET」の違いについて
-
"グラフィック言語"とは何ですか?
-
プログラムの勉強
-
C言語って古いですか?
-
COBOLでのNOT = の AND条件
-
C#とC++のざっくりとした違いを...
-
任天堂で使うプログラミング言...
-
ホワイトハッカーを目指そうか...
-
UNITY Float型の接尾辞fって
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
C言語、C+、C++、C#の違い
-
プログラムからアイコンファイ...
-
プログラムに書かれる"%"記号の...
-
COBOLでのNOT = の AND条件
-
COBOLで文字タイプを数字...
-
C++ ってなんて読む?
-
C言語とhtmlの違いを どな...
-
Excel VBAで文字化けする (英語...
-
C++における継続行
-
TO_CHARで小数点以下がある場合...
-
UNITY Float型の接尾辞fって
-
VBSでDim、Private、Publicの違い
-
UWSCはどのプログラミング言語?
-
VBScriptで引数を省略したい場合
-
HTMLとC++で、どんなホームペー...
-
vbaとc言語の関連性について
-
VCとVC++
-
パスカルケースの由来。
-
Excelの開発言語ってなんですか?
-
【Cか】ノベルゲーム【Jav...
おすすめ情報