web上のHTMLテキストを、handleText()を用いてタグとタグにはさまれたテキストのみを取り出そうと思っています。しかし「」が「？」になってしまうのです。たとえば、 3 月 27nbsp;日と書かれたHTMLソースがあると、handleText()で取り出すと、「?3?月?27?日」となってしまいます。どうすれば「」を「?」と表示させずに、「3月27日」と表示させることができるのしょうか？よろしくお願いします。

HTMLテキストを編集する際に、「 」が「？」になってしまいます

解決済

質問者：kamakuragengorou
質問日時：2006/03/27 12:53
回答数：2件

web上のHTMLテキストを、handleText()を用いてタグとタグにはさまれたテキストのみを取り出そうと思っています。
しかし「」が「？」になってしまうのです。
たとえば、

<html>
<body>
3月27nbsp;日
</body>
</html>

と書かれたHTMLソースがあると、handleText()で取り出すと、「?3?月?27?日」となってしまいます。
どうすれば「」を「?」と表示させずに、「3月27日」と表示させることができるのしょうか？
よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

No.1

回答者： kacchann
回答日時：2006/03/29 21:46

swingのDocumentParserでなくて

外部のHTMLパーサを使ってみては？

僕はプロじゃないので、詳しくはわからないのですが、
このswingのDocumentParserは、
「一般用のHTMLパーサ」としては作られていないのでは？

僕はプロじゃないので、
実際の業務の現場で「HTMLパース用」に
何が使われてるのかは知らないのですが、
全くレスがない所をみると、
このswingのDocumentParserは、
一般には使われてない？？
---

ちなみに「外部のHTMLパーサを使ってみては？」と書いたのは、
すくなくともHTMLソースの"非タグな部分"(※DocumentParserのhandleText()
で得られるような部分のこと)を、
なんの変換もされずに"ありのまま"に取得できさえすれば、
あとはどうにでもなる、ということを念頭においています。
(※"ありのまま"に取得、というのは、
HTMLソースの「3月27nbsp;日」という文字列を
そのままの文字列として取得する、ということ。この"ありのままの"文字列から
「」という文字列を取り除くのは単純な置換)

外部HTMLパーサで、このような「"ありのまま"取得」ができるのかどうか、
僕は知らないのですが、
少なくともswingのDocumentParserで「"ありのまま"取得」をやろうとすると、
ちょっと単純ではないみたい…？(※ほとんどパーサ部分を書き直すことになる
ような気がします。書き直すくらいなら、別のパーサを調べてみる価値は
あるのでは？)

- 0
- 件

通報する

No.2ベストアンサー

回答者： kacchann
回答日時：2006/03/30 20:51

ちなみに

public class Maze extends HTMLEditorKit.ParserCallback {
public void handleText(char[] data, int pos) {
StringBuffer array=new StringBuffer();
for(int i=0;i<data.length;i++){
char ch=data[i];
System.out.println(ch+"="+(int)ch);
switch(ch){
case 160://
array.append("(^.^)");
break;
default:
array.append(ch);
}
}
System.out.println("--------------");
System.out.println(array);
}

public static void main(String[] args) {
try {
BufferedReader br = new BufferedReader(
new FileReader("index.html"));
ParserDelegator pd = new ParserDelegator();
pd.parse(br, new Maze(), true);
br.close();
} catch (IOException e) {}
}
}

/*
---index.htmlの内容---
<html>
<body>
3月27日
</body>
</html>
*/