タイトル : Re: Webbrowser.DocumentからHTMLでタグのないテキストを取得したい 投稿日 : 2005/10/12(Wed) 12:34 投稿者 : YAS
なおこ(・∀・) さんありがとうございます。 なおこ(・∀・) さんのコードで私のhtmlの例は処理できました。 ところが実際に処理したいwebページのhtmlを処理させると xmlの「予期されていないトークン」のエラーがでてしまいました。 これは対象のhtmlがxmlとみなせるよう整形されていないためだと 思います。(htmlはルールが相当ゆるいようです。) .netにはhtmlreaderはないようなので、htmlをxhtmlに変換しようと 思いましたが、正規表現で簡単に置換ともいかないようです。 ふもふもさんありがとうございます。 確かに me.webbrowser.document.body.innerText でbodyの中のTextは得られるのですが、一部を置換してもとのhtmlに 埋め戻すことができません。body.innerTextもしくはinnerHtmlを変更 してしまうと子エレメントの<b></b>がなくなってしまいます。 目的はwebページの中のリンクや本文の中から漢字を見つけ、IMEの逆変換 やkakasiを使って読みがなを得て<ruby><rb>漢字<rt>かんじ</ruby>と 置換したいのです。 body全体を一気にkakasiにかけ、正規表現で置換をかけることもできますが、 ボタンやイメージのキャプションにもルビタグが入ってしまうのです。 そこでDOMツリーを再帰で検索しながら本文と特定のタグのテキストだけに 処理をしようと思ったのですが...なかなかうまくできません。 検索してみるとJAVAではノードという概念ですべての要素にアクセスできる ようです。 mshtmlや.netの2003のwebbrowserコントロールで処理できないかさらに調 べてみます。 長文・乱文失礼いたしました。 |