VBレスキュー(花ちゃん) の Visual Basic 2010 用掲示板(VB.NET 掲示板)

タイトル： Re: Webbrowser.DocumentからHTMLでタグのないテキストを取得したい

投稿日： 2005/10/12(Wed) 12:34

投稿者： YAS

なおこ(・∀・) さんありがとうございます。
なおこ(・∀・) さんのコードで私のhtmlの例は処理できました。
ところが実際に処理したいwebページのhtmlを処理させると
xmlの「予期されていないトークン」のエラーがでてしまいました。
これは対象のhtmlがxmlとみなせるよう整形されていないためだと
思います。（htmlはルールが相当ゆるいようです。）
.netにはhtmlreaderはないようなので、htmlをxhtmlに変換しようと
思いましたが、正規表現で簡単に置換ともいかないようです。

ふもふもさんありがとうございます。
確かに
me.webbrowser.document.body.innerText
でbodyの中のTextは得られるのですが、一部を置換してもとのhtmlに
埋め戻すことができません。body.innerTextもしくはinnerHtmlを変更
してしまうと子エレメントの<b></b>がなくなってしまいます。
目的はwebページの中のリンクや本文の中から漢字を見つけ、IMEの逆変換
やkakasiを使って読みがなを得て<ruby><rb>漢字<rt>かんじ</ruby>と
置換したいのです。
body全体を一気にkakasiにかけ、正規表現で置換をかけることもできますが、
ボタンやイメージのキャプションにもルビタグが入ってしまうのです。
そこでDOMツリーを再帰で検索しながら本文と特定のタグのテキストだけに
処理をしようと思ったのですが...なかなかうまくできません。

検索してみるとJAVAではノードという概念ですべての要素にアクセスできる
ようです。
mshtmlや.netの2003のwebbrowserコントロールで処理できないかさらに調
べてみます。

長文・乱文失礼いたしました。

- 関連一覧ツリー （

をクリックするとツリー全体を一括表示します）

Webbrowser.DocumentからHTMLでタグのないテキストを取得したい

YAS

No.2381

Re: Webbrowser.DocumentからHTMLでタグのないテキストを取得し.. - なおこ(・∀・) 10/11-09:55 No.2383
Re: Webbrowser.DocumentからHTMLでタグのないテキストを取得し.. - ふもふも 10/12-09:45 No.2396
Re: Webbrowser.DocumentからHTMLでタグのないテキストを取得し.. - YAS 10/12-12:34 No.2398
- Re^2: Webbrowser.DocumentからHTMLでタグのないテキストを取得.. - 魔界の仮面弁士 10/12-12:58 No.2399
  - Re^3: Webbrowser.DocumentからHTMLでタグのないテキストを取得.. - YAS 10/19-12:03 No.2438
    - Re^4: Webbrowser.DocumentからHTMLでタグのないテキストを取得.. - 魔界の仮面弁士 10/19-13:05 No.2439
      - Re^5: Webbrowser.DocumentからHTMLでタグのないテキストを取得.. - YAS 10/19-21:32 No.2441
      - Re^5: Webbrowser.DocumentからHTMLでタグのないテキストを取得.. - YAS 10/19-23:36 No.2442
        
        Re^6: Webbrowser.Documentから... - 魔界の仮面弁士 10/20-11:53 No.2443
        
        Re^7: Webbrowser.Documentから... - YAS 10/20-13:58 No.2444
        Re^7: Webbrowser.Documentから... - YAS 11/07-14:17 No.2539
        
        Re^8: Webbrowser.Documentから... - 魔界の仮面弁士 11/07-15:45 No.2540

タイトル	： Re: Webbrowser.DocumentからHTMLでタグのないテキストを取得したい
投稿日	： 2005/10/12(Wed) 12:34
投稿者	： YAS

古いスレッドにレスはつけられません。