//table[contains(concat(' ', @class, ' '), ' GridTableContent
')]//tr[not(@align)]//td[1] 第一列 1,2,3,4....
//table[contains(concat(' ', @class, ' '), ' GridTableContent
')]//tr[not(@align)]//td[2] 第二列 11-beta-Hydroxysteroid Dehydrogenase
Type 1 <http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#>
...
//table[contains(concat(' ', @class, ' '), ' GridTableContent
')]//tr[not(@align)]//td[3] 第三列
11-β-羟甾脱氢酶1型<http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#>
...
......
在 2010年7月30日 上午7:59,azure wang <[email protected]>写道:
> 用 xpath
>
> 在 2010年7月29日 下午10:18,xuanshi <[email protected]>写道:
>
> Hi all
>>
>>
>> 1,我在做 正则表达时, 我用了如下的语句: if ($KnowEn[$i] =~ /\$Instance/)
>> {
>> print $KnowEn[$i] ."\n";
>> }
>> 系统总是对这个报错。我想知道,是什么原因呢 ? 我现在猜测是:$KnowEn[$i]与循环有关,出了问题,环不下去,还有原文件里有空白的行。
>>
>>
>>
>>
>> 2, 另外,我想从一个网页里,把我需要的信息抓取下来,要从哪里入手呢?比如这个网站:
>> http://www2.chkd.cnki.net/kns50/Dict/dict_list.aspx?firstLetter=B#
>> 有如下信息,有些是重要的,有些不重要。
>> 1 11-beta-Hydroxysteroid Dehydrogenase Type 1 11-β-羟甾脱氢酶1型 2
>> 0 0 0
>> 2 11-beta-Hydroxysteroid Dehydrogenase Type 2 11-β-羟甾脱氢酶2型 0
>> 0 0 0
>> 3 11-beta-Hydroxysteroid Dehydrogenases 11-β-羟甾脱氢酶类 73 23
>> 12 1
>> 4 4-(3-Butoxy-4-methoxybenzyl)-2-imidazolidinone
>> 4-(3-丁氧基-4-甲氧基苄基)-2-咪唑
>> 啉酮 0 0 0 0
>> 5 4-1BB Ligand 4-1BB配体 80 24 24 0
>> 6 4-Butyrolactone 4-丁内酯 74 16 2 5
>> 7 8-Bromo Cyclic Adenosine Monophosphate 8-溴环腺苷一磷酸 9 1
>> 0 0
>> 8 B-Cell Activating Factor B-细胞激活因子 96 37 33
>>
>> --
>> 您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
>> 要向此网上论坛发帖,请发送电子邮件至 [email protected]。
>> 要取消订阅此网上论坛,请发送电子邮件至
>> [email protected]<perlchina%[email protected]>
>> 。
>> 若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。
>>
>>
>
>
> --
> Azure.Wang
>
--
Azure.Wang
--
您收到此邮件是因为您订阅了 Google 网上论坛的“PerlChina Mongers 讨论组”论坛。
要向此网上论坛发帖,请发送电子邮件至 [email protected]。
要取消订阅此网上论坛,请发送电子邮件至 [email protected]。
若有更多问题,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问此网上论坛。