HTML content extraction / Компютри и Интернет / Java

търси в

Клубове

diri.bg


Име
Парола

• Нов потребител

• Забравена парола

Клубове

• Dir.bg
• Взаимопомощ
• Горещи теми
• Компютри и Интернет
• Контакти
• Култура и изкуство
• Мнения
• Наука
• Политика, Свят
• Спорт
• Техника
• Градове
• Религия и мистика
• Фен клубове
• Хоби, Развлечения
• Общества
• Я, архивите са живи

22:47 02.07.24

Клубове/ Компютри и Интернет / Java
Информация за клуба

Тема	HTML content extraction
Автор	dex_n (4ove4e)
Публикувано	25.02.04 21:20

Абе някой да има идея как мога да "извлека" информация от HTML документ, но само съдържанието без таговете - тоест всичко между <..> се игнорира. щтото вече 2 дни се мъча и полудях направо!

пробвах да използвам нещо от сорта:

//otvarq dokumenta za 4etene
BufferedReader bufread = new BufferedReader(new FileReader(urlpath.getFile()));

String s;
do{
s = bufread.readLine();
StringTokenizer tok = new StringTokenizer(s, "<>");
while(tok.hasMoreTokens()){

System.out.print(tok.nextToken()+" ");

}
}while(bufread.read()!=-1); //4ete dokato stigne kraq na dokumenta

знам 4е тва става за 10 мин с Perl ама на мен ми трябва Джава изпълнение.
Благодаря предварително!

ABE NE SE ZNAE, ZNAE LI SE!

Цялата тема
Тема	Автор	Публикувано
HTML content extraction	dex_n	25.02.04 21:20
Re: HTML content extraction	Marvin	26.02.04 14:34
Re: HTML content extraction	Johnny Bravo	26.02.04 17:23
Re: HTML content extraction	dex_n	26.02.04 18:37

Клуб :

Clubs.dir.bg е форум за дискусии. Dir.bg не носи отговорност за съдържанието и достоверността на публикуваните в дискусиите материали.

Никаква част от съдържанието на тази страница не може да бъде репродуцирана, записвана или предавана под каквато и да е форма или по какъвто и да е повод без писменото съгласие на Dir.bg

За Забележки, коментари и предложения ползвайте формата за Обратна връзка | Мобилна версия | Потребителско споразумение
© 2006-2024 Dir.bg Всички права запазени.