Алгоритм сортировки новостей !

Тема в разделе "Программирование", создана пользователем omfgpanda, 04.07.2008.

  1. omfgpanda
    Offline

    omfgpanda специалист

    Регистрация:
    22.01.2008
    Сообщения:
    673
    Симпатии:
    53
    Пол:
    Мужской
    Добрый день !
    Возникла небольшая проблемка ) Есть у меня компонент newsgrabberjc с помощьюкоторого я тащу новости. Лент очень много, скажем 100. Задача мне поставлена из этих лент сформировать несколько разделов новостей разных категорий. На большенстве сайтов, рсс лента экспортирует весь поток новостей, а моя задача разбить этот поток на категории. У меня есть небольшая задумка: "для каждой категории создать набор слов, который может встречаться в этой категории, а затем проверять каждую новость на наличие этих слов, и в зависимости от частоты вхождения разбивтаь по категориям". Но мне кажется что такой алгоритм оч медленный и при большом потоке будет притормаживать. Есть идеи как это все лучше организовать?

    З,Ы,: и где можно найти алгоритм работы парсера яндекс.новости ? (на сайте хуяндекса я уже смотрел, там 404 выдает при попытке зайти на страничку с алгоритмом. Хотя тремя строчками выше написанно: "наш алгоритм доступен для всех :))))")
     
  2.  
  3. Dead Krolik
    Offline

    Dead Krolik специалист

    Регистрация:
    13.04.2007
    Сообщения:
    3 688
    Симпатии:
    101
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    А большой поток это сколько? Тысяча новостей в минуту? Думаю что нет, а потому вариант с плотностью я думаю прокатит. Только по-моему мнению он не самый хороший.

    почитай на эту тему
     
  4. chilly_bang
    Offline

    chilly_bang специалист

    Регистрация:
    30.04.2006
    Сообщения:
    1 545
    Симпатии:
    38
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    так а тащишь ты эти новости по какому принципу? или все подряд? или берёшь рсс тоже тематические?
     
  5. omfgpanda
    Offline

    omfgpanda специалист

    Регистрация:
    22.01.2008
    Сообщения:
    673
    Симпатии:
    53
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    2chilly_bang
    я беру рсс иформационного агенства, например "итар-тасс", на сайте этого агенства есть разделы "политика", экономика", спорт" и т.д. у меня на сайте есть соответствующие разделы. Проблема в том что рсс экспортируется одним потоком, т.е. нужно програмно разобрать этот паток на соответствующие разделы. Воть ((

    2Dead Krolik
    Я планирую примерно около 1000 источников с которых будут импортироваться новости, я разобью эти источники на части, так что бы они все импортировались в течении часа. Такая процедура будет поторяться 3-4 раза в сутки.
     
  6. chilly_bang
    Offline

    chilly_bang специалист

    Регистрация:
    30.04.2006
    Сообщения:
    1 545
    Симпатии:
    38
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    то есть политика из итар не записывается в раздел политика?
     
  7. omfgpanda
    Offline

    omfgpanda специалист

    Регистрация:
    22.01.2008
    Сообщения:
    673
    Симпатии:
    53
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    там идет одна лента, в которой новости со всех разделов
     
  8. Dead Krolik
    Offline

    Dead Krolik специалист

    Регистрация:
    13.04.2007
    Сообщения:
    3 688
    Симпатии:
    101
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    Вообще, в RSS, насколько я помню, есть спец тэг - категория.
     
  9. omfgpanda
    Offline

    omfgpanda специалист

    Регистрация:
    22.01.2008
    Сообщения:
    673
    Симпатии:
    53
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    хммм.... не встречал.... ну я так понимаю эти спецтеги всттречаются только в рсс типа rss.xml, а если рсс вот такой http://www.km.ru/news/rss.asp... там идет просто текст + ссылка + дата )
     
  10. sectus
    Offline

    sectus специалист

    Регистрация:
    19.04.2006
    Сообщения:
    1 210
    Симпатии:
    46
    Пол:
    Мужской
    Ответ: Алгоритм сортировки новостей !

    Если открыть код этой страницы: http://www.km.ru/news/rss.asp, то можно обнаружить слово category как и говорил, тов. Кролик...
     

Поделиться этой страницей

Загрузка...