Перейти к контенту

RSS


Рекомендуемые сообщения

Судя по всему идея умерла

Экспорт сделать будет не сложно, вопрос в импорте.

 

из крупных сервисов rss отдают journals, livejournal, blog.ru, liveinternet

 

у первого есть примеры, наткнулся почти сразу

у второго есть и описания, и примеры исходного кода, что сильно упрощает задачу

у третьего есть описание, но наверно придется зарегится для получения rss

у последнего нет даже описания, так что тоже придется мучатся

 

Гипотеза 0.

Список поддерживаемых сайтов (безопасность++)

 

 

Гипотеза 1.

Импорт неограниченного числа потоков (в один дневник, с разных сайтов, НО! один сайт - один дневник)

 

 

Гипотеза 2.

Парсинг входящей ерунды (html код > ббкоды (не распознанный html удалять) > пост дневника)

 

 

Гипотеза 3.

Отдельное задание на парсинг потоков

 

 

 

Информация.

Скорости и лимиты

 

Вы обязаны кэшировать результаты запросов своего бота, сохраняя нам полосу пропускания и процессорные мощности. Боты, которые совершают повторяющиеся запросы на один и тот же ресурс (URL), будут быстро заблокированы. Пожалуйста, не делайте вашего бота многопоточным, чтобы получать доступ ко многим ресурсам одновременно, и не устанавливайте более 5 соединений в секунду.

 

Корректные пользовательские агенты

 

Все боты обязаны присылать хорошо сформированные данные о пользовательском агенте, которые включают в себя адрес email для контактов с владельцем бота и, предпочтительно, адрес URL организации, которой принадлежит бот. Боты без этой информации имеют более высокие шансы быть заблокированными. Пример хорошо сформированных данных о пользовательском агенте:

 

http://example.com/ljtoy.html; bob@example.com

 

 

Общие положения.

Еще одна таблица в бд.

id, user_id, rss(url)

 

User-frontend.

Там по умолчанию один инпут, на яваскрипте можно добавить/удалить

 

User-backend.

Проверка на разрешенные сайты && проверка валидности && проверка дубляжа (один домен - один дневник)

 

Настройки.

Список сайтов

 

Собственно таск.

Запуск ночью.

Раз в день не мало? Тогда идем дальше.

Пока не обновятся все потоки не прекратим. Но нужна пауза. Придется ее делать sleep, нарузка на наш сайт уменьшается(?).

Так что ордер будет user_id (с пунктом проверка дубляжа нагрузка на чужие сайты отпадет).

 

 

Реализация.

Сентябрь

Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Unfortunately, your content contains terms that we do not allow. Please edit your content to remove the highlighted words below.
Ответить в этой теме...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...
×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.