Перейти к контенту

RSS


Рекомендуемые сообщения

Судя по всему идея умерла

Экспорт сделать будет не сложно, вопрос в импорте.

 

из крупных сервисов rss отдают journals, livejournal, blog.ru, liveinternet

 

у первого есть примеры, наткнулся почти сразу

у второго есть и описания, и примеры исходного кода, что сильно упрощает задачу

у третьего есть описание, но наверно придется зарегится для получения rss

у последнего нет даже описания, так что тоже придется мучатся

 

Гипотеза 0.

Список поддерживаемых сайтов (безопасность++)

 

 

Гипотеза 1.

Импорт неограниченного числа потоков (в один дневник, с разных сайтов, НО! один сайт - один дневник)

 

 

Гипотеза 2.

Парсинг входящей ерунды (html код > ббкоды (не распознанный html удалять) > пост дневника)

 

 

Гипотеза 3.

Отдельное задание на парсинг потоков

 

 

 

Информация.

Скорости и лимиты

 

Вы обязаны кэшировать результаты запросов своего бота, сохраняя нам полосу пропускания и процессорные мощности. Боты, которые совершают повторяющиеся запросы на один и тот же ресурс (URL), будут быстро заблокированы. Пожалуйста, не делайте вашего бота многопоточным, чтобы получать доступ ко многим ресурсам одновременно, и не устанавливайте более 5 соединений в секунду.

 

Корректные пользовательские агенты

 

Все боты обязаны присылать хорошо сформированные данные о пользовательском агенте, которые включают в себя адрес email для контактов с владельцем бота и, предпочтительно, адрес URL организации, которой принадлежит бот. Боты без этой информации имеют более высокие шансы быть заблокированными. Пример хорошо сформированных данных о пользовательском агенте:

 

http://example.com/ljtoy.html; bob@example.com

 

 

Общие положения.

Еще одна таблица в бд.

id, user_id, rss(url)

 

User-frontend.

Там по умолчанию один инпут, на яваскрипте можно добавить/удалить

 

User-backend.

Проверка на разрешенные сайты && проверка валидности && проверка дубляжа (один домен - один дневник)

 

Настройки.

Список сайтов

 

Собственно таск.

Запуск ночью.

Раз в день не мало? Тогда идем дальше.

Пока не обновятся все потоки не прекратим. Но нужна пауза. Придется ее делать sleep, нарузка на наш сайт уменьшается(?).

Так что ордер будет user_id (с пунктом проверка дубляжа нагрузка на чужие сайты отпадет).

 

 

Реализация.

Сентябрь

Ссылка на комментарий
Поделиться на других сайтах

Присоединиться к обсуждению

Вы можете ответить сейчас, а зарегистрироваться позже. Если у вас уже есть аккаунт, войдите, чтобы ответить от своего имени.

Гость
Ответить в этой теме...

×   Вы вставили отформатированный текст.   Удалить форматирование

  Допустимо не более 75 смайлов.

×   Ваша ссылка была автоматически заменена на медиа-контент.   Отображать как ссылку

×   Ваши публикации восстановлены.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

Зарузка...
×
×
  • Создать...

Важная информация

Находясь на нашем сайте, вы соглашаетесь на использование файлов cookie, а также с нашим положением о конфиденциальности Политика конфиденциальности и пользовательским соглашением Условия использования.