Фобос-Грунт, Yinghuo 1 – Зенит-2SLБ – Байконур 45/1 – 09.11.2011 00:16 ЛМВ

Александр Ч. · 15.02.2012 15:31:18

Цитировать
ЦитироватьНикакой секретной информацией не располагаю, но разумею следующим образом, ИМХО.
Второй комплект был отключен, но логика основной ЦВМ понимала это "слегка криво" (так как все сделано в аврале и отключили второй комплект уже на полигоне незадолго до пуска). Далее, основная ЦВМ выполняло ПЗ, все шло по заложенной логике, но помимо исполняемого кода в памяти есть еще и исходные данные, а также данные получаемые в процессе выполнения программы, ну например на вскидку (хотя я тут и не знаток) набор статистики при осуществлении солнечной ориентации. Память переполнилась, допустим это даже отследила основная ЦВМ и ушла в перезагрузку. По идее в штатном режиме основная и резервная ЦВМ должны обмениваться синхроимпульсами - "ты жив? я жив, а ты? я тоже". После того как основная ЦВМ ушла в перезагрузку, у резервной ЦВМ должен быть сработать таймаут, что нет синхроимпульсов от основной (ты жив? ... и тишина) - резервная ЦВМ должна была взять управление на себя, но ее не было (резервной ЦВМ).
После перезагрузки основной ЦВМ она понимает, что у нее была перезагрузка, а значит по логике, управление уже не у нее, а у резервной ЦВМ ... далее наступает бардак логики
Это разруливатся на раз, например при организации кластера, то есть какой-никакой программист имеет эту ситуацию в багаже знаний. Например что значит "по логике управление уже не у нее"? При неполучении "я жив" от выкушеннго комплекта, ребутнутый должен взять все управление взад.

Зачем бардак? Имеем сбой двух каналов/полукомплектов первой БЦВМ, вторая БЦВМ не загрузилась, сведенья об этом есть в памяти реконфигуратора, о котором писал SOE. Первая БЦВМ перезагружается, "читает" состояние из реконфигуратора. Ее действия? Переход в ЗР. Логично?

LRV_75 · 15.02.2012 15:31:20

ЦитироватьЭто разруливатся на раз, например при организации кластера, то есть какой-никакой программист имеет эту ситуацию в багаже знаний. Например что значит "по логике управление уже не у нее"? При неполучении "я жив" от выкушеннго комплекта, ребутнутый должен взять все управление взад.

Правильно, только логика организации кластеров отрабатывалась на сотнях тысяч современных серверов по всему миру.
Кто, сколько, как и в каком объеме отрабатывал логику организации резервирования на Фобос-Грунте?
ИМХО на ФГ дай бог отработали логику как в принципе корректно долететь при штатном функционировании, а уж отработку резервирования и ВНЕЗАПНО возникающие нюансы уже лепили в виде "заплаток". Если вообще до серъезной отработки НШС дело дошло. Поэтому и говорю - наступил бардак в логике, ИМХО

Вполне допускаю, разобрав на стенде что произошло кто то из разработчиков схватился за голову

raputor · 15.02.2012 15:38:07

ЦитироватьС 1948 года работала автоматическая система, в коммерческой эксплуатации. А дуплексная связь с автоматическим соединением, была внедрена Телефункен в танковых войсках рейхсвера 10-тью годами раньше.

Вы снова начинаете измерять пиписьки США и СССР. Есть факт того, что сотовая связь в СССР существовала, как прикладная часть теории, за которую наши нобелевку получили.
Что Вы пытаетесь доказать-то?

ЦитироватьИ, вы видели "мобильные" компоненты "Алтая" первых генераций?

ЦитироватьИзвините, но сравнивать размеры системы начала 70-х и конца 80-х может только не совсем адекватный человек.

Действительно...

X · 15.02.2012 17:13:38

А почему инженерам не пришла в голову идея поменять полудохлую ЦВМ с рабочей из вовзращаемого модуля (где тоже 2 модуля)? Тогда можно было попытаться долететь хотя бы «туда». Да и обратно на одном модуле были шансы...

Santey · 15.02.2012 17:15:33

Цитироватьпосле чего в соответствии с логикой работы БКУ произошло прерывание штатной циклограммы полета КА «Фобос-Грунт», и он перешёл в режим поддержания постоянной солнечной ориентации и ожидания команд с Земли в X-диапазоне связи

ЦитироватьВ период с 9 по 24 ноября на КА поддерживался энергобаланс.

То бишь выходит, что с 9 по 24 КА пребывал в "безопасном" режиме при положительном энергобалансе. Что же в таком случае мешало ему все это время периодически передавать аварийные кадры в соответствии с "логикой работы" в этом режиме? (эта подробность вроде как выяснилась в ходе обсуждения на ветке)

ЦитироватьНаиболее вероятным фактором, который мог стать первопричиной двойного «рестарта», является локальное воздействие тяжелых заряженных частиц (ТЗЧ) космического пространства

Не совсем понятно, почему сей фактор выбран в качестве наиболее вероятного. Такие менее потусторонние причины, как сбой по питанию или кривое ПО, комиссия отнесла к разряду невероятных?

X · 15.02.2012 19:20:30

Цитировать
ЦитироватьЕсли еще где-то в солнечных батареях или баках от одной ТЗЧ развился электромагнитный ливень, то это была такая трубка диаметром 8 см. (в алюминии) содержащая до 10^6 частиц.

Вам хватит?

Читайте, читайте и еще раз читайте, только подряд, все, что уже написано на форуме о воздействии ТЗЧ, плотности потоков ТЗЧ и условиях образования электромагнитного ливня в металлах и неметаллах Wink

Вам, как открывателю молекулярных металлов,
эти вещи явно ближе чем мне,
всего лишь бывшему скромному спецу по адронной колориметрии.

И в следующий раз, когда при плевке ускорителя зависнет сотовый, я тоже буду искать кто бы в этом был персонально виноват.

Вал · 15.02.2012 15:48:12

Цитировать....
И в следующий раз, когда при плевке ускорителя зависнет сотовый, я тоже буду искать кто бы в этом был персонально виноват.

Дык, дублировать, батенька, надо, дублировать

Alex-DX · 15.02.2012 19:55:48

ЦитироватьТо бишь выходит, что с 9 по 24 КА пребывал в "безопасном" режиме при положительном энергобалансе. Что же в таком случае мешало ему все это время периодически передавать аварийные кадры в соответствии с "логикой работы" в этом режиме?

ЦитироватьАварийный (защитный) режим.

Аппарат переводится в ПСО и стабилизируется. Проводится подзарядка БА от СБ. Энергоёмкие системы работающие от ХИТ на МДУ: РПТ111 и РДМ выключены и могут быть задействованы при условии получении команды ОТ БВК или команд прямого действия от КРЛ БРК ПМ.
БРК ПМ включён и работает постоянно на приём. Включение в режим передача, возможно в любой момент при получении запроса с НРТК. Также, в соответствии с аварийным режимом, БРК ПМ осуществляет автономные включения на передачу ТМ информации длительностью около 40 мин, каждые 2 часа в течение 8 суток.

Наземные службы не были готовы работать малонаправленными антеннами в Х –диапазоне в первые недели. Кстати интересно посчитать при потреблении передатчика в 200 вт какая бреж была пробита в энергобалансе за первую неделю. Наверное уже тогда ФГ стал использовать ХИТ.

Aleks1961 · 15.02.2012 20:06:50

Цитировать
Цитировать
ЦитироватьЕсли еще где-то в солнечных батареях или баках от одной ТЗЧ развился электромагнитный ливень, то это была такая трубка диаметром 8 см. (в алюминии) содержащая до 10^6 частиц.

Вам хватит?

Читайте, читайте и еще раз читайте, только подряд, все, что уже написано на форуме о воздействии ТЗЧ, плотности потоков ТЗЧ и условиях образования электромагнитного ливня в металлах и неметаллах :wink:

Вам, как открывателю молекулярных металлов,
эти вещи явно ближе чем мне,
всего лишь бывшему скромному спецу по адронной колориметрии.

И в следующий раз, когда при плевке ускорителя зависнет сотовый, я тоже буду искать кто бы в этом был персонально виноват.

Тогда Вам, как специалисту, должна быть известна плотность ТЗЧ с энергиями более 20 МэВ на орбитах до 400 км. И не составит труда посчитать вероятность описанного Вами события и вероятность возникновения электрон-позитронного ливня в алюминии толщиной 3 мм с содержанием 10+6 частиц.
За молекулы я извинился :cry: Или это сильнейший довод о возможности возникновения электромагнитного ливня в трубке диаметром 8 см - почему диаметром, а не длинной и именно 8 см[/size] :?: :wink:

ZOOR · 15.02.2012 20:23:46

Извиняюсь, как уже надоели споры про ТЗЧ.
Вот, нашел человека, который (видимо) эксперт в этом деле.
http://xn--80ancbhdkpb2a9a.com/articles/Bezrodnykh.pdf

Например, у него есть труды "Результаты оценки сбоеустойчивости и отказаустойчивости аппаратуры космического аппарата «МЕТЕОР-М» №1 при воздействии протонов СКЛ и тяжелых ядер заряженных частиц СКЛ И ГКЛ", "Ливни релятивистских частиц внутри космических аппаратов типа «Метеор»" и десятка два подобных.

Может кто-нибудь нагуглит его мыло и спросит его точку зрения?

zyxman · 15.02.2012 20:44:45

Цитировать
ЦитироватьУ меня появилась новая версия.
Состоит эта версия в том, что новая ЦВМ, слишком сильно отличается по своему поведению в НШС (да и на самом деле не только НШС) от того с чем ранее имели дело разработчики ФГ.
Вы проехали те два десятка мест в которых раз за разом повторялось что разработчики ФГ ни с чем раньше не имели дела. Они взялись за создание системы управления впервые.

Это мой ответ на вот это:

ЦитироватьЯ чего, зря чтоль спрашиваю а что в это время делала вторая машина со своими двумя полукомплектами.

Дело в том, что существенное отличие RISC архитектуры (и вообще процессоров с высокими частотами) в том, что такая архитектура настолько сильно зависит от скорости шины и обмена с памятью, что там ставить аппаратную мажоритарщину ОЧЕНЬ ресурсоемко и поэтому НЕЭФФЕКТИВНО, поэтому у американцев часто использовалась программная избыточность и соответственно холодное резервирование.

А при холодном резервировании ваш вопрос вообще не имеет смысла - вторая машина там просто БЫЛА (если конечно была), но переключение на нее должно было случиться по команде извне или по какому-то хитрому событию, которое не факт что случится в реальной жизни.
И вот собственно специфика этих новых архитектур в этом самом холодном резервировании и состоит.

Aleks1961 · 15.02.2012 21:36:59

3.6.2.3. Для аппаратуры КА устанавливаются следующие критерии стойкости к воздействию ионизирующих излучений космического пространства:
1) аппаратура считается стойкой по дозовым эффектам, если коэффициенты запаса стойкости к электронному Ке и протонному Кр излучениям (определяются отношением предельно допустимой и расчетной поглощенных доз) равны или более 3. Если 1<Ке(р)<3, аппаратура подлежит испытаниям с целью оценки соответствия требованиям стойкости. Если аппаратура не выдержала испытания или если Ке(р)<1, то аппаратура не считается радиационно-стойкой и подлежит доработке;
2) аппаратура считается стойкой к воздействию высокоэнергетичных протонов и ТЗЧ СКЛ и ГКЛ по стохастическим обратимым сбоям (перемежающимся отказам), если расчетная интенсивность потока сбоев при солнечном событии большой мощности меньше или равна предельно допустимой величине, результаты расчета не противоречат результатам испытаний наиболее чувствительных к сбоям узлов и блоков аппаратуры, а последствия сбоев устраняются программными средствами и не приводят к снижению вероятности выполнения задачи орбитального полета КА;
3) аппаратура считается стойкой к воздействию высокоэнергетичных протонов, ТЗЧ СКЛ и ГКЛ по катастрофическим отказам, если средняя расчетная наработка на отказ за срок активного существования КА превышает срок службы аппаратуры, результаты испытаний наиболее чувствительных к катастрофическим отказам узлов и блоков аппаратуры не противоречат результатам расчетов, а последствия отказов устраняются программными средствами и не приводят к снижению вероятности выполнения задачи орбитального полета КА.

ТРЕБОВАНИЯ к выполнению ОКР «Электро».

http://doc2.gostorgi.ru/701/2009-02-03/263417/4.doc

Aleks1961 · 15.02.2012 21:49:35

ПОРЯДОК ИСПОЛЬЗОВАНИЯ ИСПЫТАТЕЛЬНЫХ СРЕДСТВ РОСКОСМОСА ДЛЯ КОНТРОЛЯ СТОЙКОСТИ ЭЛЕКТРОННОЙ КОМПОНЕНТНОЙ БАЗЫ К ИОНИЗИРУЮЩЕМУ ИЗЛУЧЕНИЮ КОСМИЧЕСКОГО ПРОСТРАНСТВА
ИСПЫТАТЕЛЬНЫЕ СТЕНДЫ ДЛЯ КОНТРОЛЯ СТОЙКОСТИ К ИИ КП

Письмо Роскосмоса от 28.01.2010 № ПС-54-552

Метрологически аттестованы и введены в опытную эксплуатацию испытательные стенды (ИС) и установки для контроля одиночных и дозовых эффектов (имеют необходимое методическое и программное обеспечение и являются единственным оборудованием для проведения испытаний (квалификационных, определительных и сертификационных) ЭКБ и РЭА на стойкость к естественным ИИ КП в области одиночных и дозовых эффектов ):

1. Контроль одиночных эффектов
1.1 ИС облучения протонами и ионами (ИС ОПИ) ЦДКТ.412110.003 зав. №752424370 создан ОАО «НИИ КП» (Роскосмос) с использованием вывода 212 (медленный вывод) ускорительного комплекса (УК) ГНЦ РФ ИТЭФ;
1.2 ИС облучения ионами (ИС ОИ(400)) ЦДКТ.412110.004 зав.№752424371 создан ОАО «НИИ КП» (Роскосмос) с использованием циклотрона У-400 Объединенного института ядерных исследований (ОИЯИ), г. Дубна;
1.3 Испытательный стенд высокоэнергетических протонов и ионов на базе вывода 213 ускорителя У-10 УК ГНЦ РФ ИТЭФ;
1.4 ИС облучения ионами (ИС ОИ (400М)) ЦДКТ.4121110.006, создаваемый ОАО «НИИ КП» (Роскосмос) с использованием циклотрона У-400М ОИЯИ с расширением функций ИС ОПИ, ИС ОИ(400) (будет введен в опытную эксплуатацию в 2010 году).

2. Контроль дозовых эффектов
2.1 Радиационные моделирующие установки (ФГУП НИИП, Росатом) ГУ-200, "Гамма-Н", "Агат" с источниками гамма-излучения (Со60);
2.2 ИС контроля дозовых эффектов (ИС ДРЭ) с использованием низкоинтенсивного гамма-излучения на базе шахты-хранилища реактора НИЯУ "МИФИ" (контроль индивидуальных характеристик ЭКБ и отбраковка потенциально нестойкой ЭКБ).

http://www.spels.ru/index.php?option=com_docman&task=doc_download&gid=365&Itemid=34

X · 15.02.2012 22:04:58

ЦитироватьА при холодном резервировании ваш вопрос вообще не имеет смысла - вторая машина там просто БЫЛА (если конечно была), но переключение на нее должно было случиться по команде извне или по какому-то хитрому событию, которое не факт что случится в реальной жизни.
И вот собственно специфика этих новых архитектур в этом самом холодном резервировании и состоит.

По-моему это должно быть совершенно примитивное событие - работающая БЦВМ постоянно сбрасывает таймер устройства переключения на резерв; как две секунды не сбрасывает - идет команда на ее перезагрузку, а еще через N секунд, если она так и не ожила - команда на включение резервной БЦВМ. Устройство на 555х таймерах, простое и надежное, как стол, можно с двойным горячим резервом, например.

Santey · 15.02.2012 23:47:20

ЦитироватьДело в том, что существенное отличие RISC архитектуры (и вообще процессоров с высокими частотами) в том, что такая архитектура настолько сильно зависит от скорости шины и обмена с памятью, что там ставить аппаратную мажоритарщину ОЧЕНЬ ресурсоемко и поэтому НЕЭФФЕКТИВНО, поэтому у американцев часто использовалась программная избыточность и соответственно холодное резервирование.

А при чем тут вообще RISC-процессоры и высокие тактовые частоты? Если говорить о мажоритировании, то в системе управления работают 3 независимых канала, в каждом из которых независимо крутится закон управления на отдельном управляющем компьютере. Эти 3 управляющих компьютера принимают и обрабатывают сигналы с датчиков, выдают команды, которые проходят на исполнительные элементы в случае успешного мажоритирования по принципу "два из трех". Именно по такому принципу работает АСУ ТП, управляющая заправкой РН. В то время, когда я имел к такой системе некоторое отношение (лет 12 назад), в качестве ЦП использовались отнюдь не медленные "пентиумы" и "целероны". Чем быстрее ЦП, тем меньше время управляющего цикла на компах и тем быстрее система будет способна реагировать на внешние воздействия. Вся эта мажоритарщина замечательно работала и работает.
Или имелось в виду какое то другое мажоритирование, на уровне шины данных ЦП?

alienethic · 15.02.2012 23:53:16

ЦитироватьЕсть факт того, что сотовая связь в СССР существовала, как прикладная часть теории, за которую наши нобелевку получили.
Что Вы пытаетесь доказать-то?

Что вы бредите. Всеочевидно и откровенно.

zyxman · 16.02.2012 00:00:46

Цитировать
ЦитироватьА при холодном резервировании ваш вопрос вообще не имеет смысла - вторая машина там просто БЫЛА (если конечно была), но переключение на нее должно было случиться по команде извне или по какому-то хитрому событию, которое не факт что случится в реальной жизни.
И вот собственно специфика этих новых архитектур в этом самом холодном резервировании и состоит.
По-моему это должно быть совершенно примитивное событие - работающая БЦВМ постоянно сбрасывает таймер устройства переключения на резерв; как две секунды не сбрасывает - идет команда на ее перезагрузку, а еще через N секунд, если она так и не ожила - команда на включение резервной БЦВМ. Устройство на 555х таймерах, простое и надежное, как стол, можно с двойным горячим резервом, например.

Я торопился и не расписал.
У CISC основную площадь кристалла (не считая кэша) занимает устройство обработки микрокоманд, которое координирует работу всех остальных устройств.
И поэтому в подавляющем большинстве случаев попадание ТЗЧ в кристалл процессора CISC приводит к сбою микропрограммного устройства.
И главное в радиационностойких приложениях кроме большой сложности ядра отличие RISC от CISC в том, что у RISC как такового устройства микрокоманд нет вообще, а логика выполняющая функции координации находится в намного большем по площади и намного более сложном (читай с намного большим богатством возможных выкрутасов) конвейере, плюс часть логики управления еще и размазана по площади кристалла.
Таким образом, у RISC намного богаче набор возможных вариантов сбоев от попадания ТЗЧ, и не только - также RISC ИМЕННО ввиду архитектуры НАМНОГО чувствительней и к наводкам по цепям питания и к качеству разводки платы, и к корректности таймингов, и кстати и в смысле электромагнитной совместимости RISC попротивнее (читай для RISC нужна повышенная культура производства).

Пример про конвейер: тут в отдельной ветке мне рассказывали о том что у нас (да вобщем и не только у нас а вообще с времен CISC) была традиция, что можно было чуть ли не релейными командами изменить какую-то ячейку памяти, чтобы быстро удаленно пофиксить какой-то баг - так вот в случае RISC этого мало и в многих случаях нужно еще принудительно заставить процессор сбросить содержимое кэша и конвейера и считать заново.

С точки зрения надежного программирования это извините полная ..па, то есть у вас из-за воздействия извне и даже из-за недостаточно корректных действий может не только зависнуть код, а также может случиться странный сбой какого-то куска кода (какая-то ошибка арифметики, или странный переход счетчика команд), или даже окажется что вы чего-то изменили а забыли почистить кэш и отработала старая версия.

Например, был в прошлом году случай, что ЕМНИП Spirit уже похоронили, а потом он вдруг больше чем через неделю отозвался и как потом оказалось он своим RAD6000 чего-то поймал (может ТЗЧ а может недоработку) и спокойно всё это время сидел в сейфмоде - то есть даже американцы с их опытом иногда лажаются.

И это всё означает что ИМХО нашим еще рано делать АМС с RISC процессорами.

zyxman · 16.02.2012 00:06:15

Цитировать
ЦитироватьДело в том, что существенное отличие RISC архитектуры (и вообще процессоров с высокими частотами) в том, что такая архитектура настолько сильно зависит от скорости шины и обмена с памятью, что там ставить аппаратную мажоритарщину ОЧЕНЬ ресурсоемко и поэтому НЕЭФФЕКТИВНО, поэтому у американцев часто использовалась программная избыточность и соответственно холодное резервирование.
А при чем тут вообще RISC-процессоры и высокие тактовые частоты? Если говорить о мажоритировании, то в системе управления работают 3 независимых канала, в каждом из которых независимо крутится закон управления на отдельном управляющем компьютере...

Ага, 3 компьютера одновременно работающих и 4-й в резерве, чтобы при необходимости заменить сбойный.
Но это общий принцип, а реализовать его можно аппаратно либо программно.

ЦитироватьИли имелось в виду какое то другое мажоритирование, на уровне шины данных ЦП?

Имелось в виду, что на скоростях RISC и с их сложностью шины очень ресурсоемко мажоритировать аппаратно на уровне шины, и поэтому там обычно применяется очень сложное программное мажоритирование, либо просто холодный резерв.

zyxman · 16.02.2012 00:17:36

Цитировать
ЦитироватьПо идее в штатном режиме основная и резервная ЦВМ должны обмениваться синхроимпульсами
Логичнее реализовывать это в отдельном модуле реконфигурации, реализующим жесткую и нехитрую логику аппратно. Что и сделано в множестве аппаратов.

Есть еще третий вариант - что глюк случился а никто не завис и не перезагрузился, и соответственно реконфигурации не произошло.

zyxman · 16.02.2012 00:21:46

ЦитироватьПравильно, только логика организации кластеров отрабатывалась на сотнях тысяч современных серверов по всему миру.
Кто, сколько, как и в каком объеме отрабатывал логику организации резервирования на Фобос-Грунте?
ИМХО на ФГ дай бог отработали логику как в принципе корректно долететь при штатном функционировании, а уж отработку резервирования и ВНЕЗАПНО возникающие нюансы уже лепили в виде "заплаток". Если вообще до серъезной отработки НШС дело дошло. Поэтому и говорю - наступил бардак в логике, ИМХО

Вполне допускаю, разобрав на стенде что произошло кто то из разработчиков схватился за голову

:!: :!:

PS я не помню кто, ЕМНИП кто-то из очень уважаемых авторитетных форумчан говорил примерно так: "ракеты у нас простые, но требования к смежникам очень высокие". Так и тут - взяли перспективную вполне современную БЦВМ без аппаратного мажоритирования и даже с НОО улететь не смогли.