Стендап Сьогодні
Що я зробив, що я хочу зробити, і що це все значить.
Повсякденні здобутки в форматі стендапу.
Детальніше в статті
Підписатись на RSS
📢
Канал в Telegram @stendap_sogodni
🦣
@stendap_sogodni@shevtsov.me в Федиверсі
05.07.2023
Чому я користуюсь VSCode
Я десь з 2016 року користуюся редактором Visual Studio Code. В ньому я пишу майже все (включаючи цей пост.) Це свідомий вибір; час від часу я дивлюся на інші редактори, особливо такі, що нативні для macOS (наприклад, BBEdit, але нічого вартого не бачив.)
-
Я працюю з чисельними оточеннями та мовами програмування. Мені потрібний редактор, який може все — щоб не звикати до різних. VSCode підходить, завдяки розширенням на будь-який (ну, майже) випадок. Чесно кажучи, навіть зі Swift в мене не виходить подружитися, бо для цього потрібно перейти на XCode. Я не виключаю, що XCode - хороше оточення розробки, але воно не універсальне, тому завжди буде тільки “оточенням №2”, та я не зможу опанувати його парадигми.
-
VSCode - редактор з парадигмою декількох курсорів. Це важливо розуміти для ефективної роботи — так само як команди переміщення та макроси у Vim. Власне, колись давно саме багатокурсорність переконала мене піти з Vim на Sublime Text. На мою думку, вона потужніша та інтуїтивніша за командний режим Vim. Хоча, “думати багатьма курсорами” теж треба звикнути.
-
Sublime Text - теж чудовий редактор, але більш обмежений. Як приклад, для зручного пошуку по файлах мені довелося писати плагін Search in Project. А у VSCode така функція вбудована. І так багато чого. Єдине, в чому Sublime Text безумовно виграє — це у швидкодії.
-
Швидкодія редактора для мене це найголовніший його атрибут. Якщо я відчуваю затримку при вводі, то все інше вже не має значення. Так я ніколи не зміг випробувати Atom, та ніколи (ніколи) не зможу перейти на редактор, написаний на Java (в першу чергу, IDEA/RubyMine.) А VSCode якимсь дивом (для платформи Electron) не гальмує. (Насправді, не дивом, а прямими руками, але про це іншим разом.) Це дозволило мені зістрибнути з Sublime Text на VSCode, коли стало ясно, що темпи розробки Sublime Text не можуть зрівнятися з командою Microsoft (хоч в мене і є ліцензія на ST). Навіть коли я перейшов до використання вбудованого у VSCode терміналу, то швидкодії вистачило й на нього.
-
У Microsoft насправді величезний досвід побудови крутих редакторів, я ще з Visual Studio 6.0 задоволений користувач. Intellisense для C++ вже тоді був неперевершений. А зараз VSCode активно розробляється, щомісячні release notes завжди цікаво почитати. Тож я впевнений, що мій редактор в правильних руках з надійною фінансовою підтримкою.
04.07.2023
Підбірка доповнень для VSCode
Вчора колега поділився доповненням Error Lens, яке виводить повідомлення про помилки безпосередньо в кінці рядка. Захотілося теж поділитися цікавими доповненнями, якими я користуюсь.
-
change-case - дозволяє змінити регістр виділеного тексту (або навіть декількох виділених фрагментів.) Підтримує купу різних форм. Зручно при переході з мови на мову (наприклад, snake_case в Ruby та camelCase в JavaScript.)
-
File Utils - це доповнення я знайшов, коли переїжджав з Sublime Text, бо там це вбудовано. Воно додає до меню команди для файлових операцій — я постійно користуюсь Duplicate та Move. Робимо більше без миші.
-JSON Tools - просто форматує блок JSON. Напевно, є багато альтернатив, але в мене давно прижилась ця (це точно було ще до Prettier.)
-
Sort JSON Objects - так само інколи дуже корисно просто впорядкувати JSON. Витратив трохи часу, щоб знайти саме це доповнення.
-
Rainbow CSV - розфарбовує стовпчики CSV в різний колір. Так можна у редакторі передивитись та відредагувати CSV файли середньої складності.
-
vscode-gemfile - додає посилання на сторінку гему до рядків у
Gemfile
. Дрібниця, але зручна. (Не впевнений, звідки беруться такі самі посилання вpackage.json
- чи то доповнення, чи то вбудоване.) -
Тема 8-Bit - в кожного є улюблена схема, але ця — одна з висококонтрастних. Я перемикаюся на неї, коли доводиться працювати на сонці.
Ще більше виявилося таких доповнень, якими я не користуюсь та пора їх видаляти. А у вас які є цікаві доповнення?
03.07.2023
Враження від Kafka
Минув місяць моїх випробувань Кафки. Швидкість, з якою вона здатна приймати дані, реально вражає. Мільйон записів на секунду — цілком реальна цифра. Так, звісно, сама Kafka нічого з ними не зробить — ані індексації, ані агрегації. Проте цінність її не в тому. Кафку ставлять тому, що вона здатна розділити навантаження виробника та споживача подій. Та, навіть якщо мільйон на секунду вам не потрібний постійно, таке навантаження може виникнути, наприклад, на піці попиту, та Кафка спокійно його проковтне.
Так само Кафка розділяє й ризики виробника та споживача. Споживач подій — напевно, складна система, з внутрішньою логікою. Якщо виробник пише прямо в неї, то треба піклуватися й про високу надійність споживача — а чим більше логіки, тим це важче. Тому знову Кафка приходить на допомогу та підхопить всі дані, що були видобуті виробником, навіть якщо споживач зараз не може їх прийняти. (При цьому сама Кафка — досить проста та надійна система, з можливістю високого ступеня надмірності.)
Що мені не подобається — то, безумовно, складнощі в налаштуванні та інтеграції. Ну, з налаштуванням можна взяти керований сервіс, такий як Confluent. Але ще доведеться нормально розбиратись, як же з нею читати та писати. Та які саме компоненти потрібні. От є такі речі, як Zookeeper - сервіс керування кластером — який вже типу не потрібний, бо Кафка вміє й без нього. А ще є Schema Registry - вона для початку теж, це тільки для зрілих систем. А ще є Kafka Connect, який дуже боляче налаштовувати, але насправді вимоги такої немає, можна й без нього.
Поруч з Кафкою, AWS Kinesis Firehose вже не виглядає таким незамінним сервісом. Бо Кафка точно розвʼязує задачу “безрозмірного збору подій.” Тільки Firehose - сервіс вищого рівня, хоч і заточений під одну задачу. Його точно простіше налаштовувати та інтегрувати. З боку запису, Firehose надає простий API, а з боку збереження даних, він доставить їх туди, куди потрібно (до речі, перелік призначень нещодавно розширився.) Плюс, Firehose коштуватиме дешевше, до деякого обсягу. Тільки треба чітко розуміти, що Firehose зробить те, що вам від нього потрібно.
02.07.2023
Реверс-інжинірінг формату тепловізора, ч. 2
… Після вимірів зображення в файлі розташовувалась матриця з двобайтових значень. А далі — сюрприз — ще одна матриця, але вже з однобайтових значень. Тож отримав одну матрицю 16-бітних чисел, іншу - 8-бітних, а також 112 байтів додаткової інформації, такої, як відбиток часу та інше. Двох матриць я не очікував.
(Як взагалі здогадатись, що то матриця та який розмір її елемента? Бо послідовні елементи мають близькі значення. Тож повторюватись буде або кожний байт, або кожний другий байт. Також на початку кожного рядка значення теж близькі до попереднього. Все це легко побачити в hex-редакторі.)
Що робити з матрицями чисел? Спробував записати в CSV, але він погано сприймається. Краще перетворити на зображення. Тож відкрив для себе вбудований в Go пакет image. Він не дуже багато вміє, але дозволяє створити зображення, встановити в ньому значення пікселів, а потім зберегти у формат PNG. Саме так я й зробив (результат — вище.)
Після наочного перегляду 8-бітна матриця виявилася, напевно, сирим змістом сенсора. Її пікселі мали весь діапазон значень від 0 від 255 (Хоча цікаво, що не на кожній світлині — при малій розбіжності температур значення були більш обмежені. Тож можу зробити висновок, що вона не нормалізована, а саме сира.)
А от з 16-бітною не так все зрозуміло, бо у графічному поданні вона мала рівномірно сірий вигляд. Тоді знайшов мінімальне та максимальне значення, та стало зрозуміло, що це температура, але помножена на 10. (Ще одна сфера застосування цілочисельних дробів.) Ці значення відповідали тим, що показує сам пристрій.
На цьому питання не закінчуються. Можна було б очікувати, що температура є лінійною функцією від показників сенсора. Проте ні — як тепловізор її обчислює, я поки не зрозумів. Але я точно знаю, що одному значенню сенсора відповідають різні значення температури (в межах однієї світлини, звісно.)
P.S. Сподіваюся, зроблю пізніше повноцінну статтю з ілюстраціями та кодом, бо у формат Телеграму та щоденних постів воно ніяк не влазить.
01.07.2023
Реверс-інжинірінг формату файлів тепловізора
Мав нагоду випробувати індустріальний тепловізор. Окрім всього іншого, цікаво, що ті світлини, що він зберігає, хоч і мають формат .jpg
, але за допомогою супутнього програмного забезпечення дозволяють працювати, фактично, з RAW-даними. Захотілося дізнатись, як же ж воно влаштоване. З першого погляду, ці JPEG-файли 240x320 займають близько 300 Кб, що відразу викликає підозру: навіть нестиснутий файл BMP з такою роздільною здатністю займав би не більш ніж 240 Кб. Проте звичайні переглядачі світлин нічого цікавого в файлі не знаходили.
Тому в першу чергу звернувся до HEX-редактора. Останній раз я таким займався ще на Windows та років 15 тому, отже, для macOS довелося шукати. Є з чого обрати, насправді; я зупинився на редакторі ImHex. Він відразу сподобався тим, що наочно показує значення в різних представленнях, а також підтримує структурні дані. Причому структуру JPEG він вже знає. Але тут теж файл розкусити не вдалося.
Файл JPEG, як я дізнався, складається з сегментів. Сегмент заголовка, метаданих, і так далі. Останній сегмент містить дані світлини та зазвичай продовжується до кінця файлу. Тому наївні програми-читачі — в їхньому числі й ImHex - просто ігнорують те, що може йти після нього. Втім, кінець сегмента з зображенням (Entropy Coded Segment) можна знайти (за послідовністю байт FFxx
, де xx
- не 0).
Перейшов до написання утиліти на Go, яка біжить по JPEG файлу та перебирає сегменти аж до логічного кінця. Таким чином вдалося знайти не тільки кінець того JPEG, який видно “ззовні”, але й друге зображення JPEG - це була світлина, яку тепловізор робить звичайною фотокамерою.
Зображення просто знаходилися в файлі одне за одним. Але після них залишилося ще багацька даних — близько 250 Кб. Відкрив залишок в ImHex. Помітив, по-перше, що файл починається з ширини та висоти зображення, а далі — повторювану послідовність двобайтових значень, яка, як нетрудно здогадатись, містила якусь матрицю. Але про це, напевно, завтра.
30.06.2023
Робота з великими вихідними файлами на ECS
Сьогодні продовжував роботу з ECS, генерацією даних, тестами та так далі. Додатковий нюанс — застосування великих вихідних файлів.
-
Якщо в тесті потрібний великий файл (типу, 1 Гб), то через безплатний ngrok його не завантажити. Також не хотілося додавати файл у Git, бо видалити його буде складніше, ніж додати. Тоді можна відвантажити файл на S3 або інше сховище з можливістю публічного доступу. А мій улюблений спосіб простого тимчасового захисту — файл з випадковим імʼям.
-
Є інший варіант — пакувати файл в образ Docker. Щоб уникнути Git, його доведеться пакувати локально, але з ECS для цього немає перешкод — після авторизації в ECR можна відправляти образи прямо зі своєї машини. Проте ECR коштує в 5 разів більше за S3 (зараз $0.10 за Гб/місяць).
-
А якщо файл — це 5 гігабайтів JSONу, то його має сенс стиснути. Тут варто знати, що формат gzip - потоковий формат стискання. Та файл, що був стиснутий у gzip, можна відкрити та читати послідовно, без того, щоб розтискати та займати зайве місце. Наприклад, в Go стиснутий файл відкривається функцією gzip.NewReader.
29.06.2023
Запуск локальних скриптів на ECS за допомогою ngrok
В продовження теми з запуском скриптів на ECS, сьогодні винайшов ще більш зручний спосіб. Задача була схожа: зробити бенчмарк, який можливо запустити тільки з середовища ECS. Проблема така сама: на ECS можна запускати тільки готові контейнери Docker. Бенчмарк потребує послідовного налагодження та експериментування. Якщо підходити до цього нормальним шляхом — тобто комітити код, запускати скрипт деплою та очікувати, доки GitHub Actions та AWS CodeDeploy зроблять своє діло — то власне запустити скрипт вдасться раз хвилин в десять. Всякий фокус втрачається.
Тепер в мене є кращий спосіб: скрипт завантажується в контейнер ECS з локального компʼютера. Ніякої попередньої підготовки сервісу для цього не потрібно.
-
На своїй машині запускаємо HTTP сервер з теки:
python -m http.server 7777
. Цю команду взагалі варто запамʼятати, бо це найпростіший спосіб роздати файли за HTTP. -
В іншому терміналі запускаємо ngrok:
ngrok http 7777
. Таким чином отримуємо доступ до нашого сервісу з інтернету. Ngrok теж треба знати, зазвичай він використовується для отримання тестових вебхуків на локальний додаток. Або ж можна подивитись свій вебдодаток з телефону, наприклад. -
Тепер я можу запускати свіжий скрипт на ECS, замінив команду запуску одним рядком
wget -O benchmark https://ab-cd-ef.ngrok-free.app/benchmark && chmod +x benchmark && ./benchmark
. Для цього у нас є утиліта ecs_run. -
Коли закінчив роботу, просто зупиняю сервер та ngrok та жодного “хвосту” в публічному доступі не залишається.
Найкраще це працює з Go, оскільки там все компілюється в єдиний файл, та не треба окремо завантажувати залежності. Проте й в інтерпретованих мовах залежності змінюються не так часто, тому підхід працює.
28.06.2023
Кілька порад з мого повсякденного Git
-
Rebase - чудова команда, бо дозволяє відокремити збереження коду (коміт) від створення документації (підпису до коміту). А саме: оскільки всі зміни можна будь-коли відребейзати, розділити по логічних комітах, та красиво підписати, то попередні коміти можна робити будь-коли — наприклад, перед кожною ризиковою зміною. А не чекати, поки набереться набір змін, вартий коміту. А ще, коли PR виявиться несподівано довгим, або міститиме побічні зміни, можна спокійно їх відрізати, навіть якщо ми цього не планували. Взагалі, поки коміт не покинув твоєї машини, з ним можна робити все що завгодно.
-
Blame - одна з найважливіших функцій Git, бо робить корисним все ведення історії змін. Перша функція Git - поєднання змін від різних людей. Як людина, яка встигла покористуватись SourceSafe, скажу, що ця можливість змінила життя. Але друга функція - це відстеження історії змін. Та з нею можна роздивлятись будь-який баг як не просто комбінацію обставин, але і як подію в історії проєкту. Завдяки команді
git blame
можна знайти, де ж баг виник, та які зміни його супроводжували. Часто виявляється, що, наприклад, автор не володів всім контекстом, тоді легше зрозуміти, що треба виправити. Я взагалі постійно дивлюся на вік коду, який редагую, тому в мене blame зʼявляться біля кожного рядка редактора. -
Посилання на Pull Request є в коментарі до кожного merge commit, який робить Гітхаб. Тому я не бачу багато сенсу у вкладанні коду задачі на назву гілки — завжди можна знайти відповідний пул-реквест, та в мене цим часто закінчується пошук причини помилки через
git blame
.
27.06.2023
Генерація тестових даних зі справжніх
Почну ось з чого: нагенерувати дані, що виглядають, як справжній результат роботи проєкту — за моїм досвідом — в загальному нереально. А це буває потрібно — може, щоб мати гарні дані для стейджингу; або щоб правильно навантажити системний стрес-тест.
Просто створити записи з синтетичними даними відносно нескладно; для цього є бібліотеки на Ruby чи JavaScript, чи Go. Але це вже на рівні одного обʼєкта може викликати нереальні комбінації даних, а з групами обʼєктів взагалі виникає стільки різних нюансів, що продумати їх вручну стає неможливо. (Скільки коментарів має блог-пост, в середньому? А до скількох коментарів мають бути відповіді? А якщо блог-пост не опублікований? І так далі.) Такі дані підійдуть для автотестів, де відомо, що очікувати, але не допоможуть оцінити роботу продукту до потрапляння в продакшн.
Є інший підхід — взяти дані з продакшна. Там вони за означенням “справжні”. Проте на продакшні містяться дані користувачів, які ми абсолютно не можемо поширювати на стейджинг та інші незахищені середовища. Тоді нам залишається змінити дані з продакшна таким чином, щоб вони втратили привʼязку до користувачів, але зберегли свою топологію, тобто відношення та статистичні властивості.
Я знайшов такий спосіб: використати ті самі бібліотеки фальшивих даних, але передавати їм зерно, обчислене з оригінального значення. З однаковим зерном будь-яка випадкова функція матиме однакове значення, тобто ми будемо впевнені, що структура даних залишається, без того, щоб будувати словник для кожного наявного поля. Де взяти зерно? Пропоную обчислити простий хеш, наприклад, MD5 або SHA1 (простий — бо швидкий!), взяти від нього перші 8 байтів та зліпити з них int64
. Далі можна генерувати по зерну хоч імʼя, хоч імейл, хоч ціле оповідання. Вони будуть як правдоподібні (завдяки відповідній бібліотечній функції), так і зберігатимуть статистичні властивості.
Можна навіть зробити копію бази, де кожне поле замінене на своє зерно, а потім використати цю копію як “зерно” для генерації, скажімо, великого масиву даних для стрес-тесту.
(До речі, це може бути хороша задача для нейронної мережі, якщо придумати що робити з приватною інформацією, щоб вона не могла вилізти назовні.)
26.06.2023
Зони відповідальності
В продовження вчорашньої теми, про яку довелося багато сьогодні думати, додам про модель зон відповідальності. В такому вигляді, як я їх використовую, придумав їх сам, хоча звісно, ідея не нова.
Що таке зона відповідальності? Це частинка життя, в середині якої немає конфлікту інтересів. Тобто справи однієї зони рухаються до більш-менш однієї цілі. Та, якщо задачі та цілі є тимчасовими, то зони залишаються, доки не зміняться обставини — фактично, загальний набір зон існує все життя. Тож склавши перелік зон один раз, його вистачить надовго.
Зони відповідальності охоплюють все, на що в житті треба звернути увагу — робота, дім, сімʼя, друзі, здоровʼя і так далі. Але такі макрокатегорії ще розділяються. Наприклад, в роботі окрім зони основної посади може бути зона для гільдії або інших обовʼязків. В сімʼї — зони для найближчої сімʼї, розширеної, батьків та дітей. Окремі зони можуть бути для проєктів, різних хобі. В мене виходить близько 20 зон.
Що це дає:
-
Здатність зробити систематичний огляд поточного стану життя. Я люблю оцінювати кожну зону від 1 до 5 балів за шкалою скільки я б хотів тут поміняти?. Або, може, наскільки все добре, бо 5 - це все чудово, а 1 - це значить, що пора кидати все та виправляти цю зону. Шкала відносна, бо уявлення про потрібний стан з часом змінюються.
-
Спосіб справедливої пріоритизації. Якщо базувати пріоритизацію тільки на важливості окремого проєкту, то можна легко забути про існування інших зон. Наприклад, класична проблема work-life balance. Наявність зон (та їх оцінок) дозволяє більш свідомо обирати, за що братися.