Стендап Сьогодні

Що я зробив, що я хочу зробити, і що це все значить.
Повсякденні здобутки в форматі стендапу.
Детальніше в статті

31.08.2023

Основа архітектури ElasticSearch, або: чому він такий спритний?

Вирішив для себе зрозуміти, в чому ж така перевага ElasticSearch (та OpenSearch, який є його відгалуженням) по швидкості індексування та пошуку. Розповім про головне.

ElasticSearch побудований на рушії пошуку Lucene. Дуже цікаво, що базова можливість в Lucene вузька: це словник документів за ключовими словами. Як пишуть в цій статті, інші типи пошуку реалізовані через той самий словник — через пошук ключових слів або їх префіксів. (Тут хотілося б ще дорозслідувати.)

Ну, добре, пошук в словнику — операція добре вивчена, двійковий пошук в університеті проходять. Але типовий запит потребує пошуку не за одним, а за декількома словами. Тобто множини документів від кожного слова ще потрібно буде поєднати. Щоб робити це ефективно, Lucene, як пишуть тут використовує для множин… добре мені знайомі бітові мапи. Ось він, секрет швидкості!

Якщо підсумувати:ElasticSearch будує інвертований індекс, тобто словник ключових слів та до кожного слова — множину документів, які його містять. Кожна множина документів має форму бітової мапи, тому їх можна дуже швидко поєднувати між собою різними операціями. Я багато спростив, але базова ідея така.

30.08.2023

Ruby - не найкраща скриптова мова, якщо працюєш з великими файлами

Невеликий сюжет з сьогоднішньої практики. Потрібно було загнати близько 5 мільйонів рядків JSON з файлу в OpenSearch… тільки не по одному — бо зовсім довго — а пачками. Файл займає 2 ГБ, відповідно рядки десь по 400 байтів кожний, але довжина змінна (в кожному рядку — обʼєкт JSON.) До речі, в GZip цей же ж файл займає тільки 70 МБ. Стискайте ваш JSON!

Почав робити це на Ruby - бо простіше за все. Відкрив файл, читаєш собі методом each_line, збираєш пакет та відправляєш. От тільки чомусь працювало це дуже повільно. Пакет з 10 Мб збирався близько хвилини.

Подумав, що може each_line повільно читає, бо йому треба шукати на перенесення рядка. Спробував прочитати весь файл — методом readlines, а потім вже спокійно їх обробляти. Це ситуацію не покращило. Моя підозра лягла на виділення памʼяті при наборі пакета.

Тоді, думаю, скрипт дуже простий — перепишу його на Go. Тут теж є bufio#ReadLine. А головне, що в Go можна виділити памʼять для всього буфера одноразово, а потім потроху його наповнювати. Для цього є третій аргумент функції make: зарезервована місткість.

Далі все пішло добре та після декількох експериментів документи були імпортовані. Для мене висновком стало те, що, якщо вже потрібно обробити такий великий файл, то можна відразу писати скрипт на Go та уникнути проблем з памʼяттю.

(До речі. На Ruby моєю помилкою було те, що я відразу збирав пакет в один рядок. Це й призводить до зайвого виділення памʼяті. Вирішити можна так: збирати рядки в масив, а потім єднати операцією join. Але, на мою думку, урок залишається.)

29.08.2023

Типи клавіш механічних клавіатур

В доповнення до попереднього поста, хотів пройтися по типах клавіш. Бо все ж клавіші це не менший компонент досвіду, ніж перемикачі. Та, при виборі клавіш треба в першу чергу дивитись не на колір та шрифт, а на форму, тобто профіль.

Cherry або OEM - мають циліндричну увігнуту поверхню (округляються до боків). Такі можна знайти на клавіатурах великих брендів - Razer, ASUS, та й на різних немеханічних клавіатурах теж. Тобто, напевно, вони нікого не здивують. До того ж по висоті вони всі більш-менш однакові.
SA - мають сферично увігнуту поверхню. Мої улюблені — подобається, коли пальці лягають в клавіші. Профілів SA багато, відрізняються вони висотою клавіш. Наприклад, DSA - дуже низькі, а KSA - фірмовий профіль Keychron - просто височенні. Доведеться перевіряти та, можливо, все одно вчитись на помилках.
XDA - Пласкі клавіші низького профілю. По пласких клавішах зручніше пересувати пальці, тому, за моїм досвідом, вони краще підходять до ігор.

Особливо важливо дивитись на профіль, коли хочеш замінити клавіші частково — наприклад, встановити модні стрілочки. Незлагода не буде ані зручною, ані красивою.

Також, коли шукаєш заміну на свою клавіатуру, вкрай важливо знати, що “широкі” кнопки (наприклад, Shift) можуть бути різної ширини, та перевіряти, що набір на заміну міститиме ті, що потрібні. З останньою заміною я вже перевіряв-перевіряв, і все одно проґавив правий Cmd, який на Keychron Q1 має одинарну ширину, а в наборі такого не було. Але це ще не так погано, як відсутній Shift чи Backspace.

28.08.2023

Модифікація Markdown зі збереженням оригінального синтаксису

Окрім того, щоб парсити, мені ж ще потрібно вносити в документ зміни. Плани поки прості: коли задача створюється, додати їй поточну дату як дату початку: ➕ 2023-08-28. Коли задача є завершеною (має маркер), то дату завершення: ✅ 2023-08-28. Логіка зрозуміла, але як це реалізувати на практиці?

Швидко зрозумів, що підхід “розібрати текст на AST, поміняти та зібрати наново” не працює. Парсер Remark не зберігає повну інформацію про розмітку: як приклад, заголовки можна вказувати або # решітками, або рядком === під заголовком. І те, і те стає в AST просто “заголовком”. Потім при відтворенні Markdown отримуємо заголовки в форматі, який було задано опціями. Одним словом, користувач отримає стандартизований варіант свого файлу. Що буде дивно, бо ми тільки хотіли додати дату в єдиний рядок з задачею.

…Проте дещо Remark зберігає. А саме, кожен вузол дерева посилається на діапазон символів у вхідному тексті, з яких він був утворений. Тобто хоч відтворити оригінал ми не можемо, але можемо просто скопіювати ті фрагменти оригіналу, які лишились без змін. На практиці це означає всі фрагменти, крім задачі, до якої ми додаємо дату.

Таке рішення дуже нагадує віртуальну DOM, знайому по React та інших бібліотеках. Там ми теж хочемо зберігати якнайбільше документу без змін.

27.08.2023

Розширення парсера Remark

Останній раз я писав про Remark з точки зору споживача. Проте, довелося також його й дописувати. Документації тут бракує, а екосистема складна, тому не так вже воно й легко.

Мені, власне, потрібно впровадити підтримку знайомого по GitHub синтаксису задач - [ ] To do. Для такого вже є рішення. Проте є нюанс: в Obsidian дозволено ставити статусом задачі не тільки хрестик, але й інші символи (наприклад, - для скасованих задач.) А всі плагіни, що існують, мають семантику “пробіл або хрестик”. Тому взяв за основу gfm-task-list-item та модифікував його так, щоб інші символи теж були дозволені.

Перший сюрприз - Remark використовує парсер micromark. Нестандартний синтаксис майже напевно потребує особливої обробки токенів, тому доведеться робити розширення для Micromark, що мене здивувало, бо це ціла окрема бібліотека (збирався робити на Remark, а опинився в Micromark). Micromark це взагалі повноцінний парсер, але Remark бере від нього саме токенізатор.

Доповнення для токенізатора складається з символу-тригера та логіки, яка споживає символи та генерує токени власних типів. Так, доповнення gfm-task-list-item споживало маркер задачі та перевіряло, чи то пробіл або хрестик. Якщо так, то генерувало токен “задача зроблена/не зроблена”, а в протилежному чині — відмовлялася від обробки. Я поміняв це на простішу логіку, що просто зберігає символ між квадратними дужками в токен taskListItemValue.

Щоб перетворити ці токени на елементи дерева AST, потрібне друге доповнення для іншого етапу, яке називається тут fromMarkdownExtension. Таке доповнення реагує на потік токенів та будує дерево. Відповідно, в моєму випадку воно слухає вихід з taskListItemValue (тобто коли вже відомо, що токен прочитаний повністю) та переносить символ маркера з токена в атрибут вузла listItem.

Все це треба робити тому, що без особливої обробки рядок [ ] не є вірним Markown - це посилання без адреси. Тому не можна просто шукати його в тексті вже по готовому дереву.

26.08.2023

Починай з простого

Хочу звернути увагу на одну професійну ваду, яку за собою помічаю. Коли переді мною стоїть великий проєкт, але більш-менш зрозуміло, що має вийти в кінці, то я починаю робити його, скажімо, від початку та до кінця. А мав би робити від простого до складного.

Проілюструю. Для розробки дерева задач для Obsidian потрібно з документів витягати задачі. Кожна задача має назву — це, власне, той текст, яким вона підписана. Поки все ясно.

Але… тексту може бути більше одного рядка. Або не бути зовсім. Або це не текст, а блок коду, чи заголовок, чи зображення. А також в тексті може бути форматування, посилання, ті ж самі зображення… Markdown все це дозволяє.

Підхід, який я вважаю вадою, це відразу намагатись покрити всі можливі комбінації синтаксису. Їх же ж вигадувати не треба — все відомо. От тільки вигадати код, який все покриває, непросто, та й взагалі, незрозуміло, як підступитись. Навіть маленький шматок (такий, як обхід дерева в пошуці задач) - складна задача, якщо вона має покривати всі можливі варіанти.

Краще, на мою думку, взяти найпростішу ситуацію: коли в документі є тільки список задач, та кожна задача має тільки один рядок опису з чистого тексту. Далі — потроху ускладнювати (наприклад, дозволити більше одного рядку тексту.)

Мені це здається контрінтуїтивним: якщо я знаю майбутні умови, навіщо мені свідомо ігнорувати їх та писати код, який гарантовано доведеться переписувати? Чи не зайва то робота? В тому й справа, що поступовий рефакторинг дає кращий код, ніж спроби відразу передбачити все.

Наступного разу пропоную планувати роботу від найпростішої реалізації до повної.

(Так, я розумію, що це приблизно те, що радить TDD.)

25.08.2023

Трохи про периферію

З мого останнього поста про клавіатури багато чого помінялось. Я шукав клавіатуру з підключенням по радіо — а натомість отримав багато розуміння… та пару нових клавіатур.

Epomaker TH80 - непогана клавіатура, яку псують ніжки. Вони не точкові, а широкі. Через це вона хиталася на моєму столі (до того я й не здогадувався, що він кривий… або то клавіатура крива?) А ще, для неї абсолютно неможливо зробити так, щоб функціональні клавіші під macOS були функціональними, а не мультимедійними.

Keychron Q1 Pro - за якістю просто супер. До того ж відкрита для модифікацій під свій смак. Мені не сподобався профіль клавіш — надто високі, а поверхня завузька. Поки що знайшов (на німецькому Амазоні) такі приємні клавіші профілю MSA - нижчі та ширші. Профіль клавіш клавіатури — це такий аспект, про не здогадуєшся, поки не побачиш різницю. (Я знаю, бо колись купив пару прикольних клавіш на свою клавіатуру та по отриманню дізнався, що вони абсолютно не підходять.)

Підставка для запʼястя — просто перегорнула мені життя. Рукам набагато зручніше, коли на них не давить край клавіатури. (Це працює навіть з ноутбуком.) Свою я знайшов на Реддіті. Рекомендую перед покупкою переконатись, що підставка не з сосни (як підставки Keychron), а з твердої породи деревини. Різниця в гладкості дуже помітна.

Миша XTRFY M42 Wireless - обирав мишу для fingertip grip, ця сподобалась розміром та вагою. Мій попередній вибір була Logitech MX Anywhere, яка ще менша та теж дуже хороша. Але після випробувань залишив M42 через те, що вона легша та ц

А щодо Vortex Race 3 - все ще дуже її люблю, у цій клавіатурі чудовий мінімалістичний розмір та приємні клавіші. Єдине, що перемикачі не змінні — зате вона дуже низько сидить для повноцінної механічної клавіатури.

24.08.2023

Ролапи в OpenSearch

Є така функція в OpenSearch - ролап (rollup). Це така собі передагрегація. Вона дозволяє робити обмежений набір агрегацій, маючи тільки стисле відображення оригінальних даних — тобто заощадити на місці, коли крім статистики нічого не потрібно.

Я коли її побачив, то дуже зрадів, бо підхід мені добре знайомий. В Redshift (або PostgreSQL) таке доводилось робити вручну. Як я писав, з PostgreSQL можна взагалі зробити майже будь-що — тільки на особливу оптимізацію не треба розраховувати.

Як воно працює: ми визначаємо найменшу можливу комірку агрегації та групуємо по ньому. Наприклад, якщо нам потрібна кількість по даті та користувачу:

CREATE TABLE stats AS
SELECT DATE(created_at) as date, user_id, COUNT(*) as cnt
FROM events
GROUP BY date, user_id

Тепер таблицю можна використати для агрегації за більшими комірками:

-- статистика по даті
SELECT date, SUM(cnt) FROM stats WHERE user_id=123 GROUP BY date
-- статистика по користувачам
SELECT user_id, SUM(cnt) FROM stats WHERE date>'2023-01-01' AND date<'2023-08-24'  GROUP BY user_id

Залишається питання — як цю таблицю оновляти? Добре, якщо агрегація відбувається за поточною датою, тобто дані за вчора вже не поміняються. (Це й з боку розуміння користувачами краще.) Проте цей підхід до передагрегації не підведе навіть коли в майбутньому можуть зʼявиться нові дані для комірки, що вже існує: два чи більше рядків з однаковим ключем будуть просто підсумовані.

Приблизно так само воно й працює в OpenSearch, тільки в напівавтоматичному режимі. Зокрема, можна робити агрегацію разом по ролапах та по звичайних індексах — зручна абстракція.

23.08.2023

Основи безпеки AWS: це ти

На завершення серії, хочу розказати про те, як можна витратити $10,000 на стрес-тест. Це повчальна історія про те, що ніяких шахраїв не треба, щоб створити собі величезні витрати.

Хмарний хостинг — це зручно, оскільки ми можемо створювати ресурси, абстрагуючись від витрат. Ми майже ніколи не знаємо наперед, скільки витратимо. По-перше, завжди є витрати за використання — наприклад, за трафік. А по-друге, фактично, всі витрати є витратами “за використання”, бо вимірюються в годинах, та ми не знаємо, чи буде машина працювати постійно, чи ми її потушимо за пів години через автомасштабування.

Ми не хочемо, щоб наш продукт раптом припинив роботу, бо на рахунку закінчились гроші. Тому в хмарних хостингах немає ніякої жорсткої межі на використання. Є тільки попередження — які можна не помітити, а можна взагалі не налаштувати. Тобто всі створені нами ресурси будуть витрачати гроші, аж допоки ми не побачимо величезний рахунок. А ще скоріше, величезне зняття на своєму банківському рахунку.

Так і сталося з цим стрес-тестом: машини бази даних, які були підготовані, коштували близько $10 на годину; помнож це на чотири машини та маємо близько $1,000 на день. Протримай такий кластер один робочий тиждень, та підеш в мінус на пʼять тисяч доларів. Додай до цього витрати на IOPS та на сховище, які залежать від обсягів, та вже непомітно нагуляв рахунок на $10,000. (До речі, мова йде про AWS Aurora, а багато IOPS пішло на реплікацію, а навіть не на сам тест.)

Теоретично, такі витрати можна передбачити та мінімізувати (запускати кластер тільки під час активного тестування, наприклад.) Проблема в тому, що абсолютно нічого тобі в цьому не допоможе — витрати не помітні в інтерфейсі. І цей приклад тільки найбільш очевидний — в меншому масштабі непомітні зайві витрати присутні в будь-якому продукті. Будьте пильними.

До речі, історія має добрий кінець - AWS повернули гроші. Але зроблено то було надзвичайними зусиллями нашого керівництва. Не раджу пробувати це повторити.

22.08.2023

Основи безпеки AWS: захист ключів IAM

Продовження: початок тут, тут, тут та тут.

Як я писав вчора, більшість споживачів API AWS повинні авторизуватись через роль, а не користувача. Різниця в тому, що у ролі немає ключів, тому щоб отримати доступ до неї, потрібно запустити код у відповідному середовищі. А в користувача є ключі. Якщо отримати ключі, то доступ відкритий будь-звідки.

Це особливо небезпечно для адміністративних користувачів, оскільки вони мають широкі права доступу — часто необмежені. З такими правами можна не тільки отримати дані користувачів. Окремим вектором атаки є використання крадених ключів AWS для придбання обчислювальних ресурсів за ваші гроші. AWS тут ніяк, абсолютно ніяк не зупиняє шахраїв, тому навіть на маленькому проєкті можна влетіти на значну суму грошей — аж поки не помітиш, що щось пішло не так (для чого, до речі, конче необхідно мати монітор білінгу).

Я вже писав, що ключі AWS можна сховати в 1Password. Це підходить до ключів, якими користуються люди (бо є ще ключі для сервісів поза межами AWS, до яких ролі не застосовуються.) Звісно, абсолютного захисту таке рішення не дає, а являє собою один з шарів захисту.

Інший підхід — впровадження двофакторної автентифікації для запитів до API. Для цього є ключ MultiFactorAuthPresent в політиках доступу. На практиці це накладає додаткову умову на дію.

А для сервісних користувачів є умова за IP адресою. Це теж добре захищає… якщо у вас є стала IP адреса, звісно.

Взагалі в тих умовах багато всього цікавого — можна за User-Agent обмежити, наприклад. Це вже зупинить найбільш поширений вид шахрайства, коли ключі отримують через загальні вразливості та без знання вашого проєкту.

Раніше

Пізніше