undefined reference to `__sync_fetch_and_add_4'

You couldn't export builtin functions, but you can do hack with gcc

gcc -shared -fPIC -O2 atomic_ops.c -o libatomic_ops.so
#include <stdint.h>
#include <stdbool.h>

// Ensure all functions are exported from the shared library
#define EXPORT __attribute__((visibility("default")))

// 32-bit compare and swap
EXPORT
bool __sync_bool_compare_and_swap_4(volatile void* ptr, uint32_t oldval, uint32_t newval) {
    bool result;
    __asm__ __volatile__(
        "lock; cmpxchgl %2, %1\n\t"
        "sete %0"
        : "=q" (result), "+m" (*(volatile uint32_t*)ptr)
        : "r" (newval), "a" (oldval)
        : "memory", "cc"
    );
    return result;
}

// 64-bit compare and swap
EXPORT
bool __sync_bool_compare_and_swap_8(volatile void* ptr, uint64_t oldval, uint64_t newval) {
    bool result;
    __asm__ __volatile__(
        "lock; cmpxchgq %2, %1\n\t"
        "sete %0"
        : "=q" (result), "+m" (*(volatile uint64_t*)ptr)
        : "r" (newval), "a" (oldval)
        : "memory", "cc"
    );
    return result;
}

// 32-bit fetch and add
EXPORT
uint32_t __sync_fetch_and_add_4(volatile void* ptr, uint32_t value) {
    __asm__ __volatile__(
        "lock; xaddl %0, %1"
        : "+r" (value), "+m" (*(volatile uint32_t*)ptr)
        :
        : "memory"
    );
    return value;
}

// 32-bit fetch and or
EXPORT
uint32_t __sync_fetch_and_or_4(volatile void* ptr, uint32_t value) {
    uint32_t result, temp;
    __asm__ __volatile__(
        "1:\n\t"
        "movl %1, %0\n\t"
        "movl %0, %2\n\t"
        "orl %3, %2\n\t"
        "lock; cmpxchgl %2, %1\n\t"
        "jne 1b"
        : "=&a" (result), "+m" (*(volatile uint32_t*)ptr), "=&r" (temp)
        : "r" (value)
        : "memory", "cc"
    );
    return result;
}

// 32-bit val compare and swap
EXPORT
uint32_t __sync_val_compare_and_swap_4(volatile void* ptr, uint32_t oldval, uint32_t newval) {
    uint32_t result;
    __asm__ __volatile__(
        "lock; cmpxchgl %2, %1"
        : "=a" (result), "+m" (*(volatile uint32_t*)ptr)
        : "r" (newval), "0" (oldval)
        : "memory"
    );
    return result;
}

// 64-bit val compare and swap
EXPORT
uint64_t __sync_val_compare_and_swap_8(volatile void* ptr, uint64_t oldval, uint64_t newval) {
    uint64_t result;
    __asm__ __volatile__(
        "lock; cmpxchgq %2, %1"
        : "=a" (result), "+m" (*(volatile uint64_t*)ptr)
        : "r" (newval), "0" (oldval)
        : "memory"
    );
    return result;
}

// Additional commonly used atomic operations

// 32-bit atomic increment
EXPORT
uint32_t __sync_add_and_fetch_4(volatile void* ptr, uint32_t value) {
    uint32_t result;
    __asm__ __volatile__(
        "lock; xaddl %0, %1"
        : "=r" (result), "+m" (*(volatile uint32_t*)ptr)
        : "0" (value)
        : "memory"
    );
    return result + value;
}

// 32-bit atomic decrement
EXPORT
uint32_t __sync_sub_and_fetch_4(volatile void* ptr, uint32_t value) {
    return __sync_add_and_fetch_4(ptr, -value);
}

// 32-bit atomic AND
EXPORT
uint32_t __sync_fetch_and_and_4(volatile void* ptr, uint32_t value) {
    uint32_t result, temp;
    __asm__ __volatile__(
        "1:\n\t"
        "movl %1, %0\n\t"
        "movl %0, %2\n\t"
        "andl %3, %2\n\t"
        "lock; cmpxchgl %2, %1\n\t"
        "jne 1b"
        : "=&a" (result), "+m" (*(volatile uint32_t*)ptr), "=&r" (temp)
        : "r" (value)
        : "memory", "cc"
    );
    return result;
}

// 32-bit atomic XOR
EXPORT
uint32_t __sync_fetch_and_xor_4(volatile void* ptr, uint32_t value) {
    uint32_t result, temp;
    __asm__ __volatile__(
        "1:\n\t"
        "movl %1, %0\n\t"
        "movl %0, %2\n\t"
        "xorl %3, %2\n\t"
        "lock; cmpxchgl %2, %1\n\t"
        "jne 1b"
        : "=&a" (result), "+m" (*(volatile uint32_t*)ptr), "=&r" (temp)
        : "r" (value)
        : "memory", "cc"
    );
    return result;
}

C++ coroutine segfault for assigning into a shared object

struct Task {
    struct promise_type;
    using handle_type = std::coroutine_handle<promise_type>;

    struct promise_type {
        auto get_return_object() { 
            return Task{handle_type::from_promise(*this)}; 
        }
        std::suspend_never initial_suspend() { return {}; }
        std::suspend_always final_suspend() noexcept { return {}; }
        void return_void() { }
        void unhandled_exception() {}
    };

    handle_type handle;
    
    Task(handle_type h) : handle(h) {}
    ~Task() {
        if (handle) handle.destroy();
    }
    Task(const Task&) = delete;
    Task& operator=(const Task&) = delete;
    Task(Task&& other) : handle(other.handle) { other.handle = nullptr; }
    Task& operator=(Task&& other) {
        if (this != &other) {
            if (handle) handle.destroy();
            handle = other.handle;
            other.handle = nullptr;
        }
        return *this;
    }

    bool done() const { return handle.done(); }
    void resume() { handle.resume(); }
};
Task process_queue_item(int i) {
    if (!atomicQueue[i].valid) {
        co_await std::suspend_always{};
    }
    atomicQueue[i].res = remote1(atomicQueue[i].i, atomicQueue[i].a, atomicQueue[i].b);
}

why line atomicQueue[i].res = ... cause segfault?

Coroutine lifetime issues: If the coroutine is resumed after the atomicQueue or its elements have been destroyed, this would lead to accessing invalid memory.

solusion

Task process_queue_item(int i) {
    if (i < 0 || i >= atomicQueue.size()) {
        // Handle index out of bounds
        co_return;
    }
    
    if (!atomicQueue[i].valid) {
        co_await std::suspend_always{};
    }
    
    // Additional check after resuming
    if (!atomicQueue[i].valid) {
        // Handle unexpected invalid state
        co_return;
    }
    
    try {
        atomicQueue[i].res = remote1(atomicQueue[i].i, atomicQueue[i].a, atomicQueue[i].b);
    } catch (const std::exception& e) {
        // Handle any exceptions from remote1
        // Log error, set error state, etc.
    }
}

MOAT: Towards Safe BPF Kernel Extension

MPK only supports up to 16 domains, the # BPF could be way over this number. We use a 2-layer isolation scheme to support unlimited BPF programs. The first layer deploys MPK to set up a lightweight isolation between the kernel and BPF programs. Also, BPF helper function calls is not protected, and can be attacked.

  1. They use the 2 layer isolation with PCID. In the first layer, BPF Domain has protection key permission lifted by kernel to do corresponding work, only exception is GDT and IDT they are always write-disabled. The second layer, when a malicious BPF program tries to access the memory regions of another BPF program, a page fault occurs, and the malicious BPF program is immediately terminated. To avoid TLB flush, each BPF program has PCID and rarely overflow 4096 entries.

  1. helper: 1. protect sensitive objects It has critical object finer granularity protection to secure. 2. ensure the validity of the parameters. It(Dynamic Parameter Auditing (DPA)) leverages the information obtained from the BPF verifier to dynamically check if the parameters are within their legitimate ranges.

LibPreemptible

uintr come with Sapphire Rapids,(RISCV introduce N extension at 2019) meaning no context switches compared with signal, providing lowest IPC Latency. Using APIC will incur safety concern.

uintr usage

  1. general purpose IPC
  2. userspace scheduler(This paper)
  3. userspace network
  4. libevent & liburing

syscall addication(eventfd like) sender initiate and notify the event and receiver get the fd call into kernel and senduipi back to sender.

WPS Office 2024-07-27 20.44.35
They wrote a lightweight runtime for libpreemptible.

  1. enable lightweight and fine grained preemption
  2. Separation of mechanism and policy
  3. Scability
  4. Compatibility

They maintained a fine-grained(3us) and dynamic timers for scheduling rather than kernel timers. It can greatly improve the 99% tail latency. Normal design of SPR's hw feature.

Reference

  1. https://github.com/OS-F-4/qemu-tutorial/blob/master/qemu-tutorial.md

OMB-CXL: A Micro-Benchmark Suite for Evaluating MPI Communication Utilizing Compute Express Link Memory Devices

This paper talks about Message Passing Interface (MPI) libraries utilize CXL for inter-node communication.

In the HH case, CXL has lower latency than Ethernet for the small message range with 9.5x speedup. As the message size increases, the trend reverses with Ethernet performing better in latency than CXL due to the CXL channel having lower bandwidth than Ethernet in the emulated system 2 compute node with memory expander for each node.

Zero-NIC @OSDI24

Zero-NIC proactively seperate the control flow and datapath, it wplit and merge the headers despite reordering, retransmission and drops of the package.

It will send the payload to arbitrary devices with zero-copy data transfer.

It maps the memory into object list called Memroy Segment and manage the package table using Memory Region table. it will use IOMMU for address translation to host application buffer. Since the control stack is
co-located with the transport protocol, it directly invokes it
without system calls. The speed up is more like iouring to avoid syscalls. For scalability, MR can resides any endpoint.

It has the slightly worse performance than RoCE, while bringing TCP and higher MTU.

ClickHouse IOUring

  1. iouring fs插桩bpf uring context,到最底下的nvme层dispatch一段batching读的代码。iouring sock xdp一个请求接一个请求dispatch。穿透两层,一个是iouring层,另外是xdp和xrp插桩的地方层。
  2. MergeTree到ReplicatedMergeTree,想用iouring batch socket接read的一些请求。

有关最近的放慢脚步,情景重现,灵异事件以及背后的哲学

放慢脚步

在电击以后我得要吃一种嗜睡的药,导致我现在为懒惰找到了合理的借口。我从2024/4/9日到5/21回到上海的家里为止,大约感觉自己从鬼门关走过了3次。我的神经系统在病不发作的时候是正常的,但是一旦发作就有很强的濒死感。这种生活的重伤打击到了我对于未来的预判,我在住院的时候就在想,我还没有写完代码留给这个世界一些关于yyw的印记,怎么能这么快就走了呢?我由于嗜睡而无法做科研的时候就会想我是一个目标感很强的人,怎么能死在半路上呢?只不过,我也能放慢脚步知道有些东西急不得,也得不到,只能在潦倒的时候检查自己哪里有什么不对,哪里还可以提升,只为下一次的美好保存实力。虽然这个下一次很可能永远都出现不了了。(悲伤ing)

永远不要窥探他人的人生

人和人之间的节奏差距很大,我觉得读博就是一个精神折磨,博士之间的比较没有意义。尤其是不要看着别人有就急功近利。

我现在从坚定的唯物主义者到唯心主义者。

因为唯物者的心灵也是一种观测角度,而神创造了让唯物者可以信服的一切,在某个尺度上让唯物者是唯物者。但是这个世界还是有很多没法解释的事情,比如我被电击同时有幻觉幻听,以及我的神经系统可以感受到部分的疼痛,可是过一段时间又能控制身体的某一个器官。这方面现在的科学还没办法解释。

灵异事件

我自从大脑被电击了以后,脑子首先出现了我做出不受理性控制的事情,以为自己做了没有做的事情,失去记忆慢慢倒带找回的情况。从那次以后,脑子有一个部分到心里去了。碰到激动的事情,比如我喜欢的Formal Methods、网球以及体系结构,就会大脑兴奋,从而感觉到幻听,接着faint。有一次吃饭,我的大脑在一次心脑相连后失去了近两年的记忆,甚至失去了我mtf部分的记忆。在一次和老婆经过wharf的过程中,我慢慢地找回了自己的记忆,那些记忆碎片是从身体的不同位置慢慢回到大脑里的,我的记忆在那个时候只有很短暂的,像是金鱼脑子。我会不停的问我老婆我恢复了没,我为什么会在这里。

大脑的不同部分的功能不一样

在被电击后,我首先是感觉到了大脑中的神经分散到了身体的不同位置,每一部分都带有我人生的部分记忆和,最后一片进入了我的心脏里,导致之后有很多次心脑相连的症状。我可以明显感觉到脑子的一部分是女性的,也有男性的部分。每次心脑相连以后,首先感觉到身体里有三种声音,有一个幻听的声音是决绝且严厉的。有另一个个只讲实话的潜意识。还有另一个潜意识是及其温柔且想象力丰富的。接着大脑会像液体一样裹着心脏流动在身体的每个部分,一旦心脏脱离原本的位置太久,就会突然faint。神经系统彻底坏掉一次,然后又好了,神经又能重新掌管身体,迎来一个新的巡回。

对不同事物的反应不一样,转变在转瞬之间。

我觉得我有多个人格的原因是大脑的控制部分只对我身体的一部分负责,如果这部分的大脑失去对大脑的控制,换另一个部分控制身体,会有完全不同的效果。我的男生和女生部分就不一样,医生说mtf可能是基因变异导致的,我觉得也有可能,一个控制大脑的部分突变了,就会朝向自己“本来就是女生”的地步发展。这一切的转换可能就在转瞬之间。

人格同一性

人格同一是一个人是否还是以前那个人的判定标准。如果一个人大脑经历了很多打击,甚至神经递质通路完全变成了另一个状态,那么这个人和之前的人有区别吗?我觉得现在的我在吃药的情况下,没有了犀利的眼光,缺失了和人argue的勇气,似乎离刻板印象中的yyw渐行渐远。

是否是INTJ的通病?

INTJ就是一群要强的、一针见血的指出问题所在的紫色小老头,在没有资源限制的情况下,INTJ能指挥千军万马,可是在资源匮乏或者大脑失去控制的情况下,会陷入“我真的好没用”的无限循环中。人格虽然变了,但是我认为我的内心动力一直没有变。INTJ如果失去一个健壮的、善于表达的大脑,很可能被自己过往的丑事击败,所以只有一直维持在一个智商的高位,才能满足一个INTJ的内心。所以大脑是INTJ最薄弱的环节。

哲学

我现在更加相信以前不太认可的哲学,诸如"人不可能同时踏入同一条河流","人的同一性",“人的大脑是人的一部分、心脏也是人的一部分,那么人失去了大脑以后还是之前的人吗?人嫁接了心脏起搏器还是原来的人吗?”我现在觉得人脑里面不同神经代表了对不同器官的控制,人脑细微的改变都可能改变其神经递质传输的过程,从而改变人的思想及其行为。

人是意识的总和

人的一切思考都基于神经递质的传播,而神经递质又依赖于当时这个人的激素水平,外部刺激。我认为人就是一个意识的总和。

人是解释性的动物,任何表达都是可解释的,只是理解困难程度

人总是擅长给一件事物做解释,人没有办法完全理解一件事物的时候,才会通过超灵的表达来诠释一个事物。我起初并不知道我的病的类型,

不同文化的人碰撞出来的东西、在同一个维度交流、才更有意义。人只不过是跑了一个foundational的解释性的model,dimm or not,strong opinion or not。

人的大脑的神经递质传输过程,和foundational model的产生perceptron加神经网络的过程很类似。而训练数据就是过往产生的一系列神经递质的强化能力,所以他们是类似的。若要能产生新的东西,得由不同的来自各方的观点碰撞出来,也就是训练数据的多元化。

女性真的通灵,但是可能她自己都不知道。

我的母亲非常能理解我在失去意识时作出的描述性言语。似乎这是女性的第六感感觉到的?我和母亲在微信电话中的没有

女性容易得阿尔兹海默症是不是过于通灵?

我和母亲的交流,发现她能察觉到文字以外我的情感,这些东西可能表现在细节的面容上。在我躯体化症状发病的时候,在电话另一头听到我受不了的时候,我母亲精确的提供了我的感觉的信息,而这些信息被我爸是过滤掉的。我不知道什么时候我妈也会随我外婆一样得阿尔兹海默症,但是能够察觉通灵,我感觉和阿尔兹海默症发病预兆很有关系。