tesseract/kernel__dot_8h_source.html

#ifndef KERNEL_DOT_H

#define KERNEL_DOT_H


#include "config.h"

#include "fused/microkernels/microkernel_base.h"

#include "fused/kernel_ops/kernel_helpers.h"


namespace detail

{


    template <typename T, my_size_t Bits, typename Arch>


    struct KernelDot

    {

        using K = Microkernel<T, Bits, Arch>;

        using Helpers = KernelHelpers<T, Bits, Arch>;

        static constexpr my_size_t simdWidth = K::simdWidth;


        // ========================================================================

        // Public API

        // ========================================================================


        template <typename Expr1, typename Expr2>


        FORCE_INLINE static T dot(

            const Expr1 &expr1, my_size_t base1, my_size_t stride1,

            const Expr2 &expr2, my_size_t base2, my_size_t stride2,

            my_size_t len) noexcept

        {

            if (stride1 == 1 && stride2 == 1)

            {

                // std::cout << "dot: dispatching to contiguous impl" << std::endl;

                return dot_contiguous_impl(expr1, expr2, base1, base2, len);

            }

            else

            {

                // std::cout << "dot: dispatching to strided impl" << std::endl;

                return dot_strided_impl(expr1, expr2, base1, base2, stride1, stride2, len);

            }

        }


        template <typename Expr1, typename Expr2>


        FORCE_INLINE static T naive_dot_physical(

            const Expr1 &expr1, my_size_t base1, my_size_t stride1,

            const Expr2 &expr2, my_size_t base2, my_size_t stride2,

            my_size_t len) noexcept

        {

            T sum = T{0};

            for (my_size_t i = 0; i < len; ++i)

                sum += expr1.data()[base1 + i * stride1] *

                       expr2.data()[base2 + i * stride2];

            return sum;

        }


    private:

        // ========================================================================

        // Contiguous dot — both fibers have stride 1

        // ========================================================================


        template <typename Expr1, typename Expr2>

        FORCE_INLINE static T dot_contiguous_impl(

            const Expr1 &expr1,

            const Expr2 &expr2,

            my_size_t base1,

            my_size_t base2,

            my_size_t len) noexcept

        {

            // std::cout << "dot_contiguous_impl" << std::endl;

            const T *ptr1 = expr1.data() + base1;

            const T *ptr2 = expr2.data() + base2;


            const my_size_t simdSteps = len / simdWidth;

            const my_size_t scalarStart = simdSteps * simdWidth;


            T result = T{0};


            if (simdSteps > 0)

            {

                typename K::VecType acc = K::set1(T{0});


                for (my_size_t i = 0; i < simdSteps; ++i)

                {

                    auto v1 = K::load(ptr1 + i * simdWidth);

                    auto v2 = K::load(ptr2 + i * simdWidth);

                    acc = Helpers::fmadd_safe(v1, v2, acc);

                }


                alignas(DATA_ALIGNAS) T tmp[simdWidth];

                K::store(tmp, acc);


                for (my_size_t i = 0; i < simdWidth; ++i)

                    result += tmp[i];

            }


            for (my_size_t i = scalarStart; i < len; ++i)

                result += ptr1[i] * ptr2[i];


            return result;

        }


        // ========================================================================

        // Strided dot — one or both fibers have stride > 1

        // ========================================================================


        template <typename Expr1, typename Expr2>

        FORCE_INLINE static T dot_strided_impl(

            const Expr1 &expr1,

            const Expr2 &expr2,

            my_size_t idx1,

            my_size_t idx2,

            my_size_t stride1,

            my_size_t stride2,

            my_size_t len) noexcept

        {

            // std::cout << "dot_strided_impl" << std::endl;

            const my_size_t simdSteps = len / simdWidth;

            const my_size_t scalarStart = simdSteps * simdWidth;


            T result = T{0};


            if (simdSteps > 0)

            {

                typename K::VecType acc = K::set1(T{0});


                for (my_size_t i = 0; i < simdSteps; ++i)

                {

                    // Build gather indices for this chunk

                    my_size_t idxList1[simdWidth];

                    my_size_t idxList2[simdWidth];

                    for (my_size_t j = 0; j < simdWidth; ++j)

                    {

                        idxList1[j] = idx1 + j * stride1;

                        idxList2[j] = idx2 + j * stride2;

                    }


                    auto v1 = K::gather(expr1.data(), idxList1);

                    auto v2 = K::gather(expr2.data(), idxList2);

                    acc = Helpers::fmadd_safe(v1, v2, acc);


                    idx1 += simdWidth * stride1;

                    idx2 += simdWidth * stride2;

                }


                alignas(DATA_ALIGNAS) T tmp[simdWidth];

                K::store(tmp, acc);


                for (my_size_t i = 0; i < simdWidth; ++i)

                    result += tmp[i];

            }


            // Scalar tail

            for (my_size_t i = scalarStart; i < len; ++i)

            {

                result += expr1.data()[idx1] * expr2.data()[idx2];

                idx1 += stride1;

                idx2 += stride2;

            }


            return result;

        }

    };


} // namespace detail


#endif // KERNEL_DOT_H

config.h
Global configuration for the tesseract tensor library.

my_size_t
#define my_size_t
Size/index type used throughout the library.
Definition config.h:126

FORCE_INLINE
#define FORCE_INLINE
Hint the compiler to always inline a function.
Definition config.h:26

kernel_helpers.h
Shared SIMD helper utilities for kernel operations.

microkernel_base.h

DATA_ALIGNAS
constexpr my_size_t DATA_ALIGNAS
Definition microkernel_base.h:145

detail
Definition BaseExpr.h:4

sum
Expr::value_type sum(const BaseExpr< Expr > &expr)
Definition reductions.h:30

Microkernel
Definition microkernel_base.h:16

Microkernel::VecType
T VecType
Definition microkernel_base.h:18

Microkernel::store
static FORCE_INLINE void store(T *ptr, VecType val) noexcept

Microkernel::simdWidth
static constexpr my_size_t simdWidth
Definition microkernel_base.h:17

Microkernel::load
static FORCE_INLINE VecType load(const T *ptr) noexcept

Microkernel::set1
static FORCE_INLINE VecType set1(T scalar) noexcept

detail::KernelDot
Definition kernel_dot.h:36

detail::KernelDot::simdWidth
static constexpr my_size_t simdWidth
Definition kernel_dot.h:39

detail::KernelDot::naive_dot_physical
static FORCE_INLINE T naive_dot_physical(const Expr1 &expr1, my_size_t base1, my_size_t stride1, const Expr2 &expr2, my_size_t base2, my_size_t stride2, my_size_t len) noexcept
Naive scalar dot product for testing/validation.
Definition kernel_dot.h:79

detail::KernelDot::dot
static FORCE_INLINE T dot(const Expr1 &expr1, my_size_t base1, my_size_t stride1, const Expr2 &expr2, my_size_t base2, my_size_t stride2, my_size_t len) noexcept
Dispatch dot product based on stride values.
Definition kernel_dot.h:55

detail::KernelHelpers
Definition kernel_helpers.h:19

detail::KernelHelpers::fmadd_safe
static FORCE_INLINE K::VecType fmadd_safe(typename K::VecType a, typename K::VecType b, typename K::VecType c) noexcept
Fused multiply-add with fallback for architectures without native FMA.
Definition kernel_helpers.h:27