5 years ago · 4a72f68fed
--- a/libmandel/CMakeLists.txt
+++ b/libmandel/CMakeLists.txt
@@ -44,6 +44,7 @@ SET(MandelSources
 
															     src/IterationCompiler.cpp
														
 
															     src/IterationIR.cpp
														
 
															     src/NaiveIRGenerator.cpp
														
 
															+    src/FloatLog.cpp
														
 
															 )
														
 
															 FILE(GLOB MandelHeaders include/*.h)
														
--- a/libmandel/include/CpuGenerators.h
+++ b/libmandel/include/CpuGenerators.h
@@ -68,6 +68,7 @@ public:
 
															     virtual void generate(const MandelInfo& info, float* data);
														
 
															 };
														
 
															+
														
 
															 template<bool parallel>
														
 
															 class mnd::CpuGenerator<double, mnd::X86_AVX, parallel> : public MandelGenerator
														
 
															 {
														
@@ -79,6 +80,7 @@ public:
 
															     virtual void generate(const MandelInfo& info, float* data);
														
 
															 };
														
 
															+
														
 
															 template<bool parallel>
														
 
															 class mnd::CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX, parallel> : public MandelGenerator
														
 
															 {
														
@@ -92,6 +94,18 @@ public:
 
															 template<bool parallel>
														
 
															+class mnd::CpuGenerator<mnd::TripleDouble, mnd::X86_AVX, parallel> : public MandelGenerator
														
 
															+{
														
 
															+public:
														
 
															+    inline CpuGenerator(void) :
														
 
															+        MandelGenerator{ mnd::Precision::TRIPLE_DOUBLE, mnd::X86_AVX }
														
 
															+    {
														
 
															+    }
														
 
															+    virtual void generate(const MandelInfo& info, float* data);
														
 
															+};
														
 
															+
														
 
															+
														
 
															+template<bool parallel>
														
 
															 class mnd::CpuGenerator<float, mnd::X86_AVX_FMA, parallel> : public MandelGenerator
														
 
															 {
														
 
															 public:
														
--- a/libmandel/include/FloatLog.h
+++ b/libmandel/include/FloatLog.h
@@ -0,0 +1,7 @@
 
															+#ifndef MANDEL_FLOATLOG_H
														
 
															+#define MANDEL_FLOATLOG_H
														
 
															+
														
 
															+float floatLog(float x);
														
 
															+float floatLog2(float x);
														
 
															+
														
 
															+#endif // MANDEL_FLOATLOG_H
														
--- a/libmandel/include/Generators.h
+++ b/libmandel/include/Generators.h
@@ -104,6 +104,7 @@ enum class mnd::GeneratorType : int
 
															     DOUBLE_DOUBLE_AVX_FMA,
														
 
															     DOUBLE_DOUBLE_NEON,
														
 
															     TRIPLE_DOUBLE,
														
 
															+    TRIPLE_DOUBLE_AVX,
														
 
															     QUAD_DOUBLE,
														
 
															     QUAD_DOUBLE_AVX_FMA,
														
 
															     FLOAT128,
														
--- a/libmandel/include/LightDoubleDouble.h
+++ b/libmandel/include/LightDoubleDouble.h
@@ -1,8 +1,6 @@
 
															 #ifndef MANDEL_LIGHTDOUBLEDOUBLE_H
														
 
															 #define MANDEL_LIGHTDOUBLEDOUBLE_H
														
 
															-#include <utility>
														
 
															-
														
 
															 namespace mnd
														
 
															 {
														
 
															     struct LightDoubleDouble;
														
@@ -11,7 +9,11 @@ namespace mnd
 
															     namespace ldd
														
 
															     {
														
 
															         template<typename T>
														
 
															-        using Pair = std::pair<T, T>;
														
 
															+        struct Pair {
														
 
															+            T first;
														
 
															+            T second;
														
 
															+        };
														
 
															+
														
 
															         using DoublePair = Pair<double>;
														
 
															         using FloatPair = Pair<float>;
														
--- a/libmandel/src/CpuGenerators.cpp
+++ b/libmandel/src/CpuGenerators.cpp
@@ -112,213 +112,149 @@ void CpuGenerator<T, mnd::NONE, parallel>::generate(const mnd::MandelInfo& info,
 
															     }
														
 
															 }
														
 
															+namespace mnd
														
 
															+{
														
 
															+    template class CpuGenerator<float, mnd::X86_AVX, false>;
														
 
															+    template class CpuGenerator<float, mnd::X86_AVX, true>;
														
 
															+
														
 
															+    template class CpuGenerator<double, mnd::X86_AVX, false>;
														
 
															+    template class CpuGenerator<double, mnd::X86_AVX, true>;
														
 
															+
														
 
															+    template class CpuGenerator<DoubleDouble, mnd::X86_AVX, false>;
														
 
															+    template class CpuGenerator<DoubleDouble, mnd::X86_AVX, true>;
														
 
															+
														
 
															+    template class CpuGenerator<TripleDouble, mnd::X86_AVX, false>;
														
 
															+    template class CpuGenerator<TripleDouble, mnd::X86_AVX, true>;
														
 
															+}
														
 
															+
														
 
															+extern void generateFloatAvx(long width, long height, float* data, bool parallel,
														
 
															+    float vx, float vy, float vw, float vh, int maxIter, bool smooth,
														
 
															+    bool julia, float jX, float jY);
														
 
															+
														
 
															+extern void generateDoubleAvx(long width, long height, float* data, bool parallel,
														
 
															+    double vx, double vy, double vw, double vh, int maxIter, bool smooth,
														
 
															+    bool julia, double jX, double jY);
														
 
															+
														
 
															+extern void generateDoubleDoubleAvx(long width, long height, float* data, bool parallel,
														
 
															+    double vx1, double vx2, double vy1, double vy2, double vw1, double vw2, double vh1, double vh2, int maxIter, bool smooth,
														
 
															+    bool julia, double jX1, double jX2, double jY1, double jY2);
														
 
															+
														
 
															+extern void generateTripleDoubleAvx(long width, long height, float* data, bool parallel,
														
 
															+    double vx1, double vx2, double vx3, double vy1, double vy2, double vy3,
														
 
															+    double vw1, double vw2,  double vw3, double vh1, double vh2, double vh3,
														
 
															+    int maxIter, bool smooth, bool julia,
														
 
															+    double jX1, double jX2, double jX3, double jY1, double jY2, double jY3);
														
 
															+
														
 
															-/*
														
 
															 template<bool parallel>
														
 
															-void CpuGenerator<double, mnd::NONE, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															+void CpuGenerator<float, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															 {
														
 
															+    using T = float;
														
 
															     const MandelViewport& view = info.view;
														
 
															-    T viewx = mnd::convert<T>(view.x);
														
 
															-    T viewy = mnd::convert<T>(view.y);
														
 
															-    T wpp = mnd::convert<T>(view.width / info.bWidth);
														
 
															-    T hpp = mnd::convert<T>(view.height / info.bHeight);
														
 
															+    const T vx = mnd::convert<T>(view.x);
														
 
															+    const T vy = mnd::convert<T>(view.y);
														
 
															+    const T vw = mnd::convert<T>(view.width);
														
 
															+    const T vh = mnd::convert<T>(view.height);
														
 
															-    if constexpr (parallel)
														
 
															-        omp_set_num_threads(omp_get_num_procs());
														
 
															-#pragma omp parallel for schedule(static, 1) if (parallel)
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        T y = viewy + T(double(j)) * hpp;
														
 
															-        long i = 0;
														
 
															-        for (i; i < info.bWidth; i++) {
														
 
															-            T x = viewx + T(double(i)) * wpp;
														
 
															+    T jX = mnd::convert<T>(info.juliaX);
														
 
															+    T jY = mnd::convert<T>(info.juliaY);
														
 
															-            T a = x;
														
 
															-            T b = y;
														
 
															+    generateFloatAvx(info.bWidth, info.bHeight, data, parallel, vx, vy, vw, vh, info.maxIter, info.smooth, info.julia, jX, jY);
														
 
															+}
														
 
															-            int k = 0;
														
 
															-            for (k = 0; k < info.maxIter; k++) {
														
 
															-                T aa = a * a;
														
 
															-                T bb = b * b;
														
 
															-                T ab = a * b;
														
 
															-                a = aa - bb + x;
														
 
															-                b = ab + ab + y;
														
 
															-                if (aa + bb > T(16.0)) {
														
 
															-                    break;
														
 
															-                }
														
 
															-            }
														
 
															-            if (info.smooth) {
														
 
															-                if (k >= info.maxIter)
														
 
															-                    data[i + j * info.bWidth] = float(info.maxIter);
														
 
															-                else
														
 
															-                    data[i + j * info.bWidth] = ((float) k) + 1 - ::logf(::logf(mnd::convert<float>(a * a + b * b)) / 2) / ::logf(2.0f);
														
 
															-            }
														
 
															-            else
														
 
															-                data[i + j * info.bWidth] = k;
														
 
															-        }
														
 
															-    }
														
 
															-}*/
														
 
															-/*
														
 
															-#if defined(WITH_BOOST) || 1
														
 
															 template<bool parallel>
														
 
															-void CpuGenerator<Fixed128, mnd::NONE, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															+void CpuGenerator<double, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															 {
														
 
															-    using T = Fixed128;
														
 
															+    using T = double;
														
 
															     const MandelViewport& view = info.view;
														
 
															-    const auto fixedFromFloat = [] (const mnd::Float128& f) {
														
 
															-        boost::multiprecision::int128_t frac = boost::multiprecision::int128_t(f * 4294967296.0 * 4294967296.0 * 4294967296.0);
														
 
															-        std::vector<uint32_t> bits;
														
 
															-        export_bits(frac, std::back_inserter(bits), 32);
														
 
															-        bits.clear();
														
 
															-        while (bits.size() < 4) bits.push_back(0);
														
 
															-        return Fixed128{ bits[0], bits[1], bits[2], bits[3] };
														
 
															-    };
														
 
															+    const T vx = mnd::convert<T>(view.x);
														
 
															+    const T vy = mnd::convert<T>(view.y);
														
 
															+    const T vw = mnd::convert<T>(view.width);
														
 
															+    const T vh = mnd::convert<T>(view.height);
														
 
															-    if constexpr (parallel)
														
 
															-        omp_set_num_threads(2 * omp_get_num_procs());
														
 
															-#pragma omp parallel for if (parallel)
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        T y = fixedFromFloat(view.y + mnd::Real(j) * view.height / info.bHeight);
														
 
															-        long i = 0;
														
 
															-        for (i; i < info.bWidth; i++) {
														
 
															-            T x = fixedFromFloat(view.x + mnd::Real(i) * view.width / info.bWidth);
														
 
															+    T jX = mnd::convert<T>(info.juliaX);
														
 
															+    T jY = mnd::convert<T>(info.juliaY);
														
 
															-            T a = x;
														
 
															-            T b = y;
														
 
															-
														
 
															-            int k = 0;
														
 
															-            for (k = 0; k < info.maxIter; k++) {
														
 
															-                T aa = a * a;
														
 
															-                T bb = b * b;
														
 
															-                T ab = a * b;
														
 
															-                a = aa - bb + x;
														
 
															-                b = ab + ab + y;
														
 
															-                if (aa + bb > T(16)) {
														
 
															-                    break;
														
 
															-                }
														
 
															-            }
														
 
															-            if constexpr (smooth) {
														
 
															-                if (k >= info.maxIter)
														
 
															-                    data[i + j * info.bWidth] = info.maxIter;
														
 
															-                else
														
 
															-                    data[i + j * info.bWidth] = ((float) k) + 1 - ::logf(::logf(float(a * a + b * b)) / 2) / ::logf(2.0f);
														
 
															-            }
														
 
															-            else
														
 
															-                data[i + j * info.bWidth] = k;
														
 
															-        }
														
 
															-    }
														
 
															+    generateDoubleAvx(info.bWidth, info.bHeight, data, parallel, vx, vy, vw, vh, info.maxIter, info.smooth, info.julia, jX, jY);
														
 
															 }
														
 
															-#endif // WITH_BOOST
														
 
															-*/
														
 
															-#ifdef WITH_MPFR
														
 
															-template<unsigned int bits, bool parallel>
														
 
															-void CpuGenerator<mnd::MpfrFloat<bits>, mnd::NONE, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															+
														
 
															+template<bool parallel>
														
 
															+void CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															 {
														
 
															+    using T = mnd::DoubleDouble;
														
 
															     const MandelViewport& view = info.view;
														
 
															-    using T = mnd::MpfrFloat<bits>;
														
 
															-#if defined(_OPENMP)
														
 
															-    if constexpr (parallel)
														
 
															-        omp_set_num_threads(2 * omp_get_num_procs());
														
 
															-#   pragma omp parallel for if (parallel)
														
 
															-#endif
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        T y = T(view.y) + T(j) * T(view.height / info.bHeight);
														
 
															-        long i = 0;
														
 
															-        for (i; i < info.bWidth; i++) {
														
 
															-            T x = T(view.x + T(i) * T(view.width / info.bWidth));
														
 
															+    const T vx = mnd::convert<T>(view.x);
														
 
															+    const T vy = mnd::convert<T>(view.y);
														
 
															+    const T vw = mnd::convert<T>(view.width);
														
 
															+    const T vh = mnd::convert<T>(view.height);
														
 
															-            T a = x;
														
 
															-            T b = y;
														
 
															+    T jX = mnd::convert<T>(info.juliaX);
														
 
															+    T jY = mnd::convert<T>(info.juliaY);
														
 
															-            int k = 0;
														
 
															-            for (k = 0; k < info.maxIter; k++) {
														
 
															-                T aa = a * a;
														
 
															-                T bb = b * b;
														
 
															-                T ab = a * b;
														
 
															-                a = aa - bb + x;
														
 
															-                b = ab + ab + y;
														
 
															-                if (aa + bb > T(16)) {
														
 
															-                    break;
														
 
															-                }
														
 
															-            }
														
 
															-            if (info.smooth) {
														
 
															-                if (k >= info.maxIter)
														
 
															-                    data[i + j * info.bWidth] = info.maxIter;
														
 
															-                else
														
 
															-                    data[i + j * info.bWidth] = ((float) k) + 1 - ::log(::log(a * a + b * b) / 2) / ::log(2.0f);
														
 
															-            }
														
 
															-            else
														
 
															-                data[i + j * info.bWidth] = k;
														
 
															-        }
														
 
															-    }
														
 
															+    generateDoubleDoubleAvx(info.bWidth, info.bHeight, data, parallel,
														
 
															+        vx.x[0], vx.x[1], vy.x[0], vy.x[1], vw.x[0], vw.x[1], vh.x[0], vh.x[1],
														
 
															+        info.maxIter, info.smooth, info.julia, jX.x[0], jX.x[1], jY.x[0], jY.x[1]);
														
 
															 }
														
 
															-#endif // WITH_MPFR
														
 
															-/*
														
 
															-void CpuGeneratorDouble::generate(const mnd::MandelInfo& info, float* data)
														
 
															+template<bool parallel>
														
 
															+void CpuGenerator<mnd::TripleDouble, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															 {
														
 
															+    using T = mnd::TripleDouble;
														
 
															     const MandelViewport& view = info.view;
														
 
															-    omp_set_num_threads(2 * omp_get_num_procs());
														
 
															-#pragma omp parallel for
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        double y = double(view.y) + double(j) * double(view.height / info.bHeight);
														
 
															-        long i = 0;
														
 
															-        for (i; i < info.bWidth; i++) {
														
 
															-            double x = view.x + double(i) * view.width / info.bWidth;
														
 
															-            double a = x;
														
 
															-            double b = y;
														
 
															+    const T vx = mnd::convert<T>(view.x);
														
 
															+    const T vy = mnd::convert<T>(view.y);
														
 
															+    const T vw = mnd::convert<T>(view.width);
														
 
															+    const T vh = mnd::convert<T>(view.height);
														
 
															-            int k = 0;
														
 
															-            for (k = 0; k < info.maxIter; k++) {
														
 
															-                double aa = a * a;
														
 
															-                double bb = b * b;
														
 
															-                double ab = a * b;
														
 
															-                a = aa - bb + x;
														
 
															-                b = ab + ab + y;
														
 
															-                if (aa + bb > 16) {
														
 
															-                    break;
														
 
															-                }
														
 
															-            }
														
 
															-            data[i + j * info.bWidth] = k;
														
 
															-        }
														
 
															-    }
														
 
															+    T jX = mnd::convert<T>(info.juliaX);
														
 
															+    T jY = mnd::convert<T>(info.juliaY);
														
 
															+
														
 
															+    generateTripleDoubleAvx(info.bWidth, info.bHeight, data, parallel,
														
 
															+        vx.x[0], vx.x[1], vx.x[2], vy.x[0], vy.x[1], vy.x[2],
														
 
															+        vw.x[0], vw.x[1], vw.x[2], vh.x[0], vh.x[1], vh.x[2],
														
 
															+        info.maxIter, info.smooth, info.julia,
														
 
															+        jX.x[0], jX.x[1], jX.x[2], jY.x[0], jY.x[1], jY.x[2]);
														
 
															 }
														
 
															-void CpuGenerator128::generate(const mnd::MandelInfo& info, float* data)
														
 
															+#ifdef WITH_AVX512
														
 
															+
														
 
															+namespace mnd
														
 
															 {
														
 
															+    template class CpuGenerator<float, mnd::X86_AVX_512, false>;
														
 
															+    template class CpuGenerator<float, mnd::X86_AVX_512, true>;
														
 
															+
														
 
															+    //template class CpuGenerator<double, mnd::X86_AVX_512, false>;
														
 
															+    //template class CpuGenerator<double, mnd::X86_AVX_512, true>;
														
 
															+}
														
 
															+
														
 
															+extern void generateFloatAvx512(long width, long height, float* data, bool parallel,
														
 
															+    float vx, float vy, float vw, float vh, int maxIter, bool smooth,
														
 
															+    bool julia, float jX, float jY);
														
 
															+
														
 
															+template<bool parallel>
														
 
															+void CpuGenerator<float, mnd::X86_AVX_512, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															+{
														
 
															+    using T = float;
														
 
															     const MandelViewport& view = info.view;
														
 
															-    omp_set_num_threads(2 * omp_get_num_procs());
														
 
															-#pragma omp parallel for
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        Fixed128 y = Fixed128(view.y) + Fixed128(j) * Fixed128(view.height / info.bHeight);
														
 
															-        long i = 0;
														
 
															-        for (i; i < info.bWidth; i++) {
														
 
															-            Fixed128 x = view.x + Fixed128(i) * Fixed128(view.width / info.bWidth);
														
 
															-            Fixed128 a = x;
														
 
															-            Fixed128 b = y;
														
 
															+    const T vx = mnd::convert<T>(view.x);
														
 
															+    const T vy = mnd::convert<T>(view.y);
														
 
															+    const T vw = mnd::convert<T>(view.width);
														
 
															+    const T vh = mnd::convert<T>(view.height);
														
 
															-            int k = 0;
														
 
															-            for (k = 0; k < info.maxIter; k++) {
														
 
															-                Fixed128 aa = a * a;
														
 
															-                Fixed128 bb = b * b;
														
 
															-                Fixed128 ab = a * b;
														
 
															-                a = aa - bb + x;
														
 
															-                b = ab + ab + y;
														
 
															-                if (aa + bb > Fixed128(16)) {
														
 
															-                    break;
														
 
															-                }
														
 
															-            }
														
 
															+    T jX = mnd::convert<T>(info.juliaX);
														
 
															+    T jY = mnd::convert<T>(info.juliaY);
														
 
															-            data[i + j * info.bWidth] = k;
														
 
															-        }
														
 
															-    }
														
 
															+    generateFloatAvx512(info.bWidth, info.bHeight, data, parallel, vx, vy, vw, vh, info.maxIter, info.smooth, info.julia, jX, jY);
														
 
															 }
														
 
															-*/
														
 
															+
														
 
															+#endif // WITH_AVX512
														
 
															+
														
--- a/libmandel/src/CpuGeneratorsAVX.cpp
+++ b/libmandel/src/CpuGeneratorsAVX.cpp
@@ -1,51 +1,41 @@
 
															-#include "CpuGenerators.h"
														
 
															-#include "LightDoubleDouble.h"
														
 
															+#include "FloatLog.h"
														
 
															 #include <immintrin.h>
														
 
															 #include <omp.h>
														
 
															-#include <cmath>
														
 
															-
														
 
															-#include <utility>
														
 
															-#include <memory>
														
 
															-
														
 
															-using mnd::CpuGenerator;
														
 
															-namespace mnd
														
 
															+///
														
 
															+/// \brief unique namespace just to be a little more sure we do not
														
 
															+///        accidentally compile a function used somewhere else and use
														
 
															+///        avx instructions in there.
														
 
															+///
														
 
															+namespace avx_private
														
 
															 {
														
 
															-    template class CpuGenerator<float, mnd::X86_AVX, false>;
														
 
															-    template class CpuGenerator<float, mnd::X86_AVX, true>;
														
 
															-
														
 
															-    template class CpuGenerator<double, mnd::X86_AVX, false>;
														
 
															-    template class CpuGenerator<double, mnd::X86_AVX, true>;
														
 
															-    
														
 
															-    template class CpuGenerator<DoubleDouble, mnd::X86_AVX, false>;
														
 
															-    template class CpuGenerator<DoubleDouble, mnd::X86_AVX, true>;
														
 
															+#include "LightDoubleDouble.h"
														
 
															+#include "TripleDouble.h"
														
 
															 }
														
 
															-template<bool parallel>
														
 
															-void CpuGenerator<float, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															+
														
 
															+void generateFloatAvx(long width, long height, float* data, bool parallel,
														
 
															+    float vx, float vy, float vw, float vh, int maxIter, bool smooth,
														
 
															+    bool julia, float jX, float jY)
														
 
															 {
														
 
															     using T = float;
														
 
															-    const MandelViewport& view = info.view;
														
 
															-    const float dppf = float(view.width / info.bWidth);
														
 
															-    const float viewxf = float(view.x);
														
 
															-    __m256 viewx = _mm256_set1_ps(viewxf);
														
 
															+    const float dppf = float(vw / width);
														
 
															+    __m256 viewx = _mm256_set1_ps(vx);
														
 
															     __m256 dpp = _mm256_set1_ps(dppf);
														
 
															-    T jX = mnd::convert<T>(info.juliaX);
														
 
															-    T jY = mnd::convert<T>(info.juliaY);
														
 
															     __m256 juliaX = { jX, jX, jX, jX, jX, jX, jX, jX };
														
 
															     __m256 juliaY = { jY, jY, jY, jY, jY, jY, jY, jY };
														
 
															 #if defined(_OPENMP)
														
 
															-    if constexpr(parallel)
														
 
															+    if (parallel)
														
 
															         omp_set_num_threads(omp_get_num_procs());
														
 
															 #   pragma omp parallel for schedule(static, 1) if (parallel)
														
 
															 #endif
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        T y = T(view.y) + T(j) * T(view.height / info.bHeight);
														
 
															+    for (long j = 0; j < height; j++) {
														
 
															+        T y = vy + T(j) * vw / height;
														
 
															         __m256 ys = _mm256_set1_ps(y);
														
 
															-        for (long i = 0; i < info.bWidth; i += 16) {
														
 
															+        for (long i = 0; i < width; i += 16) {
														
 
															             __m256 pixc = { float(i), float(i + 1), float(i + 2), float(i + 3), float(i + 4), float(i + 5), float(i + 6), float(i + 7) };
														
 
															             __m256 pixc2 = { float(i + 8), float(i + 9), float(i + 10), float(i + 11), float(i + 12), float(i + 13), float(i + 14), float(i + 15) };
														
@@ -65,19 +55,19 @@ void CpuGenerator<float, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo
 
															             __m256 b = ys;
														
 
															             __m256 b2 = ys;
														
 
															-            __m256 cx = info.julia ? juliaX : xs;
														
 
															-            __m256 cx2 = info.julia ? juliaX : xs2;
														
 
															-            __m256 cy = info.julia ? juliaY : ys;
														
 
															+            __m256 cx = julia ? juliaX : xs;
														
 
															+            __m256 cx2 = julia ? juliaX : xs2;
														
 
															+            __m256 cy = julia ? juliaY : ys;
														
 
															             __m256 resultsa = a;
														
 
															             __m256 resultsb = b;
														
 
															             __m256 resultsa2 = a2;
														
 
															             __m256 resultsb2 = b2;
														
 
															-            if (info.smooth) {
														
 
															+            if (smooth) {
														
 
															                 __m256 cmp = _mm256_cmp_ps(a, a, _CMP_LE_OQ);
														
 
															                 __m256 cmp2 = _mm256_cmp_ps(a, a, _CMP_LE_OQ);
														
 
															-                for (int k = 0; k < info.maxIter; k++) {
														
 
															+                for (int k = 0; k < maxIter; k++) {
														
 
															                     __m256 aa = _mm256_mul_ps(a, a);
														
 
															                     __m256 aa2 = _mm256_mul_ps(a2, a2);
														
 
															                     __m256 bb = _mm256_mul_ps(b, b);
														
@@ -104,7 +94,7 @@ void CpuGenerator<float, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo
 
															                 }
														
 
															             }
														
 
															             else {
														
 
															-                for (int k = 0; k < info.maxIter; k++) {
														
 
															+                for (int k = 0; k < maxIter; k++) {
														
 
															                     __m256 aa = _mm256_mul_ps(a, a);
														
 
															                     __m256 aa2 = _mm256_mul_ps(a2, a2);
														
 
															                     __m256 bb = _mm256_mul_ps(b, b);
														
@@ -127,33 +117,25 @@ void CpuGenerator<float, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo
 
															                 }
														
 
															             }
														
 
															-
														
 
															-            auto alignVec = [](float* data) -> float* {
														
 
															-                void* aligned = data;
														
 
															-                ::size_t length = 64;
														
 
															-                std::align(32, 8 * sizeof(float), aligned, length);
														
 
															-                return static_cast<float*>(aligned);
														
 
															-            };
														
 
															-
														
 
															             float resData[64];
														
 
															-            float* ftRes = alignVec(resData);
														
 
															+            float* ftRes = resData;
														
 
															             float* resa = ftRes + 16;
														
 
															             float* resb = resa + 16;
														
 
															-            _mm256_store_ps(ftRes, counter);
														
 
															-            _mm256_store_ps(ftRes + 8, counter2);
														
 
															-            _mm256_store_ps(resa, resultsa);
														
 
															-            _mm256_store_ps(resa + 8, resultsa2);
														
 
															-            _mm256_store_ps(resb, resultsb);
														
 
															-            _mm256_store_ps(resb + 8, resultsb2);
														
 
															-            for (int k = 0; k < 16 && i + k < info.bWidth; k++) {
														
 
															-                if (info.smooth) {
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter :
														
 
															-                        ftRes[k] >= info.maxIter ? info.maxIter :
														
 
															-                        ((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f);
														
 
															+            _mm256_storeu_ps(ftRes, counter);
														
 
															+            _mm256_storeu_ps(ftRes + 8, counter2);
														
 
															+            _mm256_storeu_ps(resa, resultsa);
														
 
															+            _mm256_storeu_ps(resa + 8, resultsa2);
														
 
															+            _mm256_storeu_ps(resb, resultsb);
														
 
															+            _mm256_storeu_ps(resb + 8, resultsb2);
														
 
															+            for (int k = 0; k < 16 && i + k < width; k++) {
														
 
															+                if (smooth) {
														
 
															+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter :
														
 
															+                        ftRes[k] >= maxIter ? maxIter :
														
 
															+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(resa[k] * resa[k] + resb[k] * resb[k]) * 0.5f);
														
 
															                 }
														
 
															                 else {
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter : ftRes[k];
														
 
															+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter : ftRes[k];
														
 
															                 }
														
 
															             }
														
 
															         }
														
@@ -161,31 +143,28 @@ void CpuGenerator<float, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo
 
															 }
														
 
															-template<bool parallel>
														
 
															-void CpuGenerator<double, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															+void generateDoubleAvx(long width, long height, float* data, bool parallel,
														
 
															+    double vx, double vy, double vw, double vh, int maxIter, bool smooth,
														
 
															+    bool julia, double jX, double jY)
														
 
															 {
														
 
															     using T = double;
														
 
															-    const MandelViewport& view = info.view;
														
 
															-    const double dppf = double(view.width / info.bWidth);
														
 
															-    const double viewxf = double(view.x);
														
 
															-    __m256d viewx = { viewxf, viewxf, viewxf, viewxf };
														
 
															+    const double dppf = double(vw / width);
														
 
															+    __m256d viewx = { vx, vx, vx, vx };
														
 
															     __m256d dpp = { dppf, dppf, dppf, dppf };
														
 
															-    T jX = mnd::convert<T>(info.juliaX);
														
 
															-    T jY = mnd::convert<T>(info.juliaY);
														
 
															     __m256d juliaX = { jX, jX, jX, jX };
														
 
															     __m256d juliaY = { jY, jY, jY, jY };
														
 
															 #if defined(_OPENMP)
														
 
															-    if constexpr(parallel)
														
 
															+    if (parallel)
														
 
															         omp_set_num_threads(omp_get_num_procs());
														
 
															 #   pragma omp parallel for schedule(static, 1) if (parallel)
														
 
															 #endif
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        T y = T(view.y + T(j) * view.height / info.bHeight);
														
 
															+    for (long j = 0; j < height; j++) {
														
 
															+        T y = vy + T(j) * vh / height;
														
 
															         __m256d ys = { y, y, y, y };
														
 
															-        for (long i = 0; i < info.bWidth; i += 8) {
														
 
															+        for (long i = 0; i < width; i += 8) {
														
 
															             __m256d pixc = { double(i), double(i + 1), double(i + 2), double(i + 3) };
														
 
															             __m256d pixc2 = { double(i + 4), double(i + 5), double(i + 6), double(i + 7) };
														
 
															             __m256d xs = _mm256_add_pd(_mm256_mul_pd(dpp, pixc), viewx);
														
@@ -209,14 +188,14 @@ void CpuGenerator<double, mnd::X86_AVX, parallel>::generate(const mnd::MandelInf
 
															             __m256d a2 = xs2;
														
 
															             __m256d b2 = ys;
														
 
															-            __m256d cx = info.julia ? juliaX : xs;
														
 
															-            __m256d cx2 = info.julia ? juliaX : xs2;
														
 
															-            __m256d cy = info.julia ? juliaY : ys;
														
 
															+            __m256d cx = julia ? juliaX : xs;
														
 
															+            __m256d cx2 = julia ? juliaX : xs2;
														
 
															+            __m256d cy = julia ? juliaY : ys;
														
 
															-            if (info.smooth) {
														
 
															+            if (smooth) {
														
 
															                 __m256d cmp = _mm256_cmp_pd(a, a, _CMP_LE_OQ);
														
 
															                 __m256d cmp2 = _mm256_cmp_pd(a, a, _CMP_LE_OQ);
														
 
															-                for (int k = 0; k < info.maxIter; k++) {
														
 
															+                for (int k = 0; k < maxIter; k++) {
														
 
															                     __m256d aa = _mm256_mul_pd(a, a);
														
 
															                     __m256d aa2 = _mm256_mul_pd(a2, a2);
														
 
															                     __m256d bb = _mm256_mul_pd(b, b);
														
@@ -244,7 +223,7 @@ void CpuGenerator<double, mnd::X86_AVX, parallel>::generate(const mnd::MandelInf
 
															                 }
														
 
															             }
														
 
															             else {
														
 
															-                for (int k = 0; k < info.maxIter; k++) {
														
 
															+                for (int k = 0; k < maxIter; k++) {
														
 
															                     __m256d aa = _mm256_mul_pd(a, a);
														
 
															                     __m256d aa2 = _mm256_mul_pd(a2, a2);
														
 
															                     __m256d bb = _mm256_mul_pd(b, b);
														
@@ -266,41 +245,33 @@ void CpuGenerator<double, mnd::X86_AVX, parallel>::generate(const mnd::MandelInf
 
															                         break;
														
 
															                     }
														
 
															                 }
														
 
															-
														
 
															             }
														
 
															-            auto alignVec = [](double* data) -> double* {
														
 
															-                void* aligned = data;
														
 
															-                ::size_t length = 64;
														
 
															-                std::align(32, 4 * sizeof(double), aligned, length);
														
 
															-                return static_cast<double*>(aligned);
														
 
															-            };
														
 
															-
														
 
															             double resData[8];
														
 
															-            double* ftRes = alignVec(resData);
														
 
															+            double* ftRes = resData;
														
 
															             double* resa = (double*) &resultsa;
														
 
															             double* resb = (double*) &resultsb;
														
 
															-            _mm256_store_pd(ftRes, counter);
														
 
															-            for (int k = 0; k < 4 && i + k < info.bWidth; k++) {
														
 
															-                if (info.smooth)
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? float(info.maxIter) :
														
 
															-                        ftRes[k] >= info.maxIter ? float(info.maxIter) :
														
 
															-                        float(((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f));
														
 
															+            _mm256_storeu_pd(ftRes, counter);
														
 
															+            for (int k = 0; k < 4 && i + k < width; k++) {
														
 
															+                if (smooth)
														
 
															+                    data[i + k + j * width] = ftRes[k] < 0 ? float(maxIter) :
														
 
															+                        ftRes[k] >= maxIter ? float(maxIter) :
														
 
															+                        float(((float)ftRes[k]) + 1 - floatLog2(floatLog(float(resa[k] * resa[k] + resb[k] * resb[k])) / 2));
														
 
															                 else
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] >= 0 ? float(ftRes[k]) : info.maxIter;
														
 
															+                    data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
														
 
															             }
														
 
															             resa = (double*) &resultsa2;
														
 
															             resb = (double*) &resultsb2;
														
 
															-            _mm256_store_pd(ftRes, counter2);
														
 
															+            _mm256_storeu_pd(ftRes, counter2);
														
 
															             i += 4;
														
 
															-            for (int k = 0; k < 4 && i + k < info.bWidth; k++) {
														
 
															-                if (info.smooth)
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? float(info.maxIter) :
														
 
															-                        ftRes[k] >= info.maxIter ? float(info.maxIter) :
														
 
															-                        float(((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f));
														
 
															+            for (int k = 0; k < 4 && i + k < width; k++) {
														
 
															+                if (smooth)
														
 
															+                    data[i + k + j * width] = ftRes[k] < 0 ? float(maxIter) :
														
 
															+                        ftRes[k] >= maxIter ? float(maxIter) :
														
 
															+                        float(((float)ftRes[k]) + 1 - floatLog2(floatLog(float(resa[k] * resa[k] + resb[k] * resb[k])) / 2));
														
 
															                 else
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] >= 0 ? float(ftRes[k]) : info.maxIter;
														
 
															+                    data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
														
 
															             }
														
 
															             i -= 4;
														
 
															         }
														
@@ -346,6 +317,14 @@ static inline VecPair twoDiff(__m256d a, __m256d b)
 
															 }
														
 
															+static inline VecPair threeTwoSum(__m256d a, __m256d b, __m256d c)
														
 
															+{
														
 
															+    auto[t1, t2] = twoSum(a, b);
														
 
															+    auto[r0, t3] = twoSum(t1, c);
														
 
															+    return { r0, _mm256_add_pd(t2, t3) };
														
 
															+}
														
 
															+
														
 
															+
														
 
															 static inline VecPair split(__m256d a)
														
 
															 {
														
 
															     /*
														
@@ -381,6 +360,7 @@ static inline VecPair twoProd(__m256d a, __m256d b)
 
															     return { p, err };
														
 
															 }
														
 
															+
														
 
															 struct AvxDoubleDouble
														
 
															 {
														
 
															     __m256d x[2];
														
@@ -421,33 +401,33 @@ struct AvxDoubleDouble
 
															     }
														
 
															 };
														
 
															-template<bool parallel>
														
 
															-void CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															-{
														
 
															-    const MandelViewport& view = info.view;
														
 
															-
														
 
															-    using T = LightDoubleDouble;
														
 
															-    T viewx = mnd::convert<T>(view.x);
														
 
															-    T viewy = mnd::convert<T>(view.y);
														
 
															-    T wpp = mnd::convert<T>(view.width / info.bWidth);
														
 
															-    T hpp = mnd::convert<T>(view.height / info.bHeight);
														
 
															+void generateDoubleDoubleAvx(long width, long height, float* data, bool parallel,
														
 
															+    double vx1, double vx2, double vy1, double vy2, double vw1, double vw2, double vh1, double vh2, int maxIter, bool smooth,
														
 
															+    bool julia, double jX1, double jX2, double jY1, double jY2)
														
 
															+{
														
 
															+    using namespace avx_private;
														
 
															+    using T = mnd::LightDoubleDouble;
														
 
															+    T viewx{ vx1, vx2 };
														
 
															+    T viewy{ vy1, vy2 };
														
 
															+    T wpp = T{ vw1, vw2 } * T(1.0 / width);
														
 
															+    T hpp = T{ vh1, vh2 } * T(1.0 / height);
														
 
															-    T jX = mnd::convert<T>(info.juliaX);
														
 
															-    T jY = mnd::convert<T>(info.juliaY);
														
 
															+    T jX{ jX1, jX2 };
														
 
															+    T jY{ jY1, jY2 };
														
 
															     AvxDoubleDouble juliaX = { jX[0], jX[1] };
														
 
															     AvxDoubleDouble juliaY = { jY[0], jY[1] };
														
 
															 #if defined(_OPENMP)
														
 
															-    if constexpr(parallel)
														
 
															+    if (parallel)
														
 
															         omp_set_num_threads(omp_get_num_procs());
														
 
															 #   pragma omp parallel for schedule(static, 1) if (parallel)
														
 
															 #endif
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															+    for (long j = 0; j < height; j++) {
														
 
															         T y = viewy + T(double(j)) * hpp;
														
 
															         AvxDoubleDouble ys{ y[0], y[1] };
														
 
															-        for (long i = 0; i < info.bWidth; i += 4) {
														
 
															+        for (long i = 0; i < width; i += 4) {
														
 
															             T x1 = viewx + T(double(i)) * wpp;
														
 
															             T x2 = x1 + wpp;
														
 
															             T x3 = x2 + wpp;
														
@@ -463,8 +443,8 @@ void CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX, parallel>::generate(const mnd
 
															             AvxDoubleDouble xs{ x0s, x1s };
														
 
															-            AvxDoubleDouble cx = info.julia ? juliaX : xs;
														
 
															-            AvxDoubleDouble cy = info.julia ? juliaY : ys;
														
 
															+            AvxDoubleDouble cx = julia ? juliaX : xs;
														
 
															+            AvxDoubleDouble cy = julia ? juliaY : ys;
														
 
															             int itRes[4] = { 0, 0, 0, 0 };
														
@@ -479,13 +459,13 @@ void CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX, parallel>::generate(const mnd
 
															             __m256d resultsb = _mm256_set1_pd(0);
														
 
															             __m256d cmp = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
														
 
															-            for (int k = 0; k < info.maxIter; k++) {
														
 
															+            for (int k = 0; k < maxIter; k++) {
														
 
															                 AvxDoubleDouble aa = a * a;
														
 
															                 AvxDoubleDouble bb = b * b;
														
 
															                 AvxDoubleDouble abab = a * b; abab = abab + abab;
														
 
															                 a = aa - bb + cx;
														
 
															                 b = abab + cy;
														
 
															-                if (info.smooth) {
														
 
															+                if (smooth) {
														
 
															                     resultsa = _mm256_or_pd(_mm256_andnot_pd(cmp, resultsa), _mm256_and_pd(cmp, a.x[0]));
														
 
															                     resultsb = _mm256_or_pd(_mm256_andnot_pd(cmp, resultsb), _mm256_and_pd(cmp, b.x[0]));
														
 
															                 }
														
@@ -497,30 +477,184 @@ void CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX, parallel>::generate(const mnd
 
															                 }
														
 
															             }
														
 
															-            auto alignVec = [](double* data) -> double* {
														
 
															-                void* aligned = data;
														
 
															-                ::size_t length = 64;
														
 
															-                std::align(32, 4 * sizeof(double), aligned, length);
														
 
															-                return static_cast<double*>(aligned);
														
 
															+            double resData[8];
														
 
															+            double* ftRes = resData;
														
 
															+            double* resa = (double*) &resultsa;
														
 
															+            double* resb = (double*) &resultsb;
														
 
															+            _mm256_storeu_pd(ftRes, counter);
														
 
															+
														
 
															+            for (int k = 0; k < 4 && i + k < width; k++) {
														
 
															+                if (smooth)
														
 
															+                    data[i + k + j * width] = float(ftRes[k] < 0 ? maxIter :
														
 
															+                        ftRes[k] >= maxIter ? maxIter :
														
 
															+                        ((float)ftRes[k]) + 1 - floatLog2(::floatLog(float(resa[k] * resa[k] + resb[k] * resb[k])) / 2));
														
 
															+                else
														
 
															+                    data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
														
 
															+            }
														
 
															+        }
														
 
															+    }
														
 
															+}
														
 
															+
														
 
															+struct AvxTripleDouble
														
 
															+{
														
 
															+    __m256d x[3];
														
 
															+
														
 
															+    inline AvxTripleDouble(__m256d a, __m256d b, __m256d c) :
														
 
															+        x{ a, b, c }
														
 
															+    {}
														
 
															+
														
 
															+    inline AvxTripleDouble(double a, double b, double c) :
														
 
															+        x{ _mm256_set1_pd(a), _mm256_set1_pd(b), _mm256_set1_pd(c) }
														
 
															+    {}
														
 
															+
														
 
															+    inline AvxTripleDouble operator + (const AvxTripleDouble& b) const
														
 
															+    {
														
 
															+        const auto& a = *this;
														
 
															+        auto[r0, t0] = twoSum(a.x[0], b.x[0]);
														
 
															+        auto[t1, t2] = twoSum(a.x[1], b.x[1]);
														
 
															+        auto[r1, t3] = twoSum(t0, t1);
														
 
															+        auto r2 = _mm256_add_pd(_mm256_add_pd(t2, _mm256_add_pd(a.x[2], b.x[2])), t3);
														
 
															+
														
 
															+        auto[re1, t4] = quickTwoSum(r0, r1);
														
 
															+        auto[re2, re3] = quickTwoSum(t4, r2);
														
 
															+        return { re1, re2, re3 };
														
 
															+    }
														
 
															+
														
 
															+    inline AvxTripleDouble operator - (const AvxTripleDouble& b) const
														
 
															+    {
														
 
															+        const auto& a = *this;
														
 
															+        auto[r0, t0] = twoDiff(a.x[0], b.x[0]);
														
 
															+        auto[t1, t2] = twoDiff(a.x[1], b.x[1]);
														
 
															+        auto[r1, t3] = twoSum(t0, t1);
														
 
															+        auto r2 = _mm256_add_pd(_mm256_add_pd(t2, _mm256_sub_pd(a.x[2], b.x[2])), t3);
														
 
															+
														
 
															+        auto[re1, t4] = quickTwoSum(r0, r1);
														
 
															+        auto[re2, re3] = quickTwoSum(t4, r2);
														
 
															+        return { re1, re2, re3 };
														
 
															+    }
														
 
															+
														
 
															+    inline AvxTripleDouble operator * (const AvxTripleDouble& b) const
														
 
															+    {
														
 
															+        const auto& a = *this;
														
 
															+        auto[p1_0, p2_0] = twoProd(a.x[0], b.x[0]);
														
 
															+        auto[p2_1, p3_0] = twoProd(a.x[0], b.x[1]);
														
 
															+        auto[p2_2, p3_1] = twoProd(a.x[1], b.x[0]);
														
 
															+
														
 
															+        auto[t2, tl3] = threeTwoSum(p2_0, p2_1, p2_2);
														
 
															+        auto t3 = _mm256_add_pd(tl3,
														
 
															+            _mm256_add_pd(
														
 
															+                _mm256_add_pd(p3_0, p3_1),
														
 
															+                _mm256_add_pd(
														
 
															+                    _mm256_mul_pd(a.x[1], b.x[1]),
														
 
															+                    _mm256_add_pd(
														
 
															+                        _mm256_mul_pd(a.x[2], b.x[0]),
														
 
															+                        _mm256_mul_pd(a.x[0], b.x[2])
														
 
															+                    )
														
 
															+                )
														
 
															+            )
														
 
															+            );
														
 
															+        auto[re0, q2] = quickTwoSum(p1_0, t2);
														
 
															+        auto[re1, re2] = quickTwoSum(q2, t3);
														
 
															+        return { re0, re1, re2 };
														
 
															+    }
														
 
															+};
														
 
															+
														
 
															+
														
 
															+void generateTripleDoubleAvx(long width, long height, float* data, bool parallel,
														
 
															+    double vx1, double vx2, double vx3, double vy1, double vy2, double vy3,
														
 
															+    double vw1, double vw2, double vw3, double vh1, double vh2, double vh3,
														
 
															+    int maxIter, bool smooth, bool julia, double jX1,
														
 
															+    double jX2, double jX3, double jY1, double jY2, double jY3)
														
 
															+{
														
 
															+    using namespace avx_private;
														
 
															+    using T = mnd::TripleDouble;
														
 
															+
														
 
															+    T viewx{ vx1, vx2, vx3 };
														
 
															+    T viewy{ vy1, vy2, vy2 };
														
 
															+    T wpp = T{ vw1, vw2, vw3 } * T(1.0 / width);
														
 
															+    T hpp = T{ vh1, vh2, vh3 } * T(1.0 / height);
														
 
															+
														
 
															+    T jX{ jX1, jX2, jX3 };
														
 
															+    T jY{ jY1, jY2, jY3 };
														
 
															+    AvxTripleDouble juliaX = { jX[0], jX[1], jX[2] };
														
 
															+    AvxTripleDouble juliaY = { jY[0], jY[1], jY[2] };
														
 
															+
														
 
															+#if defined(_OPENMP)
														
 
															+    if (parallel)
														
 
															+        omp_set_num_threads(omp_get_num_procs());
														
 
															+#   pragma omp parallel for schedule(static, 1) if (parallel)
														
 
															+#endif
														
 
															+    for (long j = 0; j < height; j++) {
														
 
															+        T y = viewy + T(double(j)) * hpp;
														
 
															+        AvxTripleDouble ys{ y[0], y[1], y[2] };
														
 
															+        for (long i = 0; i < width; i += 4) {
														
 
															+            T x1 = viewx + T(double(i)) * wpp;
														
 
															+            T x2 = x1 + wpp;
														
 
															+            T x3 = x2 + wpp;
														
 
															+            T x4 = x3 + wpp;
														
 
															+
														
 
															+            __m256d x0s = {
														
 
															+                x1[0], x2[0], x3[0], x4[0],
														
 
															+            };
														
 
															+            __m256d x1s = {
														
 
															+                x1[1], x2[1], x3[1], x4[1],
														
 
															             };
														
 
															+            __m256d x2s = {
														
 
															+                x1[2], x2[2], x3[2], x4[2],
														
 
															+            };
														
 
															+
														
 
															+            AvxTripleDouble xs{ x0s, x1s, x2s };
														
 
															+
														
 
															+            AvxTripleDouble cx = julia ? juliaX : xs;
														
 
															+            AvxTripleDouble cy = julia ? juliaY : ys;
														
 
															+
														
 
															+            int itRes[4] = { 0, 0, 0, 0 };
														
 
															+
														
 
															+            __m256d threshold = { 16.0, 16.0, 16.0, 16.0 };
														
 
															+            __m256d counter = { 0, 0, 0, 0 };
														
 
															+            __m256d adder = { 1, 1, 1, 1 };
														
 
															+
														
 
															+            AvxTripleDouble a = xs;
														
 
															+            AvxTripleDouble b = ys;
														
 
															+
														
 
															+            __m256d resultsa = _mm256_set1_pd(0);
														
 
															+            __m256d resultsb = _mm256_set1_pd(0);
														
 
															+
														
 
															+            __m256d cmp = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
														
 
															+            for (int k = 0; k < maxIter; k++) {
														
 
															+                AvxTripleDouble aa = a * a;
														
 
															+                AvxTripleDouble bb = b * b;
														
 
															+                AvxTripleDouble abab = a * b; abab = abab + abab;
														
 
															+                a = aa - bb + cx;
														
 
															+                b = abab + cy;
														
 
															+                if (smooth) {
														
 
															+                    resultsa = _mm256_or_pd(_mm256_andnot_pd(cmp, resultsa), _mm256_and_pd(cmp, a.x[0]));
														
 
															+                    resultsb = _mm256_or_pd(_mm256_andnot_pd(cmp, resultsb), _mm256_and_pd(cmp, b.x[0]));
														
 
															+                }
														
 
															+                cmp = _mm256_cmp_pd(_mm256_add_pd(aa.x[0], bb.x[0]), threshold, _CMP_LE_OQ);
														
 
															+                adder = _mm256_and_pd(adder, cmp);
														
 
															+                counter = _mm256_add_pd(counter, adder);
														
 
															+                if (_mm256_testz_si256(_mm256_castpd_si256(cmp), _mm256_castpd_si256(cmp)) != 0) {
														
 
															+                    break;
														
 
															+                }
														
 
															+            }
														
 
															             double resData[8];
														
 
															-            double* ftRes = alignVec(resData);
														
 
															+            double* ftRes = resData;
														
 
															             double* resa = (double*) &resultsa;
														
 
															             double* resb = (double*) &resultsb;
														
 
															-            _mm256_store_pd(ftRes, counter);
														
 
															+            _mm256_storeu_pd(ftRes, counter);
														
 
															-            for (int k = 0; k < 4 && i + k < info.bWidth; k++) {
														
 
															-                if (info.smooth)
														
 
															-                    data[i + k + j * info.bWidth] = float(ftRes[k] < 0 ? info.maxIter :
														
 
															-                        ftRes[k] >= info.maxIter ? info.maxIter :
														
 
															-                        ((float)ftRes[k]) + 1 - ::log(::log(float(resa[k] * resa[k] + resb[k] * resb[k])) / 2) / ::log(2.0f));
														
 
															+            for (int k = 0; k < 4 && i + k < width; k++) {
														
 
															+                if (smooth)
														
 
															+                    data[i + k + j * width] = float(ftRes[k] < 0 ? maxIter :
														
 
															+                        ftRes[k] >= maxIter ? maxIter :
														
 
															+                        ((float)ftRes[k]) + 1 - floatLog2(::floatLog(float(resa[k] * resa[k] + resb[k] * resb[k])) / 2));
														
 
															                 else
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] >= 0 ? float(ftRes[k]) : info.maxIter;
														
 
															+                    data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
														
 
															             }
														
 
															         }
														
 
															     }
														
 
															 }
														
 
															-
														
--- a/libmandel/src/CpuGeneratorsAVX512.cpp
+++ b/libmandel/src/CpuGeneratorsAVX512.cpp
@@ -1,48 +1,34 @@
 
															-#include "CpuGenerators.h"
														
 
															-
														
 
															 #include <immintrin.h>
														
 
															 #include <omp.h>
														
 
															-#include <memory>
														
 
															+#include "FloatLog.h"
														
 
															-using mnd::CpuGenerator;
														
 
															-namespace mnd
														
 
															-{
														
 
															-    template class CpuGenerator<float, mnd::X86_AVX_512, false>;
														
 
															-    template class CpuGenerator<float, mnd::X86_AVX_512, true>;
														
 
															-
														
 
															-    template class CpuGenerator<double, mnd::X86_AVX_512, false>;
														
 
															-    template class CpuGenerator<double, mnd::X86_AVX_512, true>;
														
 
															-}
														
 
															-
														
 
															-template<bool parallel>
														
 
															-void CpuGenerator<float, mnd::X86_AVX_512, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
 
															+void generateFloatAvx512(long width, long height, float* data, bool parallel,
														
 
															+                         float vx, float vy, float vw, float vh, int maxIter, bool smooth,
														
 
															+                         bool julia, float jX, float jY)
														
 
															 {
														
 
															     using T = float;
														
 
															-    const MandelViewport& view = info.view;
														
 
															-    const float dppf = float(view.width / info.bWidth);
														
 
															-    const float viewxf = float(view.x);
														
 
															+    const float dppf = float(vw / width);
														
 
															+    const float viewxf = float(vx);
														
 
															     __m512 viewx = _mm512_set1_ps(viewxf);
														
 
															     __m512 dpp = _mm512_set1_ps(dppf);
														
 
															     __m512 enumerate = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 };
														
 
															     __m512 two = _mm512_set1_ps(2);
														
 
															-    T jX = mnd::convert<T>(info.juliaX);
														
 
															-    T jY = mnd::convert<T>(info.juliaY);
														
 
															     __m512 juliaX = _mm512_set1_ps(jX);
														
 
															     __m512 juliaY = _mm512_set1_ps(jY);
														
 
															 #if defined(_OPENMP)
														
 
															-    if constexpr(parallel)
														
 
															+    if (parallel)
														
 
															         omp_set_num_threads(omp_get_num_procs());
														
 
															 #pragma omp parallel for schedule(static, 1) if (parallel)
														
 
															 #endif
														
 
															-    for (long j = 0; j < info.bHeight; j++) {
														
 
															-        T y = T(view.y + double(j) * view.height / info.bHeight);
														
 
															+    for (long j = 0; j < height; j++) {
														
 
															+        T y = vy + float(j) * vh / height;
														
 
															         __m512 ys = _mm512_set1_ps(y);
														
 
															-        for (long i = 0; i < info.bWidth; i += 2 * 16) {
														
 
															+        for (long i = 0; i < width; i += 2 * 16) {
														
 
															             __m512 pixc0 = _mm512_add_ps(_mm512_set1_ps(float(i)), enumerate);
														
 
															             __m512 pixc1 = _mm512_add_ps(_mm512_set1_ps(float(i + 16)), enumerate);
														
 
															             //__m512 pixc2 = _mm512_add_ps(_mm512_set1_ps(float(i + 32)), enumerate);
														
@@ -68,11 +54,11 @@ void CpuGenerator<float, mnd::X86_AVX_512, parallel>::generate(const mnd::Mandel
 
															             __m512 cx0 = xs0;
														
 
															             __m512 cx1 = xs1;
														
 
															             __m512 cy = ys;
														
 
															-	    if (info.julia) {
														
 
															-		cx0 = juliaX;
														
 
															-		cx1 = juliaX;
														
 
															-		cy = juliaY;
														
 
															-	    }
														
 
															+	        if (julia) {
														
 
															+		        cx0 = juliaX;
														
 
															+		        cx1 = juliaX;
														
 
															+		        cy = juliaY;
														
 
															+	        }
														
 
															             __m512 a0 = xs0;
														
 
															             __m512 a1 = xs1;
														
@@ -81,10 +67,10 @@ void CpuGenerator<float, mnd::X86_AVX_512, parallel>::generate(const mnd::Mandel
 
															             __m512 b1 = ys;
														
 
															             //__m512 b2 = ys;
														
 
															-            if (info.smooth) {
														
 
															+            if (smooth) {
														
 
															                 __mmask16 cmp0 = 0xFFFF;
														
 
															                 __mmask16 cmp1 = 0xFFFF;
														
 
															-                for (int k = 0; k < info.maxIter; k++) {
														
 
															+                for (int k = 0; k < maxIter; k++) {
														
 
															                     __m512 aa0 = _mm512_mul_ps(a0, a0);
														
 
															                     __m512 aa1 = _mm512_mul_ps(a1, a1);
														
 
															                     //__m512 aa2 = _mm512_mul_ps(a2, a2);
														
@@ -119,7 +105,7 @@ void CpuGenerator<float, mnd::X86_AVX_512, parallel>::generate(const mnd::Mandel
 
															                 }
														
 
															             }
														
 
															             else {
														
 
															-                for (int k = 0; k < info.maxIter; k++) {
														
 
															+                for (int k = 0; k < maxIter; k++) {
														
 
															                     __m512 aa0 = _mm512_mul_ps(a0, a0);
														
 
															                     __m512 aa1 = _mm512_mul_ps(a1, a1);
														
 
															                     //__m512 aa2 = _mm512_mul_ps(a2, a2);
														
@@ -144,43 +130,36 @@ void CpuGenerator<float, mnd::X86_AVX_512, parallel>::generate(const mnd::Mandel
 
															                 }
														
 
															             }
														
 
															-            auto alignVec = [](float* data) -> float* {
														
 
															-                void* aligned = data;
														
 
															-                ::size_t length = 3 * 64 * sizeof(float);
														
 
															-                std::align(64, 48 * sizeof(float), aligned, length);
														
 
															-                return static_cast<float*>(aligned);
														
 
															-            };
														
 
															-
														
 
															             float resData[3 * 64];
														
 
															-            float* ftRes = alignVec(resData);
														
 
															-            float* resa = ftRes + 3 * 16;
														
 
															-            float* resb = ftRes + 6 * 16;
														
 
															-            _mm512_store_ps(ftRes, counter0);
														
 
															-            _mm512_store_ps(ftRes + 16, counter1);
														
 
															+            float* ftRes = resData;
														
 
															+            float* resa = resData + 3 * 16;
														
 
															+            float* resb = resData + 6 * 16;
														
 
															+            _mm512_storeu_ps(ftRes, counter0);
														
 
															+            _mm512_storeu_ps(ftRes + 16, counter1);
														
 
															             //_mm512_store_ps(ftRes + 32, counter2);
														
 
															-            if (info.smooth) {
														
 
															-                _mm512_store_ps(resa, resultsa0);
														
 
															-                _mm512_store_ps(resa + 16, resultsa1);
														
 
															+            if (smooth) {
														
 
															+                _mm512_storeu_ps(resa, resultsa0);
														
 
															+                _mm512_storeu_ps(resa + 16, resultsa1);
														
 
															                 //_mm512_store_ps(resa + 32, resultsa2);
														
 
															-                _mm512_store_ps(resb, resultsb0);
														
 
															-                _mm512_store_ps(resb + 16, resultsb1);
														
 
															+                _mm512_storeu_ps(resb, resultsb0);
														
 
															+                _mm512_storeu_ps(resb + 16, resultsb1);
														
 
															                 //_mm512_store_ps(resb + 32, resultsb2);
														
 
															             }
														
 
															-            for (int k = 0; k < 2 * 16 && i + k < info.bWidth; k++) {
														
 
															-                if (info.smooth) {
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter :
														
 
															-                        ftRes[k] >= info.maxIter ? info.maxIter :
														
 
															-                        ((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f);
														
 
															+            for (int k = 0; k < 2 * 16 && i + k < width; k++) {
														
 
															+                if (smooth) {
														
 
															+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter :
														
 
															+                        ftRes[k] >= maxIter ? maxIter :
														
 
															+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(resa[k] * resa[k] + resb[k] * resb[k]) * 0.5);
														
 
															                 }
														
 
															                 else {
														
 
															-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter : ftRes[k];
														
 
															+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter : ftRes[k];
														
 
															                 }
														
 
															             }
														
 
															         }
														
 
															     }
														
 
															 }
														
 
															-
														
 
															+/*
														
 
															 template<bool parallel>
														
 
															 void CpuGenerator<double, mnd::X86_AVX_512, parallel>::generate(const mnd::MandelInfo& info, float* data)
														
@@ -286,5 +265,5 @@ void CpuGenerator<double, mnd::X86_AVX_512, parallel>::generate(const mnd::Mande
 
															         }
														
 
															     }
														
 
															 }
														
 
															-
														
 
															+*/
														
--- a/libmandel/src/FloatLog.cpp
+++ b/libmandel/src/FloatLog.cpp
@@ -0,0 +1,13 @@
 
															+#include "FloatLog.h"
														
 
															+#include <cmath>
														
 
															+
														
 
															+float floatLog(float x)
														
 
															+{
														
 
															+    return ::logf(x);
														
 
															+}
														
 
															+
														
 
															+float floatLog2(float x)
														
 
															+{
														
 
															+    return ::log2f(x);
														
 
															+}
														
 
															+
														
--- a/libmandel/src/Generators.cpp
+++ b/libmandel/src/Generators.cpp
@@ -212,6 +212,7 @@ namespace mnd
 
															         case GeneratorType::DOUBLE_DOUBLE_AVX_FMA:
														
 
															             return getPrecision<DoubleDouble>();
														
 
															         case GeneratorType::TRIPLE_DOUBLE:
														
 
															+        case GeneratorType::TRIPLE_DOUBLE_AVX:
														
 
															             return getPrecision<TripleDouble>();
														
 
															         case GeneratorType::QUAD_DOUBLE:
														
 
															             return getPrecision<QuadDouble>();
														
--- a/libmandel/src/Mandel.cpp
+++ b/libmandel/src/Mandel.cpp
@@ -48,6 +48,7 @@ static const std::map<mnd::GeneratorType, std::string> typeNames =
 
															     { mnd::GeneratorType::DOUBLE_DOUBLE_AVX_FMA, "double double AVX+FMA" },
														
 
															     { mnd::GeneratorType::DOUBLE_DOUBLE_NEON, "double double NEON" },
														
 
															     { mnd::GeneratorType::TRIPLE_DOUBLE, "triple double" },
														
 
															+    { mnd::GeneratorType::TRIPLE_DOUBLE_AVX, "triple double AVX" },
														
 
															     { mnd::GeneratorType::QUAD_DOUBLE, "quad double" },
														
 
															     { mnd::GeneratorType::QUAD_DOUBLE_AVX_FMA, "quad double AVX+FMA" },
														
 
															     { mnd::GeneratorType::FLOAT128, "float128" },
														
@@ -130,18 +131,20 @@ MandelContext::MandelContext(void)
 
															 #   if defined(WITH_AVX512)
														
 
															     if (cpuInfo.hasAvx512()) {
														
 
															         auto fl = std::make_unique<CpuGenerator<float, mnd::X86_AVX_512, true>>();
														
 
															-        auto db = std::make_unique<CpuGenerator<double, mnd::X86_AVX_512, true>>();
														
 
															+        //auto db = std::make_unique<CpuGenerator<double, mnd::X86_AVX_512, true>>();
														
 
															         cpuGenerators.insert({ GeneratorType::FLOAT_AVX512, std::move(fl) });
														
 
															-        cpuGenerators.insert({ GeneratorType::DOUBLE_AVX512, std::move(db) });
														
 
															+        //cpuGenerators.insert({ GeneratorType::DOUBLE_AVX512, std::move(db) });
														
 
															     }
														
 
															 #   endif
														
 
															     if (cpuInfo.hasAvx()) {
														
 
															         auto fl = std::make_unique<CpuGenerator<float, mnd::X86_AVX, true>>();
														
 
															         auto db = std::make_unique<CpuGenerator<double, mnd::X86_AVX, true>>();
														
 
															         auto ddb = std::make_unique<CpuGenerator<DoubleDouble, mnd::X86_AVX, true>>();
														
 
															+        auto tdb = std::make_unique<CpuGenerator<TripleDouble, mnd::X86_AVX, true>>();
														
 
															         cpuGenerators.insert({ GeneratorType::FLOAT_AVX, std::move(fl) });
														
 
															         cpuGenerators.insert({ GeneratorType::DOUBLE_AVX, std::move(db) });
														
 
															         cpuGenerators.insert({ GeneratorType::DOUBLE_DOUBLE_AVX, std::move(ddb) });
														
 
															+        cpuGenerators.insert({ GeneratorType::TRIPLE_DOUBLE_AVX, std::move(tdb) });
														
 
															     }
														
 
															     if (cpuInfo.hasAvx2() && cpuInfo.hasFma()) {
														
 
															         auto favxfma = std::make_unique<CpuGenerator<float, mnd::X86_AVX_FMA, true>>();