5 years ago · db5304cabc
--- a/libmandel/include/CpuGenerators.h
+++ b/libmandel/include/CpuGenerators.h
@@ -155,6 +155,18 @@ public:
 
				 
			
 
				 
			
 
				 template<bool parallel>
			
 
				+class mnd::CpuGenerator<mnd::HexDouble, mnd::X86_AVX_FMA, parallel> : public MandelGenerator
			
 
				+{
			
 
				+public:
			
 
				+    inline CpuGenerator(void) :
			
 
				+        MandelGenerator{ mnd::Precision::HEX_DOUBLE, mnd::X86_AVX_FMA }
			
 
				+    {
			
 
				+    }
			
 
				+    virtual void generate(const MandelInfo& info, float* data);
			
 
				+};
			
 
				+
			
 
				+
			
 
				+template<bool parallel>
			
 
				 class mnd::CpuGenerator<float, mnd::X86_AVX_512, parallel> : public MandelGenerator
			
 
				 {
			
 
				 public:
			
--- a/libmandel/src/CpuGenerators.cpp
+++ b/libmandel/src/CpuGenerators.cpp
@@ -120,6 +120,11 @@ void CpuGenerator<T, mnd::NONE, parallel>::generate(const mnd::MandelInfo& info,
 
				 }
			
 
				 
			
 
				 #if defined(__x86_64__) || defined(_M_X64) || defined(__i386) || defined(_M_IX86)
			
 
				+
			
 
				+// ===========================================
			
 
				+// =================== AVX ===================
			
 
				+// ===========================================
			
 
				+
			
 
				 namespace mnd
			
 
				 {
			
 
				     template class CpuGenerator<float, mnd::X86_AVX, false>;
			
@@ -232,6 +237,154 @@ void CpuGenerator<mnd::TripleDouble, mnd::X86_AVX, parallel>::generate(const mnd
 
				 }
			
 
				 
			
 
				 
			
 
				+
			
 
				+// ===========================================
			
 
				+// ================= AVX-FMA =================
			
 
				+// ===========================================
			
 
				+
			
 
				+namespace mnd
			
 
				+{
			
 
				+    template class CpuGenerator<float, mnd::X86_AVX_FMA, false>;
			
 
				+    template class CpuGenerator<float, mnd::X86_AVX_FMA, true>;
			
 
				+
			
 
				+    template class CpuGenerator<double, mnd::X86_AVX_FMA, false>;
			
 
				+    template class CpuGenerator<double, mnd::X86_AVX_FMA, true>;
			
 
				+
			
 
				+    template class CpuGenerator<DoubleDouble, mnd::X86_AVX_FMA, false>;
			
 
				+    template class CpuGenerator<DoubleDouble, mnd::X86_AVX_FMA, true>;
			
 
				+
			
 
				+    template class CpuGenerator<QuadDouble, mnd::X86_AVX_FMA, false>;
			
 
				+    template class CpuGenerator<QuadDouble, mnd::X86_AVX_FMA, true>;
			
 
				+
			
 
				+    template class CpuGenerator<HexDouble, mnd::X86_AVX_FMA, false>;
			
 
				+    template class CpuGenerator<HexDouble, mnd::X86_AVX_FMA, true>;
			
 
				+}
			
 
				+
			
 
				+
			
 
				+extern void generateFloatAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    float vx, float vy, float vw, float vh, int maxIter, bool smooth,
			
 
				+    bool julia, float jX, float jY);
			
 
				+
			
 
				+extern void generateDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    double vx, double vy, double vw, double vh, int maxIter, bool smooth,
			
 
				+    bool julia, double jX, double jY);
			
 
				+
			
 
				+extern void generateDoubleDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    double vx1, double vx2, double vy1, double vy2, double vw1, double vw2, double vh1, double vh2, int maxIter, bool smooth,
			
 
				+    bool julia, double jX1, double jX2, double jY1, double jY2);
			
 
				+
			
 
				+extern void generateQuadDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    const double* vx, const double* vy,
			
 
				+    const double* vw, const double* vh,
			
 
				+    int maxIter, bool smooth, bool julia,
			
 
				+    const double* jXp, const double* jYp);
			
 
				+
			
 
				+extern void generateHexDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    const double* vx, const double* vy,
			
 
				+    const double* vw, const double* vh,
			
 
				+    int maxIter, bool smooth, bool julia,
			
 
				+    const double* jXp, const double* jYp);
			
 
				+
			
 
				+
			
 
				+template<bool parallel>
			
 
				+void CpuGenerator<float, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+{
			
 
				+    using T = float;
			
 
				+    const MandelViewport& view = info.view;
			
 
				+
			
 
				+    const T vx = mnd::convert<T>(view.x);
			
 
				+    const T vy = mnd::convert<T>(view.y);
			
 
				+    const T vw = mnd::convert<T>(view.width);
			
 
				+    const T vh = mnd::convert<T>(view.height);
			
 
				+
			
 
				+    T jX = mnd::convert<T>(info.juliaX);
			
 
				+    T jY = mnd::convert<T>(info.juliaY);
			
 
				+
			
 
				+    generateFloatAvxFma(info.bWidth, info.bHeight, data, parallel, vx, vy, vw, vh, info.maxIter, info.smooth, info.julia, jX, jY);
			
 
				+}
			
 
				+
			
 
				+
			
 
				+template<bool parallel>
			
 
				+void CpuGenerator<double, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+{
			
 
				+    using T = double;
			
 
				+    const MandelViewport& view = info.view;
			
 
				+
			
 
				+    const T vx = mnd::convert<T>(view.x);
			
 
				+    const T vy = mnd::convert<T>(view.y);
			
 
				+    const T vw = mnd::convert<T>(view.width);
			
 
				+    const T vh = mnd::convert<T>(view.height);
			
 
				+
			
 
				+    T jX = mnd::convert<T>(info.juliaX);
			
 
				+    T jY = mnd::convert<T>(info.juliaY);
			
 
				+
			
 
				+    generateDoubleAvxFma(info.bWidth, info.bHeight, data, parallel, vx, vy, vw, vh, info.maxIter, info.smooth, info.julia, jX, jY);
			
 
				+}
			
 
				+
			
 
				+
			
 
				+template<bool parallel>
			
 
				+void CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+{
			
 
				+    using T = mnd::DoubleDouble;
			
 
				+    const MandelViewport& view = info.view;
			
 
				+
			
 
				+    const T vx = mnd::convert<T>(view.x);
			
 
				+    const T vy = mnd::convert<T>(view.y);
			
 
				+    const T vw = mnd::convert<T>(view.width);
			
 
				+    const T vh = mnd::convert<T>(view.height);
			
 
				+
			
 
				+    T jX = mnd::convert<T>(info.juliaX);
			
 
				+    T jY = mnd::convert<T>(info.juliaY);
			
 
				+
			
 
				+    generateDoubleDoubleAvxFma(info.bWidth, info.bHeight, data, parallel,
			
 
				+        vx.x[0], vx.x[1], vy.x[0], vy.x[1], vw.x[0], vw.x[1], vh.x[0], vh.x[1],
			
 
				+        info.maxIter, info.smooth, info.julia, jX.x[0], jX.x[1], jY.x[0], jY.x[1]);
			
 
				+}
			
 
				+
			
 
				+
			
 
				+template<bool parallel>
			
 
				+void CpuGenerator<mnd::QuadDouble, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+{
			
 
				+    using T = mnd::QuadDouble;
			
 
				+    const MandelViewport& view = info.view;
			
 
				+
			
 
				+    const T vx = mnd::convert<T>(view.x);
			
 
				+    const T vy = mnd::convert<T>(view.y);
			
 
				+    const T vw = mnd::convert<T>(view.width);
			
 
				+    const T vh = mnd::convert<T>(view.height);
			
 
				+
			
 
				+    T jX = mnd::convert<T>(info.juliaX);
			
 
				+    T jY = mnd::convert<T>(info.juliaY);
			
 
				+
			
 
				+    generateQuadDoubleAvxFma(info.bWidth, info.bHeight, data, parallel,
			
 
				+        vx.x, vy.x,
			
 
				+        vw.x, vh.x,
			
 
				+        info.maxIter, info.smooth, info.julia,
			
 
				+        jX.x, jY.x);
			
 
				+}
			
 
				+
			
 
				+
			
 
				+template<bool parallel>
			
 
				+void CpuGenerator<mnd::HexDouble, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+{
			
 
				+    using T = mnd::HexDouble;
			
 
				+    const MandelViewport& view = info.view;
			
 
				+
			
 
				+    const T vx = mnd::convert<T>(view.x);
			
 
				+    const T vy = mnd::convert<T>(view.y);
			
 
				+    const T vw = mnd::convert<T>(view.width);
			
 
				+    const T vh = mnd::convert<T>(view.height);
			
 
				+
			
 
				+    T jX = mnd::convert<T>(info.juliaX);
			
 
				+    T jY = mnd::convert<T>(info.juliaY);
			
 
				+
			
 
				+    generateHexDoubleAvxFma(info.bWidth, info.bHeight, data, parallel,
			
 
				+        vx.x, vy.x,
			
 
				+        vw.x, vh.x,
			
 
				+        info.maxIter, info.smooth, info.julia,
			
 
				+        jX.x, jY.x);
			
 
				+}
			
 
				+
			
 
				 #ifdef WITH_AVX512
			
 
				 
			
 
				 namespace mnd
			
--- a/libmandel/src/CpuGeneratorsAVX.cpp
+++ b/libmandel/src/CpuGeneratorsAVX.cpp
@@ -625,6 +625,7 @@ void generateDoubleDoubleAvx(long width, long height, float* data, bool parallel
 
				     }
			
 
				 }
			
 
				 
			
 
				+
			
 
				 void generateTripleDoubleAvx(long width, long height, float* data, bool parallel,
			
 
				     double vx1, double vx2, double vx3, double vy1, double vy2, double vy3,
			
 
				     double vw1, double vw2, double vw3, double vh1, double vh2, double vh3,
			
@@ -714,7 +715,7 @@ void generateTripleDoubleAvx(long width, long height, float* data, bool parallel
 
				                 if (smooth)
			
 
				                     data[i + k + j * width] = float(ftRes[k] < 0 ? maxIter :
			
 
				                         ftRes[k] >= maxIter ? maxIter :
			
 
				-                        ((float)ftRes[k]) + 1 - floatLog2(::floatLog(float(resa[k] * resa[k] + resb[k] * resb[k])) * 0.5f));
			
 
				+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(float(resa[k] * resa[k] + resb[k] * resb[k])) * 0.5f));
			
 
				                 else
			
 
				                     data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
			
 
				             }
			
--- a/libmandel/src/CpuGeneratorsAVXFMA.cpp
+++ b/libmandel/src/CpuGeneratorsAVXFMA.cpp
@@ -1,54 +1,44 @@
 
				-#include "CpuGenerators.h"
			
 
				+#include "FloatLog.h"
			
 
				 
			
 
				 #include <immintrin.h>
			
 
				 #include <omp.h>
			
 
				-#include <cmath>
			
 
				 
			
 
				-#include <utility>
			
 
				-#include <memory>
			
 
				-
			
 
				-using mnd::CpuGenerator;
			
 
				-
			
 
				-namespace mnd
			
 
				+///
			
 
				+/// \brief unique namespace just to be a little more sure we do not
			
 
				+///        accidentally compile a function used somewhere else and use
			
 
				+///        avx instructions in there.
			
 
				+///
			
 
				+namespace avxfma_private
			
 
				 {
			
 
				-    template class CpuGenerator<float, mnd::X86_AVX_FMA, false>;
			
 
				-    template class CpuGenerator<float, mnd::X86_AVX_FMA, true>;
			
 
				-
			
 
				-    template class CpuGenerator<double, mnd::X86_AVX_FMA, false>;
			
 
				-    template class CpuGenerator<double, mnd::X86_AVX_FMA, true>;
			
 
				-
			
 
				-    template class CpuGenerator<DoubleDouble, mnd::X86_AVX_FMA, false>;
			
 
				-    template class CpuGenerator<DoubleDouble, mnd::X86_AVX_FMA, true>;
			
 
				-
			
 
				-    template class CpuGenerator<QuadDouble, mnd::X86_AVX_FMA, false>;
			
 
				-    template class CpuGenerator<QuadDouble, mnd::X86_AVX_FMA, true>;
			
 
				+#include "LightDoubleDouble.h"
			
 
				+#include "QuadDouble.h"
			
 
				+#include "HexDouble.h"
			
 
				 }
			
 
				 
			
 
				 
			
 
				-template<bool parallel>
			
 
				-void CpuGenerator<float, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+
			
 
				+void generateFloatAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    float vx, float vy, float vw, float vh, int maxIter, bool smooth,
			
 
				+    bool julia, float jX, float jY)
			
 
				 {
			
 
				     using T = float;
			
 
				-    const MandelViewport& view = info.view;
			
 
				-    const float dppf = float(view.width / info.bWidth);
			
 
				-    const float viewxf = float(view.x);
			
 
				+    const float dppf = float(vw / width);
			
 
				+    const float viewxf = vx; 
			
 
				     __m256 viewx = { viewxf, viewxf, viewxf, viewxf, viewxf, viewxf, viewxf, viewxf };
			
 
				     __m256 dpp = { dppf, dppf, dppf, dppf, dppf, dppf, dppf, dppf };
			
 
				 
			
 
				-    T jX = mnd::convert<T>(info.juliaX);
			
 
				-    T jY = mnd::convert<T>(info.juliaY);
			
 
				     __m256 juliaX = { jX, jX, jX, jX, jX, jX, jX, jX };
			
 
				     __m256 juliaY = { jY, jY, jY, jY, jY, jY, jY, jY };
			
 
				 
			
 
				 #if defined(_OPENMP)
			
 
				-    if constexpr(parallel)
			
 
				+    if (parallel)
			
 
				         omp_set_num_threads(omp_get_num_procs());
			
 
				 #   pragma omp parallel for schedule(static, 1) if (parallel)
			
 
				 #endif
			
 
				-    for (long j = 0; j < info.bHeight; j++) {
			
 
				-        T y = T(view.y) + T(j) * T(view.height / info.bHeight);
			
 
				+    for (long j = 0; j < height; j++) {
			
 
				+        T y = vy + T(j) * vw / height;
			
 
				         __m256 ys = {y, y, y, y, y, y, y, y};
			
 
				-        for (long i = 0; i < info.bWidth; i += 24) {
			
 
				+        for (long i = 0; i < width; i += 24) {
			
 
				             __m256 pixc = { float(i), float(i + 1), float(i + 2), float(i + 3), float(i + 4), float(i + 5), float(i + 6), float(i + 7) };
			
 
				             __m256 pixc2 = { float(i + 8), float(i + 9), float(i + 10), float(i + 11), float(i + 12), float(i + 13), float(i + 14), float(i + 15) };
			
 
				             __m256 pixc3 = { float(i + 16), float(i + 17), float(i + 18), float(i + 19), float(i + 20), float(i + 21), float(i + 22), float(i + 23) };
			
@@ -82,16 +72,16 @@ void CpuGenerator<float, mnd::X86_AVX_FMA, parallel>::generate(const mnd::Mandel
 
				             __m256 b2 = ys;
			
 
				             __m256 b3 = ys;
			
 
				 
			
 
				-            __m256 cx = info.julia ? juliaX : xs;
			
 
				-            __m256 cx2 = info.julia ? juliaX : xs2;
			
 
				-            __m256 cx3 = info.julia ? juliaX : xs3;
			
 
				-            __m256 cy = info.julia ? juliaY : ys;
			
 
				+            __m256 cx = julia ? juliaX : xs;
			
 
				+            __m256 cx2 = julia ? juliaX : xs2;
			
 
				+            __m256 cx3 = julia ? juliaX : xs3;
			
 
				+            __m256 cy = julia ? juliaY : ys;
			
 
				 
			
 
				-            if (info.smooth) {
			
 
				+            if (smooth) {
			
 
				                 __m256 cmp = _mm256_cmp_ps(threshold, threshold, _CMP_LE_OQ);
			
 
				                 __m256 cmp2 = _mm256_cmp_ps(threshold, threshold, _CMP_LE_OQ);
			
 
				                 __m256 cmp3 = _mm256_cmp_ps(threshold, threshold, _CMP_LE_OQ);
			
 
				-                for (int k = 0; k < info.maxIter; k++) {
			
 
				+                for (int k = 0; k < maxIter; k++) {
			
 
				                     __m256 bb = _mm256_mul_ps(b, b);
			
 
				                     __m256 bb2 = _mm256_mul_ps(b2, b2);
			
 
				                     __m256 bb3 = _mm256_mul_ps(b3, b3);
			
@@ -134,7 +124,7 @@ void CpuGenerator<float, mnd::X86_AVX_FMA, parallel>::generate(const mnd::Mandel
 
				                 }
			
 
				             }
			
 
				             else {
			
 
				-                for (int k = 0; k < info.maxIter; k++) {
			
 
				+                for (int k = 0; k < maxIter; k++) {
			
 
				                     __m256 bb = _mm256_mul_ps(b, b);
			
 
				                     __m256 bb2 = _mm256_mul_ps(b2, b2);
			
 
				                     __m256 bb3 = _mm256_mul_ps(b3, b3);
			
@@ -162,36 +152,28 @@ void CpuGenerator<float, mnd::X86_AVX_FMA, parallel>::generate(const mnd::Mandel
 
				                 }
			
 
				             }
			
 
				 
			
 
				-
			
 
				-            auto alignVec = [](float* data) -> float* {
			
 
				-                void* aligned = data;
			
 
				-                ::size_t length = 64;
			
 
				-                std::align(32, 8 * sizeof(float), aligned, length);
			
 
				-                return static_cast<float*>(aligned);
			
 
				-            };
			
 
				-
			
 
				             float resData[96];
			
 
				-            float* ftRes = alignVec(resData);
			
 
				+            float* ftRes = resData;
			
 
				             float* resa = ftRes + 24;
			
 
				             float* resb = resa + 24;
			
 
				 
			
 
				-            _mm256_store_ps(ftRes, counter);
			
 
				-            _mm256_store_ps(ftRes + 8, counter2);
			
 
				-            _mm256_store_ps(ftRes + 16, counter3);
			
 
				-            _mm256_store_ps(resa, resultsa);
			
 
				-            _mm256_store_ps(resa + 8, resultsa2);
			
 
				-            _mm256_store_ps(resa + 16, resultsa3);
			
 
				-            _mm256_store_ps(resb, resultsb);
			
 
				-            _mm256_store_ps(resb + 8, resultsb2);
			
 
				-            _mm256_store_ps(resb + 16, resultsb3);
			
 
				-            for (int k = 0; k < 24 && i + k < info.bWidth; k++) {
			
 
				-                if (info.smooth) {
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter :
			
 
				-                        ftRes[k] >= info.maxIter ? info.maxIter :
			
 
				-                        ((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f);
			
 
				+            _mm256_storeu_ps(ftRes, counter);
			
 
				+            _mm256_storeu_ps(ftRes + 8, counter2);
			
 
				+            _mm256_storeu_ps(ftRes + 16, counter3);
			
 
				+            _mm256_storeu_ps(resa, resultsa);
			
 
				+            _mm256_storeu_ps(resa + 8, resultsa2);
			
 
				+            _mm256_storeu_ps(resa + 16, resultsa3);
			
 
				+            _mm256_storeu_ps(resb, resultsb);
			
 
				+            _mm256_storeu_ps(resb + 8, resultsb2);
			
 
				+            _mm256_storeu_ps(resb + 16, resultsb3);
			
 
				+            for (int k = 0; k < 24 && i + k < width; k++) {
			
 
				+                if (smooth) {
			
 
				+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter :
			
 
				+                        ftRes[k] >= maxIter ? maxIter :
			
 
				+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(resa[k] * resa[k] + resb[k] * resb[k]) / 2);
			
 
				                 }
			
 
				                 else {
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter : ftRes[k];
			
 
				+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter : ftRes[k];
			
 
				                 }
			
 
				             }
			
 
				         }
			
@@ -199,32 +181,30 @@ void CpuGenerator<float, mnd::X86_AVX_FMA, parallel>::generate(const mnd::Mandel
 
				 }
			
 
				 
			
 
				 
			
 
				-template<bool parallel>
			
 
				-void CpuGenerator<double, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+void generateDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    double vx, double vy, double vw, double vh, int maxIter, bool smooth,
			
 
				+    bool julia, double jX, double jY)
			
 
				 {
			
 
				     using T = double;
			
 
				-    const MandelViewport& view = info.view;
			
 
				 
			
 
				-    const double dppf = double(view.width / info.bWidth);
			
 
				-    const double viewxf = double(view.x);
			
 
				+    const double dppf = double(vw / width);
			
 
				+    const double viewxf = double(vx);
			
 
				     __m256d viewx = { viewxf, viewxf, viewxf, viewxf };
			
 
				     __m256d dpp = { dppf, dppf, dppf, dppf };
			
 
				 
			
 
				-    T jX = mnd::convert<T>(info.juliaX);
			
 
				-    T jY = mnd::convert<T>(info.juliaY);
			
 
				     __m256d juliaX = { jX, jX, jX, jX };
			
 
				     __m256d juliaY = { jY, jY, jY, jY };
			
 
				 
			
 
				 
			
 
				 #if defined(_OPENMP)
			
 
				-    if constexpr(parallel)
			
 
				+    if (parallel)
			
 
				         omp_set_num_threads(omp_get_num_procs());
			
 
				 #   pragma omp parallel for schedule(static, 1) if (parallel)
			
 
				 #endif
			
 
				-    for (long j = 0; j < info.bHeight; j++) {
			
 
				-        T y = T(view.y + T(j) * view.height / info.bHeight);
			
 
				+    for (long j = 0; j < height; j++) {
			
 
				+        T y = vy + T(j) * vh / height;
			
 
				         __m256d ys = { y, y, y, y };
			
 
				-        for (long i = 0; i < info.bWidth; i += 8) {
			
 
				+        for (long i = 0; i < width; i += 8) {
			
 
				             __m256d pixc = { double(i), double(i + 1), double(i + 2), double(i + 3) };
			
 
				             __m256d pixc2 = { double(i + 4), double(i + 5), double(i + 6), double(i + 7) };
			
 
				             __m256d xs = _mm256_fmadd_pd(dpp, pixc, viewx);
			
@@ -249,14 +229,14 @@ void CpuGenerator<double, mnd::X86_AVX_FMA, parallel>::generate(const mnd::Mande
 
				             __m256d a2 = xs2;
			
 
				             __m256d b2 = ys;
			
 
				 
			
 
				-            __m256d cx = info.julia ? juliaX : xs;
			
 
				-            __m256d cy = info.julia ? juliaY : ys;
			
 
				-            __m256d cx2 = info.julia ? juliaX : xs2;
			
 
				+            __m256d cx = julia ? juliaX : xs;
			
 
				+            __m256d cy = julia ? juliaY : ys;
			
 
				+            __m256d cx2 = julia ? juliaX : xs2;
			
 
				             //__m256d cy2 = info.julia ? juliaY : ys;
			
 
				 
			
 
				             __m256d cmp = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
			
 
				             __m256d cmp2 = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
			
 
				-            for (int k = 0; k < info.maxIter; k++) {
			
 
				+            for (int k = 0; k < maxIter; k++) {
			
 
				                 __m256d aa = _mm256_mul_pd(a, a);
			
 
				                 __m256d ab = _mm256_mul_pd(a, b);
			
 
				                 __m256d bb = _mm256_mul_pd(b, b);
			
@@ -269,7 +249,7 @@ void CpuGenerator<double, mnd::X86_AVX_FMA, parallel>::generate(const mnd::Mande
 
				                 a2 = _mm256_add_pd(a2, cx2);
			
 
				                 b = _mm256_fmadd_pd(two, ab, cy);
			
 
				                 b2 = _mm256_fmadd_pd(two, ab2, cy);
			
 
				-                if (info.smooth) {
			
 
				+                if (smooth) {
			
 
				                     resultsa = _mm256_blendv_pd(resultsa, a, cmp);
			
 
				                     resultsb = _mm256_blendv_pd(resultsb, b, cmp);
			
 
				                     resultsa2 = _mm256_blendv_pd(resultsa2, a2, cmp2);
			
@@ -287,45 +267,33 @@ void CpuGenerator<double, mnd::X86_AVX_FMA, parallel>::generate(const mnd::Mande
 
				                 }
			
 
				             }
			
 
				 
			
 
				-            auto alignVec = [](double* data) -> double* {
			
 
				-                void* aligned = data;
			
 
				-                ::size_t length = 64;
			
 
				-                std::align(32, 4 * sizeof(double), aligned, length);
			
 
				-                return static_cast<double*>(aligned);
			
 
				-            };
			
 
				-
			
 
				-            double resData[8];
			
 
				-            double* ftRes = alignVec(resData);
			
 
				-            double* resa = (double*) &resultsa;
			
 
				-            double* resb = (double*) &resultsb;
			
 
				-            _mm256_store_pd(ftRes, counter);
			
 
				-            for (int k = 0; k < 4 && i + k < info.bWidth; k++) {
			
 
				-                if (info.smooth)
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter :
			
 
				-                        ftRes[k] >= info.maxIter ? info.maxIter :
			
 
				-                        ((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f);
			
 
				+            double resData[24];
			
 
				+            double* ftRes = resData;
			
 
				+            double* resa = ftRes + 8;
			
 
				+            double* resb = ftRes + 16;
			
 
				+            _mm256_storeu_pd(ftRes, counter);
			
 
				+            _mm256_storeu_pd(ftRes + 4, counter2);
			
 
				+            _mm256_storeu_pd(resa, resultsa);
			
 
				+            _mm256_storeu_pd(resa + 4, resultsa2);
			
 
				+            _mm256_storeu_pd(resb, resultsb);
			
 
				+            _mm256_storeu_pd(resb + 4, resultsb2);
			
 
				+            for (int k = 0; k < 8 && i + k < width; k++) {
			
 
				+                if (smooth)
			
 
				+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter :
			
 
				+                        ftRes[k] >= maxIter ? maxIter :
			
 
				+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(resa[k] * resa[k] + resb[k] * resb[k]) / 2);
			
 
				                 else
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter : float(ftRes[k]);
			
 
				+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter : float(ftRes[k]);
			
 
				             }
			
 
				-
			
 
				-            resa = (double*) &resultsa2;
			
 
				-            resb = (double*) &resultsb2;
			
 
				-            _mm256_store_pd(ftRes, counter2);
			
 
				-            i += 4;
			
 
				-            for (int k = 0; k < 4 && i + k < info.bWidth; k++) {
			
 
				-                if (info.smooth)
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter :
			
 
				-                        ftRes[k] >= info.maxIter ? info.maxIter :
			
 
				-                        ((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f);
			
 
				-                else
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter : float(ftRes[k]);
			
 
				-            }
			
 
				-            i -= 4;
			
 
				         }
			
 
				     }
			
 
				 }
			
 
				 
			
 
				 
			
 
				+namespace avxfma_private
			
 
				+{
			
 
				+
			
 
				+
			
 
				 struct VecPair
			
 
				 {
			
 
				     __m256d a;
			
@@ -402,6 +370,25 @@ static inline __m256d threeOneSum(__m256d a, __m256d b, __m256d c)
 
				 }
			
 
				 
			
 
				 
			
 
				+static inline VecQuadruple fourSum(__m256d a, __m256d b, __m256d c, __m256d d)
			
 
				+{
			
 
				+    auto[t1, t2] = twoSum(a, b);
			
 
				+    auto[t3, t4] = twoSum(t1, c);
			
 
				+    auto[r0, t5] = twoSum(t3, d);
			
 
				+    auto[r1, r2, r3] = threeSum(t2, t4, t5);
			
 
				+    return { r0, r1, r2, r3 };
			
 
				+}
			
 
				+
			
 
				+static inline VecPair fiveTwoSum(__m256d a, __m256d b, __m256d c, __m256d d, __m256d e)
			
 
				+{
			
 
				+    auto[t1, t2] = twoSum(a, b);
			
 
				+    auto[t3, t4] = twoSum(t1, c);
			
 
				+    auto[t5, t6] = twoSum(t3, d);
			
 
				+    auto[r0, t7] = twoSum(t5, e);
			
 
				+    return { r0, _mm256_add_pd(_mm256_add_pd(_mm256_add_pd(t2, t4), t6), t7) };
			
 
				+}
			
 
				+
			
 
				+
			
 
				 static inline VecTriple sixThreeSum(__m256d a, __m256d b, __m256d c,
			
 
				                                     __m256d d, __m256d e, __m256d f)
			
 
				 {
			
@@ -457,6 +444,23 @@ static inline VecPair nineTwoSum(__m256d a, __m256d b, __m256d c,
 
				     return threeTwoSum(t5, t6, i);
			
 
				 }
			
 
				 
			
 
				+
			
 
				+inline VecTriple nineThreeSum(__m256d a, __m256d b, __m256d c,
			
 
				+                              __m256d d, __m256d e, __m256d f,
			
 
				+                              __m256d g, __m256d h, __m256d i)
			
 
				+{
			
 
				+    auto[a1, a2, a3] = threeSum(a, b, c);
			
 
				+    auto[b1, b2, b3] = threeSum(d, e, f);
			
 
				+    auto[c1, c2, c3] = threeSum(g, h, i);
			
 
				+
			
 
				+    auto[r1, t1, t2] = threeSum(a1, b1, c1);
			
 
				+    auto[r2, t3, t4, t5] = fourSum(a2, b2, c2, t1);
			
 
				+    auto r3 = _mm256_add_pd(_mm256_add_pd(
			
 
				+            _mm256_add_pd(_mm256_add_pd(a3, b3), _mm256_add_pd(c3, t2)),
			
 
				+            _mm256_add_pd(t3, t4)), t5);
			
 
				+    return { r1, r2, r3 };
			
 
				+}
			
 
				+
			
 
				 static inline VecQuadruple renormalize(__m256d x0, __m256d x1, __m256d x2, __m256d x3, __m256d x4)
			
 
				 {
			
 
				     auto [st1, t4] = quickTwoSum(x3, x4);
			
@@ -576,110 +580,6 @@ struct AvxDoubleDouble
 
				 };
			
 
				 
			
 
				 
			
 
				-template<bool parallel>
			
 
				-void CpuGenerator<mnd::DoubleDouble, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				-{
			
 
				-    const MandelViewport& view = info.view;
			
 
				-
			
 
				-    using T = LightDoubleDouble;
			
 
				-
			
 
				-    T viewx = mnd::convert<T>(view.x);
			
 
				-    T viewy = mnd::convert<T>(view.y);
			
 
				-    T wpp = mnd::convert<T>(view.width / info.bWidth);
			
 
				-    T hpp = mnd::convert<T>(view.height / info.bHeight);
			
 
				-
			
 
				-
			
 
				-    T jX = mnd::convert<T>(info.juliaX);
			
 
				-    T jY = mnd::convert<T>(info.juliaY);
			
 
				-
			
 
				-    AvxDoubleDouble juliaX = { jX[0], jX[1] };
			
 
				-    AvxDoubleDouble juliaY = { jY[0], jY[1] };
			
 
				-
			
 
				-#if defined(_OPENMP)
			
 
				-    if constexpr(parallel)
			
 
				-        omp_set_num_threads(omp_get_num_procs());
			
 
				-#   pragma omp parallel for schedule(static, 1) if (parallel)
			
 
				-#endif
			
 
				-    for (long j = 0; j < info.bHeight; j++) {
			
 
				-        T y = viewy + T(double(j)) * hpp;
			
 
				-        __m256d y0s = { y.x[0], y.x[0], y.x[0], y.x[0] };
			
 
				-        __m256d y1s = { y.x[1], y.x[1], y.x[1], y.x[1] };
			
 
				-        AvxDoubleDouble ys{ y0s, y1s };
			
 
				-        for (long i = 0; i < info.bWidth; i += 4) {
			
 
				-            T x1 = viewx + T(double(i)) * wpp;
			
 
				-            T x2 = x1 + wpp;
			
 
				-            T x3 = x2 + wpp;
			
 
				-            T x4 = x3 + wpp;
			
 
				-
			
 
				-            __m256d x0s = {
			
 
				-                x1[0], x2[0], x3[0], x4[0],
			
 
				-            };
			
 
				-
			
 
				-            __m256d x1s = {
			
 
				-                x1[1], x2[1], x3[1], x4[1],
			
 
				-            };
			
 
				-
			
 
				-            AvxDoubleDouble xs{ x0s, x1s };
			
 
				-
			
 
				-            AvxDoubleDouble cx = info.julia ? juliaX : xs;
			
 
				-            AvxDoubleDouble cy = info.julia ? juliaY : ys;
			
 
				-
			
 
				-            int itRes[4] = { 0, 0, 0, 0 };
			
 
				-
			
 
				-            __m256d threshold = { 16.0, 16.0, 16.0, 16.0 };
			
 
				-            __m256d counter = { 0, 0, 0, 0 };
			
 
				-            __m256d adder = { 1, 1, 1, 1 };
			
 
				-
			
 
				-            AvxDoubleDouble a = xs;
			
 
				-            AvxDoubleDouble b = ys;
			
 
				-
			
 
				-            __m256d resultsa;
			
 
				-            __m256d resultsb;
			
 
				-
			
 
				-            __m256d cmp = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
			
 
				-            for (int k = 0; k < info.maxIter; k++) {
			
 
				-                AvxDoubleDouble aa = a.sq();
			
 
				-                AvxDoubleDouble bb = b.sq();
			
 
				-                AvxDoubleDouble abab = a * b.mul_pow2(2.0);
			
 
				-                a = aa - bb + cx;
			
 
				-                b = abab + cy;
			
 
				-                if (info.smooth) {
			
 
				-                    resultsa = _mm256_blendv_pd(resultsa, a.x[0], cmp);
			
 
				-                    resultsb = _mm256_blendv_pd(resultsb, b.x[0], cmp);
			
 
				-                }
			
 
				-                cmp = _mm256_cmp_pd(_mm256_add_pd(aa.x[0], bb.x[0]), threshold, _CMP_LE_OQ);
			
 
				-                adder = _mm256_and_pd(adder, cmp);
			
 
				-                counter = _mm256_add_pd(counter, adder);
			
 
				-                if ((k & 0x7) && _mm256_testz_si256(_mm256_castpd_si256(cmp), _mm256_castpd_si256(cmp)) != 0) {
			
 
				-                    break;
			
 
				-                }
			
 
				-            }
			
 
				-
			
 
				-            auto alignVec = [](double* data) -> double* {
			
 
				-                void* aligned = data;
			
 
				-                ::size_t length = 64;
			
 
				-                std::align(32, 4 * sizeof(double), aligned, length);
			
 
				-                return static_cast<double*>(aligned);
			
 
				-            };
			
 
				-
			
 
				-            double resData[8];
			
 
				-            double* ftRes = alignVec(resData);
			
 
				-            double* resa = (double*) &resultsa;
			
 
				-            double* resb = (double*) &resultsb;
			
 
				-            _mm256_store_pd(ftRes, counter);
			
 
				-
			
 
				-            for (int k = 0; k < 4 && i + k < info.bWidth; k++) {
			
 
				-                if (info.smooth)
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter :
			
 
				-                        ftRes[k] >= info.maxIter ? info.maxIter :
			
 
				-                        ((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f);
			
 
				-                else
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] >= 0 ? float(ftRes[k]) : info.maxIter;
			
 
				-            }
			
 
				-        }
			
 
				-    }
			
 
				-}
			
 
				-
			
 
				 struct AvxQuadDouble
			
 
				 {
			
 
				     __m256d x[4];
			
@@ -784,66 +684,279 @@ struct AvxQuadDouble
 
				 };
			
 
				 
			
 
				 
			
 
				-template<bool parallel>
			
 
				-void CpuGenerator<mnd::QuadDouble, mnd::X86_AVX_FMA, parallel>::generate(const mnd::MandelInfo& info, float* data)
			
 
				+struct AvxHexDouble
			
 
				 {
			
 
				-    const MandelViewport& view = info.view;
			
 
				+    __m256d x[6];
			
 
				 
			
 
				-    using T = mnd::Real;
			
 
				+    inline AvxHexDouble(__m256d a, __m256d b, __m256d c, __m256d d, __m256d e, __m256d f) :
			
 
				+        x{ a, b, c, d, e, f }
			
 
				+    {}
			
 
				 
			
 
				-    T viewx = mnd::convert<T>(view.x);
			
 
				-    T viewy = mnd::convert<T>(view.y);
			
 
				-    T wpp = mnd::convert<T>(view.width / info.bWidth);
			
 
				-    T hpp = mnd::convert<T>(view.height / info.bHeight);
			
 
				+    inline AvxHexDouble(double a, double b, double c, double d, double e, double f) :
			
 
				+        x{ _mm256_set1_pd(a), _mm256_set1_pd(b), _mm256_set1_pd(c),
			
 
				+           _mm256_set1_pd(d), _mm256_set1_pd(e), _mm256_set1_pd(f) }
			
 
				+    {}
			
 
				 
			
 
				 
			
 
				-    T jX = mnd::convert<T>(info.juliaX);
			
 
				-    T jY = mnd::convert<T>(info.juliaY);
			
 
				+    inline AvxHexDouble operator + (const AvxHexDouble& sm) const
			
 
				+    {
			
 
				+        auto[a0, a1] = twoSum(x[0], sm.x[0]);
			
 
				+        auto[b0, b1] = twoSum(x[1], sm.x[1]);
			
 
				+        auto[c0, c1] = twoSum(x[2], sm.x[2]);
			
 
				+        auto[d0, d1] = twoSum(x[3], sm.x[3]);
			
 
				+        auto[e0, e1] = twoSum(x[4], sm.x[4]);
			
 
				+
			
 
				+        auto t0 = a0;
			
 
				+        auto [t1, p1] = twoSum(a1, b0);
			
 
				+        auto [t2, p2, p3] = threeSum(b1, c0, p1);
			
 
				+        auto [t3, p4, p5, p6] = fourSum(c1, d0, p2, p3);
			
 
				+        auto [t4, p7] = fiveTwoSum(d1, e0, p4, p5, p6);
			
 
				+        auto t5 = _mm256_add_pd(_mm256_add_pd(x[5], sm.x[5]), _mm256_add_pd(e1, p7));
			
 
				+
			
 
				+        auto[re0, er1] = quickTwoSum(t0, t1);
			
 
				+        auto[re1, e2] = quickTwoSum(er1, t2);
			
 
				+        auto[re2, e3] = quickTwoSum(e2, t3);
			
 
				+        auto[re3, e4] = quickTwoSum(e3, t4);
			
 
				+        auto[re4, re5] = quickTwoSum(e4, t5);
			
 
				+
			
 
				+        return { re0, re1, re2, re3, re4, re5 };
			
 
				+    }
			
 
				 
			
 
				+    inline AvxHexDouble operator - (const AvxHexDouble& sm) const
			
 
				+    {
			
 
				+        auto[a0, a1] = twoDiff(x[0], sm.x[0]);
			
 
				+        auto[b0, b1] = twoDiff(x[1], sm.x[1]);
			
 
				+        auto[c0, c1] = twoDiff(x[2], sm.x[2]);
			
 
				+        auto[d0, d1] = twoDiff(x[3], sm.x[3]);
			
 
				+        auto[e0, e1] = twoDiff(x[4], sm.x[4]);
			
 
				+
			
 
				+        auto t0 = a0;
			
 
				+        auto [t1, p1] = twoSum(a1, b0);
			
 
				+        auto [t2, p2, p3] = threeSum(b1, c0, p1);
			
 
				+        auto [t3, p4, p5, p6] = fourSum(c1, d0, p2, p3);
			
 
				+        auto [t4, p7] = fiveTwoSum(d1, e0, p4, p5, p6);
			
 
				+        auto t5 = _mm256_add_pd(_mm256_add_pd(x[5], sm.x[5]), _mm256_add_pd(e1, p7));
			
 
				+
			
 
				+        auto[re0, er1] = quickTwoSum(t0, t1);
			
 
				+        auto[re1, e2] = quickTwoSum(er1, t2);
			
 
				+        auto[re2, e3] = quickTwoSum(e2, t3);
			
 
				+        auto[re3, e4] = quickTwoSum(e3, t4);
			
 
				+        auto[re4, re5] = quickTwoSum(e4, t5);
			
 
				+
			
 
				+        return { re0, re1, re2, re3, re4, re5 };
			
 
				+    }
			
 
				 
			
 
				-    auto toQd = [] (const mnd::Real& x) -> std::tuple<double, double, double, double> {
			
 
				-        double a = double(x);
			
 
				-        mnd::Real rem = x - a;
			
 
				-        double b = double(rem);
			
 
				-        rem = rem - b;
			
 
				-        double c = double(rem);
			
 
				-        rem = rem - c;
			
 
				-        double d = double(rem);
			
 
				-        return { a, b, c, d };
			
 
				-    };
			
 
				+    inline AvxHexDouble operator * (const AvxHexDouble& sm) const
			
 
				+    {
			
 
				+        auto[p1_0, p2_0] = twoProd(x[0], sm.x[0]);
			
 
				+
			
 
				+        auto[p2_1, p3_0] = twoProd(x[0], sm.x[1]);
			
 
				+        auto[p2_2, p3_1] = twoProd(x[1], sm.x[0]);
			
 
				+
			
 
				+        auto[p3_2, p4_0] = twoProd(x[2], sm.x[0]);
			
 
				+        auto[p3_3, p4_1] = twoProd(x[1], sm.x[1]);
			
 
				+        auto[p3_4, p4_2] = twoProd(x[0], sm.x[2]);
			
 
				+
			
 
				+        auto[p4_3, p5_0] = twoProd(x[3], sm.x[0]);
			
 
				+        auto[p4_4, p5_1] = twoProd(x[2], sm.x[1]);
			
 
				+        auto[p4_5, p5_2] = twoProd(x[1], sm.x[2]);
			
 
				+        auto[p4_6, p5_3] = twoProd(x[0], sm.x[3]);
			
 
				+
			
 
				+        auto[p5_4, p6_0] = twoProd(x[4], sm.x[0]);
			
 
				+        auto[p5_5, p6_1] = twoProd(x[3], sm.x[1]);
			
 
				+        auto[p5_6, p6_2] = twoProd(x[2], sm.x[2]);
			
 
				+        auto[p5_7, p6_3] = twoProd(x[1], sm.x[3]);
			
 
				+        auto[p5_8, p6_4] = twoProd(x[0], sm.x[4]);
			
 
				+
			
 
				+        auto t1 = p1_0;
			
 
				+        auto[t2, tl3, tl4] = threeSum(p2_0, p2_1, p2_2);
			
 
				+        auto[t3, tl4_2, tl5] = sixThreeSum(p3_0, p3_1, p3_2, p3_3, p3_4, tl3);
			
 
				+        auto[t4, tl5_2, tl6] = nineThreeSum(p4_0, p4_1, p4_2, p4_3, p4_4, p4_5, p4_6, tl4, tl4_2);
			
 
				+        auto[x1, x2, x3] = nineThreeSum(p5_0, p5_1, p5_2, p5_3, p5_4, p5_5, p5_6, p5_7, p5_8);
			
 
				+        auto[t5, tl6_1, tl7] = sixThreeSum(x1, x2, x3, tl5, tl5_2, _mm256_set1_pd(0.0));
			
 
				+
			
 
				+        auto t6 =
			
 
				+            _mm256_add_pd(
			
 
				+                _mm256_add_pd(
			
 
				+                    _mm256_add_pd(
			
 
				+                        _mm256_add_pd(tl6, tl6_1),
			
 
				+                        _mm256_add_pd(tl7, p6_0)
			
 
				+                    ),
			
 
				+                    _mm256_add_pd(
			
 
				+                        _mm256_add_pd(p6_1, p6_2),
			
 
				+                        _mm256_add_pd(p6_3, p6_4)
			
 
				+                    )
			
 
				+                ),
			
 
				+                _mm256_add_pd(
			
 
				+                    _mm256_fmadd_pd(x[5], sm.x[0], _mm256_fmadd_pd(x[4], sm.x[1], _mm256_mul_pd(x[3], sm.x[2]))),
			
 
				+                    _mm256_fmadd_pd(x[2], sm.x[3], _mm256_fmadd_pd(x[1], sm.x[4], _mm256_mul_pd(x[0], sm.x[5])))
			
 
				+                )
			
 
				+            );
			
 
				+
			
 
				+        auto[re0, e1] = quickTwoSum(t1, t2);
			
 
				+        auto[re1, e2] = quickTwoSum(e1, t3);
			
 
				+        auto[re2, e3] = quickTwoSum(e2, t4);
			
 
				+        auto[re3, e4] = quickTwoSum(e3, t5);
			
 
				+        auto[re4, re5] = quickTwoSum(e4, t6);
			
 
				+
			
 
				+        return { re0, re1, re2, re3, re4, re5 };
			
 
				+    }
			
 
				 
			
 
				-    auto toAvxQuadDouble = [&toQd] (const mnd::Real& x) -> AvxQuadDouble {
			
 
				-        auto [a, b, c, d] = toQd(x);
			
 
				-        return AvxQuadDouble{ a, b, c, d };
			
 
				-    };
			
 
				+    inline AvxHexDouble mul_pow2(double v) const
			
 
				+    {
			
 
				+        __m256d vv = _mm256_set1_pd(v);
			
 
				+        return { _mm256_mul_pd(vv, x[0]), _mm256_mul_pd(vv, x[1]),
			
 
				+                 _mm256_mul_pd(vv, x[2]), _mm256_mul_pd(vv, x[3]),
			
 
				+                 _mm256_mul_pd(vv, x[4]), _mm256_mul_pd(vv, x[5]) };
			
 
				+    }
			
 
				 
			
 
				-    auto toAvxQuadDouble4 = [&toQd] (const mnd::Real& a, const mnd::Real& b,
			
 
				-                            const mnd::Real& c, const mnd::Real& d) -> AvxQuadDouble {
			
 
				-        auto [x0, y0, z0, u0] = toQd(a);
			
 
				-        auto [x1, y1, z1, u1] = toQd(b);
			
 
				-        auto [x2, y2, z2, u2] = toQd(c);
			
 
				-        auto [x3, y3, z3, u3] = toQd(d);
			
 
				+    inline AvxHexDouble sq(void) const
			
 
				+    {
			
 
				+        return operator*(*this);
			
 
				+    }
			
 
				+};
			
 
				+
			
 
				+} // namespace avxfma_private
			
 
				+
			
 
				+void generateDoubleDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    double vx1, double vx2, double vy1, double vy2, double vw1, double vw2, double vh1, double vh2, int maxIter, bool smooth,
			
 
				+    bool julia, double jX1, double jX2, double jY1, double jY2)
			
 
				+{
			
 
				+    using namespace avxfma_private;
			
 
				+    using T = mnd::LightDoubleDouble;
			
 
				 
			
 
				-        __m256d xs = { x0, x1, x2, x3 };
			
 
				-        __m256d ys = { y0, y1, y2, y3 };
			
 
				-        __m256d zs = { z0, z1, z2, z3 };
			
 
				-        __m256d us = { u0, u1, u2, u3 };
			
 
				+    T viewx{ vx1, vx2 };
			
 
				+    T viewy{ vy1, vy2 };
			
 
				+    T wpp = T{ vw1, vw2 } * T(1.0 / width);
			
 
				+    T hpp = T{ vh1, vh2 } * T(1.0 / height);
			
 
				+
			
 
				+    T jX{ jX1, jX2 };
			
 
				+    T jY{ jY1, jY2 };
			
 
				+    AvxDoubleDouble juliaX = { jX[0], jX[1] };
			
 
				+    AvxDoubleDouble juliaY = { jY[0], jY[1] };
			
 
				+
			
 
				+#if defined(_OPENMP)
			
 
				+    if (parallel)
			
 
				+        omp_set_num_threads(omp_get_num_procs());
			
 
				+#   pragma omp parallel for schedule(static, 1) if (parallel)
			
 
				+#endif
			
 
				+    for (long j = 0; j < height; j++) {
			
 
				+        T y = viewy + T(double(j)) * hpp;
			
 
				+        __m256d y0s = { y.x[0], y.x[0], y.x[0], y.x[0] };
			
 
				+        __m256d y1s = { y.x[1], y.x[1], y.x[1], y.x[1] };
			
 
				+        AvxDoubleDouble ys{ y0s, y1s };
			
 
				+        for (long i = 0; i < width; i += 4) {
			
 
				+            T x1 = viewx + T(double(i)) * wpp;
			
 
				+            T x2 = x1 + wpp;
			
 
				+            T x3 = x2 + wpp;
			
 
				+            T x4 = x3 + wpp;
			
 
				+
			
 
				+            __m256d x0s = {
			
 
				+                x1[0], x2[0], x3[0], x4[0],
			
 
				+            };
			
 
				+
			
 
				+            __m256d x1s = {
			
 
				+                x1[1], x2[1], x3[1], x4[1],
			
 
				+            };
			
 
				+
			
 
				+            AvxDoubleDouble xs{ x0s, x1s };
			
 
				+
			
 
				+            AvxDoubleDouble cx = julia ? juliaX : xs;
			
 
				+            AvxDoubleDouble cy = julia ? juliaY : ys;
			
 
				+
			
 
				+            int itRes[4] = { 0, 0, 0, 0 };
			
 
				+
			
 
				+            __m256d threshold = { 16.0, 16.0, 16.0, 16.0 };
			
 
				+            __m256d counter = { 0, 0, 0, 0 };
			
 
				+            __m256d adder = { 1, 1, 1, 1 };
			
 
				+
			
 
				+            AvxDoubleDouble a = xs;
			
 
				+            AvxDoubleDouble b = ys;
			
 
				+
			
 
				+            __m256d resultsa;
			
 
				+            __m256d resultsb;
			
 
				+
			
 
				+            __m256d cmp = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
			
 
				+            for (int k = 0; k < maxIter; k++) {
			
 
				+                AvxDoubleDouble aa = a.sq();
			
 
				+                AvxDoubleDouble bb = b.sq();
			
 
				+                AvxDoubleDouble abab = a * b.mul_pow2(2.0);
			
 
				+                a = aa - bb + cx;
			
 
				+                b = abab + cy;
			
 
				+                if (smooth) {
			
 
				+                    resultsa = _mm256_blendv_pd(resultsa, a.x[0], cmp);
			
 
				+                    resultsb = _mm256_blendv_pd(resultsb, b.x[0], cmp);
			
 
				+                }
			
 
				+                cmp = _mm256_cmp_pd(_mm256_add_pd(aa.x[0], bb.x[0]), threshold, _CMP_LE_OQ);
			
 
				+                adder = _mm256_and_pd(adder, cmp);
			
 
				+                counter = _mm256_add_pd(counter, adder);
			
 
				+                if ((k & 0x7) && _mm256_testz_si256(_mm256_castpd_si256(cmp), _mm256_castpd_si256(cmp)) != 0) {
			
 
				+                    break;
			
 
				+                }
			
 
				+            }
			
 
				+
			
 
				+            double resData[12];
			
 
				+            double* ftRes = resData;
			
 
				+            double* resa = ftRes + 4;
			
 
				+            double* resb = ftRes + 8;
			
 
				+            _mm256_storeu_pd(ftRes, counter);
			
 
				+            _mm256_storeu_pd(resa, resultsa);
			
 
				+            _mm256_storeu_pd(resb, resultsb);
			
 
				+
			
 
				+            for (int k = 0; k < 4 && i + k < width; k++) {
			
 
				+                if (smooth)
			
 
				+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter :
			
 
				+                        ftRes[k] >= maxIter ? maxIter :
			
 
				+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(resa[k] * resa[k] + resb[k] * resb[k]) / 2);
			
 
				+                else
			
 
				+                    data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
			
 
				+            }
			
 
				+        }
			
 
				+    }
			
 
				+}
			
 
				+
			
 
				+
			
 
				+void generateQuadDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    const double* vx, const double* vy,
			
 
				+    const double* vw, const double* vh,
			
 
				+    int maxIter, bool smooth, bool julia,
			
 
				+    const double* jXp, const double* jYp)
			
 
				+{
			
 
				+    using namespace avxfma_private;
			
 
				+    using T = mnd::QuadDouble;
			
 
				+
			
 
				+    T viewx{ vx[0], vx[1], vx[2], vx[3] };
			
 
				+    T viewy{ vy[0], vy[1], vy[2], vy[3] };
			
 
				+    T wpp = T{ vw[0], vw[1], vw[2], vw[3] } * T(1.0 / width);
			
 
				+    T hpp = T{ vh[0], vh[1], vh[2], vh[3] } * T(1.0 / height);
			
 
				+
			
 
				+
			
 
				+    T jX{ jXp[0], jXp[1], jXp[2], jXp[3] };
			
 
				+    T jY{ jYp[0], jYp[1], jYp[2], jYp[3] };
			
 
				+
			
 
				+
			
 
				+    auto toAvxQuadDouble4 = [] (const T& a, const T& b,
			
 
				+            const T& c, const T& d) -> AvxQuadDouble {
			
 
				+        __m256d xs = { a[0], b[0], c[0], d[0] };
			
 
				+        __m256d ys = { a[1], b[1], c[1], d[1] };
			
 
				+        __m256d zs = { a[2], b[2], c[2], d[2] };
			
 
				+        __m256d us = { a[3], b[3], c[3], d[3] };
			
 
				 
			
 
				         return AvxQuadDouble{ xs, ys, zs, us };
			
 
				     };
			
 
				 
			
 
				-    AvxQuadDouble juliaX = toAvxQuadDouble(jX);
			
 
				-    AvxQuadDouble juliaY = toAvxQuadDouble(jY);
			
 
				+    AvxQuadDouble juliaX{ jX[0], jX[1], jX[2], jX[3] };
			
 
				+    AvxQuadDouble juliaY{ jY[0], jY[1], jY[2], jY[3] };
			
 
				 
			
 
				 #if defined(_OPENMP)
			
 
				-    if constexpr(parallel)
			
 
				+    if (parallel)
			
 
				         omp_set_num_threads(omp_get_num_procs());
			
 
				 #   pragma omp parallel for schedule(static, 1) if (parallel)
			
 
				 #endif
			
 
				-    for (long j = 0; j < info.bHeight; j++) {
			
 
				+    for (long j = 0; j < height; j++) {
			
 
				         T y = viewy + T(double(j)) * hpp;
			
 
				-        AvxQuadDouble ys = toAvxQuadDouble(y);
			
 
				-        for (long i = 0; i < info.bWidth; i += 4) {
			
 
				+        AvxQuadDouble ys{ y[0], y[1], y[2], y[3] };
			
 
				+        for (long i = 0; i < width; i += 4) {
			
 
				             T x1 = viewx + T(double(i)) * wpp;
			
 
				             T x2 = x1 + wpp;
			
 
				             T x3 = x2 + wpp;
			
@@ -851,10 +964,8 @@ void CpuGenerator<mnd::QuadDouble, mnd::X86_AVX_FMA, parallel>::generate(const m
 
				 
			
 
				             AvxQuadDouble xs = toAvxQuadDouble4(x1, x2, x3, x4);
			
 
				 
			
 
				-            AvxQuadDouble cx = info.julia ? juliaX : xs;
			
 
				-            AvxQuadDouble cy = info.julia ? juliaY : ys;
			
 
				-
			
 
				-            int itRes[4] = { 0, 0, 0, 0 };
			
 
				+            AvxQuadDouble cx = julia ? juliaX : xs;
			
 
				+            AvxQuadDouble cy = julia ? juliaY : ys;
			
 
				 
			
 
				             __m256d threshold = { 16.0, 16.0, 16.0, 16.0 };
			
 
				             __m256d counter = { 0, 0, 0, 0 };
			
@@ -867,13 +978,13 @@ void CpuGenerator<mnd::QuadDouble, mnd::X86_AVX_FMA, parallel>::generate(const m
 
				             __m256d resultsb;
			
 
				 
			
 
				             __m256d cmp = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
			
 
				-            for (int k = 0; k < info.maxIter; k++) {
			
 
				+            for (int k = 0; k < maxIter; k++) {
			
 
				                 AvxQuadDouble aa = a.sq();
			
 
				                 AvxQuadDouble bb = b.sq();
			
 
				                 AvxQuadDouble abab = a * b.mul_pow2(2.0);
			
 
				                 a = aa - bb + cx;
			
 
				                 b = abab + cy;
			
 
				-                if (info.smooth) {
			
 
				+                if (smooth) {
			
 
				                     resultsa = _mm256_blendv_pd(resultsa, a.x[0], cmp);
			
 
				                     resultsb = _mm256_blendv_pd(resultsb, b.x[0], cmp);
			
 
				                 }
			
@@ -885,27 +996,121 @@ void CpuGenerator<mnd::QuadDouble, mnd::X86_AVX_FMA, parallel>::generate(const m
 
				                 }
			
 
				             }
			
 
				 
			
 
				-            auto alignVec = [](double* data) -> double* {
			
 
				-                void* aligned = data;
			
 
				-                ::size_t length = 64;
			
 
				-                std::align(32, 4 * sizeof(double), aligned, length);
			
 
				-                return static_cast<double*>(aligned);
			
 
				-            };
			
 
				+            double resData[12];
			
 
				+            double* ftRes = resData;
			
 
				+            double* resa = resData + 4;
			
 
				+            double* resb = resData + 8;
			
 
				+            _mm256_storeu_pd(ftRes, counter);
			
 
				+            _mm256_storeu_pd(resa, resultsa);
			
 
				+            _mm256_storeu_pd(resb, resultsb);
			
 
				+
			
 
				+            for (int k = 0; k < 4 && i + k < width; k++) {
			
 
				+                if (smooth)
			
 
				+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter :
			
 
				+                        ftRes[k] >= maxIter ? maxIter :
			
 
				+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(resa[k] * resa[k] + resb[k] * resb[k]) / 2);
			
 
				+                else
			
 
				+                    data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
			
 
				+            }
			
 
				+        }
			
 
				+    }
			
 
				+}
			
 
				+
			
 
				+
			
 
				+void generateHexDoubleAvxFma(long width, long height, float* data, bool parallel,
			
 
				+    const double* vx, const double* vy,
			
 
				+    const double* vw, const double* vh,
			
 
				+    int maxIter, bool smooth, bool julia,
			
 
				+    const double* jX, const double* jY)
			
 
				+{
			
 
				+    using namespace avxfma_private;
			
 
				+    using T = mnd::HexDouble;
			
 
				+
			
 
				+    T viewx{ vx[0], vx[1], vx[2], vx[3], vx[4], vx[5] };
			
 
				+    T viewy{ vy[0], vy[1], vy[2], vy[3] , vy[4], vy[5] };
			
 
				+    T wpp = T{ vw[0], vw[1], vw[2], vw[3], vw[4], vw[5] } * T(1.0 / width);
			
 
				+    T hpp = T{ vh[0], vh[1], vh[2], vh[3], vh[4], vh[5] } * T(1.0 / height);
			
 
				+
			
 
				+    auto toAvxHexDouble4 = [] (const T& a, const T& b,
			
 
				+            const T& c, const T& d) -> AvxHexDouble {
			
 
				+        __m256d xs = { a[0], b[0], c[0], d[0] };
			
 
				+        __m256d ys = { a[1], b[1], c[1], d[1] };
			
 
				+        __m256d zs = { a[2], b[2], c[2], d[2] };
			
 
				+        __m256d us = { a[3], b[3], c[3], d[3] };
			
 
				+        __m256d vs = { a[4], b[4], c[4], d[4] };
			
 
				+        __m256d ws = { a[5], b[5], c[5], d[5] };
			
 
				+
			
 
				+        return AvxHexDouble{ xs, ys, zs, us, vs, ws };
			
 
				+    };
			
 
				 
			
 
				-            double resData[8];
			
 
				-            double* ftRes = alignVec(resData);
			
 
				-            double* resa = (double*) &resultsa;
			
 
				-            double* resb = (double*) &resultsb;
			
 
				-            _mm256_store_pd(ftRes, counter);
			
 
				-
			
 
				-            for (int k = 0; k < 4 && i + k < info.bWidth; k++) {
			
 
				-                if (info.smooth)
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] < 0 ? info.maxIter :
			
 
				-                        ftRes[k] >= info.maxIter ? info.maxIter :
			
 
				-                        ((float)ftRes[k]) + 1 - ::log(::log(resa[k] * resa[k] + resb[k] * resb[k]) / 2) / ::log(2.0f);
			
 
				+    AvxHexDouble juliaX{ jX[0], jX[1], jX[2], jX[3], jX[4], jX[5] };
			
 
				+    AvxHexDouble juliaY{ jY[0], jY[1], jY[2], jY[3], jY[4], jY[5] };
			
 
				+
			
 
				+#if defined(_OPENMP)
			
 
				+    if (parallel)
			
 
				+        omp_set_num_threads(omp_get_num_procs());
			
 
				+#   pragma omp parallel for schedule(static, 1) if (parallel)
			
 
				+#endif
			
 
				+    for (long j = 0; j < height; j++) {
			
 
				+        T y = viewy + T(double(j)) * hpp;
			
 
				+        AvxHexDouble ys{ y[0], y[1], y[2], y[3], y[4], y[5] };
			
 
				+        for (long i = 0; i < width; i += 4) {
			
 
				+            T x1 = viewx + T(double(i)) * wpp;
			
 
				+            T x2 = x1 + wpp;
			
 
				+            T x3 = x2 + wpp;
			
 
				+            T x4 = x3 + wpp;
			
 
				+
			
 
				+            AvxHexDouble xs = toAvxHexDouble4(x1, x2, x3, x4);
			
 
				+
			
 
				+            AvxHexDouble cx = julia ? juliaX : xs;
			
 
				+            AvxHexDouble cy = julia ? juliaY : ys;
			
 
				+
			
 
				+            __m256d threshold = { 16.0, 16.0, 16.0, 16.0 };
			
 
				+            __m256d counter = { 0, 0, 0, 0 };
			
 
				+            __m256d adder = { 1, 1, 1, 1 };
			
 
				+
			
 
				+            AvxHexDouble a = xs;
			
 
				+            AvxHexDouble b = ys;
			
 
				+
			
 
				+            __m256d resultsa;
			
 
				+            __m256d resultsb;
			
 
				+
			
 
				+            __m256d cmp = _mm256_cmp_pd(threshold, threshold, _CMP_LE_OQ);
			
 
				+            for (int k = 0; k < maxIter; k++) {
			
 
				+                AvxHexDouble aa = a.sq();
			
 
				+                AvxHexDouble bb = b.sq();
			
 
				+                AvxHexDouble abab = a * b.mul_pow2(2.0);
			
 
				+                a = aa - bb + cx;
			
 
				+                b = abab + cy;
			
 
				+                if (smooth) {
			
 
				+                    resultsa = _mm256_blendv_pd(resultsa, a.x[0], cmp);
			
 
				+                    resultsb = _mm256_blendv_pd(resultsb, b.x[0], cmp);
			
 
				+                }
			
 
				+                cmp = _mm256_cmp_pd(_mm256_add_pd(aa.x[0], bb.x[0]), threshold, _CMP_LE_OQ);
			
 
				+                adder = _mm256_and_pd(adder, cmp);
			
 
				+                counter = _mm256_add_pd(counter, adder);
			
 
				+                if (_mm256_testz_si256(_mm256_castpd_si256(cmp), _mm256_castpd_si256(cmp)) != 0) {
			
 
				+                    break;
			
 
				+                }
			
 
				+            }
			
 
				+
			
 
				+            double resData[12];
			
 
				+            double* ftRes = resData;
			
 
				+            double* resa = resData + 4;
			
 
				+            double* resb = resData + 8;
			
 
				+            _mm256_storeu_pd(ftRes, counter);
			
 
				+            _mm256_storeu_pd(resa, resultsa);
			
 
				+            _mm256_storeu_pd(resb, resultsb);
			
 
				+
			
 
				+            for (int k = 0; k < 4 && i + k < width; k++) {
			
 
				+                if (smooth)
			
 
				+                    data[i + k + j * width] = ftRes[k] < 0 ? maxIter :
			
 
				+                        ftRes[k] >= maxIter ? maxIter :
			
 
				+                        ((float)ftRes[k]) + 1 - floatLog2(floatLog(resa[k] * resa[k] + resb[k] * resb[k]) / 2);
			
 
				                 else
			
 
				-                    data[i + k + j * info.bWidth] = ftRes[k] >= 0 ? float(ftRes[k]) : info.maxIter;
			
 
				+                    data[i + k + j * width] = ftRes[k] >= 0 ? float(ftRes[k]) : maxIter;
			
 
				             }
			
 
				         }
			
 
				     }
			
 
				 }
			
 
				+
			
--- a/libmandel/src/Mandel.cpp
+++ b/libmandel/src/Mandel.cpp
@@ -93,10 +93,12 @@ MandelContext::MandelContext(void)
 
				         auto davxfma = std::make_unique<CpuGenerator<double, mnd::X86_AVX_FMA, true>>();
			
 
				         auto ddavxfma = std::make_unique<CpuGenerator<DoubleDouble, mnd::X86_AVX_FMA, true>>();
			
 
				         auto qdavxfma = std::make_unique<CpuGenerator<QuadDouble, mnd::X86_AVX_FMA, true>>();
			
 
				+        auto hdavxfma = std::make_unique<CpuGenerator<HexDouble, mnd::X86_AVX_FMA, true>>();
			
 
				         cpuGenerators.insert({ std::pair{ Precision::FLOAT, CpuExtension::X86_AVX_FMA }, std::move(favxfma) });
			
 
				         cpuGenerators.insert({ std::pair{ Precision::DOUBLE, CpuExtension::X86_AVX_FMA }, std::move(davxfma) });
			
 
				         cpuGenerators.insert({ std::pair{ Precision::DOUBLE_DOUBLE, CpuExtension::X86_AVX_FMA }, std::move(ddavxfma) });
			
 
				         cpuGenerators.insert({ std::pair{ Precision::QUAD_DOUBLE, CpuExtension::X86_AVX_FMA }, std::move(qdavxfma) });
			
 
				+        cpuGenerators.insert({ std::pair{ Precision::HEX_DOUBLE, CpuExtension::X86_AVX_FMA }, std::move(hdavxfma) });
			
 
				     }
			
 
				     if (cpuInfo.hasSse2()) {
			
 
				         auto fl = std::make_unique<CpuGenerator<float, mnd::X86_SSE2, true>>();