نویسنده (ها): دیو گینزبورگ
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
در دنیای پر سرعت بازاریابی ، به دست آوردن عکس فوری سریع و در عین حال دقیق از رقبای شما می تواند به معنای تفاوت بین توقیف یک فرصت و از دست دادن مارک باشد. فراتر از انتشار مطبوعات و اخبار خبری ، بهترین منبع بینش بدون فیلتر اغلب در پرونده های SEC خود یک شرکت نهفته است-به ویژه گزارش های سه ماهه 10 Q. این اسناد همه چیز را از خطرات در حال ظهور گرفته تا تفسیر اجرایی در مورد عملکرد و استراتژی نشان می دهد.
مقدمه
برای از بین بردن شعار دستی بارگیری PDF ها ، شکار ده ها صفحه و یادداشت های نوشتن ، من یک ابزار سبک وزن پایتون را با استفاده از OpenAI و SEC-API ساختم. در یک دستور واحد ، می توانید:
- حداکثر شش تیک را مشخص کنید و به طور خودکار آخرین پرونده های 10-Q خود را بکشید (مورد 1A: عوامل خطر و مورد 2: MD&A).
- داده های بازار را واکشی کنید از مالی یاهو برای سال گذشته-EPS ، درآمد ، حاشیه و حرکات قیمت سهام که همه به صفر فهرست شده اند. توجه داشته باشید که برخی از خطوط روند از مرزهای سه ماهه سنتی خارج هستند ، زیرا برخی از شرکت ها دارای محله های غیر استاندارد هستند.
- هر بخش را خلاصه کنید از طریق API Chatgpt ، چاک دهی معابر طولانی تر برای قرار گرفتن در محدوده متن. توجه داشته باشید که تمرکز تمرکز ، که می تواند برای تأکید بر سایر مناطق موجود در موارد 1A و 2 تغییر یابد.
- تالیف کردن آماده سازی گلوله های مقطر و چهار نمودار قابل تنظیم در یک گزارش PDF صیقلی-آماده به اشتراک گذاشتن با تیم خود.


در حالی که SEC-API (با 55 دلار در ماه) برآمدگی سنگین استخراج SEC را کنترل می کند ، و چتپپ تجزیه و تحلیل سریع را با حداقل هزینه 136k نشانه (برای تیک های انتخاب شده) با GPT-4O-Mini قدرت می دهد ، کل این روند در چند دقیقه انجام می شود ، نه ساعت.
توجه داشته باشید که در طرح چیزها ، هزینه SEC-API از خط خارج نیست و یک روش بسیار پایدار برای کشیدن گزارش ها از بسیاری از گزینه های دیگر است. پیشرفت های آینده به اسکریپت می تواند به طور خودکار معاملات خودی یا رویدادهای مواد در زمان واقعی را با کشیدن پرونده های مختلف تشخیص دهد ، اما حتی در شکل فعلی آن ، این اسکریپت پرونده های سه ماهه را از یک کار به یک مزیت استراتژیک تبدیل می کند.
بخش های زیر فیلمنامه ، رویکردهای مورد استفاده و سایر ابزارها را توصیف می کند. اسکریپت کامل Python از این توضیحات پیروی می کند ، و شما باید کلیدهای API خود و همچنین دایرکتوری پایه را برای پرونده ها مشخص کنید.
1. پیکربندی و تنظیمات
- کلیدها و مشتری های API
ما کلیدهای SEC-API و OpenAI را از متغیرهای محیط می کشیم (با پیش فرض های معقول برای توسعه سخت) ، سپس فوری را فوری می کنیم Queryapi ، Extractorapi، و مشتری OpenAI.
چرا؟ متمرکز کردن اعتبار در بالا باعث می شود که مبادله در کلیدهای جدید یا جابجایی به محیط آزمایش بدون شکار از طریق کد آسان شود. - فهرست کار و لیست تیک تیک
تمام خروجی ها (JSON خام ، نمودارها ، PDF) زیر زمین /خانه/دیو/امور مالیبشر ما حداکثر شش تیک را از طریق خط فرمان می پذیریم و سریعاً تعداد ورودی را اعتبار می دهیم.
چرا؟ یک “منطقه قطره” برای مصنوعات ، همه چیز را مرتب نگه می دارد ، و انعطاف پذیری CLI به شما امکان می دهد هر زیر مجموعه از شرکت ها را به سرعت پردازش کنید.
2. Sec 10-Q Fetch & Extraction
for each ticker:
• Query the latest 10-Q filing
• Pull two key sections:
– Item 1A: Risk Factors
– Item 2: Management Discussion & Analysis (MD&A)
• Save as `_10q.json`
- چرا ما از SEC-API استفاده می کنیم به جای ضایعات HTML:
این حباب های تمیز JSON را دقیقاً برای بخش هایی که ما نیاز داریم برمی گرداند – بدون تجزیه XPath یا PDF. - رسیدگی به خطا در هر بخش تضمین می کند که اگر یک استخراج از بین برود ، فیلمنامه برای دیگران ادامه می یابد.
3. داده های مالی و نمودار نمودار
for each ticker:
• Download 12 months of daily closing prices via yfinance
• Pull quarterly EPS, Revenue, Gross Profit
• Compute quarterly gross margin % and normalize price to a 0-baseline
• Render four Matplotlib line charts
– EPS
– Revenue
– Gross Margin %
– Indexed Share-Price Change
- چرا matplotlib + حلقه های ساده؟
این سبک وزن است ، نیازی به یک ظاهر طراحی شده فانتزی ندارد و در یک محیط سرور بدون سر کاملاً قابل توصیف است. - چرا عادی سازی و سه ماهه جمع شده است؟
عکسهای فوری سه ماهه سر و صدای روزانه را صاف می کنند و برای مقایسه شرکت ها ، یک کادوی مداوم می کنند.


جمع آوری GPT chunked
Summarize section(text, section, ticker):
1. Split text into ≤15 000-char chunks
2. For each chunk:
– Build a precise GPT prompt:
• “Extract the most important … Respond with at most 8 concise bullet points …”
– Call gpt-4o-mini
– Regex‐extract the JSON array out of the raw reply
– Append and dedupe
3. Return the top 8 unique bullets
- چاک دهی
بخش های طولانی SEC (حداکثر 130،000 پوند شخصیت) از پنجره 16000 پوند GPT عبور می کند. با برش دادن به قطعات 15000 کاراکتر ، هر تماس API با خیال راحت در محدوده باقی می ماند. - استخراج json با regex
حتی با دستورالعمل های صریح “Output فقط JSON” ، مدل ها گاهی اوقات متن ولگرد را آماده می کنند یا ضمیمه می کنند. یک re.search ساده (r “\[.*\]”) نگهبانان در برابر خسارات پارس با جداسازی آرایه JSON. - Deduplication & Limiting
ما از هر تکه گلوله ای جمع می کنیم ، آنها را صریحاً به رشته ها تبدیل می کنیم (از دیکتات غیرقابل تحمل) ، سپس فقط 8 نکته منحصر به فرد را نگه دارید. این یک خلاصه محکم و غیر مجرد است. - برگشتی نمایی با jitter
محدودیت های نرخ و خطاهای گذرا با استفاده مجدد از شش بار در هر قطعه ، انتظار می رود بین 120 60 60 60 ثانیه بین تلاش ها ، به علاوه کمی “لرز” تصادفی برای جلوگیری از تماس های API از رعد و برق.
5. مونتاژ PDF
doc = SimpleDocTemplate('Full_Report.pdf')
for each ticker:
• Heading: ticker symbol
• Subheading: Key Risks
– Bullet list from JSON summary
• Subheading: Management Discussion & Analysis
– Bullet list from JSON summary
• Page break
• Final section: “Financial Performance Overview”
– Embed the four charts (EPS, Revenue, Margin, Price)
doc.build(elements)
- چرا گزارش داد؟
این یک کتابخانه پاک و خالص با انتزاع داستانی جریان مستقیم (پاراگراف ، تصاویر ، شکستن صفحه) و هیچ وابستگی خارجی نیست. - چرا PDF؟
یک تحویل منفرد و دارایی که می تواند از طریق ایمیل ، بایگانی شده یا چاپ شده بدون نگرانی در مورد تصاویر گمشده یا انواع فایل های مختلط چاپ شود.
6. همه اینها را کنار هم قرار دهید
- جمع آوری داده ها
– متن RAW SEC + سری زمانی مالی - تجزیه و تحلیل و خلاصه
-تقطیر خودکار ، نقطه گلوله نثر - تجسم
– نمودارهای را برای مقایسه معیارهای کلیدی پاک کنید - گزارش
– یک PDF ترکیب روایت و گرافیک
این خط لوله ، تکرارپذیری ، مقیاس پذیری را تضمین می کند (در صورت لزوم اضافه کنید) و استحکام (نرخ – محدود/پس زمینه ، chunking ، json – safeguards). می تواند در شبانه ادغام شود کار، گزارش داشبورد ، یا با سایر پرونده های SEC (به عنوان مثال 10-K ، 8-K) با حداقل تغییرات سازگار شوید.


7. فیلمنامه پایتون
موجود در: https://github.com/daveginsburg/financial_reporting.git یا https://gist.github.com/daveginsburg/6cac662c83901d167cbac63e8f8bc410
منتشر شده از طریق به سمت هوش مصنوعی